Files

HaHafeng f0736dbca1 feat(asl/extraction): Complete Tool 3 M1+M2 - skeleton pipeline and HITL workbench

M1 Skeleton Pipeline:
- Scatter-dispatch + Aggregator polling pattern (PgBoss)
- PKB ACL bridge (PkbBridgeService -> PkbExportService DTOs)
- ExtractionSingleWorker with DeepSeek-V3 LLM extraction
- PermanentExtractionError for non-retryable failures
- Phantom Retry Guard (idempotent worker)
- 3-step minimal frontend (Setup -> Progress -> Workbench)
- 4 new DB tables (extraction_templates, project_templates, tasks, results)
- 3 system templates seed (RCT, Cohort, QC)
- M1 integration test suite

M2 HITL Workbench:
- MinerU VLM integration for high-fidelity table extraction
- XML-isolated DynamicPromptBuilder with flat JSON output template
- fuzzyQuoteMatch validator (3-tier confidence scoring)
- SSE real-time logging via ExtractionEventBus
- Schema-driven ExtractionDrawer (dynamic field rendering from template)
- Excel wide-table export with flattenModuleData normalization
- M2 integration test suite

Critical Fixes (data normalization):
- DynamicPromptBuilder: explicit flat key-value output format with example
- ExtractionExcelExporter: handle both array and flat data formats
- ExtractionDrawer: schema-driven rendering instead of hardcoded fields
- ExtractionValidator: array-format quote verification support
- SSE route: Fastify register encapsulation to bypass auth for EventSource
- LLM JSON sanitizer: strip illegal control chars before JSON.parse

Also includes: RVW stats verification spec, SSA expert config guide

Tested: M1 pipeline test + M2 HITL test + manual frontend verification
Co-authored-by: Cursor <cursoragent@cursor.com>

2026-02-25 18:29:20 +08:00

13 KiB

Raw Blame History

RVW V2.0 统计验证规则说明书

文档目的： 供统计学专家评审和确认
版本： v1.0
日期： 2026-02-18
适用场景： 医学期刊论文表格数据验证

概述

验证层级架构

层级	名称	目标	复杂度
L1	算术验证	检查基础计算（加减乘除）是否正确	低
L2	统计验证	逆向验证统计检验结果是否合理	中
L2.5	一致性取证	启发式规则，发现潜在数据问题	高

技术依赖

scipy.stats：用于统计计算（t 分布、卡方分布、正态分布）
python-docx：Word 文档表格提取
正则表达式：数据格式识别

L1 算术验证规则

规则 L1-1：百分比计算验证

应用场景： 分类变量描述统计（如 n (%) 格式）

规则描述：

对于格式为 n (p%) 的单元格，验证：


\text{calculated\_percent} = \frac{n}{N} \times 100

其中 N 为该列或该组的总数。

判定条件：

条件	判定
`	reported_percent - calculated_percent
`	reported_percent - calculated_percent

示例：

原始数据	N	报告值	计算值	判定
45 (50.0%)	90	50.0%	50.0%	✅ Pass
45 (52.0%)	90	52.0%	50.0%	❌ Error (差 2%)

识别模式（正则表达式）：

(\d+(?:\.\d+)?)\s*\(\s*(\d+(?:\.\d+)?)\s*%?\s*\)

N 值获取策略：

首先从表头识别标记为 "n"、"N"、"Total"、"合计" 的列
其次检查同行中是否有总数列
最后尝试从上下文推断

规则 L1-2：合计行验证

应用场景： 表格中的 Total/Sum/合计行

规则描述：

对于标记为 "Total"、"Sum"、"合计"、"总计" 的行，验证该行的每个数值列是否等于上方各行之和。


\text{Total}_{\text{col}} = \sum_{i=1}^{n-1} \text{Value}_{i, \text{col}}

判定条件：

条件	判定
`	reported_total - calculated_sum
`	reported_total - calculated_sum

示例：

分组	人数	判定
A 组	30	-
B 组	25	-
C 组	45	-
合计	100	✅ Pass (30+25+45=100)
合计	110	❌ Error (30+25+45=100≠110)

识别关键词：

英文：total, sum, all
中文：合计, 总计, 总和

L2 统计验证规则

规则 L2-1：卡方检验 P 值逆向验证

应用场景： 分类变量组间比较（基线特征表、疗效比较表）

规则描述：

从表格中提取报告的 χ² 值，根据自由度（df）反算 P 值，与报告的 P 值对比。

计算公式：


P_{\text{calculated}} = 1 - F_{\chi^2}(\chi^2, df)

其中 F_{\chi^2} 是卡方分布的累积分布函数。

自由度估计：

默认 df = 1（适用于大多数 2×2 比较）
对于 r×c 表：df = (r-1) × (c-1)

判定条件：

条件	判定
显著性结论相反（P<0.05 vs P≥0.05）	❌ Error
`	P_reported - P_calculated
`	P_reported - P_calculated

示例：

χ² 值	df	报告 P	计算 P	判定
57.52	1	0.001	0.0000	✅ Pass（均显著）
3.84	1	0.05	0.050	✅ Pass
2.50	1	0.01	0.114	❌ Error（显著性结论相反）

识别模式（正则表达式）：

# χ² 值识别
(?:χ[²2]|[χx]2|2)\s*[=:]\s*(\d+\.?\d*)

# P 值识别
[Pp][\s\-值]*[=<>≤≥]\s*(\d+\.?\d*)

⚠️ 待专家确认：

df=1 作为默认值是否合理？
是否需要从表格结构推断实际自由度？

规则 L2-2：T 检验 P 值逆向验证

应用场景： 连续变量两组比较（Mean±SD 格式）

规则描述：

从表格中提取两组的 Mean±SD 和样本量 n，使用独立样本 t 检验公式反算 P 值。

计算公式：


t = \frac{|\bar{X}_1 - \bar{X}_2|}{\sqrt{\frac{SD_1^2}{n_1} + \frac{SD_2^2}{n_2}}}


df = n_1 + n_2 - 2


P_{\text{calculated}} = 2 \times (1 - F_t(t, df))

其中 F_t 是 t 分布的累积分布函数。

判定条件：

条件	判定
`	P_reported - P_calculated
`0.01 <	P_reported - P_calculated
`	P_reported - P_calculated

示例：

组1 Mean±SD	组2 Mean±SD	n1	n2	报告 P	计算 P	判定
65.2±10.5	58.3±9.8	50	48	0.001	0.0007	✅ Pass
45.0±12.0	44.5±11.5	30	30	0.001	0.86	❌ Error

识别模式（正则表达式）：

# Mean±SD 格式
(\d+\.?\d*)\s*[±\+\-]\s*(\d+\.?\d*)

# 带括号的 SD 格式
(\d+\.?\d*)\s*\(\s*(\d+\.?\d*)\s*\)(?!\s*%)

样本量获取策略：

从表头提取：(n=50)、n=50、(50例)
从数据行提取：行首的 n 信息
从上下文推断

⚠️ 待专家确认：

使用 Welch's t-test（不假设方差齐性）是否更合适？
当前假设为独立样本 t 检验，是否需要区分配对 t 检验？

规则 L2-3：CI 与 P 值逻辑一致性

应用场景： 回归分析结果表（OR、HR、RR 及其 95% CI）

规则描述（黄金法则）：

95% 置信区间与 P 值之间存在严格的逻辑对应关系：

95% CI 与 1.0 的关系	P 值要求
CI 跨越 1.0 (如 0.8-1.2)	P 必须 ≥ 0.05（不显著）
CI 不跨越 1.0 (如 1.1-1.5)	P 必须 < 0.05（显著）

违反此规则 = 数据逻辑矛盾

判定条件：

场景	CI	P 值	判定
矛盾 1	0.8-1.2（跨越 1）	0.03（<0.05）	❌ Error
矛盾 2	1.2-2.5（不跨越 1）	0.10（≥0.05）	❌ Error
正确 1	0.8-1.2（跨越 1）	0.45（≥0.05）	✅ Pass
正确 2	1.2-2.5（不跨越 1）	0.01（<0.05）	✅ Pass

示例：

OR	95% CI	报告 P	判定
1.5	1.2-2.0	0.001	✅ Pass（CI 不跨越 1，P<0.05）
0.9	0.7-1.1	0.30	✅ Pass（CI 跨越 1，P≥0.05）
1.3	0.9-1.8	0.02	❌ Error（CI 跨越 1，但 P<0.05）

识别模式（正则表达式）：

# OR/HR/RR 识别
(?:OR|HR|RR)\s*[=:]\s*(\d+\.?\d*)

# CI 识别（多种格式）
[\(\[]\s*(\d+\.?\d*)\s*[-–—,;]\s*(\d+\.?\d*)\s*[\)\]]
95%?\s*CI\s*[:\s]+(\d+\.?\d*)\s*[-–—,;to]+\s*(\d+\.?\d*)

⚠️ 待专家确认：

此规则仅适用于比值指标（OR、HR、RR），对于回归系数（β）是否需要调整为 CI 跨越 0？
90% CI 和 95% CI 的判定标准应如何区分？

L2.5 一致性取证规则

规则 L2.5-1：SE 三角验证

应用场景： Logistic 回归、Cox 回归等报告 OR/HR/RR、95% CI 和 P 值的表格

规则描述：

利用 OR/HR 与 95% CI 的数学关系，反推标准误（SE），再计算 Z 值和 P 值，与报告的 P 值对比。

计算公式：


SE = \frac{\ln(CI_{\text{upper}}) - \ln(CI_{\text{lower}})}{3.92}

（3.92 = 2 × 1.96，对应 95% CI 的 Z 临界值）


Z = \frac{|\ln(OR)|}{SE}


P_{\text{calculated}} = 2 \times (1 - \Phi(Z))

其中 \Phi 是标准正态分布的累积分布函数。

判定条件：

条件	判定
`	P_reported - P_calculated
`0.01 <	P_reported - P_calculated
`	P_reported - P_calculated

示例：

OR	95% CI	报告 P	计算 SE	计算 Z	计算 P	判定
2.0	1.2-3.3	0.008	0.258	2.69	0.007	✅ Pass
1.5	1.0-2.25	0.001	0.206	1.97	0.049	❌ Error

⚠️ 待专家确认：

SE 计算公式是否准确？是否需要考虑 CI 的不对称情况？
对于 HR（风险比），此公式是否同样适用？

规则 L2.5-2：SD > Mean 检查

应用场景： 连续变量描述统计

规则描述：

对于已知为正值的指标（如年龄、体重、血压、实验室指标），标准差（SD）大于均值（Mean）通常是异常的，可能暗示：

数据录入错误
SD 与 SEM 混淆
数据分布异常

计算公式：


CV = \frac{SD}{Mean}

若 CV > 100%（即 SD > Mean），则触发警告。

判定条件：

场景	判定
已知正值指标 + SD > Mean	❌ Error
未知指标类型 + SD > Mean	⚠️ Warning（建议核查）

已知正值指标关键词：

类别	指标
人口学	年龄、身高、体重、BMI
生命体征	收缩压、舒张压、心率、脉搏
血常规	WBC、RBC、HGB、PLT
生化	肌酐、尿素氮、血糖、ALT、AST、胆红素
其他	费用、时间、持续时间

例外情况：

差值指标：如"治疗前后变化值"可正可负
某些偏态分布指标：如住院天数（可能存在极端值）

示例：

指标	Mean±SD	CV	判定
年龄	65±12	18.5%	✅ Pass
体重	70±15	21.4%	✅ Pass
年龄	30±45	150%	❌ Error（SD>Mean）
变化值	5±12	240%	⚠️ Warning（可能合理）

⚠️ 待专家确认：

CV > 100% 作为阈值是否合理？
是否有其他需要排除的例外情况？

容错阈值设置

当前阈值配置

参数	值	说明
`PVALUE_ERROR_THRESHOLD`	0.05	P 值差异 > 此值 → Error
`PVALUE_WARNING_THRESHOLD`	0.01	P 值差异 > 此值 → Warning
`DEFAULT_TOLERANCE_PERCENT`	0.1%	百分比容错 ±0.1%
`CI_RELATIVE_TOLERANCE`	2%	CI 端点相对误差 ±2%
`STAT_RELATIVE_TOLERANCE`	5%	t/χ² 值相对误差 ±5%

阈值设置依据

P 值阈值 0.05：当计算的 P 值与报告的 P 值差异超过 0.05 时，可能导致显著性结论相反，属于严重问题
P 值阈值 0.01：0.01-0.05 之间的差异可能是舍入误差或计算方法差异，给予警告
百分比容错 0.1%：考虑四舍五入误差，允许 ±0.1% 的偏差

⚠️ 待专家确认：

上述阈值是否合理？
是否需要针对不同检验方法设置不同阈值？

待评审问题清单

高优先级（请专家重点关注）

#	问题	当前处理	请确认
1	卡方检验默认 df=1	适用于 2×2 比较	是否合理？如何推断多组比较？
2	T 检验使用 Welch's 还是 Student's	当前用合并方差公式	是否应默认使用 Welch's？
3	CI vs P 值规则中的 "1.0"	仅适用于比值指标	回归系数应使用 0？
4	SE 三角公式的准确性	基于正态近似	对于小样本是否适用？
5	SD > Mean 的阈值	CV > 100% 触发	是否过于严格？

中优先级（功能扩展）

#	问题	说明
6	配对 T 检验验证	当前仅支持独立样本
7	ANOVA P 值验证	多组比较
8	非参数检验验证	Mann-Whitney、Wilcoxon
9	相关性分析验证	Pearson、Spearman

低优先级（边缘情况）

#	问题	说明
10	90% CI vs 95% CI 区分	当前假设都是 95% CI
11	单侧检验 vs 双侧检验	当前假设都是双侧
12	Bonferroni 校正后的 P 值	多重比较场景

附录：识别模式汇总

正则表达式清单

# 1. 百分比格式 n (%)
PERCENT_PATTERN = r"(\d+(?:\.\d+)?)\s*\(\s*(\d+(?:\.\d+)?)\s*%?\s*\)"

# 2. P 值
PVALUE_PATTERN = r"[Pp][\s\-值]*[=<>≤≥]\s*(\d+\.?\d*)"

# 3. 卡方值
CHI_SQUARE_PATTERN = r"(?:χ[²2]|[χx]2|2)\s*[=:]\s*(\d+\.?\d*)"

# 4. Mean±SD
MEAN_SD_PATTERN = r"(\d+\.?\d*)\s*[±\+\-]\s*(\d+\.?\d*)"

# 5. OR/HR/RR
EFFECT_SIZE_PATTERN = r"(?:OR|HR|RR)\s*[=:]\s*(\d+\.?\d*)"

# 6. 95% CI
CI_PATTERN = r"[\(\[]\s*(\d+\.?\d*)\s*[-–—,;]\s*(\d+\.?\d*)\s*[\)\]]"

文档版本： v1.0
创建日期： 2026-02-18
待更新： 专家评审反馈后更新

13 KiB Raw Blame History Unescape Escape

RVW V2.0 统计验证规则说明书

目录

概述

验证层级架构

技术依赖

L1 算术验证规则

规则 L1-1：百分比计算验证

规则 L1-2：合计行验证

L2 统计验证规则

规则 L2-1：卡方检验 P 值逆向验证

规则 L2-2：T 检验 P 值逆向验证

规则 L2-3：CI 与 P 值逻辑一致性

L2.5 一致性取证规则

规则 L2.5-1：SE 三角验证

规则 L2.5-2：SD > Mean 检查

容错阈值设置

当前阈值配置

阈值设置依据

待评审问题清单

高优先级（请专家重点关注）

中优先级（功能扩展）

低优先级（边缘情况）

附录：识别模式汇总

正则表达式清单

13 KiB

Raw Blame History