Files

HaHafeng a666649fd4 feat(iit): harden QC pipeline consistency and release artifacts

Implement IIT quality workflow hardening across eQuery deduplication, guard metadata validation, timeline/readability improvements, and chat evidence fallbacks, then synchronize release and development documentation for deployment handoff.

Includes migration/scripts for open eQuery dedupe guards, orchestration/status semantics, report/tool readability fixes, and updated module status plus deployment checklist.

Made-with: Cursor

2026-03-08 21:54:35 +08:00

pdf-extraction

feat(iit): harden QC pipeline consistency and release artifacts

2026-03-08 21:54:35 +08:00

screening

feat(iit): harden QC pipeline consistency and release artifacts

2026-03-08 21:54:35 +08:00

README.md

feat(admin): Add user management and upgrade to module permission system

2026-01-16 13:42:10 +08:00

README.md

ASL 测试数据集

创建日期： 2025-11-15
维护人： ASL 开发团队
用途： 用于测试 AI 智能文献模块的准确率和质量

📋 数据集概览

本目录包含用于测试 ASL 模块各项功能的测试数据集，包括：

测试类型	文件夹	数据量	状态
标题摘要初筛	`screening/`	199 篇	✅ 待导入
PDF 全文提取	`pdf-extraction/`	待补充	⏳ 待补充

📁 文件夹结构

03-测试数据/
├── README.md  ← 当前文件
│
├── screening/  ← 标题摘要初筛测试数据
│   ├── literature-list-199.xlsx      ← 199 篇文献列表（标题+摘要）
│   ├── picos-criteria.txt            ← PICOS 标准定义
│   ├── inclusion-criteria.txt        ← 纳入标准
│   ├── exclusion-criteria.txt        ← 排除标准
│   └── gold-standard.json            ← 人工标注的正确结果（金标准）
│
└── pdf-extraction/  ← PDF 全文提取测试数据
    ├── sample-01-rct.pdf             ← RCT 研究样本
    ├── sample-02-cohort.pdf          ← 队列研究样本
    ├── sample-03-with-tables.pdf     ← 包含复杂表格的样本
    ├── sample-04-chinese.pdf         ← 中文文献样本
    └── README.md

🎯 使用方法

1. 导入测试数据

请按以下步骤导入您的测试数据：

（1）标题摘要初筛测试数据

文件清单：

literature-list-199.xlsx：199 篇英文文献列表
picos-criteria.txt：PICOS 标准（Population, Intervention, Comparison, Outcome, Study Design）
gold-standard.json：人工标注的正确结果

Excel 文件格式要求：

列名（必须）：
- Title（标题）
- Abstract（摘要）
- DOI（可选）
- Authors（作者，可选）
- Year（年份，可选）
- Journal（期刊，可选）

示例：
| Title                          | Abstract                  | DOI           | Authors      | Year | Journal |
|--------------------------------|---------------------------|---------------|--------------|------|---------|
| Effect of aspirin on ...      | Background: ...           | 10.1038/...   | Smith J, ... | 2020 | NEJM    |

PICOS 标准格式：

# PICOS 标准

## Population（人群）
- 成年高血压患者（年龄 ≥ 18 岁）
- 无心血管疾病史

## Intervention（干预）
- 每日服用阿司匹林 100mg

## Comparison（对照）
- 安慰剂或无治疗

## Outcome（结局）
- 主要结局：心血管事件发生率
- 次要结局：全因死亡率

## Study Design（研究设计）
- 随机对照试验（RCT）
- 队列研究（Cohort Study）

金标准格式（JSON）：

{
  "metadata": {
    "total": 199,
    "annotatedBy": "医学专家姓名",
    "annotatedDate": "2025-11-15",
    "expectedAccuracy": 0.90
  },
  "results": [
    {
      "id": 1,
      "doi": "10.1038/nature12373",
      "title": "...",
      "decision": "include",
      "reason": "符合 PICO 标准：人群为成年高血压患者，干预为阿司匹林...",
      "confidence": 1.0
    },
    {
      "id": 2,
      "decision": "exclude",
      "reason": "不符合纳入标准：人群为儿童患者",
      "confidence": 0.95
    }
  ]
}

（2）PDF 全文提取测试数据

建议准备的样本类型：

RCT 研究（随机对照试验）
队列研究（Cohort Study）
包含复杂表格的文献
包含数学公式的文献
中文医学文献（测试语言检测）

样本数量建议： 5-10 篇

2. 运行测试

（1）标题摘要初筛测试

# 进入后端目录
cd AIclinicalresearch/backend

# 运行初筛测试
npm run test:asl:screening

# 或者手动测试：
# 1. 启动后端服务
npm run dev

# 2. 通过前端上传 literature-list-199.xlsx
# 3. 配置 PICOS 标准（复制 picos-criteria.txt 内容）
# 4. 运行批量筛选
# 5. 导出结果，与 gold-standard.json 对比

（2）评估准确率

# 自动评估准确率（与金标准对比）
npm run test:asl:evaluate -- \
  --result ./screening-result.json \
  --gold-standard ./gold-standard.json

# 输出示例：
# ✅ 准确率: 92.5%
# ✅ 一致率: 88.9%
# ⚠️ 假阳性率: 5.2%
# ⚠️ 假阴性率: 2.3%

3. 质量指标

指标	MVP 目标	V1.0 目标	V2.0 目标
准确率	≥ 85%	≥ 90%	≥ 95%
一致率（双模型）	≥ 80%	≥ 85%	≥ 90%
假阳性率	≤ 10%	≤ 5%	≤ 3%
假阴性率	≤ 5%	≤ 3%	≤ 2%

📊 测试数据统计

标题摘要初筛数据集

基本信息：

总数量: 199 篇
数据来源: [请填写数据来源]
领域: 医学/临床研究
语言: 英文
年份范围: [请填写]

预期分布：

纳入（Include）:    ~45 篇（23%）
排除（Exclude）:    ~132 篇（66%）
不确定（Uncertain）: ~22 篇（11%）

研究类型分布（预估）：

RCT:              ~60 篇（30%）
队列研究:          ~50 篇（25%）
病例对照:          ~30 篇（15%）
横断面研究:        ~30 篇（15%）
其他:             ~29 篇（15%）

PDF 全文提取数据集

待补充

⚠️ 数据使用注意事项

1. 版权声明

本测试数据集仅用于 ASL 模块开发和测试
不得用于商业用途
不得公开分发或传播
请遵守原文献的版权许可

2. 数据隐私

确保测试数据不包含敏感信息
如包含患者数据，必须已脱敏处理
遵守 GDPR、HIPAA 等数据保护法规

3. 质量要求

金标准必须由医学专家标注
标注人需具备相关领域专业知识
标注过程需有质量控制机制
建议双人独立标注，冲突需第三方仲裁

🔄 数据更新记录

日期	更新内容	更新人
2025-11-15	创建测试数据目录结构	ASL 团队
待更新	导入 199 篇文献测试数据	-
待更新	添加 PDF 样本数据	-

📞 联系方式

如有问题，请联系：

项目负责人: [姓名]
邮箱: [邮箱]
文档维护: [文档路径]

📚 相关文档

下一步行动：

✅ 创建测试数据目录结构
⏳ 导入您的 199 篇文献测试数据（literature-list-199.xlsx）
⏳ 创建 PICOS 标准文件（picos-criteria.txt）
⏳ 准备金标准标注（gold-standard.json）
⏳ 补充 PDF 样本数据

README.md Unescape Escape

ASL 测试数据集

📋 数据集概览

📁 文件夹结构

🎯 使用方法

1. 导入测试数据

（1）标题摘要初筛测试数据

（2）PDF 全文提取测试数据

2. 运行测试

（1）标题摘要初筛测试

（2）评估准确率

3. 质量指标

📊 测试数据统计

标题摘要初筛数据集

PDF 全文提取数据集

⚠️ 数据使用注意事项

1. 版权声明

2. 数据隐私

3. 质量要求

🔄 数据更新记录

📞 联系方式

📚 相关文档

README.md