docs: complete documentation system (250+ files)

- System architecture and design documentation
- Business module docs (ASL/AIA/PKB/RVW/DC/SSA/ST)
- ASL module complete design (quality assurance, tech selection)
- Platform layer and common capabilities docs
- Development standards and API specifications
- Deployment and operations guides
- Project management and milestone tracking
- Architecture implementation reports
- Documentation templates and guides
This commit is contained in:
2025-11-16 15:43:55 +08:00
parent 0fe6821a89
commit e52020409c
173 changed files with 46227 additions and 11964 deletions

View File

@@ -0,0 +1,272 @@
# ASL 测试数据集
> **创建日期:** 2025-11-15
> **维护人:** ASL 开发团队
> **用途:** 用于测试 AI 智能文献模块的准确率和质量
---
## 📋 数据集概览
本目录包含用于测试 ASL 模块各项功能的测试数据集,包括:
| 测试类型 | 文件夹 | 数据量 | 状态 |
|---------|--------|--------|------|
| **标题摘要初筛** | `screening/` | 199 篇 | ✅ 待导入 |
| **PDF 全文提取** | `pdf-extraction/` | 待补充 | ⏳ 待补充 |
---
## 📁 文件夹结构
```
03-测试数据/
├── README.md ← 当前文件
├── screening/ ← 标题摘要初筛测试数据
│ ├── literature-list-199.xlsx ← 199 篇文献列表(标题+摘要)
│ ├── picos-criteria.txt ← PICOS 标准定义
│ ├── inclusion-criteria.txt ← 纳入标准
│ ├── exclusion-criteria.txt ← 排除标准
│ └── gold-standard.json ← 人工标注的正确结果(金标准)
└── pdf-extraction/ ← PDF 全文提取测试数据
├── sample-01-rct.pdf ← RCT 研究样本
├── sample-02-cohort.pdf ← 队列研究样本
├── sample-03-with-tables.pdf ← 包含复杂表格的样本
├── sample-04-chinese.pdf ← 中文文献样本
└── README.md
```
---
## 🎯 使用方法
### 1. 导入测试数据
**请按以下步骤导入您的测试数据:**
#### 1标题摘要初筛测试数据
**文件清单:**
- `literature-list-199.xlsx`199 篇英文文献列表
- `picos-criteria.txt`PICOS 标准Population, Intervention, Comparison, Outcome, Study Design
- `gold-standard.json`:人工标注的正确结果
**Excel 文件格式要求:**
```
列名(必须):
- Title标题
- Abstract摘要
- DOI可选
- Authors作者可选
- Year年份可选
- Journal期刊可选
示例:
| Title | Abstract | DOI | Authors | Year | Journal |
|--------------------------------|---------------------------|---------------|--------------|------|---------|
| Effect of aspirin on ... | Background: ... | 10.1038/... | Smith J, ... | 2020 | NEJM |
```
**PICOS 标准格式:**
```txt
# PICOS 标准
## Population人群
- 成年高血压患者(年龄 ≥ 18 岁)
- 无心血管疾病史
## Intervention干预
- 每日服用阿司匹林 100mg
## Comparison对照
- 安慰剂或无治疗
## Outcome结局
- 主要结局:心血管事件发生率
- 次要结局:全因死亡率
## Study Design研究设计
- 随机对照试验RCT
- 队列研究Cohort Study
```
**金标准格式JSON**
```json
{
"metadata": {
"total": 199,
"annotatedBy": "医学专家姓名",
"annotatedDate": "2025-11-15",
"expectedAccuracy": 0.90
},
"results": [
{
"id": 1,
"doi": "10.1038/nature12373",
"title": "...",
"decision": "include",
"reason": "符合 PICO 标准:人群为成年高血压患者,干预为阿司匹林...",
"confidence": 1.0
},
{
"id": 2,
"decision": "exclude",
"reason": "不符合纳入标准:人群为儿童患者",
"confidence": 0.95
}
]
}
```
#### 2PDF 全文提取测试数据
**建议准备的样本类型:**
- RCT 研究(随机对照试验)
- 队列研究Cohort Study
- 包含复杂表格的文献
- 包含数学公式的文献
- 中文医学文献(测试语言检测)
**样本数量建议:** 5-10 篇
### 2. 运行测试
#### 1标题摘要初筛测试
```bash
# 进入后端目录
cd AIclinicalresearch/backend
# 运行初筛测试
npm run test:asl:screening
# 或者手动测试:
# 1. 启动后端服务
npm run dev
# 2. 通过前端上传 literature-list-199.xlsx
# 3. 配置 PICOS 标准(复制 picos-criteria.txt 内容)
# 4. 运行批量筛选
# 5. 导出结果,与 gold-standard.json 对比
```
#### 2评估准确率
```bash
# 自动评估准确率(与金标准对比)
npm run test:asl:evaluate -- \
--result ./screening-result.json \
--gold-standard ./gold-standard.json
# 输出示例:
# ✅ 准确率: 92.5%
# ✅ 一致率: 88.9%
# ⚠️ 假阳性率: 5.2%
# ⚠️ 假阴性率: 2.3%
```
### 3. 质量指标
| 指标 | MVP 目标 | V1.0 目标 | V2.0 目标 |
|------|---------|----------|----------|
| **准确率** | ≥ 85% | ≥ 90% | ≥ 95% |
| **一致率**(双模型) | ≥ 80% | ≥ 85% | ≥ 90% |
| **假阳性率** | ≤ 10% | ≤ 5% | ≤ 3% |
| **假阴性率** | ≤ 5% | ≤ 3% | ≤ 2% |
---
## 📊 测试数据统计
### 标题摘要初筛数据集
**基本信息:**
- **总数量**: 199 篇
- **数据来源**: [请填写数据来源]
- **领域**: 医学/临床研究
- **语言**: 英文
- **年份范围**: [请填写]
**预期分布:**
```
纳入Include: ~45 篇23%
排除Exclude: ~132 篇66%
不确定Uncertain: ~22 篇11%
```
**研究类型分布(预估):**
```
RCT: ~60 篇30%
队列研究: ~50 篇25%
病例对照: ~30 篇15%
横断面研究: ~30 篇15%
其他: ~29 篇15%
```
### PDF 全文提取数据集
**待补充**
---
## ⚠️ 数据使用注意事项
### 1. 版权声明
- 本测试数据集仅用于 ASL 模块开发和测试
- 不得用于商业用途
- 不得公开分发或传播
- 请遵守原文献的版权许可
### 2. 数据隐私
- 确保测试数据不包含敏感信息
- 如包含患者数据,必须已脱敏处理
- 遵守 GDPR、HIPAA 等数据保护法规
### 3. 质量要求
- **金标准必须由医学专家标注**
- 标注人需具备相关领域专业知识
- 标注过程需有质量控制机制
- 建议双人独立标注,冲突需第三方仲裁
---
## 🔄 数据更新记录
| 日期 | 更新内容 | 更新人 |
|------|---------|--------|
| 2025-11-15 | 创建测试数据目录结构 | ASL 团队 |
| 待更新 | 导入 199 篇文献测试数据 | - |
| 待更新 | 添加 PDF 样本数据 | - |
---
## 📞 联系方式
如有问题,请联系:
- **项目负责人**: [姓名]
- **邮箱**: [邮箱]
- **文档维护**: [文档路径]
---
## 📚 相关文档
- [标题摘要初筛测试用例](../02-标题摘要初筛测试用例.md)
- [测试计划](../01-测试计划.md)
- [文献处理技术选型](../../02-技术设计/07-文献处理技术选型.md)
- [质量保障与可追溯策略](../../02-技术设计/06-质量保障与可追溯策略.md)
---
**下一步行动:**
1. ✅ 创建测试数据目录结构
2. ⏳ 导入您的 199 篇文献测试数据(`literature-list-199.xlsx`
3. ⏳ 创建 PICOS 标准文件(`picos-criteria.txt`
4. ⏳ 准备金标准标注(`gold-standard.json`
5. ⏳ 补充 PDF 样本数据