# 全文复筛开发计划 - 更新说明

> **更新日期**：2025-11-22  
> **版本**：V1.1  
> **更新原因**：基于质量保障策略讨论，优化技术方案

---

## 📊 核心变更总结

### 1️⃣ **提取策略：全文一次性 + Prompt工程优化**

**决策**：采用全文一次性输入策略，而非分段提取

**理由**：
- ✅ 实现复杂度低（2周 vs 3周）
- ✅ 快速验证可行性
- ✅ Nougat结构化已降低大模型负担
- ✅ 先进的Prompt工程可以减轻Lost in the Middle

**核心优化**：
1. **Nougat优先**：英文论文用Nougat提取（结构化Markdown）
2. **Section-Aware Prompting**：引导LLM逐章节处理
3. **Few-shot案例库**：特别强调"信息在中间位置"的案例
4. **JSON Schema约束**：强制证据链 + 处理日志 + 自我验证

---

### 2️⃣ **模型选择：DeepSeek-V3 + Qwen3-Max**

**变更**：从 GPT-4o + Claude-4.5 改为 DeepSeek-V3 + Qwen3-Max

**理由**：
- ✅ 成本友好：¥0.06/篇 vs ¥0.10/篇（节省40%）
- ✅ 通用能力层已支持
- ✅ 中文文献友好
- ✅ MVP阶段优先验证可行性，而非追求极致准确率

---

### 3️⃣ **质量保障：Cochrane标准 + 医学逻辑验证**

**新增服务**：
1. **MedicalLogicValidator**（医学逻辑验证）
   - RCT必须有随机化
   - 双盲研究必须说明盲法
   - 样本量与基线数据一致性
   - 等...共5条规则

2. **EvidenceChainValidator**（证据链验证）
   - 强制原文引用（≥50字）
   - 位置信息（章节、段落）
   - 处理日志验证

3. **ConflictDetectionService**（增强）
   - 基于Cochrane标准的严重程度分级
   - 关键字段特殊处理

---

### 4️⃣ **Prompt模板：结构化分层**

**新目录结构**：
```
prompts/
├── system_prompt.md                 # System Prompt（Section-Aware）
├── user_prompt_template.md          # User Prompt模板
├── cochrane_standards/              # Cochrane标准描述（分字段）
│   ├── 随机化方法.md
│   ├── 盲法.md
│   ├── 结果完整性.md
│   └── ...（共12个）
└── few_shot_examples/               # Few-shot医学案例库
    ├── 高质量RCT.md
    ├── 质量不足案例.md
    └── 信息在中间位置案例.md       # ← 特别重要
```

---

### 5️⃣ **开发周期：2周 + MVP验证3天**

**调整**：
- Week 1-2：开发（保持2周）
- Week 3（Day 11-13）：MVP验证 + 条件升级决策

**MVP验证关键**：
- 测试10-15篇人工标注论文
- 评估准确率（目标≥85%）
- 如果<80%，升级为混合策略（关键字段分段提取）

---

### 6️⃣ **数据库设计增强**

**新增字段**：
- `promptVersion`：Prompt版本号
- `extractionMethod`：'nougat' | 'pymupdf'
- `structuredFormat`：是否为结构化格式
- `processingLog`：处理日志（验证逐章节处理）
- `logicValidation`：医学逻辑验证结果
- `evidenceComplete`：证据链是否完整
- `conflictSeverity`：冲突严重程度
- `reviewPriority`：复核优先级

---

## 🎯 关键技术要点

### Prompt工程核心策略

#### 1. Section-Aware Prompting

```markdown
⚠️ 重要：本文是完整全文（约20,000字），请按章节逐步处理。

## 处理流程（必须遵守）：

### Step 1: 章节定位
快速浏览全文，识别关键章节（Abstract、Methods、Results...）

### Step 2: 分字段提取
对于每个字段：
1. 标注预期位置
2. 定位到章节
3. **逐段仔细阅读**（不要跳过中间）
4. 提取信息
5. 记录引用和位置

⚠️ 特别注意：
- Methods和Results在中间位置，最容易遗漏
- 这些章节很长，请分段阅读

### Step 3: 交叉验证
回到全文，搜索关键词，确认无遗漏
```

#### 2. Few-shot案例（重点：信息在中间）

```markdown
### 案例1：信息在Methods中间段落（易遗漏）⭐

全文19,500字：
- Methods（4,000字）
  - 第1段：研究设计概述
  - 第2段：入排标准
  - **第3段：随机化方法** ← 关键！在中间
  - 第4段：盲法
  - ...

正确做法✅：逐段阅读，不跳过
错误示例❌：只看开头和结尾，跳过中间
```

#### 3. JSON Schema强制约束

```json
{
  "processing_log": {
    "sections_reviewed": ["Abstract", "Methods", "Results", "Tables"],
    "paragraphs_read_per_section": {
      "Methods": 7,  // 必须≥3
      "Results": 5   // 必须≥3
    },
    "middle_sections_attention": true  // 必须关注中间
  },
  
  "verification": {
    "keywords_searched": ["randomization", "blinding", "ITT"],
    "reread_count": 2,  // 至少重读1次
    "found_missed_info": false
  }
}
```

---

## 📈 预期效果

| 指标 | 目标 | 验证方法 |
|------|------|----------|
| **准确率（MVP）** | ≥ 85% | 人工标注10-15篇测试 |
| **Methods章节准确率** | ≥ 83% | 分章节评估 |
| **Results章节准确率** | ≥ 83% | 分章节评估 |
| **证据链完整性** | 100% | 自动检查 |
| **医学逻辑验证** | 100% | 规则引擎检查 |
| **成本** | ≤ ¥0.06/篇 | 实际消耗统计 |
| **处理时间** | ≤ 3分钟/篇 | 性能测试 |

---

## 🚀 条件升级路径

如果MVP准确率<80%，升级为**混合策略**：

```
关键字段（3个）→ 分段提取
- 随机化方法（Methods）
- 盲法（Methods）
- 结果完整性（Results + Figures）

其他字段（9个）→ 保持全文提取
- 研究设计、研究人群、干预措施等

开发增量：+1周
预期准确率：90%+
```

---

## 📚 相关文档

- [全文复筛质量保障策略](../02-技术设计/08-全文复筛质量保障策略.md)
- [标题摘要初筛质量保障策略](../02-技术设计/06-质量保障与可追溯策略.md)
- [数据库设计](../02-技术设计/01-数据库设计.md)
- [API设计规范](../02-技术设计/02-API设计规范.md)

---

**更新日志**：
- 2025-11-22: V1.1 - 基于质量保障讨论，确定全文一次性+Prompt优化策略
- 2025-11-22: V1.0 - 初始版本