docs(asl): Complete Tool 3 extraction workbench V2.0 development plan (v1.5)

ASL Tool 3 Development Plan: - Architecture blueprint v1.5 (6 rounds of architecture review, 13 red lines) - M1/M2/M3 sprint checklists (Skeleton Pipeline / HITL Workbench / Dynamic Template Engine) - Code patterns cookbook (9 chapters: Fan-out, Prompt engineering, ACL, SSE dual-track, etc.) - Key patterns: Fan-out with Last Child Wins, Optimistic Locking, teamConcurrency throttling - PKB ACL integration (anti-corruption layer), MinerU Cache-Aside, NOTIFY/LISTEN cross-pod SSE - Data consistency snapshot for long-running extraction tasks Platform capability: - Add distributed Fan-out task pattern development guide (7 patterns + 10 anti-patterns) - Add system-level async architecture risk analysis blueprint - Add PDF table extraction engine design and usage guide (MinerU integration) - Add table extraction source code (TableExtractionManager + MinerU engine) Documentation updates: - Update ASL module status with Tool 3 V2.0 plan readiness - Update system status document (v6.2) with latest milestones - Add V2.0 product requirements, prototypes, and data dictionary specs - Add architecture review documents (4 rounds of review feedback) - Add test PDF files for extraction validation Co-authored-by: Cursor <cursoragent@cursor.com>
2026-02-23 22:49:16 +08:00
parent 8f06d4f929
commit dc6b292308
42 changed files with 16615 additions and 41 deletions
--- a/docs/03-业务模块/ASL-AI智能文献/00-系统设计/证据整合V2.0/ASL
+++ b/docs/03-业务模块/ASL-AI智能文献/00-系统设计/证据整合V2.0/ASL
@@ -0,0 +1,74 @@
+# **ASL 工具 3：全文智能提取“模板化”管理规范**
+
+**文档目的：** 定义工具 3（智能提取工作台）的模板引擎机制，明确【系统通用字段】与【用户自定义字段】的边界与交互逻辑，指导底层 Prompt 的动态拼接与前端表单的渲染。
+
+**适用场景：** 应对不同医学专科、不同研究类型（RCT vs 队列研究）的碎片化、个性化数据提取需求。
+
+## **一、 为什么要引入“模板化”机制？**
+
+在循证医学实战中，固定的表单是反直觉的。
+
+* **复用性需求：** 基本信息（作者、年份）、标准方法学评价（RoB 2.0）在任何研究中都是通用的，不该让用户每次都重新配置。  
+* **特异性需求：** 不同的疾病模型关注的基线特征（如：是否合并糖尿病、肿瘤分期）和特定的不良反应（如：3级以上腹泻发生率）千差万别，必须由研究者自己定义。
+
+**核心解决方案：** 打造一个 **“系统级基座模板 \+ 项目级自定义插槽”** 的模板管理引擎。
+
+## **二、 模板分类与内置字典 (The Template Library)**
+
+系统应当在数据库中预置几套经典的“通用模板（Universal Templates）”。这些模板由平台的方法学专家维护，**用户不可直接篡改其底层逻辑，但可以将其选为基础并“克隆”到自己的项目中。**
+
+### **1\. 系统内置通用模板库 (Built-in Universal Templates)**
+
+哪些东西是通用的？**凡是国际循证医学规范（如 Cochrane 手册）中明确规定了标准结构的，就是通用的。**
+
+* **📘 模板 A：标准 RCT 提取与质量评价模板 (最常用)**  
+  * **通用基线：** 实验组/对照组名称、样本量 (N)、平均年龄、性别比例。  
+  * **通用方法学 (RoB 2.0)：** 随机序列产生、分配隐藏、盲法、结局数据完整性、选择性报告。  
+  * **通用结局池：** 标准的 HR/CI (生存分析)、Events/Total (二分类)。  
+* **📙 模板 B：观察性研究 (队列/病例对照) 提取模板**  
+  * **通用基线：** 暴露组/非暴露组名称、随访人年数 (Person-years)、基线匹配/调整方法 (如 PSM 倾向性评分匹配)。  
+  * **通用方法学 (NOS 量表)：** 队列选择、组间可比性、结局评估。  
+  * **通用结局池：** RR (相对危险度)、OR (比值比)。  
+* **📗 模板 C：纯方法学质控模板 (快速模式)**  
+  * **用途：** 仅提取 RoB/NOS 偏倚风险打分，不提取具体临床数据。
+
+## **三、 用户自定义与“魔改”机制 (Customization)**
+
+在通用的基础上，用户可以基于具体的科研问题，在自己的 Project 内部进行**自定义扩展 (Custom Fields)**。
+
+### **1\. 哪些应该交由用户自定义？(个性化插槽)**
+
+* **个性化基线特征 (Specific Baseline Traits)：**  
+  * *肿瘤学场景：* 增加 EGFR突变阳性率、既往接受过靶向治疗的比例。  
+  * *心血管场景：* 增加 基线收缩压均值 (mmHg)、吸烟史比例。  
+* **个性化结局指标 (Specific Outcomes & Timepoints)：**  
+  * 特定的随访时间点：如 术后 30 天死亡率、1 年无进展生存率 (1-y PFS)。  
+  * 特定的不良反应 (AEs)：如 重度出血事件发生数、因不良反应停药的人数。  
+* **个性化的纳入排除二次校验 (Inclusion Check)：**  
+  * 增加一个自定义 AI 判断字段：该研究中包含的亚洲人比例是否大于 50%？(是/否)。
+
+### **2\. 用户交互与表单组装逻辑 (The "Clone & Edit" Workflow)**
+
+为了平衡系统的稳定性和用户的自由度，我们在前端（UI）和后端（Prompt）采用以下机制：
+
+1. **模板选择 (Select)：** 医生创建一个 ASL 提取项目时，系统提示：“请选择一个基础提取模板”。医生选择了 \[标准 RCT 提取模板\]。  
+2. **克隆与配置 (Clone & Edit)：**  
+   * 系统将该通用模板克隆为该项目的\*\*“项目专属模板”\*\*。  
+   * 前端展示一个类似于“表单设计器 (Form Builder)”的界面。  
+   * 医生看到系统已经内置了“年龄”、“性别”、“分配隐藏”等只读字段。  
+   * 医生点击 **“+ 添加自定义提取项”**。  
+3. **定义自定义字段 (Define Field)：**  
+   * 医生输入字段名：糖尿病史比例  
+   * 医生选择数据类型：百分比 (%) 或 具体人数 (N)  
+   * 医生输入给 AI 的提取说明（Prompt 提示）：*“请提取基线表中，患有 Type 2 Diabetes 的患者比例或人数”*。  
+4. **底层 Prompt 动态组装 (Dynamic Prompting)：**  
+   * 后端在调用 DeepSeek-V3 提取这篇文献时，会将【通用模板的 JSON Schema】和【用户自定义的 JSON Schema】**合并**。  
+   * AI 引擎在阅读 PDF 时，不仅会去寻找常规的年龄性别，还会专门去寻找用户刚才定义的“糖尿病史比例”，并一并返回。
+
+## **四、 核心价值：沉淀“专科级”模板资产**
+
+这种“继承+魔改”的设计，不仅解决了工具 3 的灵活性问题，还能为平台带来巨大的商业/学术沉淀价值：
+
+当一个心内科顶尖专家在您的系统上，基于通用模板，精雕细琢配置出了一套专门用于提取\*\*“SGLT2抑制剂治疗心衰”\*\*的完美模板（包含了各种特异性的心脏指标）后，**系统可以允许他将这个项目级模板“公开并发布”为【心内科专科通用模板】。**
+
+长此以往，您的 ASL 系统将沉淀出极具价值的\*\*“各临床专科结构化提取字典库”\*\*，彻底建立学术生态护城河。