Files
AIclinicalresearch/docs/03-业务模块/ASL-AI智能文献/00-系统设计/证据整合V2.0/ASL 工具 3 提取模板管理规范.md
HaHafeng dc6b292308 docs(asl): Complete Tool 3 extraction workbench V2.0 development plan (v1.5)
ASL Tool 3 Development Plan:
- Architecture blueprint v1.5 (6 rounds of architecture review, 13 red lines)
- M1/M2/M3 sprint checklists (Skeleton Pipeline / HITL Workbench / Dynamic Template Engine)
- Code patterns cookbook (9 chapters: Fan-out, Prompt engineering, ACL, SSE dual-track, etc.)
- Key patterns: Fan-out with Last Child Wins, Optimistic Locking, teamConcurrency throttling
- PKB ACL integration (anti-corruption layer), MinerU Cache-Aside, NOTIFY/LISTEN cross-pod SSE
- Data consistency snapshot for long-running extraction tasks

Platform capability:
- Add distributed Fan-out task pattern development guide (7 patterns + 10 anti-patterns)
- Add system-level async architecture risk analysis blueprint
- Add PDF table extraction engine design and usage guide (MinerU integration)
- Add table extraction source code (TableExtractionManager + MinerU engine)

Documentation updates:
- Update ASL module status with Tool 3 V2.0 plan readiness
- Update system status document (v6.2) with latest milestones
- Add V2.0 product requirements, prototypes, and data dictionary specs
- Add architecture review documents (4 rounds of review feedback)
- Add test PDF files for extraction validation

Co-authored-by: Cursor <cursoragent@cursor.com>
2026-02-23 22:49:16 +08:00

74 lines
5.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# **ASL 工具 3全文智能提取“模板化”管理规范**
**文档目的:** 定义工具 3智能提取工作台的模板引擎机制明确【系统通用字段】与【用户自定义字段】的边界与交互逻辑指导底层 Prompt 的动态拼接与前端表单的渲染。
**适用场景:** 应对不同医学专科、不同研究类型RCT vs 队列研究)的碎片化、个性化数据提取需求。
## **一、 为什么要引入“模板化”机制?**
在循证医学实战中,固定的表单是反直觉的。
* **复用性需求:** 基本信息作者、年份、标准方法学评价RoB 2.0)在任何研究中都是通用的,不该让用户每次都重新配置。
* **特异性需求:** 不同的疾病模型关注的基线特征是否合并糖尿病、肿瘤分期和特定的不良反应3级以上腹泻发生率千差万别必须由研究者自己定义。
**核心解决方案:** 打造一个 **“系统级基座模板 \+ 项目级自定义插槽”** 的模板管理引擎。
## **二、 模板分类与内置字典 (The Template Library)**
系统应当在数据库中预置几套经典的“通用模板Universal Templates”。这些模板由平台的方法学专家维护**用户不可直接篡改其底层逻辑,但可以将其选为基础并“克隆”到自己的项目中。**
### **1\. 系统内置通用模板库 (Built-in Universal Templates)**
哪些东西是通用的?**凡是国际循证医学规范(如 Cochrane 手册)中明确规定了标准结构的,就是通用的。**
* **📘 模板 A标准 RCT 提取与质量评价模板 (最常用)**
* **通用基线:** 实验组/对照组名称、样本量 (N)、平均年龄、性别比例。
* **通用方法学 (RoB 2.0)** 随机序列产生、分配隐藏、盲法、结局数据完整性、选择性报告。
* **通用结局池:** 标准的 HR/CI (生存分析)、Events/Total (二分类)。
* **📙 模板 B观察性研究 (队列/病例对照) 提取模板**
* **通用基线:** 暴露组/非暴露组名称、随访人年数 (Person-years)、基线匹配/调整方法 (如 PSM 倾向性评分匹配)。
* **通用方法学 (NOS 量表)** 队列选择、组间可比性、结局评估。
* **通用结局池:** RR (相对危险度)、OR (比值比)。
* **📗 模板 C纯方法学质控模板 (快速模式)**
* **用途:** 仅提取 RoB/NOS 偏倚风险打分,不提取具体临床数据。
## **三、 用户自定义与“魔改”机制 (Customization)**
在通用的基础上,用户可以基于具体的科研问题,在自己的 Project 内部进行**自定义扩展 (Custom Fields)**。
### **1\. 哪些应该交由用户自定义?(个性化插槽)**
* **个性化基线特征 (Specific Baseline Traits)**
* *肿瘤学场景:* 增加 EGFR突变阳性率、既往接受过靶向治疗的比例。
* *心血管场景:* 增加 基线收缩压均值 (mmHg)、吸烟史比例。
* **个性化结局指标 (Specific Outcomes & Timepoints)**
* 特定的随访时间点:如 术后 30 天死亡率、1 年无进展生存率 (1-y PFS)。
* 特定的不良反应 (AEs):如 重度出血事件发生数、因不良反应停药的人数。
* **个性化的纳入排除二次校验 (Inclusion Check)**
* 增加一个自定义 AI 判断字段:该研究中包含的亚洲人比例是否大于 50%(是/否)。
### **2\. 用户交互与表单组装逻辑 (The "Clone & Edit" Workflow)**
为了平衡系统的稳定性和用户的自由度我们在前端UI和后端Prompt采用以下机制
1. **模板选择 (Select)** 医生创建一个 ASL 提取项目时,系统提示:“请选择一个基础提取模板”。医生选择了 \[标准 RCT 提取模板\]。
2. **克隆与配置 (Clone & Edit)**
* 系统将该通用模板克隆为该项目的\*\*“项目专属模板”\*\*。
* 前端展示一个类似于“表单设计器 (Form Builder)”的界面。
* 医生看到系统已经内置了“年龄”、“性别”、“分配隐藏”等只读字段。
* 医生点击 **“+ 添加自定义提取项”**。
3. **定义自定义字段 (Define Field)**
* 医生输入字段名:糖尿病史比例
* 医生选择数据类型:百分比 (%) 或 具体人数 (N)
* 医生输入给 AI 的提取说明Prompt 提示):*“请提取基线表中,患有 Type 2 Diabetes 的患者比例或人数”*。
4. **底层 Prompt 动态组装 (Dynamic Prompting)**
* 后端在调用 DeepSeek-V3 提取这篇文献时,会将【通用模板的 JSON Schema】和【用户自定义的 JSON Schema】**合并**。
* AI 引擎在阅读 PDF 时,不仅会去寻找常规的年龄性别,还会专门去寻找用户刚才定义的“糖尿病史比例”,并一并返回。
## **四、 核心价值:沉淀“专科级”模板资产**
这种“继承+魔改”的设计,不仅解决了工具 3 的灵活性问题,还能为平台带来巨大的商业/学术沉淀价值:
当一个心内科顶尖专家在您的系统上,基于通用模板,精雕细琢配置出了一套专门用于提取\*\*“SGLT2抑制剂治疗心衰”\*\*的完美模板(包含了各种特异性的心脏指标)后,**系统可以允许他将这个项目级模板“公开并发布”为【心内科专科通用模板】。**
长此以往,您的 ASL 系统将沉淀出极具价值的\*\*“各临床专科结构化提取字典库”\*\*,彻底建立学术生态护城河。