AIclinicalresearch/docs/03-业务模块/ASL-AI智能文献/00-系统设计/证据整合V2.0/ASL全景工具箱与证据合成MVP产品需求文档 V5.md

# **产品需求文档 (PRD)：ASL \- 智能文献全景工具箱与证据合成 MVP**

**文档版本：** v5.0 (全景工具箱与提取模板引擎增强版)

**产品归属：** AI Clinical \- ASL (智能文献系统)

**目标受众：** 研发团队（前端/后端/算法/数据）、测试团队、UI/UX 设计师

**核心战略：** 构建“松耦合、可插拔的 ASL 循证医学工具箱（Toolkit）”。支持工具的独立使用与无缝串联。引入**动态提取模板引擎**，适应不同专科的个性化数据榨取需求。

## **一、 产品开发背景与目标 (Background & Goals)**

### **1\. 业务背景**

在过往的系统设计中，我们习惯于规划一条从“文献检索 \-\> 初筛 \-\> 复筛 \-\> 提取 \-\> 统计分析”的超长单向流水线。

然而真实的科研场景中，用户的需求往往是碎片化的。如果系统强迫用户走完漫长的前置流程，或者下游模块（如 Meta 分析）只能硬性依赖上游模块的数据传入，会极大地限制产品的受众群体。此外，不同医学专科（如肿瘤 vs 心血管）对提取变量的要求千差万别，写死提取表单将导致系统缺乏生命力。

### **2\. 产品目标 (Goals)**

打破长链路的僵化限制，将 ASL 升级为一个真正的\*\*“模块化循证工具箱 (Modular Evidence Synthesis Toolkit)”\*\*。

* **业务目标 1（解耦）：** 提供检索、初筛、提取、SR图表、Meta分析等独立工具。每一个下游工具必须提供独立的“标准数据模板下载”和“文件上传”入口，确保 100% 可单点使用。
* **业务目标 2（灵活）：** 在核心的【工具 3：提取工作台】引入“系统通用模板 \+ 用户自定义插槽”机制，满足个性化医学信息提取。
* **研发目标（MVP）：** 明确各模块的 API 契约（JSON Schema），前后端解耦开发，实现“分块开发、分块测试、分块上线”。

## **二、 ASL 工具箱全景版图 (The Toolkit Landscape)**

整个 ASL 模块被正式划分为以下独立且可串联的通用工具组件：

1. ✅ **工具 1：智能文献检索 (Deep Research)** \- *\[已开发完成\]*
2. ✅ **工具 2：标题摘要初筛 (Title/Abstract Screening)** \- *\[已开发完成\]*
3. 🚧 **工具 3：全文复筛与智能提取工作台** \- *\[引入动态模板引擎，前端采用 MVP 轻量级 UI 待开发\]*
4. ⏳ **工具 4：系统综述 (SR) 图表生成器** \- *\[待开发，新增独立文件上传\]*
5. ⏳ **工具 5：Meta 分析量化引擎** \- *\[待开发，新增独立文件上传\]*

## **三、 核心用户旅程 (User Journey \- 灵活场景)**

系统不再强制单一路径，而是提供多种灵活的切入场景：

### **场景 A：全生命周期串联（The Pipeline）**

医生从【工具 1】生成指令并获取 100 篇文献 \-\> 流入【工具 2】初筛 \-\> 流入【工具 3】配置提取模板并进行复筛提取 \-\> 数据一键内部流转至【工具 4】和【工具 5】，最终同屏输出完整的 PRISMA 流程图、基线表和 Meta 森林图。

### **场景 B：作为纯粹的图表生成器 (Standalone SR Charting)**

1. 医生直接打开【工具 4：SR图表生成器】。
2. 医生点击\*\*“下载 PRISMA 与基线表标准模板 (Excel)”\*\*。
3. 医生在本地把自己的数字填入 Excel 后，点击\*\*“上传本地数据源”\*\*。
4. 系统瞬间渲染出漂亮、符合国际标准的矢量图供其下载。

### **场景 C：作为纯粹的 Meta 分析计算器 (Standalone Meta-Analysis)**

1. 医生手里已经有一份自己几年前整理好的 Excel 结局数据。
2. 医生直接打开【工具 5：Meta分析量化引擎】。
3. 医生点击\*\*“下载 Meta 数据标准模板 (Excel/CSV)”\*\*，将自己的数据整理贴入。
4. 点击\*\*“上传文件”\*\*，左侧网格自动解析填满，点击运行，R 引擎返回森林图。

## **四、 待开发模块详细功能说明 (Pending Features & Design)**

以下重点阐述处于\*\*🚧开发中**或**⏳未开发**状态的核心工具模块，特别是**真·解耦的数据源输入设计**与**动态模板引擎\*\*。

### **🚧 工具 3：全文复筛与智能提取工作台 (Extraction Workbench)**

此工具是连接原始文献与结构化数据的“转换器”。其核心不再是一个写死的表单，而是一个灵活的**模板化提取引擎**。

* **FR 3.1 轻量级列表与抽屉表单 UI (List \+ Drawer MVP)：**
  * 页面主体是数据表格，点击某篇文献在右侧滑出 Drawer（抽屉）。
  * 抽屉内根据用户选择的【提取模板】动态渲染表单结构。
  * 顶部提供“在新标签页打开 PDF”的降级查阅按钮。
* **FR 3.2 动态提取模板引擎 (Template Engine) \- \[V5.0 新增核心\]**
  * **设计意图：** 通过“系统通用基座 \+ 用户自定义插槽”解决各专科提取需求不同的问题。
  * **系统内置通用模板库：** 平台方法学专家预置，用户不可篡改但可克隆使用。
    1. 模板 A: 标准 RCT 提取与质量评价 (含基础基线、RoB 2.0 风险评估、标准结局)。
    2. 模板 B: 观察性研究提取 (含随访人年、NOS 偏倚量表)。
    3. 模板 C: 纯方法学质控快速模式 (仅提 RoB/NOS，不提具体数据)。
  * **用户自定义与“魔改” (Clone & Edit)：**
    * 交互逻辑：用户新建提取任务时，选择系统模板并将其“克隆”到本项目下。
    * 自定义插槽：用户可点击“添加自定义提取项”，配置字段名（如“糖尿病史比例”）及提示 Prompt。
    * 引擎融合：后端自动将“通用 Schema”与“自定义 Schema”合并，交给大模型执行定向提取。
* **FR 3.3 结构化提取数据规范 (Data Extraction Dictionary) \- \[V5.0 新增核心\]** 提取目标严格服务于下游的【工具4】与【工具5】。AI 提取必须包含以下四大模块：
  * **模块一：基础元数据：** Study\_ID (第一作者+年份)、NCT\_Number、Study\_Design。
  * **模块二：基线特征 (供工具4拼表)：** 干预/对照组名称、各组总人数 (N)、年龄 (Mean±SD)、性别比例，及用户自定义的疾病特征。
  * **模块三：偏倚风险评估 (供工具4画图)：** 针对随机序列、分配隐藏、盲法等进行定性评估 (Low/High/Unclear Risk)。
  * **模块四：动态结局指标 (供工具5计算)：**
    * *生存分析 (HR)*：提取 HR\_Value, Lower\_CI, Upper\_CI。
    * *二分类数据 (Events)*：提取实验组及对照组各自的 Events 和 Total N。
    * *连续型数据 (Continuous)*：提取实验组及对照组各自的 Mean、SD 和 Total N。
* **FR 3.4 强约束 Quote 溯源交互 (Anti-Hallucination)：**
  * 每一个提取出的核心数值，JSON 中必须强制附带成对的 \_quote 字段。
  * **规范约束：** Quote 必须是一字不差的原文摘录（不超过 30 个词）；若来源是表格，需指明表名和行列坐标。
  * **交互呈现：** 在抽屉表单数值输入框下方，用灰色斜体清晰展示其对应的 \_quote 原文。
* **FR 3.5 状态流转与独立交付：**
  * 底部提供“核准保存 (Approve)”按钮。只有 Approved 的行才有资格进入下游图表和引擎。
  * 列表页提供“导出当前矩阵为标准 Excel 宽表”功能，结束闭环。

### **⏳ 工具 4：系统综述 (SR) 图表生成器 (SR Charting Tool)**

**设计意图：** 将繁琐的文献筛选账本和基线数据，全自动画成符合国际期刊发表规范的 PRISMA 图和横向比对表。

* **FR 4.1 核心：双通道数据输入层 (Dual Input Layer)**
  * **通道 A（项目继承）：** 勾选“自动关联本项目流水线数据”，后端查表动态聚合。
  * **通道 B（独立文件上传）：**
    * 提供 **“下载标准 SR 模板 (Excel)”** 按钮（内含 Sheet1: PRISMA流转数字, Sheet2: 基线数据表）。
    * 提供 **“拖拽/上传本地 Excel”** 区域。上传后前端将其解析为标准的 JSON 格式送入渲染器。
* **FR 4.2 PRISMA 2020 流程图渲染：** 接收 JSON 数据，利用 Echarts 或 Mermaid.js 实时渲染标准的级联漏斗图，支持导出 SVG/PNG。
* **FR 4.3 基线特征自动拼表 (Table 1)：** 将独立上传的或继承的患者特征数据，渲染为标准的学术论文 Table 1（横轴干预/对照，纵轴各指标），支持导出 Word。
* **FR 4.4 偏倚风险 (RoB) 汇总图：** 接收工具 3 提取的或用户上传的风险打分，渲染标准的红绿灯评价图（Traffic Light Plot）。

### **⏳ 工具 5：Meta 分析量化引擎 (Meta-Analysis Engine)**

**设计意图：** 一个内置了 R 语言统计学专家的超级计算器。合并多个独立研究的数据，得出合并疗效结论。

* **FR 5.1 核心：三通道数据输入矩阵 (Tri-Channel Input Matrix)**
  * **通道 A（项目继承）：** 一键继承【工具 3】中打上了 Approved 标签的结局指标。
  * **通道 B（独立文件上传）：**
    * 提供 **“下载各种数据类型模板”** (如 HR生存分析模板、二分类事件模板、连续型均值模板)。
    * 允许用户上传 Excel，系统自动解析并填满左侧的可视化数据网格（Data Grid）。
  * **通道 C（手动快捷录入）：** 左侧数据网格支持类似 Excel 的直接双击输入、修改、新增行。
* **FR 5.2 R Docker 统计引擎通信：** 后端将页面左侧网格内的数据打包为严格的 JSON，发送给内网部署的 ssa-r-statistics:1.0.1 容器的 Plumber API，指定相应的模型（随机/固定效应）。
* **FR 5.3 结果展示大屏：**
  * 接收并清晰渲染合并效应量 (Pooled Effect)、95% CI、P 值。
  * 醒目展示 I² 异质性统计量。
  * 渲染 R 语言返回的高清**森林图 (Forest Plot)** 和 **漏斗图 (Funnel Plot)** Base64 图像，提供一键下载原图功能。
* **FR 5.4 容错降级机制：** 若数据存在问题导致 R 引擎计算失败（如异质性无穷大、输入格式非法），拦截错误并在页面提示，允许用户在左侧网格立刻修改数据并重新运行。

## **五、 数据源模板契约 (Data Template Contracts) \- \[开发重点\]**

为了实现工具 4 和工具 5 的独立使用，必须在系统中内置以下标准 Excel 模板供用户下载：

### **1\. 工具 4 模板：SR\_Charting\_Template.xlsx**

* **Sheet 1 (PRISMA\_Data)**：只需填写几个核心数字。
  * 字段：Total\_Identified (检索总数), Duplicates\_Removed (去重数), Title\_Excluded (初筛排除), FullText\_Excluded (全文排除), Final\_Included (最终纳入)。
* **Sheet 2 (Baseline\_Data)**：
  * 字段：Study\_ID, Intervention\_Name, Control\_Name, Intervention\_N, Control\_N, Age\_Mean\_SD, Male\_Percent 等。

### **2\. 工具 5 模板：Meta\_Analysis\_Template.xlsx**

提供多个 Sheet 应对不同数据类型：

* **Sheet 1 (Hazard\_Ratio)**：字段 Study\_ID, HR\_Value, Lower\_CI, Upper\_CI。
* **Sheet 2 (Dichotomous)**：字段 Study\_ID, Events\_Intervention, Total\_Intervention, Events\_Control, Total\_Control。

## **六、 MVP 验收标准 (Acceptance Criteria)**

1. **模板引擎验证 (工具3)：**
   * 用户能够在标准 RCT 模板的基础上，成功添加一个自定义字段“糖尿病史比例”，系统能通过大模型成功将其从目标文献中抽取出来并附带 Quote 溯源。
2. **真·解耦测试通过 (工具4/5)：**
   * 用户**不创建项目、不检索文献**，直接打开【工具 5】，下载模板后填入自己伪造的 5 篇文献数据，上传文件，点击运行，系统成功画出森林图。
3. **全链路串联贯通 (The End-to-End Test)：**
   * 使用准备好的 10 篇“PD-1 免疫治疗”高度同质化 RCT 文献，跑通一条完整主线：上传 PDF \-\> 提取 \-\> 列表抽屉复核全点通过 \-\> 一键无缝推送数据至下游 \-\> 成功渲染出森林图与 PRISMA 流程图闭环报告。