Files
AIclinicalresearch/docs/03-业务模块/SSA-智能统计分析/00-系统设计/PRD SSA-Pro 严谨型智能统计分析模块.md
HaHafeng 8137e3cde2 feat(ssa): Complete SSA-Pro MVP development plan v1.3
Summary:

- Add PRD and architecture design V4 (Brain-Hand model)

- Complete 5 development guide documents

- Pass 3 rounds of team review (v1.0 -> v1.3)

- Add module status guide document

- Update system status document

Key Features:

- Brain-Hand architecture: Node.js + R Docker

- Statistical guardrails with auto degradation

- HITL workflow: PlanCard -> ExecutionTrace -> ResultCard

- Mixed data protocol: inline vs OSS

- Reproducible R code delivery

MVP Scope: 10 statistical tools

Status: Design 100%, ready for development
Co-authored-by: Cursor <cursoragent@cursor.com>
2026-02-18 21:58:37 +08:00

162 lines
7.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# **PRD: SSA-Pro 严谨型智能统计分析模块 (V1.0)**
**文档状态:** v1.0 (Final)
**创建日期:** 2026-02-18
**关联架构:** [SSA-Pro\_智能统计分析架构设计方案\_V4.md](https://www.google.com/search?q=../09-SSA-Pro_%E6%99%BA%E8%83%BD%E7%BB%9F%E8%AE%A1%E5%88%86%E6%9E%90%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1%E6%96%B9%E6%A1%88_V4.md)
**关联规范:** [SSA-Pro\_Skills架构规范\_V4.1.md](https://www.google.com/search?q=../16-SSA-Pro_Skills%E6%9E%B6%E6%9E%84%E8%A7%84%E8%8C%83_V4.1.md)
## **1\. 研发背景与业务价值**
### **1.1 背景 (Why Now?)**
目前平台的 **AIA (问答)****DC (清洗)** 模块已趋于成熟,但在**核心统计分析**环节仍存在断层:
1. **用户痛点**临床医生普遍缺乏统计学能力SPSS/SAS 操作复杂,且容易误用统计方法(如数据不符合正态分布却强行用 T 检验)。
2. **竞品缺陷**:通用的 AI如 ChatGPT虽然能写代码但经常产生“幻觉”生成的代码在本地无法运行且存在严重的数据隐私泄露风险。
3. **资产闲置**:公司内部积累了 100+ 高质量的 R 语言统计脚本,目前处于“沉睡”状态,未能转化为 SaaS 服务能力。
### **1.2 产品目标 (Product Goal)**
构建一个 **“白盒化、严谨型、可交付”** 的智能统计分析 Agent (SSA-Pro)。
* **白盒化**:分析过程透明,用户可见(执行路径、护栏检查)。
* **严谨型**强制执行统计假设检验Guardrails防止学术谬误。
* **可交付**:不仅提供结果,还提供**可复现的 R 源代码**,支持本地二次运行。
## **2\. 核心能力与功能列表**
### **2.1 核心流程 (The Core Loop)**
交互模式采用 **"Retrieve-Plan-Confirm-Execute"** 闭环:
| 步骤 | 功能模块 | 关键动作 | 交付物 |
| :---- | :---- | :---- | :---- |
| **1** | **智能规划 (Planner)** | 意图识别 \+ RAG 检索 \+ 参数映射 | **分析预习卡片 (Plan Card)** |
| **2** | **人机确认 (HITL)** | 用户检查参数,点击确认 | 用户授权指令 |
| **3** | **透明执行 (Execution)** | 混合数据传输 \+ 统计护栏 \+ 核心计算 | **执行路径树 (Execution Trace)** |
| **4** | **资产交付 (Delivery)** | 结果解释 \+ 代码生成 \+ 报告导出 | **分析结果包 (Result \+ Code)** |
### **2.2 功能详细说明**
#### **F1. 智能工具检索 (Tool RAG)**
* **需求**:系统需从 100+ 工具中,根据用户自然语言(如“看两组差异”)精准推荐最合适的工具。
* **技术支撑**:基于 pgvector 的语义检索 \+ pg\_bigm 关键词匹配。
* **输入**:用户 Query \+ 数据 Schema列名/类型)。
* **输出**Top-5 候选工具的 JSON Schema。
#### **F2. 统计分析计划生成 (SAP Generation)**
* **需求**AI 不直接跑代码,而是先像人类统计师一样,写一份 SAP统计分析计划
* **内容包含**分析目标、变量映射X/Y、前置假设条件如正态性、降级策略。
* **表现形式**:前端渲染为 **"待确认卡片"**,用户可修改参数。
#### **F3. 统计护栏与自动降级 (Guardrails)**
* **需求**:在执行核心检验前,必须强制检查数据质量与统计假设。
* **逻辑示例**(以 T 检验为例):
1. 检查样本量是否 \> 3。
2. 执行 Shapiro-Wilk 正态性检验。
3. **决策点**:若 P \< 0.05(非正态),自动切换为 **Wilcoxon 秩和检验**,并在前端亮黄灯提示。
* **价值**:这是本产品区别于 ChatGPT 的核心护城河。
#### **F4. 混合数据传输 (Hybrid Data Protocol)**
* **需求**:支持不同大小的数据集高效传输,规避 HTTP JSON 瓶颈。
* **策略**
* **\< 1MB**:直接嵌入 API 请求体Inline JSON
* **1MB \- 20MB**:前端先传 OSS仅向 R 服务传递 OSS File KeyR 服务内网下载。
#### **F5. 代码资产交付 (Reproducible Code)**
* **需求**:用户下载的 R 代码必须能在其本地 RStudio 中直接运行。
* **实现**R Wrapper 动态拼接代码字符串,数据读取路径替换为占位符 read.csv("your\_data.csv")。
## **3\. 技术路线与架构 (Technical Specifications)**
### **3.1 总体架构Brain-Hand 模型**
本模块严格遵循公司 **V4.1 架构标准**
* **Brain (Node.js)**负责认知、规划、检索、Prompt 组装。**绝不处理真实数据内容**,只看 Schema。
* **Hand (R Docker)**:负责执行、计算、绘图。**运行在隔离容器中**,处理真实数据。
### **3.2 关键技术栈**
* **后端**Node.js (Fastify) \+ Prisma
* **统计引擎**Docker \+ R 4.3 \+ Plumber (API 服务)
* **向量库**RDS PostgreSQL \+ pgvector
* **大模型**DeepSeek-V3 (Planner/Critic)
* **前端**React 19 \+ Ant Design X
### **3.3 数据库设计摘要 (Schema)**
需在 capability\_schema 中建立全局统一的技能注册表:
\-- 核心表:统计技能注册表
CREATE TABLE capability\_schema.global\_skills (
skill\_code VARCHAR(50) PRIMARY KEY, \-- e.g. ST\_T\_TEST
provider VARCHAR(50), \-- 'SSA-R-SERVICE'
input\_schema JSONB, \-- OpenAI Function Schema
embedding vector(1024) \-- 用于 RAG 检索
);
## **4\. 数据隐私与安全 (Safety & Privacy)**
### **4.1 数据隔离原则**
* **原则****LLM 永远不可见真实患者数据。**
* **实现**:前端提取 Header 发送给 LLM 做规划;前端将 CSV 发送给 R 服务做计算。两者物理隔离。
### **4.2 R 容器安全**
* **网络阻断**:生产环境 SAE 容器配置 Egress Deny禁止 R 脚本主动发起外网请求。
* **只读文件系统**R 脚本目录设为 Read-Only防止代码篡改。
## **5\. 开发里程碑 (Roadmap)**
### **Phase 1: 骨架搭建 (Week 1-2)**
* **目标**:跑通 T 检验的 "Hello World"。
* **产出**
* R Docker 基础镜像 (含 Plumber)。
* 第 1 个标准化 Wrapper (T-Test)。
* Node.js \-\> R 的同步 API 调通。
### **Phase 2: 交互 MVP (Week 3-5)**
* **目标**:用户可用,体验完整。
* **产出**
* 集成 RAG 检索AI 能听懂“做个差异分析”。
* 前端“确认卡片”与“执行树”组件上线。
* 上线 Top 10 高频统计工具。
### **Phase 3: 量产与 Skills 化 (Week 6-8)**
* **目标**:工具丰富,能力开放。
* **产出**
* 覆盖 50+ 常用工具。
* 完成 **Global Skill Registry** 注册,允许 IIT Manager 模块调用 SSA 能力。
## **6\. 验收标准 (Acceptance Criteria)**
1. **准确性**:对于非正态数据,系统**必须**自动降级为非参数检验,并给出提示。
2. **性能**20MB 数据文件的 T 检验,端到端耗时(含网络传输)不超过 **5秒**
3. **复现性**:下载的 R 代码包,在干净的本地 R 环境中安装依赖后,**必须**能跑通并产出相同结果。
4. **隐私**:审计日志中**严禁**出现具体的患者隐私数据Row Data
## **7\. 附录:工具列表 (MVP Top 10\)**
1. 独立样本 T 检验 (Independent T-Test)
2. 配对样本 T 检验 (Paired T-Test)
3. 单因素方差分析 (One-way ANOVA)
4. 卡方检验 (Chi-square Test)
5. Fisher 精确检验
6. Mann-Whitney U 检验 (Wilcoxon Rank Sum)
7. Pearson/Spearman 相关性分析
8. 单因素线性回归 (Simple Linear Regression)
9. 生存分析 (Kaplan-Meier Curve)
10. Cox 比例风险回归 (Cox Regression)