feat(ssa): Complete SSA-Pro MVP development plan v1.3

Summary: - Add PRD and architecture design V4 (Brain-Hand model) - Complete 5 development guide documents - Pass 3 rounds of team review (v1.0 -> v1.3) - Add module status guide document - Update system status document Key Features: - Brain-Hand architecture: Node.js + R Docker - Statistical guardrails with auto degradation - HITL workflow: PlanCard -> ExecutionTrace -> ResultCard - Mixed data protocol: inline vs OSS - Reproducible R code delivery MVP Scope: 10 statistical tools Status: Design 100%, ready for development Co-authored-by: Cursor <cursoragent@cursor.com>
2026-02-18 21:58:37 +08:00
parent f9ed0c2528
commit 8137e3cde2
19 changed files with 5756 additions and 98 deletions
--- a/docs/03-业务模块/SSA-智能统计分析/00-系统设计/PRD
+++ b/docs/03-业务模块/SSA-智能统计分析/00-系统设计/PRD
@@ -0,0 +1,162 @@
+# **PRD: SSA-Pro 严谨型智能统计分析模块 (V1.0)**
+
+**文档状态：** v1.0 (Final)
+
+**创建日期：** 2026-02-18
+
+**关联架构：** [SSA-Pro\_智能统计分析架构设计方案\_V4.md](https://www.google.com/search?q=../09-SSA-Pro_%E6%99%BA%E8%83%BD%E7%BB%9F%E8%AE%A1%E5%88%86%E6%9E%90%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1%E6%96%B9%E6%A1%88_V4.md)
+
+**关联规范：** [SSA-Pro\_Skills架构规范\_V4.1.md](https://www.google.com/search?q=../16-SSA-Pro_Skills%E6%9E%B6%E6%9E%84%E8%A7%84%E8%8C%83_V4.1.md)
+
+## **1\. 研发背景与业务价值**
+
+### **1.1 背景 (Why Now?)**
+
+目前平台的 **AIA (问答)** 和 **DC (清洗)** 模块已趋于成熟，但在**核心统计分析**环节仍存在断层：
+
+1. **用户痛点**：临床医生普遍缺乏统计学能力，SPSS/SAS 操作复杂，且容易误用统计方法（如数据不符合正态分布却强行用 T 检验）。  
+2. **竞品缺陷**：通用的 AI（如 ChatGPT）虽然能写代码，但经常产生“幻觉”，生成的代码在本地无法运行，且存在严重的数据隐私泄露风险。  
+3. **资产闲置**：公司内部积累了 100+ 高质量的 R 语言统计脚本，目前处于“沉睡”状态，未能转化为 SaaS 服务能力。
+
+### **1.2 产品目标 (Product Goal)**
+
+构建一个 **“白盒化、严谨型、可交付”** 的智能统计分析 Agent (SSA-Pro)。
+
+* **白盒化**：分析过程透明，用户可见（执行路径、护栏检查）。  
+* **严谨型**：强制执行统计假设检验（Guardrails），防止学术谬误。  
+* **可交付**：不仅提供结果，还提供**可复现的 R 源代码**，支持本地二次运行。
+
+## **2\. 核心能力与功能列表**
+
+### **2.1 核心流程 (The Core Loop)**
+
+交互模式采用 **"Retrieve-Plan-Confirm-Execute"** 闭环：
+
+| 步骤 | 功能模块 | 关键动作 | 交付物 |
+| :---- | :---- | :---- | :---- |
+| **1** | **智能规划 (Planner)** | 意图识别 \+ RAG 检索 \+ 参数映射 | **分析预习卡片 (Plan Card)** |
+| **2** | **人机确认 (HITL)** | 用户检查参数，点击确认 | 用户授权指令 |
+| **3** | **透明执行 (Execution)** | 混合数据传输 \+ 统计护栏 \+ 核心计算 | **执行路径树 (Execution Trace)** |
+| **4** | **资产交付 (Delivery)** | 结果解释 \+ 代码生成 \+ 报告导出 | **分析结果包 (Result \+ Code)** |
+
+### **2.2 功能详细说明**
+
+#### **F1. 智能工具检索 (Tool RAG)**
+
+* **需求**：系统需从 100+ 工具中，根据用户自然语言（如“看两组差异”）精准推荐最合适的工具。  
+* **技术支撑**：基于 pgvector 的语义检索 \+ pg\_bigm 关键词匹配。  
+* **输入**：用户 Query \+ 数据 Schema（列名/类型）。  
+* **输出**：Top-5 候选工具的 JSON Schema。
+
+#### **F2. 统计分析计划生成 (SAP Generation)**
+
+* **需求**：AI 不直接跑代码，而是先像人类统计师一样，写一份 SAP（统计分析计划）。  
+* **内容包含**：分析目标、变量映射（X/Y）、前置假设条件（如正态性）、降级策略。  
+* **表现形式**：前端渲染为 **"待确认卡片"**，用户可修改参数。
+
+#### **F3. 统计护栏与自动降级 (Guardrails)**
+
+* **需求**：在执行核心检验前，必须强制检查数据质量与统计假设。  
+* **逻辑示例**（以 T 检验为例）：  
+  1. 检查样本量是否 \> 3。  
+  2. 执行 Shapiro-Wilk 正态性检验。  
+  3. **决策点**：若 P \< 0.05（非正态），自动切换为 **Wilcoxon 秩和检验**，并在前端亮黄灯提示。  
+* **价值**：这是本产品区别于 ChatGPT 的核心护城河。
+
+#### **F4. 混合数据传输 (Hybrid Data Protocol)**
+
+* **需求**：支持不同大小的数据集高效传输，规避 HTTP JSON 瓶颈。  
+* **策略**：  
+  * **\< 1MB**：直接嵌入 API 请求体（Inline JSON）。  
+  * **1MB \- 20MB**：前端先传 OSS，仅向 R 服务传递 OSS File Key，R 服务内网下载。
+
+#### **F5. 代码资产交付 (Reproducible Code)**
+
+* **需求**：用户下载的 R 代码必须能在其本地 RStudio 中直接运行。  
+* **实现**：R Wrapper 动态拼接代码字符串，数据读取路径替换为占位符 read.csv("your\_data.csv")。
+
+## **3\. 技术路线与架构 (Technical Specifications)**
+
+### **3.1 总体架构：Brain-Hand 模型**
+
+本模块严格遵循公司 **V4.1 架构标准**：
+
+* **Brain (Node.js)**：负责认知、规划、检索、Prompt 组装。**绝不处理真实数据内容**，只看 Schema。  
+* **Hand (R Docker)**：负责执行、计算、绘图。**运行在隔离容器中**，处理真实数据。
+
+### **3.2 关键技术栈**
+
+* **后端**：Node.js (Fastify) \+ Prisma  
+* **统计引擎**：Docker \+ R 4.3 \+ Plumber (API 服务)  
+* **向量库**：RDS PostgreSQL \+ pgvector  
+* **大模型**：DeepSeek-V3 (Planner/Critic)  
+* **前端**：React 19 \+ Ant Design X
+
+### **3.3 数据库设计摘要 (Schema)**
+
+需在 capability\_schema 中建立全局统一的技能注册表：
+
+\-- 核心表：统计技能注册表  
+CREATE TABLE capability\_schema.global\_skills (  
+    skill\_code VARCHAR(50) PRIMARY KEY, \-- e.g. ST\_T\_TEST  
+    provider VARCHAR(50),               \-- 'SSA-R-SERVICE'  
+    input\_schema JSONB,                 \-- OpenAI Function Schema  
+    embedding vector(1024)              \-- 用于 RAG 检索  
+);
+
+## **4\. 数据隐私与安全 (Safety & Privacy)**
+
+### **4.1 数据隔离原则**
+
+* **原则**：**LLM 永远不可见真实患者数据。**  
+* **实现**：前端提取 Header 发送给 LLM 做规划；前端将 CSV 发送给 R 服务做计算。两者物理隔离。
+
+### **4.2 R 容器安全**
+
+* **网络阻断**：生产环境 SAE 容器配置 Egress Deny，禁止 R 脚本主动发起外网请求。  
+* **只读文件系统**：R 脚本目录设为 Read-Only，防止代码篡改。
+
+## **5\. 开发里程碑 (Roadmap)**
+
+### **Phase 1: 骨架搭建 (Week 1-2)**
+
+* **目标**：跑通 T 检验的 "Hello World"。  
+* **产出**：  
+  * R Docker 基础镜像 (含 Plumber)。  
+  * 第 1 个标准化 Wrapper (T-Test)。  
+  * Node.js \-\> R 的同步 API 调通。
+
+### **Phase 2: 交互 MVP (Week 3-5)**
+
+* **目标**：用户可用，体验完整。  
+* **产出**：  
+  * 集成 RAG 检索，AI 能听懂“做个差异分析”。  
+  * 前端“确认卡片”与“执行树”组件上线。  
+  * 上线 Top 10 高频统计工具。
+
+### **Phase 3: 量产与 Skills 化 (Week 6-8)**
+
+* **目标**：工具丰富，能力开放。  
+* **产出**：  
+  * 覆盖 50+ 常用工具。  
+  * 完成 **Global Skill Registry** 注册，允许 IIT Manager 模块调用 SSA 能力。
+
+## **6\. 验收标准 (Acceptance Criteria)**
+
+1. **准确性**：对于非正态数据，系统**必须**自动降级为非参数检验，并给出提示。  
+2. **性能**：20MB 数据文件的 T 检验，端到端耗时（含网络传输）不超过 **5秒**。  
+3. **复现性**：下载的 R 代码包，在干净的本地 R 环境中安装依赖后，**必须**能跑通并产出相同结果。  
+4. **隐私**：审计日志中**严禁**出现具体的患者隐私数据（Row Data）。
+
+## **7\. 附录：工具列表 (MVP Top 10\)**
+
+1. 独立样本 T 检验 (Independent T-Test)  
+2. 配对样本 T 检验 (Paired T-Test)  
+3. 单因素方差分析 (One-way ANOVA)  
+4. 卡方检验 (Chi-square Test)  
+5. Fisher 精确检验  
+6. Mann-Whitney U 检验 (Wilcoxon Rank Sum)  
+7. Pearson/Spearman 相关性分析  
+8. 单因素线性回归 (Simple Linear Regression)  
+9. 生存分析 (Kaplan-Meier Curve)  
+10. Cox 比例风险回归 (Cox Regression)