Summary: - Add PRD and architecture design V4 (Brain-Hand model) - Complete 5 development guide documents - Pass 3 rounds of team review (v1.0 -> v1.3) - Add module status guide document - Update system status document Key Features: - Brain-Hand architecture: Node.js + R Docker - Statistical guardrails with auto degradation - HITL workflow: PlanCard -> ExecutionTrace -> ResultCard - Mixed data protocol: inline vs OSS - Reproducible R code delivery MVP Scope: 10 statistical tools Status: Design 100%, ready for development Co-authored-by: Cursor <cursoragent@cursor.com>
7.5 KiB
7.5 KiB
PRD: SSA-Pro 严谨型智能统计分析模块 (V1.0)
文档状态: v1.0 (Final)
创建日期: 2026-02-18
关联架构: SSA-Pro_智能统计分析架构设计方案_V4.md
关联规范: SSA-Pro_Skills架构规范_V4.1.md
1. 研发背景与业务价值
1.1 背景 (Why Now?)
目前平台的 AIA (问答) 和 DC (清洗) 模块已趋于成熟,但在核心统计分析环节仍存在断层:
- 用户痛点:临床医生普遍缺乏统计学能力,SPSS/SAS 操作复杂,且容易误用统计方法(如数据不符合正态分布却强行用 T 检验)。
- 竞品缺陷:通用的 AI(如 ChatGPT)虽然能写代码,但经常产生“幻觉”,生成的代码在本地无法运行,且存在严重的数据隐私泄露风险。
- 资产闲置:公司内部积累了 100+ 高质量的 R 语言统计脚本,目前处于“沉睡”状态,未能转化为 SaaS 服务能力。
1.2 产品目标 (Product Goal)
构建一个 “白盒化、严谨型、可交付” 的智能统计分析 Agent (SSA-Pro)。
- 白盒化:分析过程透明,用户可见(执行路径、护栏检查)。
- 严谨型:强制执行统计假设检验(Guardrails),防止学术谬误。
- 可交付:不仅提供结果,还提供可复现的 R 源代码,支持本地二次运行。
2. 核心能力与功能列表
2.1 核心流程 (The Core Loop)
交互模式采用 "Retrieve-Plan-Confirm-Execute" 闭环:
| 步骤 | 功能模块 | 关键动作 | 交付物 |
|---|---|---|---|
| 1 | 智能规划 (Planner) | 意图识别 + RAG 检索 + 参数映射 | 分析预习卡片 (Plan Card) |
| 2 | 人机确认 (HITL) | 用户检查参数,点击确认 | 用户授权指令 |
| 3 | 透明执行 (Execution) | 混合数据传输 + 统计护栏 + 核心计算 | 执行路径树 (Execution Trace) |
| 4 | 资产交付 (Delivery) | 结果解释 + 代码生成 + 报告导出 | 分析结果包 (Result + Code) |
2.2 功能详细说明
F1. 智能工具检索 (Tool RAG)
- 需求:系统需从 100+ 工具中,根据用户自然语言(如“看两组差异”)精准推荐最合适的工具。
- 技术支撑:基于 pgvector 的语义检索 + pg_bigm 关键词匹配。
- 输入:用户 Query + 数据 Schema(列名/类型)。
- 输出:Top-5 候选工具的 JSON Schema。
F2. 统计分析计划生成 (SAP Generation)
- 需求:AI 不直接跑代码,而是先像人类统计师一样,写一份 SAP(统计分析计划)。
- 内容包含:分析目标、变量映射(X/Y)、前置假设条件(如正态性)、降级策略。
- 表现形式:前端渲染为 "待确认卡片",用户可修改参数。
F3. 统计护栏与自动降级 (Guardrails)
- 需求:在执行核心检验前,必须强制检查数据质量与统计假设。
- 逻辑示例(以 T 检验为例):
- 检查样本量是否 > 3。
- 执行 Shapiro-Wilk 正态性检验。
- 决策点:若 P < 0.05(非正态),自动切换为 Wilcoxon 秩和检验,并在前端亮黄灯提示。
- 价值:这是本产品区别于 ChatGPT 的核心护城河。
F4. 混合数据传输 (Hybrid Data Protocol)
- 需求:支持不同大小的数据集高效传输,规避 HTTP JSON 瓶颈。
- 策略:
- < 1MB:直接嵌入 API 请求体(Inline JSON)。
- 1MB - 20MB:前端先传 OSS,仅向 R 服务传递 OSS File Key,R 服务内网下载。
F5. 代码资产交付 (Reproducible Code)
- 需求:用户下载的 R 代码必须能在其本地 RStudio 中直接运行。
- 实现:R Wrapper 动态拼接代码字符串,数据读取路径替换为占位符 read.csv("your_data.csv")。
3. 技术路线与架构 (Technical Specifications)
3.1 总体架构:Brain-Hand 模型
本模块严格遵循公司 V4.1 架构标准:
- Brain (Node.js):负责认知、规划、检索、Prompt 组装。绝不处理真实数据内容,只看 Schema。
- Hand (R Docker):负责执行、计算、绘图。运行在隔离容器中,处理真实数据。
3.2 关键技术栈
- 后端:Node.js (Fastify) + Prisma
- 统计引擎:Docker + R 4.3 + Plumber (API 服务)
- 向量库:RDS PostgreSQL + pgvector
- 大模型:DeepSeek-V3 (Planner/Critic)
- 前端:React 19 + Ant Design X
3.3 数据库设计摘要 (Schema)
需在 capability_schema 中建立全局统一的技能注册表:
-- 核心表:统计技能注册表
CREATE TABLE capability_schema.global_skills (
skill_code VARCHAR(50) PRIMARY KEY, -- e.g. ST_T_TEST
provider VARCHAR(50), -- 'SSA-R-SERVICE'
input_schema JSONB, -- OpenAI Function Schema
embedding vector(1024) -- 用于 RAG 检索
);
4. 数据隐私与安全 (Safety & Privacy)
4.1 数据隔离原则
- 原则:LLM 永远不可见真实患者数据。
- 实现:前端提取 Header 发送给 LLM 做规划;前端将 CSV 发送给 R 服务做计算。两者物理隔离。
4.2 R 容器安全
- 网络阻断:生产环境 SAE 容器配置 Egress Deny,禁止 R 脚本主动发起外网请求。
- 只读文件系统:R 脚本目录设为 Read-Only,防止代码篡改。
5. 开发里程碑 (Roadmap)
Phase 1: 骨架搭建 (Week 1-2)
- 目标:跑通 T 检验的 "Hello World"。
- 产出:
- R Docker 基础镜像 (含 Plumber)。
- 第 1 个标准化 Wrapper (T-Test)。
- Node.js -> R 的同步 API 调通。
Phase 2: 交互 MVP (Week 3-5)
- 目标:用户可用,体验完整。
- 产出:
- 集成 RAG 检索,AI 能听懂“做个差异分析”。
- 前端“确认卡片”与“执行树”组件上线。
- 上线 Top 10 高频统计工具。
Phase 3: 量产与 Skills 化 (Week 6-8)
- 目标:工具丰富,能力开放。
- 产出:
- 覆盖 50+ 常用工具。
- 完成 Global Skill Registry 注册,允许 IIT Manager 模块调用 SSA 能力。
6. 验收标准 (Acceptance Criteria)
- 准确性:对于非正态数据,系统必须自动降级为非参数检验,并给出提示。
- 性能:20MB 数据文件的 T 检验,端到端耗时(含网络传输)不超过 5秒。
- 复现性:下载的 R 代码包,在干净的本地 R 环境中安装依赖后,必须能跑通并产出相同结果。
- 隐私:审计日志中严禁出现具体的患者隐私数据(Row Data)。
7. 附录:工具列表 (MVP Top 10)
- 独立样本 T 检验 (Independent T-Test)
- 配对样本 T 检验 (Paired T-Test)
- 单因素方差分析 (One-way ANOVA)
- 卡方检验 (Chi-square Test)
- Fisher 精确检验
- Mann-Whitney U 检验 (Wilcoxon Rank Sum)
- Pearson/Spearman 相关性分析
- 单因素线性回归 (Simple Linear Regression)
- 生存分析 (Kaplan-Meier Curve)
- Cox 比例风险回归 (Cox Regression)