Files
AIclinicalresearch/docs/03-业务模块/SSA-智能统计分析/00-系统设计/PRD SSA-Pro 严谨型智能统计分析模块.md
HaHafeng 8137e3cde2 feat(ssa): Complete SSA-Pro MVP development plan v1.3
Summary:

- Add PRD and architecture design V4 (Brain-Hand model)

- Complete 5 development guide documents

- Pass 3 rounds of team review (v1.0 -> v1.3)

- Add module status guide document

- Update system status document

Key Features:

- Brain-Hand architecture: Node.js + R Docker

- Statistical guardrails with auto degradation

- HITL workflow: PlanCard -> ExecutionTrace -> ResultCard

- Mixed data protocol: inline vs OSS

- Reproducible R code delivery

MVP Scope: 10 statistical tools

Status: Design 100%, ready for development
Co-authored-by: Cursor <cursoragent@cursor.com>
2026-02-18 21:58:37 +08:00

7.5 KiB
Raw Permalink Blame History

PRD: SSA-Pro 严谨型智能统计分析模块 (V1.0)

文档状态: v1.0 (Final)

创建日期: 2026-02-18

关联架构: SSA-Pro_智能统计分析架构设计方案_V4.md

关联规范: SSA-Pro_Skills架构规范_V4.1.md

1. 研发背景与业务价值

1.1 背景 (Why Now?)

目前平台的 AIA (问答)DC (清洗) 模块已趋于成熟,但在核心统计分析环节仍存在断层:

  1. 用户痛点临床医生普遍缺乏统计学能力SPSS/SAS 操作复杂,且容易误用统计方法(如数据不符合正态分布却强行用 T 检验)。
  2. 竞品缺陷:通用的 AI如 ChatGPT虽然能写代码但经常产生“幻觉”生成的代码在本地无法运行且存在严重的数据隐私泄露风险。
  3. 资产闲置:公司内部积累了 100+ 高质量的 R 语言统计脚本,目前处于“沉睡”状态,未能转化为 SaaS 服务能力。

1.2 产品目标 (Product Goal)

构建一个 “白盒化、严谨型、可交付” 的智能统计分析 Agent (SSA-Pro)。

  • 白盒化:分析过程透明,用户可见(执行路径、护栏检查)。
  • 严谨型强制执行统计假设检验Guardrails防止学术谬误。
  • 可交付:不仅提供结果,还提供可复现的 R 源代码,支持本地二次运行。

2. 核心能力与功能列表

2.1 核心流程 (The Core Loop)

交互模式采用 "Retrieve-Plan-Confirm-Execute" 闭环:

步骤 功能模块 关键动作 交付物
1 智能规划 (Planner) 意图识别 + RAG 检索 + 参数映射 分析预习卡片 (Plan Card)
2 人机确认 (HITL) 用户检查参数,点击确认 用户授权指令
3 透明执行 (Execution) 混合数据传输 + 统计护栏 + 核心计算 执行路径树 (Execution Trace)
4 资产交付 (Delivery) 结果解释 + 代码生成 + 报告导出 分析结果包 (Result + Code)

2.2 功能详细说明

F1. 智能工具检索 (Tool RAG)

  • 需求:系统需从 100+ 工具中,根据用户自然语言(如“看两组差异”)精准推荐最合适的工具。
  • 技术支撑:基于 pgvector 的语义检索 + pg_bigm 关键词匹配。
  • 输入:用户 Query + 数据 Schema列名/类型)。
  • 输出Top-5 候选工具的 JSON Schema。

F2. 统计分析计划生成 (SAP Generation)

  • 需求AI 不直接跑代码,而是先像人类统计师一样,写一份 SAP统计分析计划
  • 内容包含分析目标、变量映射X/Y、前置假设条件如正态性、降级策略。
  • 表现形式:前端渲染为 "待确认卡片",用户可修改参数。

F3. 统计护栏与自动降级 (Guardrails)

  • 需求:在执行核心检验前,必须强制检查数据质量与统计假设。
  • 逻辑示例(以 T 检验为例):
    1. 检查样本量是否 > 3。
    2. 执行 Shapiro-Wilk 正态性检验。
    3. 决策点:若 P < 0.05(非正态),自动切换为 Wilcoxon 秩和检验,并在前端亮黄灯提示。
  • 价值:这是本产品区别于 ChatGPT 的核心护城河。

F4. 混合数据传输 (Hybrid Data Protocol)

  • 需求:支持不同大小的数据集高效传输,规避 HTTP JSON 瓶颈。
  • 策略
    • < 1MB:直接嵌入 API 请求体Inline JSON
    • 1MB - 20MB:前端先传 OSS仅向 R 服务传递 OSS File KeyR 服务内网下载。

F5. 代码资产交付 (Reproducible Code)

  • 需求:用户下载的 R 代码必须能在其本地 RStudio 中直接运行。
  • 实现R Wrapper 动态拼接代码字符串,数据读取路径替换为占位符 read.csv("your_data.csv")。

3. 技术路线与架构 (Technical Specifications)

3.1 总体架构Brain-Hand 模型

本模块严格遵循公司 V4.1 架构标准

  • Brain (Node.js)负责认知、规划、检索、Prompt 组装。绝不处理真实数据内容,只看 Schema。
  • Hand (R Docker):负责执行、计算、绘图。运行在隔离容器中,处理真实数据。

3.2 关键技术栈

  • 后端Node.js (Fastify) + Prisma
  • 统计引擎Docker + R 4.3 + Plumber (API 服务)
  • 向量库RDS PostgreSQL + pgvector
  • 大模型DeepSeek-V3 (Planner/Critic)
  • 前端React 19 + Ant Design X

3.3 数据库设计摘要 (Schema)

需在 capability_schema 中建立全局统一的技能注册表:

-- 核心表:统计技能注册表
CREATE TABLE capability_schema.global_skills (
skill_code VARCHAR(50) PRIMARY KEY, -- e.g. ST_T_TEST
provider VARCHAR(50), -- 'SSA-R-SERVICE'
input_schema JSONB, -- OpenAI Function Schema
embedding vector(1024) -- 用于 RAG 检索
);

4. 数据隐私与安全 (Safety & Privacy)

4.1 数据隔离原则

  • 原则LLM 永远不可见真实患者数据。
  • 实现:前端提取 Header 发送给 LLM 做规划;前端将 CSV 发送给 R 服务做计算。两者物理隔离。

4.2 R 容器安全

  • 网络阻断:生产环境 SAE 容器配置 Egress Deny禁止 R 脚本主动发起外网请求。
  • 只读文件系统R 脚本目录设为 Read-Only防止代码篡改。

5. 开发里程碑 (Roadmap)

Phase 1: 骨架搭建 (Week 1-2)

  • 目标:跑通 T 检验的 "Hello World"。
  • 产出
    • R Docker 基础镜像 (含 Plumber)。
    • 第 1 个标准化 Wrapper (T-Test)。
    • Node.js -> R 的同步 API 调通。

Phase 2: 交互 MVP (Week 3-5)

  • 目标:用户可用,体验完整。
  • 产出
    • 集成 RAG 检索AI 能听懂“做个差异分析”。
    • 前端“确认卡片”与“执行树”组件上线。
    • 上线 Top 10 高频统计工具。

Phase 3: 量产与 Skills 化 (Week 6-8)

  • 目标:工具丰富,能力开放。
  • 产出
    • 覆盖 50+ 常用工具。
    • 完成 Global Skill Registry 注册,允许 IIT Manager 模块调用 SSA 能力。

6. 验收标准 (Acceptance Criteria)

  1. 准确性:对于非正态数据,系统必须自动降级为非参数检验,并给出提示。
  2. 性能20MB 数据文件的 T 检验,端到端耗时(含网络传输)不超过 5秒
  3. 复现性:下载的 R 代码包,在干净的本地 R 环境中安装依赖后,必须能跑通并产出相同结果。
  4. 隐私:审计日志中严禁出现具体的患者隐私数据Row Data

7. 附录:工具列表 (MVP Top 10)

  1. 独立样本 T 检验 (Independent T-Test)
  2. 配对样本 T 检验 (Paired T-Test)
  3. 单因素方差分析 (One-way ANOVA)
  4. 卡方检验 (Chi-square Test)
  5. Fisher 精确检验
  6. Mann-Whitney U 检验 (Wilcoxon Rank Sum)
  7. Pearson/Spearman 相关性分析
  8. 单因素线性回归 (Simple Linear Regression)
  9. 生存分析 (Kaplan-Meier Curve)
  10. Cox 比例风险回归 (Cox Regression)