# **PRD: SSA-Pro 严谨型智能统计分析模块 (V1.0)** **文档状态:** v1.0 (Final) **创建日期:** 2026-02-18 **关联架构:** [SSA-Pro\_智能统计分析架构设计方案\_V4.md](https://www.google.com/search?q=../09-SSA-Pro_%E6%99%BA%E8%83%BD%E7%BB%9F%E8%AE%A1%E5%88%86%E6%9E%90%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1%E6%96%B9%E6%A1%88_V4.md) **关联规范:** [SSA-Pro\_Skills架构规范\_V4.1.md](https://www.google.com/search?q=../16-SSA-Pro_Skills%E6%9E%B6%E6%9E%84%E8%A7%84%E8%8C%83_V4.1.md) ## **1\. 研发背景与业务价值** ### **1.1 背景 (Why Now?)** 目前平台的 **AIA (问答)** 和 **DC (清洗)** 模块已趋于成熟,但在**核心统计分析**环节仍存在断层: 1. **用户痛点**:临床医生普遍缺乏统计学能力,SPSS/SAS 操作复杂,且容易误用统计方法(如数据不符合正态分布却强行用 T 检验)。 2. **竞品缺陷**:通用的 AI(如 ChatGPT)虽然能写代码,但经常产生“幻觉”,生成的代码在本地无法运行,且存在严重的数据隐私泄露风险。 3. **资产闲置**:公司内部积累了 100+ 高质量的 R 语言统计脚本,目前处于“沉睡”状态,未能转化为 SaaS 服务能力。 ### **1.2 产品目标 (Product Goal)** 构建一个 **“白盒化、严谨型、可交付”** 的智能统计分析 Agent (SSA-Pro)。 * **白盒化**:分析过程透明,用户可见(执行路径、护栏检查)。 * **严谨型**:强制执行统计假设检验(Guardrails),防止学术谬误。 * **可交付**:不仅提供结果,还提供**可复现的 R 源代码**,支持本地二次运行。 ## **2\. 核心能力与功能列表** ### **2.1 核心流程 (The Core Loop)** 交互模式采用 **"Retrieve-Plan-Confirm-Execute"** 闭环: | 步骤 | 功能模块 | 关键动作 | 交付物 | | :---- | :---- | :---- | :---- | | **1** | **智能规划 (Planner)** | 意图识别 \+ RAG 检索 \+ 参数映射 | **分析预习卡片 (Plan Card)** | | **2** | **人机确认 (HITL)** | 用户检查参数,点击确认 | 用户授权指令 | | **3** | **透明执行 (Execution)** | 混合数据传输 \+ 统计护栏 \+ 核心计算 | **执行路径树 (Execution Trace)** | | **4** | **资产交付 (Delivery)** | 结果解释 \+ 代码生成 \+ 报告导出 | **分析结果包 (Result \+ Code)** | ### **2.2 功能详细说明** #### **F1. 智能工具检索 (Tool RAG)** * **需求**:系统需从 100+ 工具中,根据用户自然语言(如“看两组差异”)精准推荐最合适的工具。 * **技术支撑**:基于 pgvector 的语义检索 \+ pg\_bigm 关键词匹配。 * **输入**:用户 Query \+ 数据 Schema(列名/类型)。 * **输出**:Top-5 候选工具的 JSON Schema。 #### **F2. 统计分析计划生成 (SAP Generation)** * **需求**:AI 不直接跑代码,而是先像人类统计师一样,写一份 SAP(统计分析计划)。 * **内容包含**:分析目标、变量映射(X/Y)、前置假设条件(如正态性)、降级策略。 * **表现形式**:前端渲染为 **"待确认卡片"**,用户可修改参数。 #### **F3. 统计护栏与自动降级 (Guardrails)** * **需求**:在执行核心检验前,必须强制检查数据质量与统计假设。 * **逻辑示例**(以 T 检验为例): 1. 检查样本量是否 \> 3。 2. 执行 Shapiro-Wilk 正态性检验。 3. **决策点**:若 P \< 0.05(非正态),自动切换为 **Wilcoxon 秩和检验**,并在前端亮黄灯提示。 * **价值**:这是本产品区别于 ChatGPT 的核心护城河。 #### **F4. 混合数据传输 (Hybrid Data Protocol)** * **需求**:支持不同大小的数据集高效传输,规避 HTTP JSON 瓶颈。 * **策略**: * **\< 1MB**:直接嵌入 API 请求体(Inline JSON)。 * **1MB \- 20MB**:前端先传 OSS,仅向 R 服务传递 OSS File Key,R 服务内网下载。 #### **F5. 代码资产交付 (Reproducible Code)** * **需求**:用户下载的 R 代码必须能在其本地 RStudio 中直接运行。 * **实现**:R Wrapper 动态拼接代码字符串,数据读取路径替换为占位符 read.csv("your\_data.csv")。 ## **3\. 技术路线与架构 (Technical Specifications)** ### **3.1 总体架构:Brain-Hand 模型** 本模块严格遵循公司 **V4.1 架构标准**: * **Brain (Node.js)**:负责认知、规划、检索、Prompt 组装。**绝不处理真实数据内容**,只看 Schema。 * **Hand (R Docker)**:负责执行、计算、绘图。**运行在隔离容器中**,处理真实数据。 ### **3.2 关键技术栈** * **后端**:Node.js (Fastify) \+ Prisma * **统计引擎**:Docker \+ R 4.3 \+ Plumber (API 服务) * **向量库**:RDS PostgreSQL \+ pgvector * **大模型**:DeepSeek-V3 (Planner/Critic) * **前端**:React 19 \+ Ant Design X ### **3.3 数据库设计摘要 (Schema)** 需在 capability\_schema 中建立全局统一的技能注册表: \-- 核心表:统计技能注册表 CREATE TABLE capability\_schema.global\_skills ( skill\_code VARCHAR(50) PRIMARY KEY, \-- e.g. ST\_T\_TEST provider VARCHAR(50), \-- 'SSA-R-SERVICE' input\_schema JSONB, \-- OpenAI Function Schema embedding vector(1024) \-- 用于 RAG 检索 ); ## **4\. 数据隐私与安全 (Safety & Privacy)** ### **4.1 数据隔离原则** * **原则**:**LLM 永远不可见真实患者数据。** * **实现**:前端提取 Header 发送给 LLM 做规划;前端将 CSV 发送给 R 服务做计算。两者物理隔离。 ### **4.2 R 容器安全** * **网络阻断**:生产环境 SAE 容器配置 Egress Deny,禁止 R 脚本主动发起外网请求。 * **只读文件系统**:R 脚本目录设为 Read-Only,防止代码篡改。 ## **5\. 开发里程碑 (Roadmap)** ### **Phase 1: 骨架搭建 (Week 1-2)** * **目标**:跑通 T 检验的 "Hello World"。 * **产出**: * R Docker 基础镜像 (含 Plumber)。 * 第 1 个标准化 Wrapper (T-Test)。 * Node.js \-\> R 的同步 API 调通。 ### **Phase 2: 交互 MVP (Week 3-5)** * **目标**:用户可用,体验完整。 * **产出**: * 集成 RAG 检索,AI 能听懂“做个差异分析”。 * 前端“确认卡片”与“执行树”组件上线。 * 上线 Top 10 高频统计工具。 ### **Phase 3: 量产与 Skills 化 (Week 6-8)** * **目标**:工具丰富,能力开放。 * **产出**: * 覆盖 50+ 常用工具。 * 完成 **Global Skill Registry** 注册,允许 IIT Manager 模块调用 SSA 能力。 ## **6\. 验收标准 (Acceptance Criteria)** 1. **准确性**:对于非正态数据,系统**必须**自动降级为非参数检验,并给出提示。 2. **性能**:20MB 数据文件的 T 检验,端到端耗时(含网络传输)不超过 **5秒**。 3. **复现性**:下载的 R 代码包,在干净的本地 R 环境中安装依赖后,**必须**能跑通并产出相同结果。 4. **隐私**:审计日志中**严禁**出现具体的患者隐私数据(Row Data)。 ## **7\. 附录:工具列表 (MVP Top 10\)** 1. 独立样本 T 检验 (Independent T-Test) 2. 配对样本 T 检验 (Paired T-Test) 3. 单因素方差分析 (One-way ANOVA) 4. 卡方检验 (Chi-square Test) 5. Fisher 精确检验 6. Mann-Whitney U 检验 (Wilcoxon Rank Sum) 7. Pearson/Spearman 相关性分析 8. 单因素线性回归 (Simple Linear Regression) 9. 生存分析 (Kaplan-Meier Curve) 10. Cox 比例风险回归 (Cox Regression)