AIclinicalresearch/docs/03-业务模块/SSA-智能统计分析/00-系统设计/SSA-Pro_v2.0_双引擎架构版 V2.1.md

# **PRD: SSA-Pro 智能统计分析 (v2.0 双引擎架构版)**

**文档状态：** v2.1 (Optimized for User Scenarios)

**发布日期：** 2026-02-18

**文档密级：** 内部绝密

**核心变更：** \> 1\. 重构业务流程，确立“智能分析（混合模式）”为主流程。

2\. 明确“执行模式”为“标准化复用”场景，而非手动填参。

3\. 强化“专家配置”在架构中的核心地位。

## **1\. 核心变革说明 (Executive Summary)**

**致研发团队：为什么要进行这次架构升级？**

经过前几轮的技术验证与业务推演，我们发现原有的“上传-\>规划-\>执行”一条龙模式存在两个致命的业务死角：

1. **用户意图模糊**：用户往往不知道自己要做什么（如“帮我分析一下”），直接跑代码会报错或产生无意义结果。
2. **统计专家缺位**：护栏规则硬编码在代码里，统计专家无法维护，导致系统缺乏“灵魂”。

因此，我们将架构解耦为**两个独立子系统**，通过编排满足不同场景：

* **Planner（大脑）**：负责陪聊、澄清意图、生成方案。**（独立上线，无需数据）**
* **Executor（四肢）**：负责接收明确指令、跑数、出结果。**（复用之前的 R 开发成果）**

**架构拆分与用户体验的关系：**

架构上的拆分（Planner/Executor）是为了技术上的解耦和复用，但在用户体验端，对于最常见的“智能分析”场景，我们将这两者**无缝串联**，给用户提供“一站式”体验。

## **2\. 研发背景与业务价值**

### **2.1 用户真实痛点**

* **场景 A (无数据)**：医生在写基金本子，还没收病人，但他急需一份《统计学分析计划书》来填表。原方案不支持此场景。
* **场景 B (数据脏)**：医生上传的 Excel 列名全是中文，且有特殊字符。原方案直接跑 R 会崩溃。
* **场景 C (隐私顾虑)**：医生不敢把数据上传到云端，但又想知道该用什么统计方法。

### **2.2 产品解决方案：双引擎 \+ 配置中台**

1. **独立咨询 (SSA-Planner)**：无需上传数据，通过多轮对话澄清意图，输出专业的 SAP (分析计划)。
2. **独立计算 (SSA-Executor)**：用户确认方案后，再上传数据，一键执行计算，交付代码。
3. **专家协同 (Config Center)**：统计专家通过 Excel 配置规则，系统动态加载，不再硬编码。

### **2.3 商业价值**

* **降低门槛**：用户不用传数据就能体验 AI 能力（Planner），极大地提高了转化率。
* **数据安全**：实现了逻辑（云端）与数据（本地/隔离）的彻底解耦。

## **3\. 系统架构与模块定义**

### **3.1 总体架构图**

graph TD
    subgraph "用户触点"
        Chat\[前端 Chat 界面\]
    end

    subgraph "Module A: 智能规划师 (SSA-Planner)"
        Intent\[意图识别引擎\]
        Clarify\[澄清引导模块\]
        GenSAP\[SAP 生成模块\]
    end

    subgraph "Module B: 智能执行器 (SSA-Executor)"
        API\[Executor API\]
        R\_Core\[R Docker 容器\]
        Guard\[统计护栏\]
    end

    subgraph "Module C: 统计配置中台 (Admin)"
        Meta\[元数据管理\]
        Rules\[规则引擎\]
        Templates\[代码模板\]
    end

    Chat \--"1. 咨询/方案"--\> Intent
    Intent \<--\> Clarify
    Intent \--\> GenSAP

    Chat \--"2. 执行/计算"--\> API
    API \--\> R\_Core

    Meta \-.-\> Intent
    Rules \-.-\> Guard

### **3.2 模块功能详述**

#### **🧩 模块 A：SSA-Planner (智能规划师)**

* **定位**：纯 NLP 应用，不涉及 R 计算。
* **输入**：自然语言 \+ (可选) 数据 Schema。
* **核心能力**：
  * **意图澄清**：当用户指令模糊时，主动反问（"您是想做差异分析还是相关性分析？"）。
  * **方案生成**：检索 RAG 库，生成结构化的 JSON 计划和 Markdown 报告。
* **交付物**：《统计分析计划书》 (PDF/Word)。

#### **🧩 模块 B：SSA-Executor (智能执行器)**

* **定位**：纯计算服务，无状态 API。
* **输入**：skill\_code \+ params \+ data\_source。
* **核心能力**：
  * **混合数据加载**：支持 JSON 和 OSS 数据源。
  * **护栏检查**：执行正态性、方差齐性检查。
  * **结果交付**：生成三线表、高清图、R 源码。
* **技术备注**：**这部分完全复用原 V1.3 计划中的 R 服务开发内容。**
* **注意**：Executor 无法直接处理用户的自然语言。必须经由 Planner 将自然语言转化为结构化参数后，才能被调用。

#### **🧩 模块 C：统计配置中台 (Config Center)**

* **定位**：专家知识注入入口。
* **MVP 实现**：**Excel 导入工具**。
* **配置内容**：
  * 工具定义（Name, Desc, Usage）。
  * 护栏阈值（P \< 0.05）。
  * R 代码模板（Glue Template）。

## **4\. 核心业务流程 (User Journey)**

### **流程一：智能分析模式 (Intelligent Analysis Mode) \- ⭐ 最常见场景**

**场景**：用户有数据，有模糊的意图（如“帮我对比一下差异”），希望一站式出结果。

**架构逻辑**：串联调用 Planner \-\> Executor。

1. **用户**：上传 data.csv 并输入：“帮我对比一下吸烟组和非吸烟组的体重差异”。
2. **Planner**（后台隐形介入）：
   * 读取 Data Schema，识别出 Group 和 Weight 列。
   * 理解用户意图（"对比差异"），结合变量类型（二分类 vs 连续），推荐“独立样本 T 检验”。
   * 生成 Executor 能听懂的 JSON 参数。
3. **交互**：系统弹出 **\[ 方案确认卡片 \]**（由 Planner 生成）。
   * *设计意图*：给用户一种“专家先审视，再执行”的安全感。
4. **用户**：点击 **\[ 确认并执行 \]**。
5. **Executor**：接收 Planner 的 JSON \-\> 跑 R 代码 \-\> 返回结果。
6. **用户**：获得结果。

### **流程二：纯咨询模式 (Consultation Mode) \- 科研设计场景**

**场景**：用户还没收集数据（无数据），在写开题报告或基金标书，需要设计统计方案。

**架构逻辑**：仅调用 Planner。

1. **用户**：“我想研究阿司匹林对心血管事件的影响，该怎么设计统计？”
2. **Planner**：检索知识库，生成《统计分析计划书 (SAP)》。
   * 包含：研究假设、变量定义、推荐方法（Cox 回归）、样本量估算建议。
3. **用户**：下载 SAP 文档。**（流程结束）**

### **流程三：标准化复用模式 (Standardized Reuse Mode) \- 专家/高阶场景**

**场景**：

1. **复用**：上周生成了一个完美的 SAP，这周新数据来了，直接套用，不想再跟 AI 废话。
2. **专家下发**：科室主任定义好了标准分析流程，存为模板，研究生直接上传数据运行。
   **架构逻辑**：跳过 Planner 推理，直接调用 Executor。
1. **用户**：上传 new\_data.csv，并从“我的方案库”中选择“肺癌生存分析标准模板”（或加载之前的 SAP ID）。
2. **系统**：自动校验新数据是否符合模板要求的列名（Schema Check）。
3. **Executor**：直接读取模板参数 \-\> 跑数 \-\> 出结果。
4. **用户**：下载结果。

## **5\. 接口与数据协议 (Schema)**

### **5.1 Planner 输出协议 (Plan JSON)**

这是连接 Planner 和 Executor 的契约。

{
  "analysis\_id": "uuid",
  "tool\_code": "ST\_T\_TEST\_IND",
  "reasoning": "因变量为连续数值，自变量为二分类...",
  "params": {
    "group\_col": "Gender",
    "val\_col": "BMI",
    "conf\_level": 0.95
  },
  "guardrails": {
    "check\_normality": true,
    "action\_on\_fail": "switch\_to\_wilcoxon"
  }
}

## **6\. 实施路线图 (Updated Roadmap)**

基于新架构，我们将开发顺序调整为 **“Planner 先行，Executor 并行”**。

### **Phase 1: 智能规划师上线 (Week 1-2)**

* **目标**：上线“统计咨询 Chatbot”。
* **后端**：开发 Excel 配置导入脚本；开发 Planner Service (DeepSeek)。
* **前端**：开发咨询模式 UI。
* **专家**：整理 Top 10 工具的 Excel 配置。
* *注：此阶段不需要 R 服务参与。*

### **Phase 2: 执行器与联调 (Week 3-4)**

* **目标**：打通计算闭环。
* **R 团队**：完成 Docker 封装、数据加载器 (Data Loader)、T 检验 Wrapper。
* **后端**：对接 R API，透传 Planner 的参数。
* **前端**：开发结果展示卡片。

### **Phase 3: 量产与优化 (Week 5+)**

* **目标**：覆盖更多工具。
* **R 团队**：批量复制开发剩余 9 个工具。
* **专家**：持续优化配置 Excel。

## **7\. 风险与应对**

| **风险点** | **影响** | **应对策略** |

| **Planner 瞎指挥** | 生成的参数 Executor 无法执行 | 引入 **Zod Schema 强校验**，参数不合法直接让 AI 重试。 |

| **数据列名不匹配** | R 代码报错 "Column not found" | 在 Executor 入口增加 **模糊匹配/同义词映射** 逻辑。 |

| **专家配置进度慢** | 阻塞 Planner 上线 | 提供标准模板，先配 1 个工具（T检验）跑通全流程。 |

## **8\. 结语**

这次架构调整不是推翻过去，而是**升维**。

我们保留了最核心的 **R 计算引擎 (Executor)**，它是我们的硬实力；

我们剥离出了 **AI 规划师 (Planner)**，它是我们的软实力；

我们引入了 **配置中台**，它是我们的护城河。

请大家基于此文档，放心开工。