AIclinicalresearch/docs/03-业务模块/SSA-智能统计分析/00-系统设计/Planner 统计分析计划与配置映射.md

# **专家视角：统计分析计划 (SAP) 的解构与配置映射**

**文档版本：** v1.0

**创建日期：** 2026-02-18

**核心议题：** 从医学统计专家的视角，重新定义 Planner 的规划逻辑与 Admin 的配置要素。

## **1\. 统计专家的“问诊”逻辑 (The Statistician's Mindset)**

当医生拿着数据来找我（统计专家）时，我脑子里的思维路径是这样的：

### **第一步：明确研究目的 (Objective)**

* **专家会问**：你是要描述现状？比较差异？探索关联？还是预测未来？
* **系统映射**：**意图识别配置**。
  * *Config*: 关键词映射表（"影响因素" \-\> 回归分析；"疗效对比" \-\> 差异检验）。

### **第二步：明确数据特征 (Data Characteristics)**

* **专家会问**：你的结局变量（Y）是什么类型的？（连续/分类/生存时间）你的分组变量（X）是几组？数据是独立采样的，还是同一个病人前后的对比（配对）？
* **系统映射**：**变量角色定义**。
  * *Config*: 工具的适用数据类型约束（如：ST\_T\_TEST\_IND 要求 Y=Numeric, X=Categorical(2 levels), Design=Independent）。

### **第三步：制定分析策略 (Strategy)**

* **专家会想**：既然是比较两组连续变量，先看正态性。如果正态，用 T 检验；如果不正态，用 Wilcoxon。最后还要画个图直观展示。
* **系统映射**：**决策树与组合配置**。
  * *Config*: 不仅仅配置“一个工具”，而是配置 **"标准分析流 (SOP)"**。

## **2\. 一份标准的 SAP 包括什么？ (Anatomy of SAP)**

Planner 生成的不仅仅是一个 Tool Code，而应该是一份完整的**作战地图**。

### **2.1 SAP 的核心要素**

1. **分析集定义 (Analysis Set)**：全分析集 (FAS) 还是符合方案集 (PPS)？（MVP 阶段默认全数据）。
2. **变量操作 (Data Manipulation)**：需要计算 BMI 吗？需要把年龄分段吗？
3. **描述性统计 (Descriptive)**：基线表怎么做？（连续变量算 Mean±SD，分类变量算 N(%)）。
4. **推断性统计 (Inference)**：核心假设检验方法（方法论 \+ 假设前提）。
5. **图表规划 (Visualization)**：用什么图展示结果最直观？

### **2.2 我们的 Planner 应该输出什么？**

用户看到的“预习卡片”，本质上就是 SAP 的摘要版：

**🎯 统计分析计划**

1. **研究假设**：男性与女性的血糖水平存在差异。
2. **数据清洗**：剔除 GLU 为空的样本；自动计算 BMI \= Weight/Height^2。
3. **统计方法**：
   * 优先使用 **独立样本 T 检验**。
   * **前置条件**：需满足正态性（Shapiro-Wilk P \> 0.05）。
   * **替代方案**：若不满足，转为 **Mann-Whitney U 检验**。
4. **图表展示**：分组箱线图 (Boxplot) 叠加散点。

## **3\. 这种视角下，后台需要配置什么？ (Config Requirements)**

我们要配置的不是“API 参数”，而是\*\*“统计学家的知识图谱”\*\*。我们需要在 Excel 中增加这几列：

### **3.1 决策逻辑配置 (Decision Logic)**

这是 Planner 的核心。专家需要定义：

| 配置项 | 含义 | 示例 (T检验) |
| :---- | :---- | :---- |
| **Goal\_Type** | 分析目的 | Difference (差异比较) |
| **Y\_Type** | 因变量类型 | Continuous (连续数值) |
| **X\_Type** | 自变量类型 | Categorical\_2 (二分类) |
| **Design\_Type** | 设计类型 | Independent (独立) |
| **Pre\_Conditions** | 前置假设 | Normality, Homogeneity |

**Planner 的逻辑**：

用户输入 \-\> 提取 (Goal, X, Y) \-\> **查配置表匹配** \-\> 命中 ST\_T\_TEST\_IND。

### **3.2 完整分析流配置 (Analysis Flow)**

一个工具往往伴随着一套动作。专家需要定义“套餐”：

| 配置项 | 含义 | 示例 |
| :---- | :---- | :---- |
| **Main\_Method** | 主方法 | t.test |
| **Desc\_Method** | 描述方法 | mean\_sd (均值标准差) |
| **Plot\_Type** | 推荐图表 | boxplot \+ jitter |
| **Alt\_Method** | 替代方法 | wilcox.test (非参数) |

### **3.3 结果解读模板 (Narrative Template)**

专家要教 AI 怎么写论文里的“结果”部分。

* **配置内容**：
  "本研究共纳入 {{n}} 例样本。{{group\_col}} 各组间 {{val\_col}} 的差异 {{significance}} (t={{statistic}}, P={{p\_value}})。如图 1 所示，{{high\_group}} 的数值显著高于 {{low\_group}}。"

## **4\. 对架构的深层影响**

您的质疑直接推动了 **Config Center (配置中台)** 的升维。

1. **Planner 变重了**：它不能只做简单的 RAG 检索。它需要内置一个**轻量级的推理机**（基于专家配置的决策表），来模拟专家“看病”的过程。
2. **Executor 变纯粹了**：它只需要忠实地执行 SAP 中的指令（包括主方法、替代方法、画图）。
3. **Excel 配置表变复杂了**：我们需要设计一个更结构化的 Excel，让专家能把这些逻辑填进去。

### **新版 Excel 配置结构预览**

**Sheet: Knowledge\_Graph (知识图谱)**

* Scenario\_ID: 场景代码 (如 DIFF\_NUM\_2GRP\_IND)
* User\_Intent: 用户意图 (差异比较)
* Data\_Pattern: 数据特征 (Y=数值, X=2分类, 独立)
* Rec\_Tool\_Code: 推荐工具 (ST\_T\_TEST\_IND)

**Sheet: Tool\_Definition (工具定义)**

* Tool\_Code: ST\_T\_TEST\_IND
* Workflow: \[Check\_Normality, Check\_Variance, Run\_Test, Plot\_Box\] (定义一连串动作)
* Report\_Template: 结果解释模板...

## **5\. 总结**

您是对的。**统计分析规划（Planner）的核心不是“检索”，而是“匹配”和“决策”。**

我们需要了解用户的：

1. **目的** (差异/相关/预测)
2. **变量类型** (数值/分类/等级)
3. **实验设计** (独立/配对/随访)

**我们的系统配置，必须围绕这三个维度展开。** 只有这样，SSA-Pro 才能生成一份让医生信服的 SAP，而不仅仅是扔给用户一个 T 检验代码。