Files
AIclinicalresearch/docs/03-业务模块/SSA-智能统计分析/00-系统设计/Planner 统计分析计划与配置映射.md

128 lines
5.9 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# **专家视角:统计分析计划 (SAP) 的解构与配置映射**
**文档版本:** v1.0
**创建日期:** 2026-02-18
**核心议题:** 从医学统计专家的视角,重新定义 Planner 的规划逻辑与 Admin 的配置要素。
## **1\. 统计专家的“问诊”逻辑 (The Statistician's Mindset)**
当医生拿着数据来找我(统计专家)时,我脑子里的思维路径是这样的:
### **第一步:明确研究目的 (Objective)**
* **专家会问**:你是要描述现状?比较差异?探索关联?还是预测未来?
* **系统映射****意图识别配置**。
* *Config*: 关键词映射表("影响因素" \-\> 回归分析;"疗效对比" \-\> 差异检验)。
### **第二步:明确数据特征 (Data Characteristics)**
* **专家会问**你的结局变量Y是什么类型的连续/分类/生存时间你的分组变量X是几组数据是独立采样的还是同一个病人前后的对比配对
* **系统映射****变量角色定义**。
* *Config*: 工具的适用数据类型约束ST\_T\_TEST\_IND 要求 Y=Numeric, X=Categorical(2 levels), Design=Independent
### **第三步:制定分析策略 (Strategy)**
* **专家会想**:既然是比较两组连续变量,先看正态性。如果正态,用 T 检验;如果不正态,用 Wilcoxon。最后还要画个图直观展示。
* **系统映射****决策树与组合配置**。
* *Config*: 不仅仅配置“一个工具”,而是配置 **"标准分析流 (SOP)"**。
## **2\. 一份标准的 SAP 包括什么? (Anatomy of SAP)**
Planner 生成的不仅仅是一个 Tool Code而应该是一份完整的**作战地图**。
### **2.1 SAP 的核心要素**
1. **分析集定义 (Analysis Set)**:全分析集 (FAS) 还是符合方案集 (PPS)MVP 阶段默认全数据)。
2. **变量操作 (Data Manipulation)**:需要计算 BMI 吗?需要把年龄分段吗?
3. **描述性统计 (Descriptive)**:基线表怎么做?(连续变量算 Mean±SD分类变量算 N(%))。
4. **推断性统计 (Inference)**:核心假设检验方法(方法论 \+ 假设前提)。
5. **图表规划 (Visualization)**:用什么图展示结果最直观?
### **2.2 我们的 Planner 应该输出什么?**
用户看到的“预习卡片”,本质上就是 SAP 的摘要版:
**🎯 统计分析计划**
1. **研究假设**:男性与女性的血糖水平存在差异。
2. **数据清洗**:剔除 GLU 为空的样本;自动计算 BMI \= Weight/Height^2。
3. **统计方法**
* 优先使用 **独立样本 T 检验**
* **前置条件**需满足正态性Shapiro-Wilk P \> 0.05)。
* **替代方案**:若不满足,转为 **Mann-Whitney U 检验**
4. **图表展示**:分组箱线图 (Boxplot) 叠加散点。
## **3\. 这种视角下,后台需要配置什么? (Config Requirements)**
我们要配置的不是“API 参数”,而是\*\*“统计学家的知识图谱”\*\*。我们需要在 Excel 中增加这几列:
### **3.1 决策逻辑配置 (Decision Logic)**
这是 Planner 的核心。专家需要定义:
| 配置项 | 含义 | 示例 (T检验) |
| :---- | :---- | :---- |
| **Goal\_Type** | 分析目的 | Difference (差异比较) |
| **Y\_Type** | 因变量类型 | Continuous (连续数值) |
| **X\_Type** | 自变量类型 | Categorical\_2 (二分类) |
| **Design\_Type** | 设计类型 | Independent (独立) |
| **Pre\_Conditions** | 前置假设 | Normality, Homogeneity |
**Planner 的逻辑**
用户输入 \-\> 提取 (Goal, X, Y) \-\> **查配置表匹配** \-\> 命中 ST\_T\_TEST\_IND。
### **3.2 完整分析流配置 (Analysis Flow)**
一个工具往往伴随着一套动作。专家需要定义“套餐”:
| 配置项 | 含义 | 示例 |
| :---- | :---- | :---- |
| **Main\_Method** | 主方法 | t.test |
| **Desc\_Method** | 描述方法 | mean\_sd (均值标准差) |
| **Plot\_Type** | 推荐图表 | boxplot \+ jitter |
| **Alt\_Method** | 替代方法 | wilcox.test (非参数) |
### **3.3 结果解读模板 (Narrative Template)**
专家要教 AI 怎么写论文里的“结果”部分。
* **配置内容**
"本研究共纳入 {{n}} 例样本。{{group\_col}} 各组间 {{val\_col}} 的差异 {{significance}} (t={{statistic}}, P={{p\_value}})。如图 1 所示,{{high\_group}} 的数值显著高于 {{low\_group}}。"
## **4\. 对架构的深层影响**
您的质疑直接推动了 **Config Center (配置中台)** 的升维。
1. **Planner 变重了**:它不能只做简单的 RAG 检索。它需要内置一个**轻量级的推理机**(基于专家配置的决策表),来模拟专家“看病”的过程。
2. **Executor 变纯粹了**:它只需要忠实地执行 SAP 中的指令(包括主方法、替代方法、画图)。
3. **Excel 配置表变复杂了**:我们需要设计一个更结构化的 Excel让专家能把这些逻辑填进去。
### **新版 Excel 配置结构预览**
**Sheet: Knowledge\_Graph (知识图谱)**
* Scenario\_ID: 场景代码 (如 DIFF\_NUM\_2GRP\_IND)
* User\_Intent: 用户意图 (差异比较)
* Data\_Pattern: 数据特征 (Y=数值, X=2分类, 独立)
* Rec\_Tool\_Code: 推荐工具 (ST\_T\_TEST\_IND)
**Sheet: Tool\_Definition (工具定义)**
* Tool\_Code: ST\_T\_TEST\_IND
* Workflow: \[Check\_Normality, Check\_Variance, Run\_Test, Plot\_Box\] (定义一连串动作)
* Report\_Template: 结果解释模板...
## **5\. 总结**
您是对的。**统计分析规划Planner的核心不是“检索”而是“匹配”和“决策”。**
我们需要了解用户的:
1. **目的** (差异/相关/预测)
2. **变量类型** (数值/分类/等级)
3. **实验设计** (独立/配对/随访)
**我们的系统配置,必须围绕这三个维度展开。** 只有这样SSA-Pro 才能生成一份让医生信服的 SAP而不仅仅是扔给用户一个 T 检验代码。