128 lines
5.9 KiB
Markdown
128 lines
5.9 KiB
Markdown
# **专家视角:统计分析计划 (SAP) 的解构与配置映射**
|
||
|
||
**文档版本:** v1.0
|
||
|
||
**创建日期:** 2026-02-18
|
||
|
||
**核心议题:** 从医学统计专家的视角,重新定义 Planner 的规划逻辑与 Admin 的配置要素。
|
||
|
||
## **1\. 统计专家的“问诊”逻辑 (The Statistician's Mindset)**
|
||
|
||
当医生拿着数据来找我(统计专家)时,我脑子里的思维路径是这样的:
|
||
|
||
### **第一步:明确研究目的 (Objective)**
|
||
|
||
* **专家会问**:你是要描述现状?比较差异?探索关联?还是预测未来?
|
||
* **系统映射**:**意图识别配置**。
|
||
* *Config*: 关键词映射表("影响因素" \-\> 回归分析;"疗效对比" \-\> 差异检验)。
|
||
|
||
### **第二步:明确数据特征 (Data Characteristics)**
|
||
|
||
* **专家会问**:你的结局变量(Y)是什么类型的?(连续/分类/生存时间)你的分组变量(X)是几组?数据是独立采样的,还是同一个病人前后的对比(配对)?
|
||
* **系统映射**:**变量角色定义**。
|
||
* *Config*: 工具的适用数据类型约束(如:ST\_T\_TEST\_IND 要求 Y=Numeric, X=Categorical(2 levels), Design=Independent)。
|
||
|
||
### **第三步:制定分析策略 (Strategy)**
|
||
|
||
* **专家会想**:既然是比较两组连续变量,先看正态性。如果正态,用 T 检验;如果不正态,用 Wilcoxon。最后还要画个图直观展示。
|
||
* **系统映射**:**决策树与组合配置**。
|
||
* *Config*: 不仅仅配置“一个工具”,而是配置 **"标准分析流 (SOP)"**。
|
||
|
||
## **2\. 一份标准的 SAP 包括什么? (Anatomy of SAP)**
|
||
|
||
Planner 生成的不仅仅是一个 Tool Code,而应该是一份完整的**作战地图**。
|
||
|
||
### **2.1 SAP 的核心要素**
|
||
|
||
1. **分析集定义 (Analysis Set)**:全分析集 (FAS) 还是符合方案集 (PPS)?(MVP 阶段默认全数据)。
|
||
2. **变量操作 (Data Manipulation)**:需要计算 BMI 吗?需要把年龄分段吗?
|
||
3. **描述性统计 (Descriptive)**:基线表怎么做?(连续变量算 Mean±SD,分类变量算 N(%))。
|
||
4. **推断性统计 (Inference)**:核心假设检验方法(方法论 \+ 假设前提)。
|
||
5. **图表规划 (Visualization)**:用什么图展示结果最直观?
|
||
|
||
### **2.2 我们的 Planner 应该输出什么?**
|
||
|
||
用户看到的“预习卡片”,本质上就是 SAP 的摘要版:
|
||
|
||
**🎯 统计分析计划**
|
||
|
||
1. **研究假设**:男性与女性的血糖水平存在差异。
|
||
2. **数据清洗**:剔除 GLU 为空的样本;自动计算 BMI \= Weight/Height^2。
|
||
3. **统计方法**:
|
||
* 优先使用 **独立样本 T 检验**。
|
||
* **前置条件**:需满足正态性(Shapiro-Wilk P \> 0.05)。
|
||
* **替代方案**:若不满足,转为 **Mann-Whitney U 检验**。
|
||
4. **图表展示**:分组箱线图 (Boxplot) 叠加散点。
|
||
|
||
## **3\. 这种视角下,后台需要配置什么? (Config Requirements)**
|
||
|
||
我们要配置的不是“API 参数”,而是\*\*“统计学家的知识图谱”\*\*。我们需要在 Excel 中增加这几列:
|
||
|
||
### **3.1 决策逻辑配置 (Decision Logic)**
|
||
|
||
这是 Planner 的核心。专家需要定义:
|
||
|
||
| 配置项 | 含义 | 示例 (T检验) |
|
||
| :---- | :---- | :---- |
|
||
| **Goal\_Type** | 分析目的 | Difference (差异比较) |
|
||
| **Y\_Type** | 因变量类型 | Continuous (连续数值) |
|
||
| **X\_Type** | 自变量类型 | Categorical\_2 (二分类) |
|
||
| **Design\_Type** | 设计类型 | Independent (独立) |
|
||
| **Pre\_Conditions** | 前置假设 | Normality, Homogeneity |
|
||
|
||
**Planner 的逻辑**:
|
||
|
||
用户输入 \-\> 提取 (Goal, X, Y) \-\> **查配置表匹配** \-\> 命中 ST\_T\_TEST\_IND。
|
||
|
||
### **3.2 完整分析流配置 (Analysis Flow)**
|
||
|
||
一个工具往往伴随着一套动作。专家需要定义“套餐”:
|
||
|
||
| 配置项 | 含义 | 示例 |
|
||
| :---- | :---- | :---- |
|
||
| **Main\_Method** | 主方法 | t.test |
|
||
| **Desc\_Method** | 描述方法 | mean\_sd (均值标准差) |
|
||
| **Plot\_Type** | 推荐图表 | boxplot \+ jitter |
|
||
| **Alt\_Method** | 替代方法 | wilcox.test (非参数) |
|
||
|
||
### **3.3 结果解读模板 (Narrative Template)**
|
||
|
||
专家要教 AI 怎么写论文里的“结果”部分。
|
||
|
||
* **配置内容**:
|
||
"本研究共纳入 {{n}} 例样本。{{group\_col}} 各组间 {{val\_col}} 的差异 {{significance}} (t={{statistic}}, P={{p\_value}})。如图 1 所示,{{high\_group}} 的数值显著高于 {{low\_group}}。"
|
||
|
||
## **4\. 对架构的深层影响**
|
||
|
||
您的质疑直接推动了 **Config Center (配置中台)** 的升维。
|
||
|
||
1. **Planner 变重了**:它不能只做简单的 RAG 检索。它需要内置一个**轻量级的推理机**(基于专家配置的决策表),来模拟专家“看病”的过程。
|
||
2. **Executor 变纯粹了**:它只需要忠实地执行 SAP 中的指令(包括主方法、替代方法、画图)。
|
||
3. **Excel 配置表变复杂了**:我们需要设计一个更结构化的 Excel,让专家能把这些逻辑填进去。
|
||
|
||
### **新版 Excel 配置结构预览**
|
||
|
||
**Sheet: Knowledge\_Graph (知识图谱)**
|
||
|
||
* Scenario\_ID: 场景代码 (如 DIFF\_NUM\_2GRP\_IND)
|
||
* User\_Intent: 用户意图 (差异比较)
|
||
* Data\_Pattern: 数据特征 (Y=数值, X=2分类, 独立)
|
||
* Rec\_Tool\_Code: 推荐工具 (ST\_T\_TEST\_IND)
|
||
|
||
**Sheet: Tool\_Definition (工具定义)**
|
||
|
||
* Tool\_Code: ST\_T\_TEST\_IND
|
||
* Workflow: \[Check\_Normality, Check\_Variance, Run\_Test, Plot\_Box\] (定义一连串动作)
|
||
* Report\_Template: 结果解释模板...
|
||
|
||
## **5\. 总结**
|
||
|
||
您是对的。**统计分析规划(Planner)的核心不是“检索”,而是“匹配”和“决策”。**
|
||
|
||
我们需要了解用户的:
|
||
|
||
1. **目的** (差异/相关/预测)
|
||
2. **变量类型** (数值/分类/等级)
|
||
3. **实验设计** (独立/配对/随访)
|
||
|
||
**我们的系统配置,必须围绕这三个维度展开。** 只有这样,SSA-Pro 才能生成一份让医生信服的 SAP,而不仅仅是扔给用户一个 T 检验代码。 |