5.9 KiB
5.9 KiB
专家视角:统计分析计划 (SAP) 的解构与配置映射
文档版本: v1.0
创建日期: 2026-02-18
核心议题: 从医学统计专家的视角,重新定义 Planner 的规划逻辑与 Admin 的配置要素。
1. 统计专家的“问诊”逻辑 (The Statistician's Mindset)
当医生拿着数据来找我(统计专家)时,我脑子里的思维路径是这样的:
第一步:明确研究目的 (Objective)
- 专家会问:你是要描述现状?比较差异?探索关联?还是预测未来?
- 系统映射:意图识别配置。
- Config: 关键词映射表("影响因素" -> 回归分析;"疗效对比" -> 差异检验)。
第二步:明确数据特征 (Data Characteristics)
- 专家会问:你的结局变量(Y)是什么类型的?(连续/分类/生存时间)你的分组变量(X)是几组?数据是独立采样的,还是同一个病人前后的对比(配对)?
- 系统映射:变量角色定义。
- Config: 工具的适用数据类型约束(如:ST_T_TEST_IND 要求 Y=Numeric, X=Categorical(2 levels), Design=Independent)。
第三步:制定分析策略 (Strategy)
- 专家会想:既然是比较两组连续变量,先看正态性。如果正态,用 T 检验;如果不正态,用 Wilcoxon。最后还要画个图直观展示。
- 系统映射:决策树与组合配置。
- Config: 不仅仅配置“一个工具”,而是配置 "标准分析流 (SOP)"。
2. 一份标准的 SAP 包括什么? (Anatomy of SAP)
Planner 生成的不仅仅是一个 Tool Code,而应该是一份完整的作战地图。
2.1 SAP 的核心要素
- 分析集定义 (Analysis Set):全分析集 (FAS) 还是符合方案集 (PPS)?(MVP 阶段默认全数据)。
- 变量操作 (Data Manipulation):需要计算 BMI 吗?需要把年龄分段吗?
- 描述性统计 (Descriptive):基线表怎么做?(连续变量算 Mean±SD,分类变量算 N(%))。
- 推断性统计 (Inference):核心假设检验方法(方法论 + 假设前提)。
- 图表规划 (Visualization):用什么图展示结果最直观?
2.2 我们的 Planner 应该输出什么?
用户看到的“预习卡片”,本质上就是 SAP 的摘要版:
🎯 统计分析计划
- 研究假设:男性与女性的血糖水平存在差异。
- 数据清洗:剔除 GLU 为空的样本;自动计算 BMI = Weight/Height^2。
- 统计方法:
- 优先使用 独立样本 T 检验。
- 前置条件:需满足正态性(Shapiro-Wilk P > 0.05)。
- 替代方案:若不满足,转为 Mann-Whitney U 检验。
- 图表展示:分组箱线图 (Boxplot) 叠加散点。
3. 这种视角下,后台需要配置什么? (Config Requirements)
我们要配置的不是“API 参数”,而是**“统计学家的知识图谱”**。我们需要在 Excel 中增加这几列:
3.1 决策逻辑配置 (Decision Logic)
这是 Planner 的核心。专家需要定义:
| 配置项 | 含义 | 示例 (T检验) |
|---|---|---|
| Goal_Type | 分析目的 | Difference (差异比较) |
| Y_Type | 因变量类型 | Continuous (连续数值) |
| X_Type | 自变量类型 | Categorical_2 (二分类) |
| Design_Type | 设计类型 | Independent (独立) |
| Pre_Conditions | 前置假设 | Normality, Homogeneity |
Planner 的逻辑:
用户输入 -> 提取 (Goal, X, Y) -> 查配置表匹配 -> 命中 ST_T_TEST_IND。
3.2 完整分析流配置 (Analysis Flow)
一个工具往往伴随着一套动作。专家需要定义“套餐”:
| 配置项 | 含义 | 示例 |
|---|---|---|
| Main_Method | 主方法 | t.test |
| Desc_Method | 描述方法 | mean_sd (均值标准差) |
| Plot_Type | 推荐图表 | boxplot + jitter |
| Alt_Method | 替代方法 | wilcox.test (非参数) |
3.3 结果解读模板 (Narrative Template)
专家要教 AI 怎么写论文里的“结果”部分。
- 配置内容:
"本研究共纳入 {{n}} 例样本。{{group_col}} 各组间 {{val_col}} 的差异 {{significance}} (t={{statistic}}, P={{p_value}})。如图 1 所示,{{high_group}} 的数值显著高于 {{low_group}}。"
4. 对架构的深层影响
您的质疑直接推动了 Config Center (配置中台) 的升维。
- Planner 变重了:它不能只做简单的 RAG 检索。它需要内置一个轻量级的推理机(基于专家配置的决策表),来模拟专家“看病”的过程。
- Executor 变纯粹了:它只需要忠实地执行 SAP 中的指令(包括主方法、替代方法、画图)。
- Excel 配置表变复杂了:我们需要设计一个更结构化的 Excel,让专家能把这些逻辑填进去。
新版 Excel 配置结构预览
Sheet: Knowledge_Graph (知识图谱)
- Scenario_ID: 场景代码 (如 DIFF_NUM_2GRP_IND)
- User_Intent: 用户意图 (差异比较)
- Data_Pattern: 数据特征 (Y=数值, X=2分类, 独立)
- Rec_Tool_Code: 推荐工具 (ST_T_TEST_IND)
Sheet: Tool_Definition (工具定义)
- Tool_Code: ST_T_TEST_IND
- Workflow: [Check_Normality, Check_Variance, Run_Test, Plot_Box] (定义一连串动作)
- Report_Template: 结果解释模板...
5. 总结
您是对的。统计分析规划(Planner)的核心不是“检索”,而是“匹配”和“决策”。
我们需要了解用户的:
- 目的 (差异/相关/预测)
- 变量类型 (数值/分类/等级)
- 实验设计 (独立/配对/随访)
我们的系统配置,必须围绕这三个维度展开。 只有这样,SSA-Pro 才能生成一份让医生信服的 SAP,而不仅仅是扔给用户一个 T 检验代码。