# **专家视角:统计分析计划 (SAP) 的解构与配置映射** **文档版本:** v1.0 **创建日期:** 2026-02-18 **核心议题:** 从医学统计专家的视角,重新定义 Planner 的规划逻辑与 Admin 的配置要素。 ## **1\. 统计专家的“问诊”逻辑 (The Statistician's Mindset)** 当医生拿着数据来找我(统计专家)时,我脑子里的思维路径是这样的: ### **第一步:明确研究目的 (Objective)** * **专家会问**:你是要描述现状?比较差异?探索关联?还是预测未来? * **系统映射**:**意图识别配置**。 * *Config*: 关键词映射表("影响因素" \-\> 回归分析;"疗效对比" \-\> 差异检验)。 ### **第二步:明确数据特征 (Data Characteristics)** * **专家会问**:你的结局变量(Y)是什么类型的?(连续/分类/生存时间)你的分组变量(X)是几组?数据是独立采样的,还是同一个病人前后的对比(配对)? * **系统映射**:**变量角色定义**。 * *Config*: 工具的适用数据类型约束(如:ST\_T\_TEST\_IND 要求 Y=Numeric, X=Categorical(2 levels), Design=Independent)。 ### **第三步:制定分析策略 (Strategy)** * **专家会想**:既然是比较两组连续变量,先看正态性。如果正态,用 T 检验;如果不正态,用 Wilcoxon。最后还要画个图直观展示。 * **系统映射**:**决策树与组合配置**。 * *Config*: 不仅仅配置“一个工具”,而是配置 **"标准分析流 (SOP)"**。 ## **2\. 一份标准的 SAP 包括什么? (Anatomy of SAP)** Planner 生成的不仅仅是一个 Tool Code,而应该是一份完整的**作战地图**。 ### **2.1 SAP 的核心要素** 1. **分析集定义 (Analysis Set)**:全分析集 (FAS) 还是符合方案集 (PPS)?(MVP 阶段默认全数据)。 2. **变量操作 (Data Manipulation)**:需要计算 BMI 吗?需要把年龄分段吗? 3. **描述性统计 (Descriptive)**:基线表怎么做?(连续变量算 Mean±SD,分类变量算 N(%))。 4. **推断性统计 (Inference)**:核心假设检验方法(方法论 \+ 假设前提)。 5. **图表规划 (Visualization)**:用什么图展示结果最直观? ### **2.2 我们的 Planner 应该输出什么?** 用户看到的“预习卡片”,本质上就是 SAP 的摘要版: **🎯 统计分析计划** 1. **研究假设**:男性与女性的血糖水平存在差异。 2. **数据清洗**:剔除 GLU 为空的样本;自动计算 BMI \= Weight/Height^2。 3. **统计方法**: * 优先使用 **独立样本 T 检验**。 * **前置条件**:需满足正态性(Shapiro-Wilk P \> 0.05)。 * **替代方案**:若不满足,转为 **Mann-Whitney U 检验**。 4. **图表展示**:分组箱线图 (Boxplot) 叠加散点。 ## **3\. 这种视角下,后台需要配置什么? (Config Requirements)** 我们要配置的不是“API 参数”,而是\*\*“统计学家的知识图谱”\*\*。我们需要在 Excel 中增加这几列: ### **3.1 决策逻辑配置 (Decision Logic)** 这是 Planner 的核心。专家需要定义: | 配置项 | 含义 | 示例 (T检验) | | :---- | :---- | :---- | | **Goal\_Type** | 分析目的 | Difference (差异比较) | | **Y\_Type** | 因变量类型 | Continuous (连续数值) | | **X\_Type** | 自变量类型 | Categorical\_2 (二分类) | | **Design\_Type** | 设计类型 | Independent (独立) | | **Pre\_Conditions** | 前置假设 | Normality, Homogeneity | **Planner 的逻辑**: 用户输入 \-\> 提取 (Goal, X, Y) \-\> **查配置表匹配** \-\> 命中 ST\_T\_TEST\_IND。 ### **3.2 完整分析流配置 (Analysis Flow)** 一个工具往往伴随着一套动作。专家需要定义“套餐”: | 配置项 | 含义 | 示例 | | :---- | :---- | :---- | | **Main\_Method** | 主方法 | t.test | | **Desc\_Method** | 描述方法 | mean\_sd (均值标准差) | | **Plot\_Type** | 推荐图表 | boxplot \+ jitter | | **Alt\_Method** | 替代方法 | wilcox.test (非参数) | ### **3.3 结果解读模板 (Narrative Template)** 专家要教 AI 怎么写论文里的“结果”部分。 * **配置内容**: "本研究共纳入 {{n}} 例样本。{{group\_col}} 各组间 {{val\_col}} 的差异 {{significance}} (t={{statistic}}, P={{p\_value}})。如图 1 所示,{{high\_group}} 的数值显著高于 {{low\_group}}。" ## **4\. 对架构的深层影响** 您的质疑直接推动了 **Config Center (配置中台)** 的升维。 1. **Planner 变重了**:它不能只做简单的 RAG 检索。它需要内置一个**轻量级的推理机**(基于专家配置的决策表),来模拟专家“看病”的过程。 2. **Executor 变纯粹了**:它只需要忠实地执行 SAP 中的指令(包括主方法、替代方法、画图)。 3. **Excel 配置表变复杂了**:我们需要设计一个更结构化的 Excel,让专家能把这些逻辑填进去。 ### **新版 Excel 配置结构预览** **Sheet: Knowledge\_Graph (知识图谱)** * Scenario\_ID: 场景代码 (如 DIFF\_NUM\_2GRP\_IND) * User\_Intent: 用户意图 (差异比较) * Data\_Pattern: 数据特征 (Y=数值, X=2分类, 独立) * Rec\_Tool\_Code: 推荐工具 (ST\_T\_TEST\_IND) **Sheet: Tool\_Definition (工具定义)** * Tool\_Code: ST\_T\_TEST\_IND * Workflow: \[Check\_Normality, Check\_Variance, Run\_Test, Plot\_Box\] (定义一连串动作) * Report\_Template: 结果解释模板... ## **5\. 总结** 您是对的。**统计分析规划(Planner)的核心不是“检索”,而是“匹配”和“决策”。** 我们需要了解用户的: 1. **目的** (差异/相关/预测) 2. **变量类型** (数值/分类/等级) 3. **实验设计** (独立/配对/随访) **我们的系统配置,必须围绕这三个维度展开。** 只有这样,SSA-Pro 才能生成一份让医生信服的 SAP,而不仅仅是扔给用户一个 T 检验代码。