Files
AIclinicalresearch/docs/03-业务模块/SSA-智能统计分析/00-系统设计/Planner 统计分析计划与配置映射.md

5.9 KiB
Raw Blame History

专家视角:统计分析计划 (SAP) 的解构与配置映射

文档版本: v1.0

创建日期: 2026-02-18

核心议题: 从医学统计专家的视角,重新定义 Planner 的规划逻辑与 Admin 的配置要素。

1. 统计专家的“问诊”逻辑 (The Statistician's Mindset)

当医生拿着数据来找我(统计专家)时,我脑子里的思维路径是这样的:

第一步:明确研究目的 (Objective)

  • 专家会问:你是要描述现状?比较差异?探索关联?还是预测未来?
  • 系统映射意图识别配置
    • Config: 关键词映射表("影响因素" -> 回归分析;"疗效对比" -> 差异检验)。

第二步:明确数据特征 (Data Characteristics)

  • 专家会问你的结局变量Y是什么类型的连续/分类/生存时间你的分组变量X是几组数据是独立采样的还是同一个病人前后的对比配对
  • 系统映射变量角色定义
    • Config: 工具的适用数据类型约束ST_T_TEST_IND 要求 Y=Numeric, X=Categorical(2 levels), Design=Independent

第三步:制定分析策略 (Strategy)

  • 专家会想:既然是比较两组连续变量,先看正态性。如果正态,用 T 检验;如果不正态,用 Wilcoxon。最后还要画个图直观展示。
  • 系统映射决策树与组合配置
    • Config: 不仅仅配置“一个工具”,而是配置 "标准分析流 (SOP)"

2. 一份标准的 SAP 包括什么? (Anatomy of SAP)

Planner 生成的不仅仅是一个 Tool Code而应该是一份完整的作战地图

2.1 SAP 的核心要素

  1. 分析集定义 (Analysis Set):全分析集 (FAS) 还是符合方案集 (PPS)MVP 阶段默认全数据)。
  2. 变量操作 (Data Manipulation):需要计算 BMI 吗?需要把年龄分段吗?
  3. 描述性统计 (Descriptive):基线表怎么做?(连续变量算 Mean±SD分类变量算 N(%))。
  4. 推断性统计 (Inference):核心假设检验方法(方法论 + 假设前提)。
  5. 图表规划 (Visualization):用什么图展示结果最直观?

2.2 我们的 Planner 应该输出什么?

用户看到的“预习卡片”,本质上就是 SAP 的摘要版:

🎯 统计分析计划

  1. 研究假设:男性与女性的血糖水平存在差异。
  2. 数据清洗:剔除 GLU 为空的样本;自动计算 BMI = Weight/Height^2。
  3. 统计方法
    • 优先使用 独立样本 T 检验
    • 前置条件需满足正态性Shapiro-Wilk P > 0.05)。
    • 替代方案:若不满足,转为 Mann-Whitney U 检验
  4. 图表展示:分组箱线图 (Boxplot) 叠加散点。

3. 这种视角下,后台需要配置什么? (Config Requirements)

我们要配置的不是“API 参数”,而是**“统计学家的知识图谱”**。我们需要在 Excel 中增加这几列:

3.1 决策逻辑配置 (Decision Logic)

这是 Planner 的核心。专家需要定义:

配置项 含义 示例 (T检验)
Goal_Type 分析目的 Difference (差异比较)
Y_Type 因变量类型 Continuous (连续数值)
X_Type 自变量类型 Categorical_2 (二分类)
Design_Type 设计类型 Independent (独立)
Pre_Conditions 前置假设 Normality, Homogeneity

Planner 的逻辑

用户输入 -> 提取 (Goal, X, Y) -> 查配置表匹配 -> 命中 ST_T_TEST_IND。

3.2 完整分析流配置 (Analysis Flow)

一个工具往往伴随着一套动作。专家需要定义“套餐”:

配置项 含义 示例
Main_Method 主方法 t.test
Desc_Method 描述方法 mean_sd (均值标准差)
Plot_Type 推荐图表 boxplot + jitter
Alt_Method 替代方法 wilcox.test (非参数)

3.3 结果解读模板 (Narrative Template)

专家要教 AI 怎么写论文里的“结果”部分。

  • 配置内容
    "本研究共纳入 {{n}} 例样本。{{group_col}} 各组间 {{val_col}} 的差异 {{significance}} (t={{statistic}}, P={{p_value}})。如图 1 所示,{{high_group}} 的数值显著高于 {{low_group}}。"

4. 对架构的深层影响

您的质疑直接推动了 Config Center (配置中台) 的升维。

  1. Planner 变重了:它不能只做简单的 RAG 检索。它需要内置一个轻量级的推理机(基于专家配置的决策表),来模拟专家“看病”的过程。
  2. Executor 变纯粹了:它只需要忠实地执行 SAP 中的指令(包括主方法、替代方法、画图)。
  3. Excel 配置表变复杂了:我们需要设计一个更结构化的 Excel让专家能把这些逻辑填进去。

新版 Excel 配置结构预览

Sheet: Knowledge_Graph (知识图谱)

  • Scenario_ID: 场景代码 (如 DIFF_NUM_2GRP_IND)
  • User_Intent: 用户意图 (差异比较)
  • Data_Pattern: 数据特征 (Y=数值, X=2分类, 独立)
  • Rec_Tool_Code: 推荐工具 (ST_T_TEST_IND)

Sheet: Tool_Definition (工具定义)

  • Tool_Code: ST_T_TEST_IND
  • Workflow: [Check_Normality, Check_Variance, Run_Test, Plot_Box] (定义一连串动作)
  • Report_Template: 结果解释模板...

5. 总结

您是对的。统计分析规划Planner的核心不是“检索”而是“匹配”和“决策”。

我们需要了解用户的:

  1. 目的 (差异/相关/预测)
  2. 变量类型 (数值/分类/等级)
  3. 实验设计 (独立/配对/随访)

我们的系统配置,必须围绕这三个维度展开。 只有这样SSA-Pro 才能生成一份让医生信服的 SAP而不仅仅是扔给用户一个 T 检验代码。