Files
AIclinicalresearch/docs/03-业务模块/SSA-智能统计分析/00-系统设计/SSA-Pro 理想状态与智能化愿景设计.md

691 lines
42 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters
This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# SSA-Pro 理想状态与智能化愿景设计
> **文档版本:** v1.0
> **创建日期:** 2026-02-20
> **文档类型:** 愿景设计 (Vision Design)
> **核心理念:** 以终为始,定义理想的智能统计分析系统
---
## 1. 执行摘要
### 1.1 核心洞察
**医生不会问"帮我做 T 检验",医生会问:**
> "我想知道这个新药对高血压患者有没有效?"
>
> "我收集了 200 个患者的数据,男女各半,想看看血压变化。"
>
> "能不能帮我分析一下,发篇论文?"
### 1.2 理想的智能统计分析
**不是"执行方法",而是"规划流程"**
```
传统思维:
用户 → 选方法 → 执行 → 结果
理想思维:
用户 → AI 理解意图 → 规划完整分析流程 → 分步执行 → 综合结论
```
### 1.3 智能化的本质
| 维度 | 传统系统 | 智能系统 |
|------|----------|----------|
| 输入 | 用户指定方法 | AI 理解意图 |
| 执行 | 单个方法 | 完整流程编排 |
| 输出 | P 值 + 图表 | 论文级报告 |
| 适应性 | 假设数据满足条件 | 自动诊断并调整 |
---
## 2. 医生的真实场景分析
### 2.1 用户画像
| 特征 | 描述 |
|------|------|
| **统计知识** | 了解基本概念,但不精通方法选择 |
| **核心诉求** | 得到可发表的统计结果 |
| **表达方式** | 用临床语言描述问题,非统计术语 |
| **容错期望** | 希望系统自动处理数据问题 |
### 2.2 用户输入的不确定性
| 挑战 | 描述 | 示例 |
|------|------|------|
| **意图模糊** | "有没有效"到底是什么? | 降压幅度?有效率?达标率? |
| **数据未知** | 用户不知道数据特征 | 正态吗?缺失多吗?有异常值吗? |
| **方法未知** | 用户不知道该用什么方法 | T 检验WilcoxonANOVA |
| **流程未知** | 统计分析不是"一个方法" | 需要完整的分析流程 |
### 2.3 数据形态的多样性
| 数据问题 | 发生频率 | 系统应对 |
|----------|----------|----------|
| **缺失值** | 80%+ 数据集 | 自动检测,提供处理策略 |
| **异常值** | 60%+ 数据集 | 自动识别,建议处理方式 |
| **非正态分布** | 50%+ 变量 | 自动检验,切换非参数方法 |
| **小样本** | 30%+ 研究 | 提示功效不足,建议精确方法 |
| **不平衡分组** | 40%+ 研究 | 提示问题,调整分析策略 |
---
## 3. 理想的智能统计分析过程
### 3.1 完整流程示例
**用户输入:**
> "我有 200 个高血压患者的数据,分成治疗组和对照组,想比较治疗前后的血压变化,看看新药是否有效。"
### 3.2 Step 1: 意图解析 (Intent Understanding)
```
┌─────────────────────────────────────────────────────────────┐
│ Step 1: 意图解析 │
├─────────────────────────────────────────────────────────────┤
│ AI 识别出: │
│ - 研究目的:差异比较(治疗 vs 对照) │
│ - 结局变量:血压变化(连续变量) │
│ - 分组变量:治疗组/对照组(二分类) │
│ - 设计类型:独立样本(两组不同的人) │
│ - 潜在混杂:前后对比(可能需要配对分析?) │
│ │
│ 🤔 AI 追问(当不确定时): │
│ "您说的血压变化,是指每个患者治疗前后的变化值, │
│ 还是比较两组治疗后的血压?这会影响分析方法的选择。" │
└─────────────────────────────────────────────────────────────┘
```
**意图解析的核心能力:**
| 用户说 | AI 理解为 |
|--------|-----------|
| "有没有效" / "有没有差异" | 差异比较 → 假设检验 |
| "影响因素" / "相关因素" | 关联分析 → 回归建模 |
| "预测风险" / "预后模型" | 预测建模 → 分类/生存模型 |
| "描述情况" / "基线特征" | 描述统计 → 频数/均值表 |
### 3.3 Step 2: 数据诊断 (Data Diagnosis)
```
┌─────────────────────────────────────────────────────────────┐
│ Step 2: 数据诊断 │
├─────────────────────────────────────────────────────────────┤
│ 系统自动扫描数据,生成"数据体检报告"
│ │
│ 📊 数据概况 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 总样本量200 │ │
│ │ 治疗组102 (51%) │ │
│ │ 对照组98 (49%) │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ 📈 分布特征 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 变量 分布检验 结论 │ │
│ │ ─────────────────────────────────────────────────────── │ │
│ │ 血压变化(治疗) Shapiro P=0.02 ⚠️ 偏态分布 │ │
│ │ 血压变化(对照) Shapiro P=0.15 ✅ 近似正态 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ ⚠️ 数据问题 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 1. 缺失值:血压字段有 12 例缺失 (6%) │ │
│ │ 2. 异常值2 例血压 > 300 mmHg疑似记录错误 │ │
│ │ 3. 正态性:治疗组不满足正态分布假设 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ 💡 系统建议 │
│ - 建议处理 2 例异常值后再分析 │
│ - 由于正态性不满足,建议使用非参数方法 │
└─────────────────────────────────────────────────────────────┘
```
**数据诊断的核心检测项:**
| 检测项 | 方法 | 阈值 | 处理建议 |
|--------|------|------|----------|
| 正态性 | Shapiro-Wilk | P < 0.05 | 切换非参数方法 |
| 方差齐性 | Levene | P < 0.05 | 使用 Welch 校正 |
| 缺失比例 | 统计 | > 20% | 提示多重插补 |
| 异常值 | IQR 方法 | > 3×IQR | 提示检查/剔除 |
| 样本量 | 统计 | < 30 | 提示使用精确方法 |
### 3.4 Step 3: 分析路径规划 (Analysis Pathway Planning)
```
┌─────────────────────────────────────────────────────────────┐
│ Step 3: 分析路径规划 │
├─────────────────────────────────────────────────────────────┤
│ 基于意图 + 数据特征AI 规划完整分析路径: │
│ │
│ 📋 统计分析计划 (SAP) │
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 1⃣ 数据预处理 │ │
│ │ ├─ 剔除 2 例异常值 (血压 > 300) │ │
│ │ └─ 缺失值处理:完全案例分析 (剔除 12 例) │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ 2⃣ 描述性统计 │ │
│ │ ├─ 两组基线特征比较 (年龄、性别、基础血压) │ │
│ │ └─ 血压变化的均值、中位数、四分位数 │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ 3⃣ 主要分析 │ │
│ │ ├─ 方法Mann-Whitney U 检验 │ │
│ │ └─ 理由:治疗组血压变化不服从正态分布 │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ 4⃣ 敏感性分析 │ │
│ │ ├─ 补充 T 检验结果(作为参考) │ │
│ │ └─ Bootstrap 置信区间(不依赖分布假设) │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ 5⃣ 效应量与临床意义 │ │
│ │ ├─ Cohen's d 效应量 │ │
│ │ └─ 95% CI 判断临床显著性 │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ 6⃣ 可视化 │ │
│ │ ├─ 两组血压变化箱线图 │ │
│ │ └─ 个体变化瀑布图 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ [📝 修改计划] [✅ 确认执行全部] [⏭️ 跳过某些步骤] │
└─────────────────────────────────────────────────────────────┘
```
**分析路径的核心概念:流程模板**
| 分析目的 | 标准流程模板 |
|----------|-------------|
| 差异比较 | 数据清洗 → 描述统计 → 假设检验 → 敏感性分析 → 效应量 → 可视化 |
| 关联分析 | 数据清洗 → 描述统计 → 相关分析 → 回归建模 → 模型诊断 → 可视化 |
| 描述统计 | 数据清洗 → 连续变量统计 → 分类变量统计 → 基线表生成 |
| 生存分析 | 数据清洗 → K-M 曲线 → Log-rank 检验 → Cox 回归 → 风险预测 |
### 3.5 Step 4: 分步执行与实时反馈
```
┌─────────────────────────────────────────────────────────────┐
│ Step 4: 分步执行与实时反馈 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ✅ 1/6 数据预处理完成 [00:02] │
│ → 剔除 14 例,最终分析 186 例 │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 原始样本200 │ │
│ │ 剔除异常值2 │ │
│ │ 剔除缺失12 │ │
│ │ 最终样本186 (治疗组 94, 对照组 92) │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ ✅ 2/6 描述性统计完成 [00:05] │
│ → 生成描述性统计表 │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 组别 N 均值±SD 中位数(IQR) │ │
│ │ ───────────────────────────────────────────────────── │ │
│ │ 治疗组 94 -15.2±8.3 -14.5(-20,-8) │ │
│ │ 对照组 92 -5.1±7.9 -4.8(-10,1) │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 🔄 3/6 正在执行 Mann-Whitney U 检验... [运行中] │
│ ├─ 🔍 检查样本量... ✅ 通过 (N=186) │
│ ├─ 🔍 检查数据类型... ✅ 通过 (连续变量) │
│ └─ 🚀 执行检验... 进行中 │
│ │
│ ⏳ 4/6 敏感性分析 [等待中] │
│ ⏳ 5/6 效应量计算 [等待中] │
│ ⏳ 6/6 可视化生成 [等待中] │
│ │
│ [⏸️ 暂停] [⏭️ 跳过当前步骤] [❌ 取消全部] │
└─────────────────────────────────────────────────────────────┘
```
**执行引擎的核心能力:**
| 能力 | 描述 |
|------|------|
| **顺序编排** | 按 SAP 定义的顺序执行多个方法 |
| **结果串联** | 上一步的输出作为下一步的输入 |
| **实时反馈** | 每步完成后立即展示中间结果 |
| **错误处理** | 某步失败时提供跳过/重试选项 |
| **可中断** | 用户可随时暂停、跳过、取消 |
### 3.6 Step 5: 综合结论生成
```
┌─────────────────────────────────────────────────────────────┐
│ Step 5: 综合结论生成 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 📊 分析结果 │
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 表 1. 两组血压变化比较 │ │
│ │ ─────────────────────────────────────────────────────── │ │
│ │ 组别 N 中位数(IQR) P 值 效应量(r) │ │
│ │ ─────────────────────────────────────────────────────── │ │
│ │ 治疗组 94 -14.5(-20,-8) │ │
│ │ <0.001 0.52 │ │
│ │ 对照组 92 -4.8(-10,1) │ │
│ │ ─────────────────────────────────────────────────────── │ │
│ │ 注:采用 Mann-Whitney U 检验 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ 📈 可视化 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ [箱线图] │ │
│ │ │ │
│ │ 治疗组 ████████████████████ -14.5 │ │
│ │ 对照组 ████████ -4.8 │ │
│ │ │ │
│ │ P < 0.001 *** │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ 📝 结论(论文级) │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 本研究共纳入 186 例高血压患者进行分析。 │ │
│ │ │ │
│ │ Mann-Whitney U 检验结果显示,治疗组血压变化 │ │
│ │ (中位数 -14.5 mmHg) 显著大于对照组 (-4.8 mmHg) │ │
│ │ 差异具有统计学意义 (U=2341, P<0.001)。 │ │
│ │ 效应量 r=0.52,提示中等程度的效应。 │ │
│ │ │ │
│ │ 敏感性分析(独立样本 T 检验)得到一致结论 │ │
│ │ (t=5.23, P<0.001),结果稳健。 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ ⚠️ 方法学说明 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 由于治疗组数据不满足正态分布假设 │ │
│ │ (Shapiro-Wilk P=0.02),故采用非参数方法作为主要分析。 │ │
│ │ │ │
│ │ 本分析剔除了 14 例数据: │ │
│ │ - 2 例异常值(血压 > 300 mmHg │ │
│ │ - 12 例缺失值(血压字段缺失) │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ [📥 下载报告(Word)] [📥 下载 R 代码] [🔄 调整分析] │
└─────────────────────────────────────────────────────────────┘
```
**结论生成的核心要素:**
| 要素 | 描述 | 示例 |
|------|------|------|
| **样本描述** | 纳入/排除情况 | "共纳入 186 例" |
| **主要结果** | 核心统计量 | "P<0.001, r=0.52" |
| **临床解读** | 效应量含义 | "中等程度效应" |
| **敏感性** | 结果稳健性 | "T检验得到一致结论" |
| **方法说明** | 选择理由 | "因不满足正态性..." |
| **局限性** | 数据处理说明 | "剔除 14 例数据" |
---
## 4. 智能化的核心能力
### 4.1 意图理解能力
**从模糊输入到精确分析目标的映射:**
```
用户输入解析流程:
"比较新药疗效"
→ 提取关键词:比较、疗效
→ 识别意图:差异比较
→ 识别目标Goal = Difference
"分析影响因素"
→ 提取关键词:影响、因素
→ 识别意图:关联分析
→ 识别目标Goal = Association
"预测复发风险"
→ 提取关键词:预测、风险
→ 识别意图:预测建模
→ 识别目标Goal = Prediction
```
**意图分类体系:**
| Goal 类型 | 用户表达 | 典型方法 |
|-----------|----------|----------|
| Difference | 比较、差异、疗效 | T 检验、ANOVA、卡方 |
| Association | 相关、影响、因素 | 相关分析、回归 |
| Prediction | 预测、风险、预后 | 逻辑回归、生存分析 |
| Description | 描述、特征、分布 | 频数、均值、百分比 |
### 4.2 数据自适应能力
**根据数据特征自动选择方法:**
```
数据诊断 → 方法决策树
┌─ 正态 → T 检验
┌─ 两组 ───┤
│ └─ 非正态 → Mann-Whitney U
连续Y ──┤ ┌─ 正态 → 单因素 ANOVA
│ │
└─ 多组 ───┼─ 非正态 → Kruskal-Wallis
└─ 配对 → 重复测量 ANOVA
┌─ 2×2 表 → 卡方检验/Fisher
分类Y ──┼─ 两组 ───┤
│ └─ 期望频数<5 → Fisher 精确
└─ 多组 ──── χ² 检验
```
**方法选择的四维匹配:**
| 维度 | 描述 | 取值 |
|------|------|------|
| Goal | 分析目的 | Difference / Association / Prediction |
| Y_Type | 因变量类型 | Continuous / Categorical / Survival |
| X_Type | 自变量类型 | Categorical_2 / Categorical_Multi / Continuous |
| Design | 实验设计 | Independent / Paired / Repeated |
### 4.3 路径规划能力
**不是单个方法,而是完整流程:**
```
一个完整的统计分析 ≠ 一个方法
而是:
┌─────────┬─────────┬─────────┬─────────┬─────────┬─────────┐
│数据清洗 │描述统计 │假设检验 │敏感性 │效应量 │可视化 │
│ │ │(主要)│分析 │ │ │
└─────────┴─────────┴─────────┴─────────┴─────────┴─────────┘
```
**标准分析流程模板:**
| 流程名称 | 步骤序列 |
|----------|----------|
| 两组差异比较 | CLEAN → DESC → NORMALITY_CHECK → [T_TEST \| MANN_WHITNEY] → EFFECT_SIZE → PLOT_BOX |
| 多组差异比较 | CLEAN → DESC → NORMALITY_CHECK → [ANOVA \| KRUSKAL] → POST_HOC → EFFECT_SIZE → PLOT_BOX |
| 相关性分析 | CLEAN → DESC → SCATTER_PLOT → [PEARSON \| SPEARMAN] → REGRESSION → PLOT_REG |
| 基线特征表 | CLEAN → DESC_CONTINUOUS → DESC_CATEGORICAL → TABLE_ONE |
### 4.4 不确定性处理能力
**当 AI 无法确定时,应该追问而非猜测:**
```
场景 1无法确定设计类型
┌─────────────────────────────────────────────────────────────┐
│ 🤔 AI 追问: │
│ │
│ "您的数据中,每个患者有治疗前和治疗后两次测量吗? │
│ - 如果是同一患者的前后对比,我建议用配对分析 │
│ - 如果是不同患者的组间对比,我建议用独立样本分析" │
│ │
│ [ 同一患者前后对比 ] [ 不同患者组间对比 ] │
└─────────────────────────────────────────────────────────────┘
场景 2变量角色不明确
┌─────────────────────────────────────────────────────────────┐
│ 🤔 AI 追问: │
│ │
│ "您想比较的是: │
│ - A) 治疗后的血压值 │
│ - B) 治疗前后的血压变化值 │
│ │
│ 这会影响分析方法的选择。" │
│ │
│ [ 比较治疗后血压 ] [ 比较血压变化值 ] │
└─────────────────────────────────────────────────────────────┘
场景 3多个可能的分析目标
┌─────────────────────────────────────────────────────────────┐
│ 🤔 AI 澄清: │
│ │
│ "根据您的描述,我理解您可能想要: │
│ │
│ 1. 比较两组的疗效差异(假设检验) │
│ 2. 分析疗效的影响因素(回归分析) │
│ 3. 预测患者的治疗反应(预测模型) │
│ │
│ 请选择您最主要的分析目标,或选择"全部"进行综合分析。" │
│ │
│ [ 差异比较 ] [ 因素分析 ] [ 预测模型 ] [ 全部 ] │
└─────────────────────────────────────────────────────────────┘
```
### 4.5 结论生成能力
**生成论文级的综合结论:**
| 结论要素 | 模板结构 | 示例 |
|----------|----------|------|
| 样本描述 | "本研究共纳入 {{N}} 例..." | "本研究共纳入 186 例高血压患者" |
| 主要结果 | "{{方法}}结果显示,{{统计量}}" | "Mann-Whitney U 检验结果显示U=2341, P<0.001" |
| 效应解读 | "效应量 {{r}},提示 {{程度}}" | "效应量 r=0.52,提示中等程度效应" |
| 敏感性 | "敏感性分析得到 {{结论}}" | "敏感性分析得到一致结论,结果稳健" |
| 方法说明 | "由于 {{原因}},故采用 {{方法}}" | "由于不满足正态性,故采用非参数方法" |
---
## 5. 系统架构蓝图
### 5.1 理想系统的核心组件
```
┌─────────────────────────────────────────────────────────────┐
│ 理想的智能统计分析系统 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 1. 意图理解器 (Intent Parser) │ │
│ │ - LLM 意图识别 │ │
│ │ - Goal/Y/X/Design 四维提取 │ │
│ │ - 不确定时追问澄清 │ │
│ └──────────────────┬───────────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 2. 数据诊断器 (Data Diagnostician) │ │
│ │ - 分布检验(正态性、方差齐性) │ │
│ │ - 数据质量(缺失值、异常值) │ │
│ │ - 样本特征(样本量、平衡性) │ │
│ └──────────────────┬───────────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 3. 路径规划器 (Pathway Planner) ⭐ 核心 │ │
│ │ - 决策表匹配(四维 → 方法) │ │
│ │ - 流程模板选择 │ │
│ │ - 数据驱动的方法调整 │ │
│ │ - 生成完整 SAP │ │
│ └──────────────────┬───────────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 4. 流程执行器 (Workflow Executor) │ │
│ │ - 多方法顺序编排 │ │
│ │ - 结果串联传递 │ │
│ │ - 护栏检查与自动降级 │ │
│ │ - 实时进度反馈 │ │
│ └──────────────────┬───────────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 5. 结论生成器 (Conclusion Generator) │ │
│ │ - 结果整合 │ │
│ │ - 论文级结论模板 │ │
│ │ - 方法学说明 │ │
│ │ - 局限性声明 │ │
│ └──────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
```
### 5.2 数据流架构
```
用户输入
┌─────────────────┐
│ 意图理解器 │ ← LLM + 意图分类
└────────┬────────┘
│ (Goal, Y, X, Design)
┌─────────────────┐
│ 数据诊断器 │ ← R 统计检验
└────────┬────────┘
│ (Data Profile)
┌─────────────────┐
│ 路径规划器 │ ← 决策表 + 流程模板
└────────┬────────┘
│ (SAP: workflow_steps[])
┌─────────────────┐
│ 流程执行器 │ ← R 方法库 + 编排引擎
└────────┬────────┘
│ (step_results[])
┌─────────────────┐
│ 结论生成器 │ ← LLM + 解读模板
└────────┬────────┘
综合报告
```
### 5.3 与现有架构的关系
| 组件 | 现有系统 | 理想系统 | 差距 |
|------|----------|----------|------|
| 意图理解器 | ❌ 无 | ✅ LLM + 分类 | 需新建 |
| 数据诊断器 | 🟡 R 服务内部 | ✅ 独立模块 | 需提取 |
| 路径规划器 | ❌ 单方法选择 | ✅ 完整流程 | 需重构 |
| 流程执行器 | ❌ 单方法执行 | ✅ 多方法编排 | 需新建 |
| 结论生成器 | 🟡 简单解读 | ✅ 论文级 | 需增强 |
---
## 6. 实施路线图
### 6.1 当前状态 vs 目标状态
```
当前状态 (MVP Phase 1):
┌──────────────────────────────────────┐
│ 用户 → 选 T 检验 → 执行 → P 值结果 │
└──────────────────────────────────────┘
目标状态 (理想系统):
┌──────────────────────────────────────────────────────────┐
│ 用户 → AI 理解 → 数据诊断 → 规划流程 → 分步执行 → 综合报告 │
└──────────────────────────────────────────────────────────┘
```
### 6.2 分阶段演进
```
┌─────────────────────────────────────────────────────────────┐
│ 当前: 单方法执行 (L1) │
│ - 用户指定方法 │
│ - 执行单个 R 脚本 │
│ - 返回 P 值结果 │
└─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ 阶段 1: 智能选方法 (L2) │
│ + 意图识别Goal/Y/X/Design
│ + 决策表匹配 │
│ + 自动选择方法 │
└─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ 阶段 2: 数据自适应 (L3) │
│ + 数据诊断器 │
│ + 根据数据特征调整方法 │
│ + 护栏自动降级 │
└─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ 阶段 3: 流程编排 (L4) │
│ + 流程模板 │
│ + 多方法顺序执行 │
│ + 结果串联 │
└─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ 阶段 4: 论文级输出 (L5) │
│ + 综合结论生成 │
│ + 方法学说明 │
│ + 完整报告导出 │
└─────────────────────────────────────────────────────────────┘
```
### 6.3 优先级建议
| 优先级 | 组件 | 价值 | 工作量 |
|--------|------|------|--------|
| P0 | 决策表匹配 | 智能选方法的基础 | 中 |
| P0 | 流程模板 | 从单方法到流程的关键 | 中 |
| P1 | 流程执行器 | 多方法编排 | 高 |
| P1 | 数据诊断器 | 自适应能力 | 中 |
| P2 | 意图理解器 | 用户体验提升 | 中 |
| P2 | 结论生成器 | 输出质量提升 | 中 |
---
## 7. 成功标准
### 7.1 用户体验标准
| 指标 | 当前 | 目标 |
|------|------|------|
| 用户需要知道方法名 | ✅ 必须 | ❌ 不需要 |
| 用户需要理解数据特征 | ✅ 必须 | ❌ 不需要 |
| 输出可直接用于论文 | ❌ 需整理 | ✅ 可直接用 |
| 分析过程可追溯 | 🟡 部分 | ✅ 完整 |
### 7.2 智能化标准
| 能力 | 当前 | 目标 |
|------|------|------|
| 意图理解 | ❌ 无 | ✅ 自动识别 |
| 方法选择 | 🟡 硬编码 | ✅ 决策表驱动 |
| 数据适应 | 🟡 部分 | ✅ 完全自适应 |
| 流程规划 | ❌ 单方法 | ✅ 完整流程 |
| 结论生成 | 🟡 简单 | ✅ 论文级 |
---
## 8. 附录
### 8.1 术语表
| 术语 | 定义 |
|------|------|
| SAP | Statistical Analysis Plan统计分析计划 |
| Goal | 分析目的(差异比较/关联分析/预测建模) |
| Y_Type | 因变量类型(连续/分类/生存时间) |
| X_Type | 自变量类型(二分类/多分类/连续) |
| Design | 实验设计(独立/配对/重复测量) |
| 流程模板 | 预定义的多步骤分析流程 |
| 护栏 | 统计前提条件检查 |
| 降级 | 当前提不满足时切换到替代方法 |
### 8.2 相关文档
| 文档 | 路径 |
|------|------|
| 当前架构设计 | `00-系统设计/SSA-Pro 严谨型智能统计分析架构设计方案V4.md` |
| 配置中台设计 | `00-系统设计/SSA-Executor_专家配置要素.md` |
| Planner 设计 | `00-系统设计/Planner 统计分析计划与配置映射.md` |
| MVP 开发计划 | `04-开发计划/00-MVP开发计划总览.md` |
---
**文档维护者:** SSA 架构团队
**创建日期:** 2026-02-20
**版本:** v1.0