42 KiB
42 KiB
SSA-Pro 理想状态与智能化愿景设计
文档版本: v1.0
创建日期: 2026-02-20
文档类型: 愿景设计 (Vision Design)
核心理念: 以终为始,定义理想的智能统计分析系统
1. 执行摘要
1.1 核心洞察
医生不会问"帮我做 T 检验",医生会问:
"我想知道这个新药对高血压患者有没有效?"
"我收集了 200 个患者的数据,男女各半,想看看血压变化。"
"能不能帮我分析一下,发篇论文?"
1.2 理想的智能统计分析
不是"执行方法",而是"规划流程"
传统思维:
用户 → 选方法 → 执行 → 结果
理想思维:
用户 → AI 理解意图 → 规划完整分析流程 → 分步执行 → 综合结论
1.3 智能化的本质
| 维度 | 传统系统 | 智能系统 |
|---|---|---|
| 输入 | 用户指定方法 | AI 理解意图 |
| 执行 | 单个方法 | 完整流程编排 |
| 输出 | P 值 + 图表 | 论文级报告 |
| 适应性 | 假设数据满足条件 | 自动诊断并调整 |
2. 医生的真实场景分析
2.1 用户画像
| 特征 | 描述 |
|---|---|
| 统计知识 | 了解基本概念,但不精通方法选择 |
| 核心诉求 | 得到可发表的统计结果 |
| 表达方式 | 用临床语言描述问题,非统计术语 |
| 容错期望 | 希望系统自动处理数据问题 |
2.2 用户输入的不确定性
| 挑战 | 描述 | 示例 |
|---|---|---|
| 意图模糊 | "有没有效"到底是什么? | 降压幅度?有效率?达标率? |
| 数据未知 | 用户不知道数据特征 | 正态吗?缺失多吗?有异常值吗? |
| 方法未知 | 用户不知道该用什么方法 | T 检验?Wilcoxon?ANOVA? |
| 流程未知 | 统计分析不是"一个方法" | 需要完整的分析流程 |
2.3 数据形态的多样性
| 数据问题 | 发生频率 | 系统应对 |
|---|---|---|
| 缺失值 | 80%+ 数据集 | 自动检测,提供处理策略 |
| 异常值 | 60%+ 数据集 | 自动识别,建议处理方式 |
| 非正态分布 | 50%+ 变量 | 自动检验,切换非参数方法 |
| 小样本 | 30%+ 研究 | 提示功效不足,建议精确方法 |
| 不平衡分组 | 40%+ 研究 | 提示问题,调整分析策略 |
3. 理想的智能统计分析过程
3.1 完整流程示例
用户输入:
"我有 200 个高血压患者的数据,分成治疗组和对照组,想比较治疗前后的血压变化,看看新药是否有效。"
3.2 Step 1: 意图解析 (Intent Understanding)
┌─────────────────────────────────────────────────────────────┐
│ Step 1: 意图解析 │
├─────────────────────────────────────────────────────────────┤
│ AI 识别出: │
│ - 研究目的:差异比较(治疗 vs 对照) │
│ - 结局变量:血压变化(连续变量) │
│ - 分组变量:治疗组/对照组(二分类) │
│ - 设计类型:独立样本(两组不同的人) │
│ - 潜在混杂:前后对比(可能需要配对分析?) │
│ │
│ 🤔 AI 追问(当不确定时): │
│ "您说的血压变化,是指每个患者治疗前后的变化值, │
│ 还是比较两组治疗后的血压?这会影响分析方法的选择。" │
└─────────────────────────────────────────────────────────────┘
意图解析的核心能力:
| 用户说 | AI 理解为 |
|---|---|
| "有没有效" / "有没有差异" | 差异比较 → 假设检验 |
| "影响因素" / "相关因素" | 关联分析 → 回归建模 |
| "预测风险" / "预后模型" | 预测建模 → 分类/生存模型 |
| "描述情况" / "基线特征" | 描述统计 → 频数/均值表 |
3.3 Step 2: 数据诊断 (Data Diagnosis)
┌─────────────────────────────────────────────────────────────┐
│ Step 2: 数据诊断 │
├─────────────────────────────────────────────────────────────┤
│ 系统自动扫描数据,生成"数据体检报告": │
│ │
│ 📊 数据概况 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 总样本量:200 │ │
│ │ 治疗组:102 (51%) │ │
│ │ 对照组:98 (49%) │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ 📈 分布特征 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 变量 分布检验 结论 │ │
│ │ ─────────────────────────────────────────────────────── │ │
│ │ 血压变化(治疗) Shapiro P=0.02 ⚠️ 偏态分布 │ │
│ │ 血压变化(对照) Shapiro P=0.15 ✅ 近似正态 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ ⚠️ 数据问题 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 1. 缺失值:血压字段有 12 例缺失 (6%) │ │
│ │ 2. 异常值:2 例血压 > 300 mmHg(疑似记录错误) │ │
│ │ 3. 正态性:治疗组不满足正态分布假设 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ 💡 系统建议 │
│ - 建议处理 2 例异常值后再分析 │
│ - 由于正态性不满足,建议使用非参数方法 │
└─────────────────────────────────────────────────────────────┘
数据诊断的核心检测项:
| 检测项 | 方法 | 阈值 | 处理建议 |
|---|---|---|---|
| 正态性 | Shapiro-Wilk | P < 0.05 | 切换非参数方法 |
| 方差齐性 | Levene | P < 0.05 | 使用 Welch 校正 |
| 缺失比例 | 统计 | > 20% | 提示多重插补 |
| 异常值 | IQR 方法 | > 3×IQR | 提示检查/剔除 |
| 样本量 | 统计 | < 30 | 提示使用精确方法 |
3.4 Step 3: 分析路径规划 (Analysis Pathway Planning)
┌─────────────────────────────────────────────────────────────┐
│ Step 3: 分析路径规划 │
├─────────────────────────────────────────────────────────────┤
│ 基于意图 + 数据特征,AI 规划完整分析路径: │
│ │
│ 📋 统计分析计划 (SAP) │
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 1️⃣ 数据预处理 │ │
│ │ ├─ 剔除 2 例异常值 (血压 > 300) │ │
│ │ └─ 缺失值处理:完全案例分析 (剔除 12 例) │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ 2️⃣ 描述性统计 │ │
│ │ ├─ 两组基线特征比较 (年龄、性别、基础血压) │ │
│ │ └─ 血压变化的均值、中位数、四分位数 │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ 3️⃣ 主要分析 │ │
│ │ ├─ 方法:Mann-Whitney U 检验 │ │
│ │ └─ 理由:治疗组血压变化不服从正态分布 │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ 4️⃣ 敏感性分析 │ │
│ │ ├─ 补充 T 检验结果(作为参考) │ │
│ │ └─ Bootstrap 置信区间(不依赖分布假设) │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ 5️⃣ 效应量与临床意义 │ │
│ │ ├─ Cohen's d 效应量 │ │
│ │ └─ 95% CI 判断临床显著性 │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ 6️⃣ 可视化 │ │
│ │ ├─ 两组血压变化箱线图 │ │
│ │ └─ 个体变化瀑布图 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ [📝 修改计划] [✅ 确认执行全部] [⏭️ 跳过某些步骤] │
└─────────────────────────────────────────────────────────────┘
分析路径的核心概念:流程模板
| 分析目的 | 标准流程模板 |
|---|---|
| 差异比较 | 数据清洗 → 描述统计 → 假设检验 → 敏感性分析 → 效应量 → 可视化 |
| 关联分析 | 数据清洗 → 描述统计 → 相关分析 → 回归建模 → 模型诊断 → 可视化 |
| 描述统计 | 数据清洗 → 连续变量统计 → 分类变量统计 → 基线表生成 |
| 生存分析 | 数据清洗 → K-M 曲线 → Log-rank 检验 → Cox 回归 → 风险预测 |
3.5 Step 4: 分步执行与实时反馈
┌─────────────────────────────────────────────────────────────┐
│ Step 4: 分步执行与实时反馈 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ✅ 1/6 数据预处理完成 [00:02] │
│ → 剔除 14 例,最终分析 186 例 │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 原始样本:200 │ │
│ │ 剔除异常值:2 │ │
│ │ 剔除缺失:12 │ │
│ │ 最终样本:186 (治疗组 94, 对照组 92) │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ ✅ 2/6 描述性统计完成 [00:05] │
│ → 生成描述性统计表 │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 组别 N 均值±SD 中位数(IQR) │ │
│ │ ───────────────────────────────────────────────────── │ │
│ │ 治疗组 94 -15.2±8.3 -14.5(-20,-8) │ │
│ │ 对照组 92 -5.1±7.9 -4.8(-10,1) │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 🔄 3/6 正在执行 Mann-Whitney U 检验... [运行中] │
│ ├─ 🔍 检查样本量... ✅ 通过 (N=186) │
│ ├─ 🔍 检查数据类型... ✅ 通过 (连续变量) │
│ └─ 🚀 执行检验... 进行中 │
│ │
│ ⏳ 4/6 敏感性分析 [等待中] │
│ ⏳ 5/6 效应量计算 [等待中] │
│ ⏳ 6/6 可视化生成 [等待中] │
│ │
│ [⏸️ 暂停] [⏭️ 跳过当前步骤] [❌ 取消全部] │
└─────────────────────────────────────────────────────────────┘
执行引擎的核心能力:
| 能力 | 描述 |
|---|---|
| 顺序编排 | 按 SAP 定义的顺序执行多个方法 |
| 结果串联 | 上一步的输出作为下一步的输入 |
| 实时反馈 | 每步完成后立即展示中间结果 |
| 错误处理 | 某步失败时提供跳过/重试选项 |
| 可中断 | 用户可随时暂停、跳过、取消 |
3.6 Step 5: 综合结论生成
┌─────────────────────────────────────────────────────────────┐
│ Step 5: 综合结论生成 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 📊 分析结果 │
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 表 1. 两组血压变化比较 │ │
│ │ ─────────────────────────────────────────────────────── │ │
│ │ 组别 N 中位数(IQR) P 值 效应量(r) │ │
│ │ ─────────────────────────────────────────────────────── │ │
│ │ 治疗组 94 -14.5(-20,-8) │ │
│ │ <0.001 0.52 │ │
│ │ 对照组 92 -4.8(-10,1) │ │
│ │ ─────────────────────────────────────────────────────── │ │
│ │ 注:采用 Mann-Whitney U 检验 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ 📈 可视化 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ [箱线图] │ │
│ │ │ │
│ │ 治疗组 ████████████████████ -14.5 │ │
│ │ 对照组 ████████ -4.8 │ │
│ │ │ │
│ │ P < 0.001 *** │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ 📝 结论(论文级) │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 本研究共纳入 186 例高血压患者进行分析。 │ │
│ │ │ │
│ │ Mann-Whitney U 检验结果显示,治疗组血压变化 │ │
│ │ (中位数 -14.5 mmHg) 显著大于对照组 (-4.8 mmHg), │ │
│ │ 差异具有统计学意义 (U=2341, P<0.001)。 │ │
│ │ 效应量 r=0.52,提示中等程度的效应。 │ │
│ │ │ │
│ │ 敏感性分析(独立样本 T 检验)得到一致结论 │ │
│ │ (t=5.23, P<0.001),结果稳健。 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ ⚠️ 方法学说明 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 由于治疗组数据不满足正态分布假设 │ │
│ │ (Shapiro-Wilk P=0.02),故采用非参数方法作为主要分析。 │ │
│ │ │ │
│ │ 本分析剔除了 14 例数据: │ │
│ │ - 2 例异常值(血压 > 300 mmHg) │ │
│ │ - 12 例缺失值(血压字段缺失) │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ [📥 下载报告(Word)] [📥 下载 R 代码] [🔄 调整分析] │
└─────────────────────────────────────────────────────────────┘
结论生成的核心要素:
| 要素 | 描述 | 示例 |
|---|---|---|
| 样本描述 | 纳入/排除情况 | "共纳入 186 例" |
| 主要结果 | 核心统计量 | "P<0.001, r=0.52" |
| 临床解读 | 效应量含义 | "中等程度效应" |
| 敏感性 | 结果稳健性 | "T检验得到一致结论" |
| 方法说明 | 选择理由 | "因不满足正态性..." |
| 局限性 | 数据处理说明 | "剔除 14 例数据" |
4. 智能化的核心能力
4.1 意图理解能力
从模糊输入到精确分析目标的映射:
用户输入解析流程:
"比较新药疗效"
→ 提取关键词:比较、疗效
→ 识别意图:差异比较
→ 识别目标:Goal = Difference
"分析影响因素"
→ 提取关键词:影响、因素
→ 识别意图:关联分析
→ 识别目标:Goal = Association
"预测复发风险"
→ 提取关键词:预测、风险
→ 识别意图:预测建模
→ 识别目标:Goal = Prediction
意图分类体系:
| Goal 类型 | 用户表达 | 典型方法 |
|---|---|---|
| Difference | 比较、差异、疗效 | T 检验、ANOVA、卡方 |
| Association | 相关、影响、因素 | 相关分析、回归 |
| Prediction | 预测、风险、预后 | 逻辑回归、生存分析 |
| Description | 描述、特征、分布 | 频数、均值、百分比 |
4.2 数据自适应能力
根据数据特征自动选择方法:
数据诊断 → 方法决策树
┌─ 正态 → T 检验
┌─ 两组 ───┤
│ └─ 非正态 → Mann-Whitney U
│
连续Y ──┤ ┌─ 正态 → 单因素 ANOVA
│ │
└─ 多组 ───┼─ 非正态 → Kruskal-Wallis
│
└─ 配对 → 重复测量 ANOVA
┌─ 2×2 表 → 卡方检验/Fisher
分类Y ──┼─ 两组 ───┤
│ └─ 期望频数<5 → Fisher 精确
│
└─ 多组 ──── χ² 检验
方法选择的四维匹配:
| 维度 | 描述 | 取值 |
|---|---|---|
| Goal | 分析目的 | Difference / Association / Prediction |
| Y_Type | 因变量类型 | Continuous / Categorical / Survival |
| X_Type | 自变量类型 | Categorical_2 / Categorical_Multi / Continuous |
| Design | 实验设计 | Independent / Paired / Repeated |
4.3 路径规划能力
不是单个方法,而是完整流程:
一个完整的统计分析 ≠ 一个方法
而是:
┌─────────┬─────────┬─────────┬─────────┬─────────┬─────────┐
│数据清洗 │描述统计 │假设检验 │敏感性 │效应量 │可视化 │
│ │ │(主要)│分析 │ │ │
└─────────┴─────────┴─────────┴─────────┴─────────┴─────────┘
标准分析流程模板:
| 流程名称 | 步骤序列 |
|---|---|
| 两组差异比较 | CLEAN → DESC → NORMALITY_CHECK → [T_TEST | MANN_WHITNEY] → EFFECT_SIZE → PLOT_BOX |
| 多组差异比较 | CLEAN → DESC → NORMALITY_CHECK → [ANOVA | KRUSKAL] → POST_HOC → EFFECT_SIZE → PLOT_BOX |
| 相关性分析 | CLEAN → DESC → SCATTER_PLOT → [PEARSON | SPEARMAN] → REGRESSION → PLOT_REG |
| 基线特征表 | CLEAN → DESC_CONTINUOUS → DESC_CATEGORICAL → TABLE_ONE |
4.4 不确定性处理能力
当 AI 无法确定时,应该追问而非猜测:
场景 1:无法确定设计类型
┌─────────────────────────────────────────────────────────────┐
│ 🤔 AI 追问: │
│ │
│ "您的数据中,每个患者有治疗前和治疗后两次测量吗? │
│ - 如果是同一患者的前后对比,我建议用配对分析 │
│ - 如果是不同患者的组间对比,我建议用独立样本分析" │
│ │
│ [ 同一患者前后对比 ] [ 不同患者组间对比 ] │
└─────────────────────────────────────────────────────────────┘
场景 2:变量角色不明确
┌─────────────────────────────────────────────────────────────┐
│ 🤔 AI 追问: │
│ │
│ "您想比较的是: │
│ - A) 治疗后的血压值 │
│ - B) 治疗前后的血压变化值 │
│ │
│ 这会影响分析方法的选择。" │
│ │
│ [ 比较治疗后血压 ] [ 比较血压变化值 ] │
└─────────────────────────────────────────────────────────────┘
场景 3:多个可能的分析目标
┌─────────────────────────────────────────────────────────────┐
│ 🤔 AI 澄清: │
│ │
│ "根据您的描述,我理解您可能想要: │
│ │
│ 1. 比较两组的疗效差异(假设检验) │
│ 2. 分析疗效的影响因素(回归分析) │
│ 3. 预测患者的治疗反应(预测模型) │
│ │
│ 请选择您最主要的分析目标,或选择"全部"进行综合分析。" │
│ │
│ [ 差异比较 ] [ 因素分析 ] [ 预测模型 ] [ 全部 ] │
└─────────────────────────────────────────────────────────────┘
4.5 结论生成能力
生成论文级的综合结论:
| 结论要素 | 模板结构 | 示例 |
|---|---|---|
| 样本描述 | "本研究共纳入 {{N}} 例..." | "本研究共纳入 186 例高血压患者" |
| 主要结果 | "{{方法}}结果显示,{{统计量}}" | "Mann-Whitney U 检验结果显示,U=2341, P<0.001" |
| 效应解读 | "效应量 {{r}},提示 {{程度}}" | "效应量 r=0.52,提示中等程度效应" |
| 敏感性 | "敏感性分析得到 {{结论}}" | "敏感性分析得到一致结论,结果稳健" |
| 方法说明 | "由于 {{原因}},故采用 {{方法}}" | "由于不满足正态性,故采用非参数方法" |
5. 系统架构蓝图
5.1 理想系统的核心组件
┌─────────────────────────────────────────────────────────────┐
│ 理想的智能统计分析系统 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 1. 意图理解器 (Intent Parser) │ │
│ │ - LLM 意图识别 │ │
│ │ - Goal/Y/X/Design 四维提取 │ │
│ │ - 不确定时追问澄清 │ │
│ └──────────────────┬───────────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 2. 数据诊断器 (Data Diagnostician) │ │
│ │ - 分布检验(正态性、方差齐性) │ │
│ │ - 数据质量(缺失值、异常值) │ │
│ │ - 样本特征(样本量、平衡性) │ │
│ └──────────────────┬───────────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 3. 路径规划器 (Pathway Planner) ⭐ 核心 │ │
│ │ - 决策表匹配(四维 → 方法) │ │
│ │ - 流程模板选择 │ │
│ │ - 数据驱动的方法调整 │ │
│ │ - 生成完整 SAP │ │
│ └──────────────────┬───────────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 4. 流程执行器 (Workflow Executor) │ │
│ │ - 多方法顺序编排 │ │
│ │ - 结果串联传递 │ │
│ │ - 护栏检查与自动降级 │ │
│ │ - 实时进度反馈 │ │
│ └──────────────────┬───────────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 5. 结论生成器 (Conclusion Generator) │ │
│ │ - 结果整合 │ │
│ │ - 论文级结论模板 │ │
│ │ - 方法学说明 │ │
│ │ - 局限性声明 │ │
│ └──────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
5.2 数据流架构
用户输入
│
▼
┌─────────────────┐
│ 意图理解器 │ ← LLM + 意图分类
└────────┬────────┘
│ (Goal, Y, X, Design)
▼
┌─────────────────┐
│ 数据诊断器 │ ← R 统计检验
└────────┬────────┘
│ (Data Profile)
▼
┌─────────────────┐
│ 路径规划器 │ ← 决策表 + 流程模板
└────────┬────────┘
│ (SAP: workflow_steps[])
▼
┌─────────────────┐
│ 流程执行器 │ ← R 方法库 + 编排引擎
└────────┬────────┘
│ (step_results[])
▼
┌─────────────────┐
│ 结论生成器 │ ← LLM + 解读模板
└────────┬────────┘
│
▼
综合报告
5.3 与现有架构的关系
| 组件 | 现有系统 | 理想系统 | 差距 |
|---|---|---|---|
| 意图理解器 | ❌ 无 | ✅ LLM + 分类 | 需新建 |
| 数据诊断器 | 🟡 R 服务内部 | ✅ 独立模块 | 需提取 |
| 路径规划器 | ❌ 单方法选择 | ✅ 完整流程 | 需重构 |
| 流程执行器 | ❌ 单方法执行 | ✅ 多方法编排 | 需新建 |
| 结论生成器 | 🟡 简单解读 | ✅ 论文级 | 需增强 |
6. 实施路线图
6.1 当前状态 vs 目标状态
当前状态 (MVP Phase 1):
┌──────────────────────────────────────┐
│ 用户 → 选 T 检验 → 执行 → P 值结果 │
└──────────────────────────────────────┘
目标状态 (理想系统):
┌──────────────────────────────────────────────────────────┐
│ 用户 → AI 理解 → 数据诊断 → 规划流程 → 分步执行 → 综合报告 │
└──────────────────────────────────────────────────────────┘
6.2 分阶段演进
┌─────────────────────────────────────────────────────────────┐
│ 当前: 单方法执行 (L1) │
│ - 用户指定方法 │
│ - 执行单个 R 脚本 │
│ - 返回 P 值结果 │
└─────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 阶段 1: 智能选方法 (L2) │
│ + 意图识别(Goal/Y/X/Design) │
│ + 决策表匹配 │
│ + 自动选择方法 │
└─────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 阶段 2: 数据自适应 (L3) │
│ + 数据诊断器 │
│ + 根据数据特征调整方法 │
│ + 护栏自动降级 │
└─────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 阶段 3: 流程编排 (L4) │
│ + 流程模板 │
│ + 多方法顺序执行 │
│ + 结果串联 │
└─────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 阶段 4: 论文级输出 (L5) │
│ + 综合结论生成 │
│ + 方法学说明 │
│ + 完整报告导出 │
└─────────────────────────────────────────────────────────────┘
6.3 优先级建议
| 优先级 | 组件 | 价值 | 工作量 |
|---|---|---|---|
| P0 | 决策表匹配 | 智能选方法的基础 | 中 |
| P0 | 流程模板 | 从单方法到流程的关键 | 中 |
| P1 | 流程执行器 | 多方法编排 | 高 |
| P1 | 数据诊断器 | 自适应能力 | 中 |
| P2 | 意图理解器 | 用户体验提升 | 中 |
| P2 | 结论生成器 | 输出质量提升 | 中 |
7. 成功标准
7.1 用户体验标准
| 指标 | 当前 | 目标 |
|---|---|---|
| 用户需要知道方法名 | ✅ 必须 | ❌ 不需要 |
| 用户需要理解数据特征 | ✅ 必须 | ❌ 不需要 |
| 输出可直接用于论文 | ❌ 需整理 | ✅ 可直接用 |
| 分析过程可追溯 | 🟡 部分 | ✅ 完整 |
7.2 智能化标准
| 能力 | 当前 | 目标 |
|---|---|---|
| 意图理解 | ❌ 无 | ✅ 自动识别 |
| 方法选择 | 🟡 硬编码 | ✅ 决策表驱动 |
| 数据适应 | 🟡 部分 | ✅ 完全自适应 |
| 流程规划 | ❌ 单方法 | ✅ 完整流程 |
| 结论生成 | 🟡 简单 | ✅ 论文级 |
8. 附录
8.1 术语表
| 术语 | 定义 |
|---|---|
| SAP | Statistical Analysis Plan,统计分析计划 |
| Goal | 分析目的(差异比较/关联分析/预测建模) |
| Y_Type | 因变量类型(连续/分类/生存时间) |
| X_Type | 自变量类型(二分类/多分类/连续) |
| Design | 实验设计(独立/配对/重复测量) |
| 流程模板 | 预定义的多步骤分析流程 |
| 护栏 | 统计前提条件检查 |
| 降级 | 当前提不满足时切换到替代方法 |
8.2 相关文档
| 文档 | 路径 |
|---|---|
| 当前架构设计 | 00-系统设计/SSA-Pro 严谨型智能统计分析架构设计方案V4.md |
| 配置中台设计 | 00-系统设计/SSA-Executor_专家配置要素.md |
| Planner 设计 | 00-系统设计/Planner 统计分析计划与配置映射.md |
| MVP 开发计划 | 04-开发计划/00-MVP开发计划总览.md |
文档维护者: SSA 架构团队
创建日期: 2026-02-20
版本: v1.0