# SSA-Pro 理想状态与智能化愿景设计 > **文档版本:** v1.0 > **创建日期:** 2026-02-20 > **文档类型:** 愿景设计 (Vision Design) > **核心理念:** 以终为始,定义理想的智能统计分析系统 --- ## 1. 执行摘要 ### 1.1 核心洞察 **医生不会问"帮我做 T 检验",医生会问:** > "我想知道这个新药对高血压患者有没有效?" > > "我收集了 200 个患者的数据,男女各半,想看看血压变化。" > > "能不能帮我分析一下,发篇论文?" ### 1.2 理想的智能统计分析 **不是"执行方法",而是"规划流程"** ``` 传统思维: 用户 → 选方法 → 执行 → 结果 理想思维: 用户 → AI 理解意图 → 规划完整分析流程 → 分步执行 → 综合结论 ``` ### 1.3 智能化的本质 | 维度 | 传统系统 | 智能系统 | |------|----------|----------| | 输入 | 用户指定方法 | AI 理解意图 | | 执行 | 单个方法 | 完整流程编排 | | 输出 | P 值 + 图表 | 论文级报告 | | 适应性 | 假设数据满足条件 | 自动诊断并调整 | --- ## 2. 医生的真实场景分析 ### 2.1 用户画像 | 特征 | 描述 | |------|------| | **统计知识** | 了解基本概念,但不精通方法选择 | | **核心诉求** | 得到可发表的统计结果 | | **表达方式** | 用临床语言描述问题,非统计术语 | | **容错期望** | 希望系统自动处理数据问题 | ### 2.2 用户输入的不确定性 | 挑战 | 描述 | 示例 | |------|------|------| | **意图模糊** | "有没有效"到底是什么? | 降压幅度?有效率?达标率? | | **数据未知** | 用户不知道数据特征 | 正态吗?缺失多吗?有异常值吗? | | **方法未知** | 用户不知道该用什么方法 | T 检验?Wilcoxon?ANOVA? | | **流程未知** | 统计分析不是"一个方法" | 需要完整的分析流程 | ### 2.3 数据形态的多样性 | 数据问题 | 发生频率 | 系统应对 | |----------|----------|----------| | **缺失值** | 80%+ 数据集 | 自动检测,提供处理策略 | | **异常值** | 60%+ 数据集 | 自动识别,建议处理方式 | | **非正态分布** | 50%+ 变量 | 自动检验,切换非参数方法 | | **小样本** | 30%+ 研究 | 提示功效不足,建议精确方法 | | **不平衡分组** | 40%+ 研究 | 提示问题,调整分析策略 | --- ## 3. 理想的智能统计分析过程 ### 3.1 完整流程示例 **用户输入:** > "我有 200 个高血压患者的数据,分成治疗组和对照组,想比较治疗前后的血压变化,看看新药是否有效。" ### 3.2 Step 1: 意图解析 (Intent Understanding) ``` ┌─────────────────────────────────────────────────────────────┐ │ Step 1: 意图解析 │ ├─────────────────────────────────────────────────────────────┤ │ AI 识别出: │ │ - 研究目的:差异比较(治疗 vs 对照) │ │ - 结局变量:血压变化(连续变量) │ │ - 分组变量:治疗组/对照组(二分类) │ │ - 设计类型:独立样本(两组不同的人) │ │ - 潜在混杂:前后对比(可能需要配对分析?) │ │ │ │ 🤔 AI 追问(当不确定时): │ │ "您说的血压变化,是指每个患者治疗前后的变化值, │ │ 还是比较两组治疗后的血压?这会影响分析方法的选择。" │ └─────────────────────────────────────────────────────────────┘ ``` **意图解析的核心能力:** | 用户说 | AI 理解为 | |--------|-----------| | "有没有效" / "有没有差异" | 差异比较 → 假设检验 | | "影响因素" / "相关因素" | 关联分析 → 回归建模 | | "预测风险" / "预后模型" | 预测建模 → 分类/生存模型 | | "描述情况" / "基线特征" | 描述统计 → 频数/均值表 | ### 3.3 Step 2: 数据诊断 (Data Diagnosis) ``` ┌─────────────────────────────────────────────────────────────┐ │ Step 2: 数据诊断 │ ├─────────────────────────────────────────────────────────────┤ │ 系统自动扫描数据,生成"数据体检报告": │ │ │ │ 📊 数据概况 │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ 总样本量:200 │ │ │ │ 治疗组:102 (51%) │ │ │ │ 对照组:98 (49%) │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ 📈 分布特征 │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ 变量 分布检验 结论 │ │ │ │ ─────────────────────────────────────────────────────── │ │ │ │ 血压变化(治疗) Shapiro P=0.02 ⚠️ 偏态分布 │ │ │ │ 血压变化(对照) Shapiro P=0.15 ✅ 近似正态 │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ ⚠️ 数据问题 │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ 1. 缺失值:血压字段有 12 例缺失 (6%) │ │ │ │ 2. 异常值:2 例血压 > 300 mmHg(疑似记录错误) │ │ │ │ 3. 正态性:治疗组不满足正态分布假设 │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ 💡 系统建议 │ │ - 建议处理 2 例异常值后再分析 │ │ - 由于正态性不满足,建议使用非参数方法 │ └─────────────────────────────────────────────────────────────┘ ``` **数据诊断的核心检测项:** | 检测项 | 方法 | 阈值 | 处理建议 | |--------|------|------|----------| | 正态性 | Shapiro-Wilk | P < 0.05 | 切换非参数方法 | | 方差齐性 | Levene | P < 0.05 | 使用 Welch 校正 | | 缺失比例 | 统计 | > 20% | 提示多重插补 | | 异常值 | IQR 方法 | > 3×IQR | 提示检查/剔除 | | 样本量 | 统计 | < 30 | 提示使用精确方法 | ### 3.4 Step 3: 分析路径规划 (Analysis Pathway Planning) ``` ┌─────────────────────────────────────────────────────────────┐ │ Step 3: 分析路径规划 │ ├─────────────────────────────────────────────────────────────┤ │ 基于意图 + 数据特征,AI 规划完整分析路径: │ │ │ │ 📋 统计分析计划 (SAP) │ │ │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ 1️⃣ 数据预处理 │ │ │ │ ├─ 剔除 2 例异常值 (血压 > 300) │ │ │ │ └─ 缺失值处理:完全案例分析 (剔除 12 例) │ │ │ ├─────────────────────────────────────────────────────────┤ │ │ │ 2️⃣ 描述性统计 │ │ │ │ ├─ 两组基线特征比较 (年龄、性别、基础血压) │ │ │ │ └─ 血压变化的均值、中位数、四分位数 │ │ │ ├─────────────────────────────────────────────────────────┤ │ │ │ 3️⃣ 主要分析 │ │ │ │ ├─ 方法:Mann-Whitney U 检验 │ │ │ │ └─ 理由:治疗组血压变化不服从正态分布 │ │ │ ├─────────────────────────────────────────────────────────┤ │ │ │ 4️⃣ 敏感性分析 │ │ │ │ ├─ 补充 T 检验结果(作为参考) │ │ │ │ └─ Bootstrap 置信区间(不依赖分布假设) │ │ │ ├─────────────────────────────────────────────────────────┤ │ │ │ 5️⃣ 效应量与临床意义 │ │ │ │ ├─ Cohen's d 效应量 │ │ │ │ └─ 95% CI 判断临床显著性 │ │ │ ├─────────────────────────────────────────────────────────┤ │ │ │ 6️⃣ 可视化 │ │ │ │ ├─ 两组血压变化箱线图 │ │ │ │ └─ 个体变化瀑布图 │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ [📝 修改计划] [✅ 确认执行全部] [⏭️ 跳过某些步骤] │ └─────────────────────────────────────────────────────────────┘ ``` **分析路径的核心概念:流程模板** | 分析目的 | 标准流程模板 | |----------|-------------| | 差异比较 | 数据清洗 → 描述统计 → 假设检验 → 敏感性分析 → 效应量 → 可视化 | | 关联分析 | 数据清洗 → 描述统计 → 相关分析 → 回归建模 → 模型诊断 → 可视化 | | 描述统计 | 数据清洗 → 连续变量统计 → 分类变量统计 → 基线表生成 | | 生存分析 | 数据清洗 → K-M 曲线 → Log-rank 检验 → Cox 回归 → 风险预测 | ### 3.5 Step 4: 分步执行与实时反馈 ``` ┌─────────────────────────────────────────────────────────────┐ │ Step 4: 分步执行与实时反馈 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ ✅ 1/6 数据预处理完成 [00:02] │ │ → 剔除 14 例,最终分析 186 例 │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ 原始样本:200 │ │ │ │ 剔除异常值:2 │ │ │ │ 剔除缺失:12 │ │ │ │ 最终样本:186 (治疗组 94, 对照组 92) │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ │ ✅ 2/6 描述性统计完成 [00:05] │ │ → 生成描述性统计表 │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ 组别 N 均值±SD 中位数(IQR) │ │ │ │ ───────────────────────────────────────────────────── │ │ │ │ 治疗组 94 -15.2±8.3 -14.5(-20,-8) │ │ │ │ 对照组 92 -5.1±7.9 -4.8(-10,1) │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ │ 🔄 3/6 正在执行 Mann-Whitney U 检验... [运行中] │ │ ├─ 🔍 检查样本量... ✅ 通过 (N=186) │ │ ├─ 🔍 检查数据类型... ✅ 通过 (连续变量) │ │ └─ 🚀 执行检验... 进行中 │ │ │ │ ⏳ 4/6 敏感性分析 [等待中] │ │ ⏳ 5/6 效应量计算 [等待中] │ │ ⏳ 6/6 可视化生成 [等待中] │ │ │ │ [⏸️ 暂停] [⏭️ 跳过当前步骤] [❌ 取消全部] │ └─────────────────────────────────────────────────────────────┘ ``` **执行引擎的核心能力:** | 能力 | 描述 | |------|------| | **顺序编排** | 按 SAP 定义的顺序执行多个方法 | | **结果串联** | 上一步的输出作为下一步的输入 | | **实时反馈** | 每步完成后立即展示中间结果 | | **错误处理** | 某步失败时提供跳过/重试选项 | | **可中断** | 用户可随时暂停、跳过、取消 | ### 3.6 Step 5: 综合结论生成 ``` ┌─────────────────────────────────────────────────────────────┐ │ Step 5: 综合结论生成 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 📊 分析结果 │ │ │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ 表 1. 两组血压变化比较 │ │ │ │ ─────────────────────────────────────────────────────── │ │ │ │ 组别 N 中位数(IQR) P 值 效应量(r) │ │ │ │ ─────────────────────────────────────────────────────── │ │ │ │ 治疗组 94 -14.5(-20,-8) │ │ │ │ <0.001 0.52 │ │ │ │ 对照组 92 -4.8(-10,1) │ │ │ │ ─────────────────────────────────────────────────────── │ │ │ │ 注:采用 Mann-Whitney U 检验 │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ 📈 可视化 │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ [箱线图] │ │ │ │ │ │ │ │ 治疗组 ████████████████████ -14.5 │ │ │ │ 对照组 ████████ -4.8 │ │ │ │ │ │ │ │ P < 0.001 *** │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ 📝 结论(论文级) │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ 本研究共纳入 186 例高血压患者进行分析。 │ │ │ │ │ │ │ │ Mann-Whitney U 检验结果显示,治疗组血压变化 │ │ │ │ (中位数 -14.5 mmHg) 显著大于对照组 (-4.8 mmHg), │ │ │ │ 差异具有统计学意义 (U=2341, P<0.001)。 │ │ │ │ 效应量 r=0.52,提示中等程度的效应。 │ │ │ │ │ │ │ │ 敏感性分析(独立样本 T 检验)得到一致结论 │ │ │ │ (t=5.23, P<0.001),结果稳健。 │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ ⚠️ 方法学说明 │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ 由于治疗组数据不满足正态分布假设 │ │ │ │ (Shapiro-Wilk P=0.02),故采用非参数方法作为主要分析。 │ │ │ │ │ │ │ │ 本分析剔除了 14 例数据: │ │ │ │ - 2 例异常值(血压 > 300 mmHg) │ │ │ │ - 12 例缺失值(血压字段缺失) │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ [📥 下载报告(Word)] [📥 下载 R 代码] [🔄 调整分析] │ └─────────────────────────────────────────────────────────────┘ ``` **结论生成的核心要素:** | 要素 | 描述 | 示例 | |------|------|------| | **样本描述** | 纳入/排除情况 | "共纳入 186 例" | | **主要结果** | 核心统计量 | "P<0.001, r=0.52" | | **临床解读** | 效应量含义 | "中等程度效应" | | **敏感性** | 结果稳健性 | "T检验得到一致结论" | | **方法说明** | 选择理由 | "因不满足正态性..." | | **局限性** | 数据处理说明 | "剔除 14 例数据" | --- ## 4. 智能化的核心能力 ### 4.1 意图理解能力 **从模糊输入到精确分析目标的映射:** ``` 用户输入解析流程: "比较新药疗效" → 提取关键词:比较、疗效 → 识别意图:差异比较 → 识别目标:Goal = Difference "分析影响因素" → 提取关键词:影响、因素 → 识别意图:关联分析 → 识别目标:Goal = Association "预测复发风险" → 提取关键词:预测、风险 → 识别意图:预测建模 → 识别目标:Goal = Prediction ``` **意图分类体系:** | Goal 类型 | 用户表达 | 典型方法 | |-----------|----------|----------| | Difference | 比较、差异、疗效 | T 检验、ANOVA、卡方 | | Association | 相关、影响、因素 | 相关分析、回归 | | Prediction | 预测、风险、预后 | 逻辑回归、生存分析 | | Description | 描述、特征、分布 | 频数、均值、百分比 | ### 4.2 数据自适应能力 **根据数据特征自动选择方法:** ``` 数据诊断 → 方法决策树 ┌─ 正态 → T 检验 ┌─ 两组 ───┤ │ └─ 非正态 → Mann-Whitney U │ 连续Y ──┤ ┌─ 正态 → 单因素 ANOVA │ │ └─ 多组 ───┼─ 非正态 → Kruskal-Wallis │ └─ 配对 → 重复测量 ANOVA ┌─ 2×2 表 → 卡方检验/Fisher 分类Y ──┼─ 两组 ───┤ │ └─ 期望频数<5 → Fisher 精确 │ └─ 多组 ──── χ² 检验 ``` **方法选择的四维匹配:** | 维度 | 描述 | 取值 | |------|------|------| | Goal | 分析目的 | Difference / Association / Prediction | | Y_Type | 因变量类型 | Continuous / Categorical / Survival | | X_Type | 自变量类型 | Categorical_2 / Categorical_Multi / Continuous | | Design | 实验设计 | Independent / Paired / Repeated | ### 4.3 路径规划能力 **不是单个方法,而是完整流程:** ``` 一个完整的统计分析 ≠ 一个方法 而是: ┌─────────┬─────────┬─────────┬─────────┬─────────┬─────────┐ │数据清洗 │描述统计 │假设检验 │敏感性 │效应量 │可视化 │ │ │ │(主要)│分析 │ │ │ └─────────┴─────────┴─────────┴─────────┴─────────┴─────────┘ ``` **标准分析流程模板:** | 流程名称 | 步骤序列 | |----------|----------| | 两组差异比较 | CLEAN → DESC → NORMALITY_CHECK → [T_TEST \| MANN_WHITNEY] → EFFECT_SIZE → PLOT_BOX | | 多组差异比较 | CLEAN → DESC → NORMALITY_CHECK → [ANOVA \| KRUSKAL] → POST_HOC → EFFECT_SIZE → PLOT_BOX | | 相关性分析 | CLEAN → DESC → SCATTER_PLOT → [PEARSON \| SPEARMAN] → REGRESSION → PLOT_REG | | 基线特征表 | CLEAN → DESC_CONTINUOUS → DESC_CATEGORICAL → TABLE_ONE | ### 4.4 不确定性处理能力 **当 AI 无法确定时,应该追问而非猜测:** ``` 场景 1:无法确定设计类型 ┌─────────────────────────────────────────────────────────────┐ │ 🤔 AI 追问: │ │ │ │ "您的数据中,每个患者有治疗前和治疗后两次测量吗? │ │ - 如果是同一患者的前后对比,我建议用配对分析 │ │ - 如果是不同患者的组间对比,我建议用独立样本分析" │ │ │ │ [ 同一患者前后对比 ] [ 不同患者组间对比 ] │ └─────────────────────────────────────────────────────────────┘ 场景 2:变量角色不明确 ┌─────────────────────────────────────────────────────────────┐ │ 🤔 AI 追问: │ │ │ │ "您想比较的是: │ │ - A) 治疗后的血压值 │ │ - B) 治疗前后的血压变化值 │ │ │ │ 这会影响分析方法的选择。" │ │ │ │ [ 比较治疗后血压 ] [ 比较血压变化值 ] │ └─────────────────────────────────────────────────────────────┘ 场景 3:多个可能的分析目标 ┌─────────────────────────────────────────────────────────────┐ │ 🤔 AI 澄清: │ │ │ │ "根据您的描述,我理解您可能想要: │ │ │ │ 1. 比较两组的疗效差异(假设检验) │ │ 2. 分析疗效的影响因素(回归分析) │ │ 3. 预测患者的治疗反应(预测模型) │ │ │ │ 请选择您最主要的分析目标,或选择"全部"进行综合分析。" │ │ │ │ [ 差异比较 ] [ 因素分析 ] [ 预测模型 ] [ 全部 ] │ └─────────────────────────────────────────────────────────────┘ ``` ### 4.5 结论生成能力 **生成论文级的综合结论:** | 结论要素 | 模板结构 | 示例 | |----------|----------|------| | 样本描述 | "本研究共纳入 {{N}} 例..." | "本研究共纳入 186 例高血压患者" | | 主要结果 | "{{方法}}结果显示,{{统计量}}" | "Mann-Whitney U 检验结果显示,U=2341, P<0.001" | | 效应解读 | "效应量 {{r}},提示 {{程度}}" | "效应量 r=0.52,提示中等程度效应" | | 敏感性 | "敏感性分析得到 {{结论}}" | "敏感性分析得到一致结论,结果稳健" | | 方法说明 | "由于 {{原因}},故采用 {{方法}}" | "由于不满足正态性,故采用非参数方法" | --- ## 5. 系统架构蓝图 ### 5.1 理想系统的核心组件 ``` ┌─────────────────────────────────────────────────────────────┐ │ 理想的智能统计分析系统 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ 1. 意图理解器 (Intent Parser) │ │ │ │ - LLM 意图识别 │ │ │ │ - Goal/Y/X/Design 四维提取 │ │ │ │ - 不确定时追问澄清 │ │ │ └──────────────────┬───────────────────────────────────┘ │ │ ↓ │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ 2. 数据诊断器 (Data Diagnostician) │ │ │ │ - 分布检验(正态性、方差齐性) │ │ │ │ - 数据质量(缺失值、异常值) │ │ │ │ - 样本特征(样本量、平衡性) │ │ │ └──────────────────┬───────────────────────────────────┘ │ │ ↓ │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ 3. 路径规划器 (Pathway Planner) ⭐ 核心 │ │ │ │ - 决策表匹配(四维 → 方法) │ │ │ │ - 流程模板选择 │ │ │ │ - 数据驱动的方法调整 │ │ │ │ - 生成完整 SAP │ │ │ └──────────────────┬───────────────────────────────────┘ │ │ ↓ │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ 4. 流程执行器 (Workflow Executor) │ │ │ │ - 多方法顺序编排 │ │ │ │ - 结果串联传递 │ │ │ │ - 护栏检查与自动降级 │ │ │ │ - 实时进度反馈 │ │ │ └──────────────────┬───────────────────────────────────┘ │ │ ↓ │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ 5. 结论生成器 (Conclusion Generator) │ │ │ │ - 结果整合 │ │ │ │ - 论文级结论模板 │ │ │ │ - 方法学说明 │ │ │ │ - 局限性声明 │ │ │ └──────────────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────┘ ``` ### 5.2 数据流架构 ``` 用户输入 │ ▼ ┌─────────────────┐ │ 意图理解器 │ ← LLM + 意图分类 └────────┬────────┘ │ (Goal, Y, X, Design) ▼ ┌─────────────────┐ │ 数据诊断器 │ ← R 统计检验 └────────┬────────┘ │ (Data Profile) ▼ ┌─────────────────┐ │ 路径规划器 │ ← 决策表 + 流程模板 └────────┬────────┘ │ (SAP: workflow_steps[]) ▼ ┌─────────────────┐ │ 流程执行器 │ ← R 方法库 + 编排引擎 └────────┬────────┘ │ (step_results[]) ▼ ┌─────────────────┐ │ 结论生成器 │ ← LLM + 解读模板 └────────┬────────┘ │ ▼ 综合报告 ``` ### 5.3 与现有架构的关系 | 组件 | 现有系统 | 理想系统 | 差距 | |------|----------|----------|------| | 意图理解器 | ❌ 无 | ✅ LLM + 分类 | 需新建 | | 数据诊断器 | 🟡 R 服务内部 | ✅ 独立模块 | 需提取 | | 路径规划器 | ❌ 单方法选择 | ✅ 完整流程 | 需重构 | | 流程执行器 | ❌ 单方法执行 | ✅ 多方法编排 | 需新建 | | 结论生成器 | 🟡 简单解读 | ✅ 论文级 | 需增强 | --- ## 6. 实施路线图 ### 6.1 当前状态 vs 目标状态 ``` 当前状态 (MVP Phase 1): ┌──────────────────────────────────────┐ │ 用户 → 选 T 检验 → 执行 → P 值结果 │ └──────────────────────────────────────┘ 目标状态 (理想系统): ┌──────────────────────────────────────────────────────────┐ │ 用户 → AI 理解 → 数据诊断 → 规划流程 → 分步执行 → 综合报告 │ └──────────────────────────────────────────────────────────┘ ``` ### 6.2 分阶段演进 ``` ┌─────────────────────────────────────────────────────────────┐ │ 当前: 单方法执行 (L1) │ │ - 用户指定方法 │ │ - 执行单个 R 脚本 │ │ - 返回 P 值结果 │ └─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ 阶段 1: 智能选方法 (L2) │ │ + 意图识别(Goal/Y/X/Design) │ │ + 决策表匹配 │ │ + 自动选择方法 │ └─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ 阶段 2: 数据自适应 (L3) │ │ + 数据诊断器 │ │ + 根据数据特征调整方法 │ │ + 护栏自动降级 │ └─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ 阶段 3: 流程编排 (L4) │ │ + 流程模板 │ │ + 多方法顺序执行 │ │ + 结果串联 │ └─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ 阶段 4: 论文级输出 (L5) │ │ + 综合结论生成 │ │ + 方法学说明 │ │ + 完整报告导出 │ └─────────────────────────────────────────────────────────────┘ ``` ### 6.3 优先级建议 | 优先级 | 组件 | 价值 | 工作量 | |--------|------|------|--------| | P0 | 决策表匹配 | 智能选方法的基础 | 中 | | P0 | 流程模板 | 从单方法到流程的关键 | 中 | | P1 | 流程执行器 | 多方法编排 | 高 | | P1 | 数据诊断器 | 自适应能力 | 中 | | P2 | 意图理解器 | 用户体验提升 | 中 | | P2 | 结论生成器 | 输出质量提升 | 中 | --- ## 7. 成功标准 ### 7.1 用户体验标准 | 指标 | 当前 | 目标 | |------|------|------| | 用户需要知道方法名 | ✅ 必须 | ❌ 不需要 | | 用户需要理解数据特征 | ✅ 必须 | ❌ 不需要 | | 输出可直接用于论文 | ❌ 需整理 | ✅ 可直接用 | | 分析过程可追溯 | 🟡 部分 | ✅ 完整 | ### 7.2 智能化标准 | 能力 | 当前 | 目标 | |------|------|------| | 意图理解 | ❌ 无 | ✅ 自动识别 | | 方法选择 | 🟡 硬编码 | ✅ 决策表驱动 | | 数据适应 | 🟡 部分 | ✅ 完全自适应 | | 流程规划 | ❌ 单方法 | ✅ 完整流程 | | 结论生成 | 🟡 简单 | ✅ 论文级 | --- ## 8. 附录 ### 8.1 术语表 | 术语 | 定义 | |------|------| | SAP | Statistical Analysis Plan,统计分析计划 | | Goal | 分析目的(差异比较/关联分析/预测建模) | | Y_Type | 因变量类型(连续/分类/生存时间) | | X_Type | 自变量类型(二分类/多分类/连续) | | Design | 实验设计(独立/配对/重复测量) | | 流程模板 | 预定义的多步骤分析流程 | | 护栏 | 统计前提条件检查 | | 降级 | 当前提不满足时切换到替代方法 | ### 8.2 相关文档 | 文档 | 路径 | |------|------| | 当前架构设计 | `00-系统设计/SSA-Pro 严谨型智能统计分析架构设计方案V4.md` | | 配置中台设计 | `00-系统设计/SSA-Executor_专家配置要素.md` | | Planner 设计 | `00-系统设计/Planner 统计分析计划与配置映射.md` | | MVP 开发计划 | `04-开发计划/00-MVP开发计划总览.md` | --- **文档维护者:** SSA 架构团队 **创建日期:** 2026-02-20 **版本:** v1.0