Files
AIclinicalresearch/docs/03-业务模块/SSA-智能统计分析/02-技术设计/项目开发管理与实施计划.md
HaHafeng 8137e3cde2 feat(ssa): Complete SSA-Pro MVP development plan v1.3
Summary:

- Add PRD and architecture design V4 (Brain-Hand model)

- Complete 5 development guide documents

- Pass 3 rounds of team review (v1.0 -> v1.3)

- Add module status guide document

- Update system status document

Key Features:

- Brain-Hand architecture: Node.js + R Docker

- Statistical guardrails with auto degradation

- HITL workflow: PlanCard -> ExecutionTrace -> ResultCard

- Mixed data protocol: inline vs OSS

- Reproducible R code delivery

MVP Scope: 10 statistical tools

Status: Design 100%, ready for development
Co-authored-by: Cursor <cursoragent@cursor.com>
2026-02-18 21:58:37 +08:00

130 lines
7.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# **SSA-Pro: 智能统计分析项目开发管理与实施计划**
**文档版本:** v1.0
**创建日期:** 2026-02-07
**项目代号:** SSA (Smart Statistical Analysis)
**技术架构:** SSA-Pro V4.0 (Sync API \+ Guardrails \+ White-box)
**产品目标:** 打造医疗科研领域最严谨、透明、可交付代码的智能统计助手。
## **1\. 总体里程碑规划 (Milestones Map)**
我们将项目划分为三个阶段,采取 **"走通链路 \-\> 完善体验 \-\> 批量量产"** 的策略。
| 阶段 | 周期 | 核心目标 (OKR) | 交付物 |
| :---- | :---- | :---- | :---- |
| **Phase 1: 骨架与地基** | **Week 1-2** | **跑通 "Hello World"**。 打通 Node \-\> R 的调用链路,完成数据库与 Docker 环境搭建。 | ✅ R Docker 基础镜像 ✅ 核心数据库表 (tools\_library) ✅ 第 1 个工具 (T检验) 跑通 API |
| **Phase 2: 智能与交互 MVP** | **Week 3-5** | **实现 "V2 原型体验"**。 完成 RAG 检索、AI 规划、前端交互卡片,集成 Top 10 核心工具。 | ✅ 完整 Chat 交互界面 ✅ 智能规划 (Planner) 上线 ✅ 10 个高频统计工具可用 |
| **Phase 3: 量产与交付** | **Week 6-8** | **覆盖 80% 场景**。 批量迁移剩余工具,完善结果解释 (Critic) 与代码下载功能。 | ✅ 50+ 工具上线 ✅ 代码下载/Word导出功能 ✅ 生产环境部署与压测 |
## **2\. 详细任务清单 (To-Do List by Role)**
### **🏁 Phase 1: 骨架与地基 (Week 1-2)**
**目标:** 不追求 UI 美观,只追求 API 通畅。实现 POST /execute 能返回 T 检验的 JSON 结果。
#### **🐹 后端工程 (Node.js)**
* \[ \] **DB 设计**:根据 SSA-02 创建 ssa\_schema 及 tools\_library, execution\_logs 表。
* \[ \] **API 存根**:实现 POST /api/v1/ssa/execute 接口目前仅做转发Proxy到 R 服务。
* \[ \] **RAG 基础**:复用 common/rag创建 ToolSearchService支持对工具描述的向量检索。
#### **📐 R 工程 (Statistics)**
* \[ \] **环境构建**:编写 Dockerfile基于 rocker/r-ver安装 plumber, jsonlite, ggplot2 等基础包。
* \[ \] **Wrapper 规范**:根据 SSA-01编写标准 wrapper\_template.R含输入解析、错误捕获、Base64输出
* \[ \] **首个工具**:迁移并封装 ST\_T\_TEST\_IND (独立样本 T 检验),实现正态性检查逻辑。
* \[ \] **服务启动**:编写 plumber.R 入口文件,挂载 /run 端点。
#### **🎨 前端工程 (React)**
* \[ \] **Mock 数据**:根据原型图,构造 PlanCard 和 ResultCard 的 Mock JSON 数据。
* \[ \] **组件开发**:开发基础的 ChatContainer复用 AIA 模块)和侧边栏框架。
### **🚀 Phase 2: 智能与交互 MVP (Week 3-5)**
**目标:** 用户可以上传数据AI 能听懂并规划,前端能展示“执行树”和“三线表”。
#### **🧠 AI 策略 (Prompt Engineering)**
* \[ \] **Query Rewriter**:调试 Prompt将用户口语"看差异")转化为术语("T检验")。
* \[ \] **Planner Agent**:根据 SSA-03调试 DeepSeek-V3 的 Prompt确保稳定输出符合 Schema 的 JSON 计划。
* \[ \] **元数据注入**:实现动态 Context 组装逻辑(只注入 Top-5 工具定义)。
#### **📐 R 工程 (Statistics)**
* \[ \] **Top 10 工具迁移**完成卡方、ANOVA、相关性、Mann-Whitney、Wilcoxon 等高频工具的封装。
* \[ \] **Trace Log 实现**:在 R 代码中埋点,记录 check\_normality, check\_variance 等步骤的状态。
* \[ \] **代码生成器**:实现 generate\_code() 函数,拼接可独立运行的 R 脚本字符串。
#### **🎨 前端工程 (React)**
* \[ \] **卡片组件**:开发 ConfirmationCard (确认卡片) 和 ExecutionTree (执行路径树,支持动画)。
* \[ \] **结果渲染**:开发 ResultCard支持 Tab 切换 (解读/图表/表格)。
* \[ \] **数据上传**:实现侧边栏文件上传,调用 DC 模块解析 Schema不传数据给 LLM
#### **🐹 后端工程 (Node.js)**
* \[ \] **编排逻辑**:实现 Retrieve \-\> Plan \-\> Wait \-\> Execute 的完整业务流。
* \[ \] **数据隐私**:确保传给 LLM 的只有 Schema传给 R 的才有 Data。
### **📦 Phase 3: 量产与交付 (Week 6-8)**
**目标:** 工具库丰富,报告专业,具备生产环境稳定性。
#### **📐 R 工程 (Statistics)**
* \[ \] **批量工厂**:编写脚本扫描旧 R 代码注释,自动生成 tools\_library.json 元数据Metadata Engineering
* \[ \] **长尾工具迁移**:按优先级迁移剩余工具(回归、生存分析、降维等)。
* \[ \] **错误处理**:增强 tryCatch对常见统计错误返回友好的 Message。
#### **🧠 AI 策略 (Critic)**
* \[ \] **Critic Agent**:调试“结果解释” Prompt确保输出严谨的学术结论P值解读、置信区间
* \[ \] **模拟提问生成**:使用 Qwen-Max 离线生成 500+ 条模拟用户提问,更新向量库,提升检索准确率。
#### **🎨 前端工程 (React)**
* \[ \] **三线表组件**:优化表格样式,符合 APA 格式。
* \[ \] **资产交付**:实现 R 代码下载(.zip和 Word 报告导出(调用 Pandoc 服务)。
* \[ \] **图表预览**:集成 react-photo-view 实现图表点击放大。
#### **🛡️ 运维与测试**
* \[ \] **网络隔离**:配置 SAE 网络策略,禁止 R 容器访问外网。
* \[ \] **并发测试**:测试 10 个并发请求下的 R 服务内存占用。
* \[ \] **端到端测试**:验证 20 个典型统计场景的准确性。
## **3\. 关键依赖检查 (Dependencies)**
在项目启动前,请确认以下资源已就绪:
1. **基础设施**
* \[x\] SAE 环境 (Node.js \+ Python 已就绪,需新增 R 应用)
* \[x\] RDS PostgreSQL (pgvector 插件已安装)
* \[x\] OSS 存储 (用于存临时图表或大文件)
2. **技术资产**
* \[x\] DC 模块 (Tool C):用于前置数据清洗和 Excel 解析。
* \[x\] 通用 Chat 组件AIA 模块已沉淀,可直接复用。
* \[x\] LLM 网关DeepSeek-V3 接口已调通。
## **4\. 风险管理 (Risk Management)**
| 风险点 | 概率 | 影响 | 应对策略 |
| :---- | :---- | :---- | :---- |
| **R 工具封装进度慢** | 高 | 阻塞上线 | 优先封装 Top 10编写代码生成脚本辅助封装。 |
| **LLM 规划参数错误** | 中 | 运行报错 | 在 R 入口处做强类型校验;前端卡片允许用户人工修正参数。 |
| **大文件导致 R 崩溃** | 中 | 服务不可用 | 严格限制上传文件 \< 2MBSAE 配置内存监控和自动重启。 |
| **统计结果解释幻觉** | 低 | 学术误导 | Critic Prompt 强制要求基于 R 输出的 JSON 说话,禁止脑补。 |
## **5\. 每日工作流建议 (Daily Workflow)**
建议采用 **"R 优先,前后端跟进"** 的模式:
1. **R 工程师**:每天封装 2-3 个工具,提交到代码库,并更新 tools\_metadata.json。
2. **后端工程师**:更新向量库数据,确保 LLM 能检索到新工具。
3. **前端工程师**:针对新工具的特殊参数(如生存分析的时间列),微调卡片展示逻辑。
4. **每日站会**:演示昨天封装的工具是否能跑通闭环。