diff --git a/docs/00-系统总体设计/00-今日架构设计总结.md b/docs/00-系统总体设计/00-今日架构设计总结.md new file mode 100644 index 00000000..168eb6fd --- /dev/null +++ b/docs/00-系统总体设计/00-今日架构设计总结.md @@ -0,0 +1,523 @@ +# 2025-11-06 架构设计总结 + +> **日期:** 2025-11-06 +> **工作类型:** 系统架构深度设计 +> **成果:** 7个核心架构文档,完整的技术方案 + +--- + +## 🎉 今日成果 + +### 完成的核心文档(7个) + +| # | 文档 | 核心内容 | 页数 | +|---|------|---------|------| +| 1 | [00-核心问题解答](./00-核心问题解答.md) | 部署模式、审稿系统独立性、数据库架构澄清 | 详尽 | +| 2 | [01-系统架构分层设计](./01-系统架构分层设计.md) | 三层架构、8个业务模块、5个通用能力 | 900+ | +| 3 | [02-文档体系重构方案v2.0](./02-文档体系重构方案.md) | 新文档结构、8个模块、4种部署方案 | 790+ | +| 4 | [03-数据库架构说明](./03-数据库架构说明.md) | PostgreSQL Docker部署、两个独立数据库 | 434+ | +| 5 | [04-运营管理端架构设计](./04-运营管理端架构设计.md) | 15个功能模块、3阶段实施 | 859+ | +| 6 | [05-Schema隔离方案与成本分析](./05-Schema隔离方案与成本分析.md) | 逻辑vs物理隔离、改造成本对比 | 1042+ | +| 7 | [06-模块独立部署与单机版方案](./06-模块独立部署与单机版方案.md) | 完整打包、共享服务、Electron架构 | 1541+ | +| 8 | [07-Monorepo架构评估](./07-Monorepo架构评估.md) | 当前阶段是否需要、成本收益分析 | 555+ | + +**总计:** 6000+ 行详细设计文档 + +--- + +## 📊 核心架构决策 + +### 1. 系统架构分层 ⭐⭐⭐⭐⭐ + +**三层架构:** +``` +┌───────────────────────────────────────┐ +│ 业务模块层(8个模块) │ +│ AIA | ASL | PKB | DC | SSA | ST | RVW | ADMIN +└───────────────────────────────────────┘ + ↓ 依赖 +┌───────────────────────────────────────┐ +│ 通用能力层(5个能力) │ +│ LLM网关 | 文档处理 | RAG | ETL | NLP │ +└───────────────────────────────────────┘ + ↓ 依赖 +┌───────────────────────────────────────┐ +│ 平台基础层 │ +│ 用户权限 | 存储 | 通知 | 监控 | 配置 │ +└───────────────────────────────────────┘ +``` + +**关键洞察:** +- ✅ LLM网关:71%复用率(5/7模块依赖) +- ✅ 文档处理:86%复用率(6/7模块依赖) +- ✅ 模块独立性:RVW、ASL、DC可独立销售 + +--- + +### 2. 业务模块规划(8个模块) + +| 模块 | 名称 | 商业价值 | 独立性 | 状态 | +|------|------|---------|-------|------| +| AIA | AI智能问答 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ✅ 已完成 | +| ASL | AI智能文献 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⏳ 下一步重点 | +| PKB | 个人知识库 | ⭐⭐⭐ | ⭐⭐⭐ | ✅ 已完成 | +| DC | 数据清洗整理 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⏳ 规划中 | +| SSA | 智能统计分析 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⏳ 规划中 | +| ST | 统计分析工具 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⏳ 规划中 | +| RVW | 稿件审查系统 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⚡ 独立系统 | +| **ADMIN** | 运营管理端 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐ 新增 | + +**核心亮点:** +- ✅ 新增运营管理端(15个功能模块) +- ✅ 3个模块极具独立销售价值(RVW、ASL、DC) + +--- + +### 3. 部署方案(4种模式) + +| 部署模式 | 目标用户 | 技术方案 | 代码复用 | 优先级 | +|---------|---------|---------|---------|-------| +| **云端SaaS** | 个人、小机构 | Node.js + PostgreSQL | 100% | P0(当前) | +| **独立产品包** | 特定客户 | Docker完整打包 | 80% | P1(阶段二) | +| **Electron单机版** | 个人医生 | 前端90%+后端80% | 85% | P2(阶段二) | +| **私有化部署** | 医院、机构 | K8s/Docker | 100% | P1(阶段二) | + +**关键洞察:** +- ✅ Electron单机版代码复用率极高(85%+) +- ✅ 独立产品包支持模块化销售 +- ✅ 4种部署覆盖全部市场需求 + +--- + +### 4. 数据库架构 + +**当前状态:** +- ✅ 有自己独立的PostgreSQL数据库(Docker部署) +- ✅ 16张表,全部在public schema +- ❌ 需要Schema隔离(未来微服务拆分的基础) + +**Schema隔离决策:** + +| 方案 | 成本 | 时机 | 建议 | +|------|------|------|------| +| 现在做物理隔离 | 1周 | 数据量小 | ⭐⭐⭐⭐⭐ 强烈推荐 | +| 继续逻辑隔离 | 0 | 当前 | ⭐⭐⭐ 可接受 | +| 未来做物理隔离 | 3-5周 | 数据量大 | ⚠️ 成本5倍 | + +**关键洞察:** +- ✅ 现在做成本最低(数据量小) +- ✅ 为7个模块打下坚实基础 +- ✅ 支持模块独立部署 + +--- + +### 5. 运营管理端(第8个模块) + +**15个核心功能:** + +**P0(必须):** +1. 用户管理 +2. Feature Flag管理 +3. LLM模型管理 +4. 系统配置管理 + +**P1(重要):** +5. 智能体提示词管理 +6. 监控与日志 +7. 数据统计与报表 +8. 成本分析与计费 + +**P2(有用):** +9-15. 租户管理、公告、文档、工单、健康检查、备份、运营分析 + +**实施计划:** +- 阶段一(1-2个月):P0功能 +- 阶段二(1-2个月):P1功能 +- 阶段三(1-2个月):P2功能 + +**关键洞察:** +- ✅ 商业模式的技术保障(Feature Flag、成本控制) +- ✅ 独立的前端应用(`https://admin.yizhengxun.com`) + +--- + +### 6. 模块独立部署方案 + +**方案一:完整打包(独立产品)** +``` +审稿系统独立产品 = + RVW模块 + 必需的平台层 + 必需的能力层 + 独立数据库 +``` + +**方案二:共享服务(平台内模块)** +``` +API网关 + ├─ AIA模块服务(独立部署) + ├─ ASL模块服务(独立部署) + └─ 共享服务(平台层+能力层,一次部署) +``` + +**关键技术:** +- ✅ Monorepo架构(包管理、代码复用) +- ✅ 选择性导出(精简版平台层) +- ✅ Docker打包(一键部署) + +--- + +### 7. Monorepo架构评估 + +**成本对比:** + +| 方案 | 立即成本 | 未来成本 | 投入产出比 | +|------|---------|---------|-----------| +| **现在转换** | 2-3天 | 0 | ⭐⭐⭐⭐⭐ 极高 | +| **延后转换** | 0 | 7-11天 | ⭐⭐ 低 | + +**建议:** 现在转换 ⭐⭐⭐⭐⭐ + +**理由:** +1. ✅ 投入小(2-3天),收益大(节省5-8天) +2. ✅ 正处于最佳时机(即将开发多模块) +3. ✅ 符合未来规划(运营管理端、独立产品) +4. ✅ 学习成本可控(有AI全程指导) + +--- + +## 🎯 关键技术决策总结 + +### 决策1:Schema隔离 + +**建议:现在做物理隔离** ⭐⭐⭐⭐⭐ + +- 成本:1周 +- 收益:避免未来3-5周的改造成本 +- 理由:数据量小,改造风险低 + +--- + +### 决策2:Monorepo架构 + +**建议:现在转换** ⭐⭐⭐⭐⭐ + +- 成本:2-3天 +- 收益:节省未来5-8天 +- 理由:即将开发多个应用(运营管理端、ASL等) + +--- + +### 决策3:部署方案 + +**阶段一:专注云端SaaS** +- 不做混合部署(技术难度极高,需求不明确) +- 暂缓Electron单机版(阶段二再做) + +--- + +### 决策4:下一步开发重点 + +**优先级:** +1. P0:ASL模块(AI智能文献) +2. P0:LLM网关(商业模式基础) +3. P1:Schema隔离(可选,但强烈推荐) +4. P1:Monorepo转换(可选,但强烈推荐) + +--- + +## 📚 文档体系v2.0 + +### 新文档结构 + +``` +docs/ + ├── 00-系统总体设计/ ✅ 7个核心文档 + ├── 01-平台基础层/ + ├── 02-通用能力层/ + ├── 03-业务模块/ ✅ 新增ADMIN模块(共8个) + ├── 04-开发规范/ + ├── 05-部署文档/ ✅ 扩展为4种部署方案 + ├── 06-测试文档/ + ├── 07-运维文档/ + ├── 08-项目管理/ + └── 09-架构实施/ ✅ 新增(Monorepo、打包、微服务) +``` + +--- + +## 💡 核心洞察 + +### 1. LLM网关是商业模式的核心 + +**为什么?** +``` +商业模式: +- 基础版:只能用DeepSeek-V3(¥1/百万tokens) +- 高级版:可用DeepSeek + Qwen3 +- 旗舰版:可用所有模型 + +成本控制: +- 统一监控、限流、计费 +- 超出配额自动降级 +- 按版本动态切换模型 + +5个模块依赖(71%复用率) +``` + +--- + +### 2. 审稿系统极具独立价值 + +**为什么适合独立?** +``` +1. 用户群完全不同(期刊编辑部 vs 临床医生) +2. 业务逻辑完全独立 +3. 部署场景独立 +4. 商业模式独立(按期刊订阅) + +独立销售价值:⭐⭐⭐⭐⭐ 极高 +``` + +--- + +### 3. 现在是最佳改造时机 + +**为什么现在做?** +``` +Schema隔离: +- 现在:1周(数据量小) +- 未来:3-5周(数据量大,成本5倍) + +Monorepo转换: +- 现在:2-3天(代码量适中) +- 未来:7-11天(多应用、代码量大) + +总结:越早做,成本越低 +``` + +--- + +### 4. Electron单机版代码复用率极高 + +**为什么可行?** +``` +前端复用:90%+ +- 所有React组件 +- UI库、状态管理、路由 +- 只需修改API调用层(1个文件) + +后端复用:80%+ +- 所有Service层(业务逻辑) +- Prisma ORM +- 只需适配:HTTP路由 → IPC Handler + +总复用率:85%+ +技术可行性:⭐⭐⭐⭐⭐ +``` + +--- + +## 🚀 下一步行动建议 + +### 方案A:快速推进业务(推荐给时间紧迫的情况) + +**本周:** +- ✅ 立即开始ASL模块开发 +- ⚠️ 暂缓Schema隔离 +- ⚠️ 暂缓Monorepo转换 + +**触发条件:** +- 开发运营管理端时,必须转换Monorepo +- 数据量超过50万行时,必须做Schema隔离 + +**优点:** 立即推进业务 +**缺点:** 累积技术债,未来成本高 + +--- + +### 方案B:夯实基础,稳步推进(强烈推荐) + +**第1周:Schema隔离 + Monorepo转换(5-6天)** +- Day 1-3:Schema隔离(逻辑隔离 → 物理隔离) +- Day 4-6:Monorepo转换 + +**第2周:开始ASL模块开发** +- 享受Schema隔离带来的清晰架构 +- 享受Monorepo带来的代码复用便利 + +**优点:** +- ✅ 一次性还清技术债 +- ✅ 为7个模块打下坚实基础 +- ✅ 避免未来大规模重构 + +**缺点:** +- ⚠️ ASL模块延迟1周 + +**投入产出比:** ⭐⭐⭐⭐⭐ 极高 + +--- + +### 方案C:折中方案(推荐) + +**本周:** +- Day 1-3:Monorepo转换(必须,近期开发运营管理端) +- Day 4-7:开始ASL模块开发 + +**下周:** +- 继续ASL模块开发 + +**未来(1-2个月后):** +- Schema隔离(数据量增长前) + +**优点:** +- ✅ 解决最紧迫的问题(Monorepo) +- ✅ 快速推进业务(ASL) +- ✅ 延后但不放弃Schema隔离 + +**缺点:** +- ⚠️ Schema隔离成本会增加 + +--- + +## 📊 投入产出比分析 + +| 投入 | 成本 | 收益 | ROI | +|------|------|------|-----| +| **Schema隔离** | 1周 | 避免未来3-5周改造 | 300-500% | +| **Monorepo转换** | 2-3天 | 避免未来7-11天改造 | 300-400% | +| **架构设计** | 1天 | 清晰的技术路线图 | 无价 | + +**总投入产出比:** ⭐⭐⭐⭐⭐ 极高 + +--- + +## 🎯 我的最终建议 + +### 推荐:方案B(夯实基础)⭐⭐⭐⭐⭐ + +**核心理由:** + +**1. 投入1周,节省未来1个月** +``` +现在投入: +- Schema隔离:3天 +- Monorepo转换:3天 +- 总计:6天(1周) + +未来节省: +- Schema隔离:15-25天(3-5周) +- Monorepo转换:7-11天 +- 总计:22-36天(1个月+) + +投入产出比:300-500% +``` + +**2. 正处于最佳时机** +``` +当前: +- 数据量小(< 1万行) +- 代码量适中 +- 即将开发多个模块 +- 团队小,沟通成本低 + +未来: +- 数据量大(100万行+) +- 代码量大 +- 多个应用同时运行 +- 重构影响范围大 +``` + +**3. 为7个模块打下坚实基础** +``` +ASL、DC、SSA、ST、RVW、ADMIN等模块: +- 直接享受Schema隔离的好处 +- 直接享受Monorepo的代码复用 +- 避免重复造轮子 +``` + +**4. 避免技术债累积** +``` +技术债的特点: +- 时间越久,利息越高 +- 改造成本成倍增长 +- 影响业务创新速度 + +现在改造 = 一次性还清 +``` + +--- + +## ✅ 今日完成清单 + +### 架构设计(100%完成) + +- [x] 系统架构分层设计 +- [x] 文档体系重构方案v2.0 +- [x] 数据库架构说明 +- [x] 运营管理端架构设计 +- [x] Schema隔离方案与成本分析 +- [x] 模块独立部署与单机版方案 +- [x] Monorepo架构评估 + +### 关键决策(100%完成) + +- [x] 三层架构设计 +- [x] 8个业务模块规划 +- [x] 4种部署方案设计 +- [x] Schema隔离时机建议 +- [x] Monorepo转换时机建议 + +### 文档产出(100%完成) + +- [x] 7个核心架构文档 +- [x] 6000+行详细设计 +- [x] 完整的技术方案 + +--- + +## 🎉 恭喜! + +**今天完成了非常扎实和深入的架构设计工作!** + +我们从零开始,构建了一个: +- ✅ 清晰的三层架构 +- ✅ 完整的8个业务模块规划 +- ✅ 4种部署方案 +- ✅ 详细的实施路径 + +**这些架构设计将指导未来6-12个月的开发工作!** + +--- + +## 📌 明天开始可以做的事 + +### 选择1:立即开始开发 +- ASL模块开发 +- 使用现有架构 + +### 选择2:夯实基础(强烈推荐) +- Week 1:Schema隔离 + Monorepo转换 +- Week 2:ASL模块开发 + +### 选择3:折中方案 +- Day 1-3:Monorepo转换 +- Day 4+:ASL模块开发 + +--- + +**您的选择?** 😊 + +我已经准备好全程协助您实施任何一个方案! + + + + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/00-核心问题解答.md b/docs/00-系统总体设计/00-核心问题解答.md new file mode 100644 index 00000000..a5a9eaf6 --- /dev/null +++ b/docs/00-系统总体设计/00-核心问题解答.md @@ -0,0 +1,698 @@ +# 核心问题解答 + +> **创建日期:** 2025-11-06 +> **文档目的:** 回答用户提出的关键架构问题 + +--- + +## 📋 您提出的问题 + +您提出了非常核心的架构问题,这些问题直接影响了整个系统的设计。让我逐一深入解答: + +--- + +## 1️⃣ 文档系统重构 + +### 您的建议 + +> (1)系统总体架构、总体需求PRD、系统总体设计、系统总体部署等,应该是一个独立的文件夹 +> (2)7个模块应该是独立的7个文件夹,每个模块有:项目概述、设计文档、业务规则、开发计划、每日进度、部署文档 + +### 我的回复 + +✅ **完全认同!这是非常正确的架构思路!** + +我已经创建了详细的文档重构方案: +- 📄 [文档体系重构方案](./02-文档体系重构方案.md) + +**新文档结构:** +``` +docs/ + ├── 00-系统总体设计/ # ✅ 总体独立 + │ ├── 01-系统架构分层设计.md + │ ├── 02-文档体系重构方案.md + │ ├── 03-总体需求文档(PRD).md + │ ├── 04-技术架构白皮书.md + │ └── 05-部署架构设计.md + │ + ├── 01-平台基础层/ # 平台层(用户权限、存储、通知等) + ├── 02-通用能力层/ # 通用能力(LLM网关、文档处理、RAG等) + │ + └── 03-业务模块/ # ✅ 7个模块独立 + ├── AIA-AI智能问答/ + ├── ASL-AI智能文献/ + ├── PKB-个人知识库/ + ├── DC-数据清洗整理/ + ├── SSA-智能统计分析/ + ├── ST-统计分析工具/ + └── RVW-稿件审查系统/ +``` + +**每个模块的标准结构:** +``` +XXX-模块名称/ + ├── 00-项目概述/ # PRD、功能清单、用户故事 + ├── 01-设计文档/ # 技术架构、数据库、API、前端组件、UI原型 + ├── 02-业务规则/ # 业务规则、验证规则 + ├── 03-开发计划/ # 里程碑、任务分解 + ├── 04-测试文档/ # 测试计划、测试用例 + ├── 05-部署文档/ # 部署指南、配置说明 + ├── 06-开发进度/ # 每日/每周进度(可选) + └── README.md # 模块导航 +``` + +**核心优势:** +- ✅ 总体与模块分离 +- ✅ 层次清晰(平台层、通用能力层、业务模块层) +- ✅ 支持模块独立销售(每个模块文档可独立打包) +- ✅ 易于扩展(新增模块复制模板即可) + +--- + +## 2️⃣ 不考虑混合部署 + +### 您的决策 + +> 只考虑云端、本地化(私有化)、单机版,不考虑混合部署 + +### 我的回复 + +✅ **完全赞同!混合部署技术难度极高,需求不明确,应该暂缓。** + +**调整后的部署模式:** +| 部署模式 | 目标用户 | 技术难度 | 优先级 | +|---------|---------|---------|-------| +| **云端SaaS版** | 个人用户、小机构 | ⭐⭐⭐ 中等 | P0(当前) | +| **私有化部署** | 医院、大机构 | ⭐⭐⭐⭐ 高 | P1(阶段二) | +| **单机版(Electron)** | 个人医生 | ⭐⭐⭐⭐⭐ 很高 | P2(阶段二) | +| ~~混合部署~~ | ~~高级客户~~ | ~~⭐⭐⭐⭐⭐ 极高~~ | ❌ 不考虑 | + +**简化后的好处:** +- ✅ 降低技术复杂度 +- ✅ 聚焦核心场景 +- ✅ 加快开发速度 +- ✅ 降低维护成本 + +**阶段规划:** +``` +阶段一(当前-6个月):云端SaaS版 +- 专注云端部署 +- 验证市场需求 +- 快速迭代 + +阶段二(6-18个月):私有化部署 +- 触发条件:有客户明确要求 +- 引入K8s +- Docker一键部署 + +阶段三(18个月+):单机版(可选) +- 触发条件:有大量单机版需求 +- 开发Electron应用 +- 本地化运行 +``` + +--- + +## 3️⃣ 审稿系统的独立性 + +### 您的计划 + +> 未来还会增加一个审稿系统的开发,目前已经有核心审稿功能了,可能需要独立成一个系统 + +### 我的回复 + +✅ **审稿系统非常适合独立!这是一个极具商业价值的决策!** + +**为什么审稿系统适合独立?** + +**1. 用户群完全不同** +``` +主平台用户:临床医生、研究者 +审稿系统用户:期刊编辑部、出版社、学会 + +→ 两类用户没有交集,完全独立 +``` + +**2. 业务逻辑完全独立** +``` +主平台:科研全流程(统计分析、文献筛选、数据清洗) +审稿系统:稿件审查流程(投稿、审稿、修改、决策) + +→ 业务逻辑无关联 +``` + +**3. 部署场景独立** +``` +主平台:云端SaaS为主,部分私有化 +审稿系统:期刊编辑部独立部署 + +→ 部署需求不同 +``` + +**4. 商业模式独立** +``` +主平台:按版本订阅(基础版、高级版、旗舰版) +审稿系统:按期刊订阅,或按稿件数量计费 + +→ 商业模式完全不同 +``` + +**当前状态:** +- ✅ 核心功能已实现(文档提取、规范性评估、方法学评估) +- ✅ 数据库表已独立(review_tasks) +- ⚠️ 需要扩展(审稿人管理、审稿流程、多轮审稿) + +**建议:** +``` +短期(当前): +- 审稿系统作为主平台的一个模块 +- 但在架构设计上保持独立(独立Schema、独立API) + +中期(6-12个月): +- 开发完整审稿系统(审稿人、流程、多轮审稿) +- 验证市场需求 + +长期(12个月+): +- 完全独立为单独产品"AI辅助审稿系统" +- 独立部署、独立销售 +- 目标客户:期刊编辑部、出版社 +``` + +**独立销售价值:⭐⭐⭐⭐⭐ 极高!** +- 市场空白:国内缺乏AI审稿工具 +- 刚需:期刊编辑部审稿压力大 +- 付费能力强:期刊有预算 + +--- + +## 4️⃣ 总体 vs 通用 vs 模块独立 + +### 您的核心问题 + +> 哪些是总体的?哪些是通用的技术能力?哪些是各模块独立的? +> 哪些能力是复用的?哪些技术架构可以复用? + +### 我的回复 + +这是最核心的架构问题!我已经创建了详细的架构分层设计: +- 📄 [系统架构分层设计](./01-系统架构分层设计.md) + +**三层架构总览:** + +### 第一层:平台基础层(Platform Layer) + +**定义:** 所有业务模块的地基,提供通用的基础设施能力 + +**包含模块:** +1. ✅ **用户与权限中心(UAM)** - 用户认证、权限管理、Feature Flag +2. ✅ **存储服务** - 文件上传下载、OSS/本地文件系统 +3. ✅ **通知服务** - 站内消息、邮件、WebSocket推送 +4. ✅ **监控与日志** - 操作日志、错误日志、审计日志 +5. ✅ **系统配置** - 系统级配置管理 + +**特征:** +- ✅ 全局唯一(整个平台只有一套) +- ✅ 业务无关(不涉及具体业务逻辑) +- ✅ 强依赖性(所有业务模块都必须依赖) +- ✅ 稳定性高(很少变动) + +--- + +### 第二层:通用能力层(Capability Layer) + +**定义:** 跨业务模块共享的核心技术能力 + +**包含能力:** + +#### 1. LLM大模型网关 ⭐⭐⭐⭐⭐ **最核心** + +**职责:** +- 统一管理所有LLM调用 +- 根据用户版本动态切换模型 +- 成本控制与限流 +- Token计数与计费 + +**使用模块:** +- ✅ AIA(AI智能问答) +- ✅ ASL(AI智能文献) +- ✅ PKB(个人知识库) +- ✅ DC(数据清洗) +- ✅ RVW(稿件审查) + +**复用率:** 5/7 = 71% + +**为什么是核心?** +``` +这是商业模式的技术保障: +- 基础版:只能用DeepSeek-V3(¥1/百万tokens) +- 高级版:可用DeepSeek + Qwen3 +- 旗舰版:可用DeepSeek + Qwen3 + Qwen-Long + Claude + +成本控制: +- 统一监控所有LLM API调用 +- 超出配额自动限流 +- 按版本计费 +``` + +**当前状态:** ❌ 未实现(P0优先级) + +--- + +#### 2. 文档处理引擎 ⭐⭐⭐⭐⭐ **最核心** + +**职责:** +- 多格式文档提取(PDF/Docx/Txt/Excel) +- 文本清洗与预处理 +- OCR处理 +- 表格提取 + +**使用模块:** +- ✅ ASL(文献PDF提取) +- ✅ PKB(知识库文档) +- ✅ DC(Excel/Docx导入) +- ✅ SSA(数据导入) +- ✅ ST(数据导入) +- ✅ RVW(稿件提取) + +**复用率:** 6/7 = 86% + +**当前状态:** ✅ 已实现(Python微服务) + +--- + +#### 3. RAG引擎 ⭐⭐⭐⭐ **核心** + +**职责:** +- 向量化存储(Embedding) +- 语义检索(Semantic Search) +- 检索增强生成(RAG) + +**使用模块:** +- ✅ PKB(个人知识库问答) +- ✅ ASL(文献内容检索) +- ✅ AIA(@知识库问答) + +**复用率:** 3/7 = 43% + +**当前状态:** ✅ 已实现(基于Dify) + +--- + +#### 4. 数据ETL引擎 ⭐⭐⭐ **中等** + +**职责:** +- Excel多表JOIN +- 数据清洗 +- 数据转换 + +**使用模块:** +- ✅ DC(数据清洗) +- ✅ SSA(统计分析数据预处理) + +**复用率:** 2/7 = 29% + +**当前状态:** ❌ 未实现(P2优先级) + +--- + +#### 5. 医学NLP引擎 ⭐⭐⭐ **中等** + +**职责:** +- 医学实体识别(NER) +- 医学术语标准化 + +**使用模块:** +- ✅ DC(病例数据NER提取) + +**复用率:** 1/7 = 14% + +**当前状态:** ❌ 未实现(P2优先级) + +--- + +### 第三层:业务模块层(Product Layer) + +**定义:** 面向用户的产品功能,每个模块都是独立的产品单元 + +**7个业务模块:** + +| 模块 | 名称 | 商业价值 | 独立性 | 状态 | +|------|------|---------|-------|------| +| **AIA** | AI智能问答 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ✅ 已完成 | +| **ASL** | AI智能文献 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⏳ 下一步重点 | +| **PKB** | 个人知识库 | ⭐⭐⭐ | ⭐⭐⭐ | ✅ 已完成 | +| **DC** | 数据清洗整理 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⏳ 规划中 | +| **SSA** | 智能统计分析 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⏳ 规划中 | +| **ST** | 统计分析工具 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⏳ 规划中 | +| **RVW** | 稿件审查系统 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⚡ 独立系统 | + +**特征:** +- ✅ 独立部署:可以单独打包部署 +- ✅ 独立销售:可以单独售卖 +- ✅ 低耦合:模块间不直接依赖 +- ✅ 高内聚:模块内功能完整 + +--- + +### 可复用能力总结 + +| 能力 | 使用频率 | 复用模块数 | 优先级 | 状态 | +|------|---------|-----------|--------|------| +| **LLM网关** | 71% | 5/7 | P0 | ❌ 待实现 | +| **文档处理引擎** | 86% | 6/7 | P0 | ✅ 已实现 | +| **RAG引擎** | 43% | 3/7 | P1 | ✅ 已实现 | +| **ETL引擎** | 29% | 2/7 | P2 | ❌ 待实现 | +| **医学NLP** | 14% | 1/7 | P2 | ❌ 待实现 | + +--- + +## 5️⃣ 数据库架构 + +### 您的问题 + +> 设计多Schema架构是非常必要的。 +> 目前当前系统的数据库似乎是DIFY的? +> 目前我们有自己独立的数据库吗? + +### 我的回复 + +✅ **我们有自己独立的PostgreSQL数据库,不是Dify的!** + +**当前数据库情况:** + +```typescript +// 数据源:backend/prisma/schema.prisma +datasource db { + provider = "postgresql" + url = env("DATABASE_URL") +} +``` + +**当前表结构:** +``` +当前数据库(PostgreSQL,独立于Dify): +├── users # 用户表 +├── projects # 项目表 +├── conversations # 对话表(AI问答) +├── messages # 消息表 +├── knowledge_bases # 知识库表 +├── documents # 文档表 +├── admin_logs # 管理员日志 +├── general_conversations # 通用对话 +├── general_messages # 通用消息 +├── batch_tasks # 批处理任务(Phase 3) +├── batch_results # 批处理结果 +├── task_templates # 任务模板 +└── review_tasks # 稿件审查任务 + +Dify数据库(完全独立): +├── dify自己的表(不在我们的数据库) +└── 通过Dify API调用,不直接访问 +``` + +**关键澄清:** +- ✅ 我们有自己的PostgreSQL数据库 +- ✅ Dify有自己的数据库(我们不直接访问) +- ✅ 我们通过Dify API调用(HTTP REST API) +- ✅ 两个数据库完全独立 + +**但是存在的问题:** +- ❌ **所有表在同一Schema(public)** +- ❌ 未来微服务拆分困难 +- ❌ 不支持模块独立部署 + +--- + +### Schema隔离方案 + +**目标架构:** +```sql +-- 平台层Schema +CREATE SCHEMA platform_schema; + ├── users + ├── roles + ├── permissions + ├── feature_flags + ├── notifications + └── admin_logs + +-- 通用能力Schema +CREATE SCHEMA capability_schema; + ├── llm_usage_logs + ├── llm_quotas + └── document_processing_logs + +-- 业务模块Schema +CREATE SCHEMA aia_schema; -- AI智能问答 + ├── aia_projects + ├── aia_conversations + └── aia_messages + +CREATE SCHEMA asl_schema; -- AI智能文献 + ├── asl_projects + ├── asl_literature_items + ├── asl_screening_results + └── ... + +CREATE SCHEMA pkb_schema; -- 个人知识库 + ├── pkb_knowledge_bases + └── pkb_documents + +CREATE SCHEMA dc_schema; -- 数据清洗 + ├── dc_projects + ├── dc_raw_files + └── dc_cleaned_data + +CREATE SCHEMA ssa_schema; -- 智能统计分析 + ├── ssa_projects + └── ssa_analysis_tasks + +CREATE SCHEMA st_schema; -- 统计分析工具 + └── st_tool_usage + +CREATE SCHEMA review_schema; -- 稿件审查 + ├── review_tasks + ├── review_journals + ├── review_reviewers + └── review_workflows +``` + +--- + +### 迁移策略 + +**阶段一:逻辑隔离(当前阶段,立即实施)** +``` +目标:在代码层面按Schema组织,但数据库还是public +方式:Prisma中使用@@map指定表名前缀 + +例如: +model AiaProject { + id String @id @default(uuid()) + // ... + @@map("aia_projects") // 表名前缀标识模块 +} + +model AslProject { + id String @id @default(uuid()) + // ... + @@map("asl_projects") +} + +model DcProject { + id String @id @default(uuid()) + // ... + @@map("dc_projects") +} +``` + +**好处:** +- ✅ 立即可实施,无需数据迁移 +- ✅ 为未来物理隔离打基础 +- ✅ 代码层面已经按模块组织 + +--- + +**阶段二:物理隔离(微服务拆分时,阶段二)** +``` +目标:真正创建独立Schema +时机:当需要拆分某个模块为独立微服务时 + +步骤: +1. CREATE SCHEMA xxx_schema; +2. CREATE TABLE xxx_schema.table_name ... +3. INSERT INTO xxx_schema.table SELECT * FROM public.old_table; +4. 更新Prisma Schema(指定schema) +5. 测试验证 +6. 切换生产 +``` + +--- + +## 6️⃣ 下一步开发重点 + +### 您的决策 + +> 下一步着重开发的功能肯定是AI智能文献模块。 +> 当然在总体架构讨论清楚前,我们先不开发。 + +### 我的回复 + +✅ **完全赞同!AI智能文献是核心竞争力,应该是下一步重点。** + +**开发顺序建议:** + +**第一步:架构设计(本周,1-2天)** +``` +P0文档(必须完成): +1. ✅ 系统架构分层设计(已完成) +2. ✅ 文档体系重构方案(已完成) +3. ⚠️ LLM大模型网关设计(关键) +4. ⚠️ 数据库Schema隔离方案(关键) +``` + +**第二步:文档整理(本周,1-2天)** +``` +1. 调整ASL模块文档结构(按新模板) +2. 补充缺失的设计文档 +3. 明确开发里程碑 +``` + +**第三步:关键技术验证(下周,1-2天)** +``` +1. ⚠️ R语言技术验证(SSA模块需要,可延后) +2. ⚠️ LLM Gateway原型验证 +3. ⚠️ Schema隔离迁移测试 +``` + +**第四步:开始ASL模块开发(下周开始)** +``` +优先级: +- P0:标题摘要初筛(核心功能,已有原型) +- P1:全文复筛(核心功能,已有原型) +- P2:全文解析与数据提取 +- P3:数据分析与报告生成 +``` + +--- + +## 🎯 总体策略建议 + +### 核心原则 + +**1. 架构先行,文档先行** +``` +✅ 先把总体架构讨论清楚 +✅ 先把文档结构调整好 +✅ 然后再开始开发 +``` + +**2. 聚焦核心,逐步扩展** +``` +阶段一(当前-6个月): +- 云端SaaS版 +- 核心模块:ASL、DC、AIA优化 +- 关键能力:LLM网关、Schema隔离 + +阶段二(6-18个月): +- 私有化部署 +- 扩展模块:SSA、ST +- 独立系统:RVW(审稿系统) + +阶段三(18个月+): +- 单机版(可选) +- 全面微服务 +``` + +**3. 模块独立,能力复用** +``` +✅ 业务模块独立设计(低耦合) +✅ 通用能力统一提供(高复用) +✅ 支持模块独立销售 +``` + +--- + +## ✅ 立即行动清单 + +### 本周行动(P0) + +**1. 架构设计(1-2天)** +- [x] 系统架构分层设计 ✅ +- [x] 文档体系重构方案 ✅ +- [ ] LLM大模型网关设计 +- [ ] 数据库Schema隔离方案 + +**2. 文档迁移(1-2天)** +- [ ] 创建新文件夹结构 +- [ ] 迁移ASL模块文档 +- [ ] 调整文档结构(按新模板) + +--- + +### 下周行动(P1) + +**3. 关键文档补充(2-3天)** +- [ ] ASL模块缺失文档 +- [ ] LLM网关详细设计 +- [ ] RVW独立系统规划 + +**4. 开始ASL模块开发(启动)** +- [ ] 数据库表设计(asl_schema) +- [ ] API设计 +- [ ] 前端组件设计 + +--- + +## 📊 总结 + +### 您的想法非常正确! + +1. ✅ **文档系统重构**:总体独立,模块独立 +2. ✅ **不考虑混合部署**:简化技术复杂度 +3. ✅ **审稿系统独立**:极具商业价值 +4. ✅ **架构分层清晰**:平台层、通用能力层、业务模块层 +5. ✅ **Schema隔离必要**:支持模块独立和微服务拆分 +6. ✅ **ASL是下一步重点**:核心竞争力 + +### 当前最关键的工作 + +**P0(本周):** +1. 完成架构设计文档(LLM网关、Schema隔离) +2. 调整文档结构(迁移ASL模块) + +**P1(下周):** +3. 补充关键文档 +4. 开始ASL模块开发 + +### 我们不着急,先把总体思路沟通清楚 + +✅ **完全认同您的想法!** + +架构设计是地基,地基不牢,后面开发会很痛苦。 + +我们先把架构和文档梳理清楚,再开始开发。 + +--- + +**接下来您想讨论什么?** +1. LLM大模型网关的详细设计? +2. 数据库Schema隔离的具体实施? +3. ASL模块的开发计划? +4. 审稿系统的独立规划? +5. 其他架构问题? + + + + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/00-阅读指南.md b/docs/00-系统总体设计/00-阅读指南.md new file mode 100644 index 00000000..847e1e89 --- /dev/null +++ b/docs/00-系统总体设计/00-阅读指南.md @@ -0,0 +1,174 @@ +# 系统总体设计 - 阅读指南 + +> **文档日期:** 2025-11-06 +> **文档目的:** 快速导航,找到您需要的文档 + +--- + +## 🎯 如果您想... + +### 快速了解今天的成果 +👉 **必读:** [00-今日架构设计总结](./00-今日架构设计总结.md) +- 7个核心文档总览 +- 关键决策总结 +- 下一步建议 + +--- + +### 了解整个系统架构 +👉 **必读:** [08-架构设计全景图](./08-架构设计全景图.md) +- 一图看懂完整架构 +- 四种部署模式 +- 代码组织结构 + +👉 **详细了解:** [01-系统架构分层设计](./01-系统架构分层设计.md) +- 三层架构详细设计 +- 8个业务模块 +- 5个通用能力 +- 依赖关系分析 + +--- + +### 做出下一步行动决策 +👉 **必读:** [99-下一步行动决策建议](./99-下一步行动决策建议.md) +- 3个方案对比(立即开发 vs 先改造 vs 折中) +- 成本收益分析 +- 明确的建议和实施计划 + +--- + +### 了解数据库架构 +👉 **先看:** [03-数据库架构说明](./03-数据库架构说明.md) +- PostgreSQL是Docker部署的 +- 您有自己独立的数据库 +- 与Dify数据库的关系 + +👉 **深入了解:** [05-Schema隔离方案与成本分析](./05-Schema隔离方案与成本分析.md) +- 逻辑隔离 vs 物理隔离 +- 改造成本对比(现在1周 vs 未来3-5周) +- 实施方案 + +--- + +### 了解如何模块独立部署 +👉 **必读:** [06-模块独立部署与单机版方案](./06-模块独立部署与单机版方案.md) +- 完整打包方案(独立产品) +- 共享服务方案(平台内模块) +- Electron单机版架构 +- 代码复用率分析(85%+) + +--- + +### 了解运营管理端 +👉 **必读:** [04-运营管理端架构设计](./04-运营管理端架构设计.md) +- 15个功能模块 +- 3阶段实施计划 +- 对系统的6大影响 + +--- + +### 了解是否需要Monorepo +👉 **必读:** [07-Monorepo架构评估](./07-Monorepo架构评估.md) +- 当前阶段需要吗? +- 成本对比(现在2-3天 vs 未来7-11天) +- 实施方案 + +--- + +### 了解文档体系如何重构 +👉 **必读:** [02-文档体系重构方案v2.0](./02-文档体系重构方案.md) +- 新文档结构设计 +- 8个模块的标准文档模板 +- 迁移计划 + +--- + +### 了解所有架构问题的答案 +👉 **必读:** [00-核心问题解答](./00-核心问题解答.md) +- 部署模式调整(3种,不考虑混合部署) +- 审稿系统独立性分析 +- 数据库架构澄清 + +--- + +## 📊 文档阅读顺序建议 + +### 路径1:快速了解(20分钟) + +1. [00-今日架构设计总结](./00-今日架构设计总结.md) - 5分钟 +2. [08-架构设计全景图](./08-架构设计全景图.md) - 10分钟 +3. [99-下一步行动决策建议](./99-下一步行动决策建议.md) - 5分钟 + +--- + +### 路径2:全面理解(1-2小时) + +1. [00-今日架构设计总结](./00-今日架构设计总结.md) - 10分钟 +2. [01-系统架构分层设计](./01-系统架构分层设计.md) - 30分钟 +3. [05-Schema隔离方案与成本分析](./05-Schema隔离方案与成本分析.md) - 20分钟 +4. [07-Monorepo架构评估](./07-Monorepo架构评估.md) - 15分钟 +5. [99-下一步行动决策建议](./99-下一步行动决策建议.md) - 10分钟 + +--- + +### 路径3:深入研究(3-4小时) + +按顺序阅读所有10个文档 + +--- + +## 🎯 关键结论速查 + +### Schema隔离 +- **建议:** 现在做 ⭐⭐⭐⭐⭐ +- **成本:** 1周 vs 未来3-5周 +- **ROI:** 300-500% + +### Monorepo +- **建议:** 现在转换 ⭐⭐⭐⭐⭐ +- **成本:** 2-3天 vs 未来7-11天 +- **ROI:** 300-400% +- **触发条件:** 近期开发运营管理端,必须转换 + +### 下一步行动 +- **方案A:** 立即开发ASL(累积技术债) +- **方案B:** 先改造架构,再开发ASL(强烈推荐)⭐⭐⭐⭐⭐ +- **方案C:** 只做Monorepo,延后Schema隔离 + +--- + +## 📝 今日成果 + +**完成的文档:** +1. ✅ 00-核心问题解答.md +2. ✅ 01-系统架构分层设计.md(900+行) +3. ✅ 02-文档体系重构方案v2.0.md(790+行) +4. ✅ 03-数据库架构说明.md(434+行) +5. ✅ 04-运营管理端架构设计.md(859+行) +6. ✅ 05-Schema隔离方案与成本分析.md(1042+行) +7. ✅ 06-模块独立部署与单机版方案.md(1541+行) +8. ✅ 07-Monorepo架构评估.md(555+行) +9. ✅ 08-架构设计全景图.md +10. ✅ 99-下一步行动决策建议.md + +**总计:** 6000+行详细设计 + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/01-系统架构分层设计.md b/docs/00-系统总体设计/01-系统架构分层设计.md new file mode 100644 index 00000000..9793f6c4 --- /dev/null +++ b/docs/00-系统总体设计/01-系统架构分层设计.md @@ -0,0 +1,939 @@ +# 系统架构分层设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-11-06 +> **最后更新:** 2025-11-06 +> **文档状态:** 架构设计中 +> **作者:** 技术架构师 + +--- + +## 📋 文档说明 + +本文档是壹证循AI科研平台的**核心架构设计文档**,定义了: +1. **总体架构**:平台级的基础设施和通用能力 +2. **业务模块**:各个独立的产品模块 +3. **可复用能力**:跨模块共享的技术能力 +4. **模块独立性**:如何支持模块独立部署和销售 + +**核心设计原则:** +- ✅ **总体与模块分离**:平台基础设施与业务模块清晰分层 +- ✅ **能力可复用**:通用能力在平台层统一提供 +- ✅ **模块可独立**:任何模块都可以独立部署和销售 +- ✅ **架构可演进**:从单体到微服务平滑演进 + +--- + +## 🏗️ 架构分层总览 + +### 三层架构 + +``` +┌─────────────────────────────────────────────────────────────┐ +│ 业务模块层(Product Layer) │ +│ ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐ │ +│ │ AIA │ │ ASL │ │ PKB │ │ DC │ │ SSA │ … │ +│ │智能问答│ │智能文献│ │知识库 │ │数据清洗│ │智能统计│ │ +│ └────────┘ └────────┘ └────────┘ └────────┘ └────────┘ │ +└─────────────────────────────────────────────────────────────┘ + ↓ 依赖 +┌─────────────────────────────────────────────────────────────┐ +│ 通用能力层(Capability Layer) │ +│ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ +│ │LLM网关 │ │文档处理 │ │RAG引擎 │ │数据ETL │ … │ +│ └─────────┘ └─────────┘ └─────────┘ └─────────┘ │ +└─────────────────────────────────────────────────────────────┘ + ↓ 依赖 +┌─────────────────────────────────────────────────────────────┐ +│ 平台基础层(Platform Layer) │ +│ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ +│ │用户权限 │ │存储服务 │ │通知服务 │ │监控日志 │ … │ +│ └─────────┘ └─────────┘ └─────────┘ └─────────┘ │ +└─────────────────────────────────────────────────────────────┘ +``` + +--- + +## 📐 第一层:平台基础层(Platform Layer) + +### 定义 + +**平台基础层是所有业务模块的地基,提供通用的基础设施能力。** + +### 核心特征 + +- ✅ **全局唯一**:整个平台只有一套 +- ✅ **业务无关**:不涉及具体业务逻辑 +- ✅ **强依赖性**:所有业务模块都必须依赖 +- ✅ **稳定性高**:很少变动 + +### 包含的模块 + +#### 1. 用户与权限中心(UAM) + +**职责:** +- 用户注册、登录、认证(JWT) +- 用户信息管理 +- 角色与权限管理(RBAC) +- 多租户管理(SaaS版) +- Feature Flag控制(版本权限) + +**数据表:** +```typescript +// 平台层Schema: platform_schema +- users // 用户基础信息 +- roles // 角色定义 +- permissions // 权限定义 +- user_roles // 用户-角色关联 +- role_permissions // 角色-权限关联 +- tenants // 租户(SaaS多租户) +- feature_flags // Feature Flag配置 +``` + +**API示例:** +``` +POST /api/auth/register // 注册 +POST /api/auth/login // 登录 +GET /api/users/me // 获取当前用户 +PUT /api/users/me // 更新用户信息 +GET /api/users/permissions // 获取用户权限 +GET /api/users/feature-flags // 获取用户Feature Flag +``` + +--- + +#### 2. 存储服务(Storage Service) + +**职责:** +- 文件上传、下载、删除 +- 对象存储(OSS/S3) +- 本地文件系统(单机版) +- 文件权限控制 + +**技术方案:** +```typescript +// 云端版:MinIO/阿里云OSS +// 单机版:本地文件系统 + +interface StorageService { + upload(file: File, path: string): Promise; // 上传,返回URL + download(url: string): Promise; // 下载 + delete(url: string): Promise; // 删除 + getSignedUrl(url: string, expiresIn: number): string; // 获取临时访问URL +} +``` + +--- + +#### 3. 通知服务(Notification Service) + +**职责:** +- 站内消息 +- 邮件通知 +- WebSocket实时推送 + +**数据表:** +```typescript +// 平台层Schema: platform_schema +- notifications // 通知记录 +- notification_templates // 通知模板 +``` + +**API示例:** +``` +GET /api/notifications // 获取通知列表 +POST /api/notifications/:id/read // 标记已读 +``` + +--- + +#### 4. 监控与日志(Monitoring & Logging) + +**职责:** +- 操作日志 +- 错误日志 +- 性能监控 +- 审计日志(合规要求) + +**数据表:** +```typescript +// 平台层Schema: platform_schema +- admin_logs // 管理员操作日志 +- error_logs // 错误日志 +- audit_logs // 审计日志(合规) +``` + +--- + +#### 5. 系统配置(System Config) + +**职责:** +- 系统级配置管理 +- 多环境配置(开发、测试、生产) +- 动态配置更新 + +**数据表:** +```typescript +// 平台层Schema: platform_schema +- system_configs // 系统配置 +``` + +--- + +## 🔧 第二层:通用能力层(Capability Layer) + +### 定义 + +**通用能力层是跨业务模块共享的核心技术能力,是业务逻辑的基础。** + +### 核心特征 + +- ✅ **可复用**:多个业务模块共享 +- ✅ **业务相关**:包含领域知识 +- ✅ **独立部署**:可以独立为微服务 +- ✅ **高内聚**:每个能力职责单一 + +### 包含的能力 + +#### 1. LLM大模型网关(LLM Gateway)⭐⭐⭐⭐⭐ **核心** + +**职责:** +- 统一管理所有LLM调用 +- 根据用户版本动态切换模型 +- 成本控制与限流 +- Token计数与计费 + +**核心价值:** +``` +这是商业模式的技术保障: +- 基础版:只能用DeepSeek-V3(便宜) +- 高级版:可用DeepSeek + Qwen3 +- 旗舰版:可用DeepSeek + Qwen3 + Qwen-Long + Claude + +成本控制: +- 统一监控所有LLM API调用 +- 超出配额自动限流 +- 按版本计费 +``` + +**技术架构:** +```typescript +// LLM Gateway统一入口 +interface LLMGateway { + // 调用LLM + chat(params: { + userId: string; + modelType?: 'deepseek-v3' | 'qwen3' | 'qwen-long' | 'claude'; + messages: Message[]; + stream?: boolean; + }): Promise; + + // 根据用户版本选择模型 + selectModel(userId: string, preferredModel?: string): string; + + // 检查配额 + checkQuota(userId: string): Promise<{ allowed: boolean; remaining: number }>; + + // Token计数 + countTokens(text: string): number; +} +``` + +**数据表:** +```typescript +// 通用能力Schema: capability_schema +- llm_usage_logs // LLM使用日志 +- llm_quotas // 用户配额 +``` + +**为什么是通用能力?** +- ✅ AIA模块需要(AI智能问答) +- ✅ ASL模块需要(AI智能文献筛选) +- ✅ PKB模块需要(知识库RAG问答) +- ✅ DC模块需要(数据清洗NER提取) +- ✅ 审稿模块需要(稿件审查) + +**所有模块都依赖LLM Gateway!** + +--- + +#### 2. 文档处理引擎(Document Processing Engine)⭐⭐⭐⭐⭐ **核心** + +**职责:** +- 多格式文档提取(PDF/Docx/Txt/Excel) +- 文本清洗与预处理 +- OCR处理 +- 表格提取 + +**技术架构:** +```typescript +// Python微服务(已实现) +interface DocumentProcessor { + // 提取文本 + extract(file: File, method: 'pymupdf' | 'nougat' | 'mammoth'): Promise<{ + text: string; + metadata: { + charCount: number; + language: string; + quality: number; + }; + }>; + + // 提取表格 + extractTables(file: File): Promise; + + // OCR处理 + ocr(image: Buffer): Promise; +} +``` + +**为什么是通用能力?** +- ✅ ASL模块需要(文献PDF提取) +- ✅ PKB模块需要(知识库文档上传) +- ✅ DC模块需要(Excel/Docx数据导入) +- ✅ 审稿模块需要(稿件文档提取) + +**至少4个模块依赖文档处理引擎!** + +--- + +#### 3. RAG引擎(RAG Engine)⭐⭐⭐⭐ **核心** + +**职责:** +- 向量化存储(Embedding) +- 语义检索(Semantic Search) +- 检索增强生成(RAG) +- Rerank重排序 + +**技术架构:** +```typescript +// 基于Dify或自建向量数据库 +interface RAGEngine { + // 创建知识库 + createDataset(name: string, description?: string): Promise; + + // 上传文档 + uploadDocument(datasetId: string, file: File): Promise; + + // 语义检索 + search(datasetId: string, query: string, topK?: number): Promise; + + // RAG问答 + chatWithRAG(datasetId: string, query: string, history?: Message[]): Promise; +} +``` + +**为什么是通用能力?** +- ✅ PKB模块需要(个人知识库问答) +- ✅ ASL模块需要(文献内容检索) +- ✅ AIA模块需要(@知识库问答) + +**至少3个模块依赖RAG引擎!** + +--- + +#### 4. 数据ETL引擎(Data ETL Engine)⭐⭐⭐ **中等** + +**职责:** +- Excel多表JOIN +- 数据清洗 +- 数据转换 +- 数据验证 + +**技术架构:** +```python +# Python微服务(基于Polars) +class ETLEngine: + # 读取多个Excel + def read_excel(self, files: List[File]) -> List[DataFrame]: + pass + + # JOIN操作 + def join(self, dfs: List[DataFrame], keys: List[str]) -> DataFrame: + pass + + # 数据清洗 + def clean(self, df: DataFrame, rules: Dict) -> DataFrame: + pass + + # 导出 + def export(self, df: DataFrame, format: str) -> bytes: + pass +``` + +**为什么是通用能力?** +- ✅ DC模块需要(数据清洗整理) +- ✅ SSA模块需要(统计分析数据预处理) + +**至少2个模块依赖ETL引擎!** + +--- + +#### 5. 医学NLP引擎(Medical NLP Engine)⭐⭐⭐ **中等** + +**职责:** +- 医学实体识别(NER) +- 医学术语标准化 +- 疾病/药物识别 + +**技术架构:** +```python +# Python微服务(基于spaCy + 医学模型) +class MedicalNLP: + # 实体识别 + def extract_entities(self, text: str) -> List[Entity]: + pass + + # 术语标准化 + def normalize(self, term: str) -> str: + pass + + # 疾病识别 + def extract_diseases(self, text: str) -> List[str]: + pass +``` + +**为什么是通用能力?** +- ✅ DC模块需要(病例数据NER提取) +- ✅ ASL模块可能需要(文献关键词提取) + +--- + +## 🎨 第三层:业务模块层(Product Layer) + +### 定义 + +**业务模块层是面向用户的产品功能,每个模块都是独立的产品单元。** + +### 核心特征 + +- ✅ **独立部署**:可以单独打包部署 +- ✅ **独立销售**:可以单独售卖 +- ✅ **低耦合**:模块间不直接依赖 +- ✅ **高内聚**:模块内功能完整 + +### 模块清单 + +| 模块代号 | 模块名称 | 核心功能 | 商业价值 | 技术栈 | 依赖的通用能力 | +|---------|---------|---------|---------|-------|--------------| +| **AIA** | AI智能问答 | 10+智能体 | ⭐⭐⭐⭐ 差异化 | Node.js + Dify | LLM网关、RAG引擎 | +| **ASL** | AI智能文献 | 文献筛选、提取 | ⭐⭐⭐⭐⭐ 核心 | Node.js + Python | LLM网关、文档处理、RAG引擎 | +| **PKB** | 个人知识库 | RAG问答 | ⭐⭐⭐ 辅助 | Node.js + Dify | LLM网关、文档处理、RAG引擎 | +| **DC** | 数据清洗整理 | 自动ETL + NER | ⭐⭐⭐⭐⭐ 核心 | Node.js + Python | LLM网关、文档处理、ETL引擎、医学NLP | +| **SSA** | 智能统计分析 | 3条分析路径 | ⭐⭐⭐⭐⭐ 刚需 | Node.js + R | 文档处理、ETL引擎 | +| **ST** | 统计分析工具 | 100+小工具 | ⭐⭐⭐⭐ 高频 | Node.js + R | 文档处理 | +| **RVW** | 稿件审查系统 | 方法学评估 | ⭐⭐⭐⭐ 独立 | Node.js + Python | LLM网关、文档处理 | + +--- + +### 业务模块详述 + +#### 1. AIA - AI智能问答模块 ✅ **已完成** + +**当前状态:** +- ✅ 10个智能体已实现 +- ✅ 多轮对话 +- ✅ 流式输出 +- ✅ 模型切换 +- ✅ @知识库问答 + +**数据Schema:** +```typescript +// 业务模块Schema: aia_schema +- projects // 项目 +- conversations // 对话 +- messages // 消息 +- agents_config // 智能体配置 +``` + +**独立部署能力:** +- ✅ 前端:可独立打包 +- ✅ 后端:可独立运行(依赖LLM网关、RAG引擎) +- ✅ 数据库:独立Schema +- ⚠️ 需要:平台层(用户认证) + +--- + +#### 2. ASL - AI智能文献模块 ⏳ **规划中** + +**核心功能:** +1. 标题摘要初筛(双模型AI判断) +2. 全文复筛(PDF全文分析) +3. 全文解析与数据提取 +4. 数据分析与报告生成 +5. 系统评价与Meta分析 +6. 文献管理 + +**数据Schema:** +```typescript +// 业务模块Schema: asl_schema +- literature_projects // 文献项目 +- literature_items // 文献条目 +- pico_configs // PICO(S)配置 +- screening_results // 筛选结果 +- screening_history // 筛选历史 +- extraction_tasks // 提取任务 +- extraction_results // 提取结果 +- meta_analysis_tasks // Meta分析任务 +``` + +**独立部署能力:** +- ✅ 前端:独立React应用 +- ✅ 后端:独立Node.js服务 +- ✅ 数据库:独立Schema +- ✅ 依赖:LLM网关、文档处理、RAG引擎 + +**独立销售价值:⭐⭐⭐⭐⭐ 非常高!** +- 可以作为独立产品"AI文献筛选系统"售卖 +- 目标客户:系统评价研究者、循证医学中心 + +--- + +#### 3. PKB - 个人知识库模块 ✅ **已完成** + +**当前状态:** +- ✅ 知识库CRUD +- ✅ 文档上传 +- ✅ RAG问答 +- ✅ @知识库引用 + +**数据Schema:** +```typescript +// 业务模块Schema: pkb_schema +- knowledge_bases // 知识库 +- documents // 文档 +``` + +**独立部署能力:** +- ✅ 前端:可独立打包 +- ✅ 后端:可独立运行 +- ✅ 数据库:独立Schema +- ✅ 依赖:LLM网关、文档处理、RAG引擎 + +--- + +#### 4. DC - 数据清洗整理模块 ⏳ **规划中** + +**核心功能:** +1. 多Excel文件导入 +2. 自动JOIN和清洗 +3. 医学NER实体提取 +4. 数据质量报告 +5. 导出标准化数据 + +**数据Schema:** +```typescript +// 业务模块Schema: dc_schema +- dc_projects // 数据清洗项目 +- dc_raw_files // 原始文件 +- dc_cleaned_data // 清洗后数据 +- dc_ner_results // NER提取结果 +- dc_quality_reports // 质量报告 +``` + +**独立部署能力:** +- ✅ 前端:独立React应用 +- ✅ 后端:Node.js + Python微服务 +- ✅ 数据库:独立Schema(SQLite for 单机版) +- ✅ 依赖:LLM网关、文档处理、ETL引擎、医学NLP + +**独立销售价值:⭐⭐⭐⭐⭐ 非常高!** +- 可以作为独立产品"医学数据清洗工具"售卖 +- 目标客户:临床科室、数据管理员 + +--- + +#### 5. SSA - 智能统计分析模块 ⏳ **规划中** + +**核心功能:** +1. 队列研究分析 +2. 预测模型构建 +3. RCT研究分析 +4. 数据质量核查 +5. 统计分析报告 + +**数据Schema:** +```typescript +// 业务模块Schema: ssa_schema +- ssa_projects // 统计分析项目 +- ssa_datasets // 数据集 +- ssa_analysis_tasks // 分析任务 +- ssa_results // 分析结果 +- ssa_reports // 分析报告 +``` + +**独立部署能力:** +- ✅ 前端:独立React应用 +- ✅ 后端:Node.js + R微服务 +- ✅ 数据库:独立Schema +- ✅ 依赖:文档处理、ETL引擎 + +**独立销售价值:⭐⭐⭐⭐⭐ 非常高!** +- 可以作为独立产品"临床统计分析平台"售卖 + +--- + +#### 6. ST - 统计分析工具模块 ⏳ **规划中** + +**核心功能:** +- 100+小工具(t检验、卡方检验、ROC曲线等) + +**数据Schema:** +```typescript +// 业务模块Schema: st_schema +- st_tool_usage // 工具使用记录 +``` + +**独立部署能力:** +- ✅ 前端:独立React应用 +- ✅ 后端:Node.js + R微服务 +- ✅ 数据库:独立Schema(可选) +- ✅ 依赖:文档处理 + +--- + +#### 7. RVW - 稿件审查系统 ⏳ **规划中(已有核心功能)** + +**当前状态:** +- ✅ 文档上传 +- ✅ 文本提取 +- ✅ 稿约规范性评估(editorial_review) +- ✅ 方法学评估(methodology_review) +- ✅ 综合评分 + +**未来扩展:** +- ⚠️ 审稿人管理 +- ⚠️ 审稿流程管理 +- ⚠️ 多轮审稿 +- ⚠️ 审稿意见模板 + +**数据Schema:** +```typescript +// 业务模块Schema: review_schema +- review_tasks // 审查任务(已有) +// 未来扩展: +- review_journals // 期刊库 +- review_reviewers // 审稿人 +- review_workflows // 审稿流程 +- review_comments // 审稿意见 +``` + +**独立部署能力:** +- ✅ 前端:独立React应用 +- ✅ 后端:独立Node.js服务 +- ✅ 数据库:独立Schema +- ✅ 依赖:LLM网关、文档处理 + +**独立销售价值:⭐⭐⭐⭐⭐ 极高!** +- 可以作为完全独立的产品"AI辅助审稿系统"售卖 +- 目标客户:期刊编辑部、出版社、学会 +- 商业模式:按期刊订阅,或按稿件数量计费 + +**为什么审稿系统适合独立?** +1. ✅ **用户群独立**:期刊编辑部 vs 临床医生(完全不同) +2. ✅ **业务逻辑独立**:与其他模块无关联 +3. ✅ **部署场景独立**:期刊编辑部有自己的部署需求 +4. ✅ **商业模式独立**:可以按期刊订阅 + +--- + +## 🔗 模块间关系 + +### 依赖关系图 + +``` +业务模块层 + ├── AIA (AI智能问答) + │ └── 依赖:LLM网关、RAG引擎 + │ + ├── ASL (AI智能文献) + │ └── 依赖:LLM网关、文档处理、RAG引擎 + │ + ├── PKB (个人知识库) + │ └── 依赖:LLM网关、文档处理、RAG引擎 + │ + ├── DC (数据清洗) + │ └── 依赖:LLM网关、文档处理、ETL引擎、医学NLP + │ + ├── SSA (智能统计分析) + │ └── 依赖:文档处理、ETL引擎 + │ + ├── ST (统计分析工具) + │ └── 依赖:文档处理 + │ + └── RVW (稿件审查) + └── 依赖:LLM网关、文档处理 + +通用能力层 + ├── LLM网关 ⭐ (所有AI模块依赖) + ├── 文档处理引擎 ⭐ (所有文档模块依赖) + ├── RAG引擎 (AIA、ASL、PKB依赖) + ├── ETL引擎 (DC、SSA依赖) + └── 医学NLP (DC依赖) + +平台基础层 + ├── 用户与权限中心 ⭐ (所有模块依赖) + ├── 存储服务 ⭐ (所有模块依赖) + ├── 通知服务 + ├── 监控与日志 + └── 系统配置 +``` + +### 关键洞察 + +**1. LLM网关是核心中枢** +``` +依赖LLM网关的模块: +- AIA(AI智能问答) +- ASL(AI智能文献) +- PKB(个人知识库) +- DC(数据清洗) +- RVW(稿件审查) + +共计:5个模块 / 7个模块 = 71% + +结论:LLM网关必须优先设计和实现! +``` + +**2. 文档处理引擎使用广泛** +``` +依赖文档处理的模块: +- ASL(文献PDF提取) +- PKB(知识库文档) +- DC(Excel/Docx导入) +- SSA(数据导入) +- ST(数据导入) +- RVW(稿件提取) + +共计:6个模块 / 7个模块 = 86% + +结论:文档处理引擎已实现,需要继续增强! +``` + +**3. 模块独立性分析** + +| 模块 | 独立性 | 原因 | +|------|-------|------| +| **RVW(审稿)** | ⭐⭐⭐⭐⭐ 极高 | 用户群、业务逻辑、部署场景都完全独立 | +| **ASL(文献)** | ⭐⭐⭐⭐⭐ 极高 | 可作为独立产品售卖给系统评价研究者 | +| **DC(数据清洗)** | ⭐⭐⭐⭐⭐ 极高 | 可作为独立产品售卖给数据管理员 | +| **SSA(统计分析)** | ⭐⭐⭐⭐ 高 | 可独立,但与ST模块有协同效应 | +| **ST(分析工具)** | ⭐⭐⭐⭐ 高 | 可独立,但与SSA模块有协同效应 | +| **AIA(AI问答)** | ⭐⭐⭐ 中 | 可独立,但与PKB有较强关联(@知识库) | +| **PKB(知识库)** | ⭐⭐⭐ 中 | 可独立,但与AIA有较强关联(@知识库) | + +--- + +## 💾 数据库架构设计 + +### Schema隔离策略 + +**当前问题:** +- ❌ 所有表在同一Schema(public) +- ❌ 未来微服务拆分困难 +- ❌ 不支持模块独立部署 + +**目标架构:** +```sql +-- 平台层Schema +CREATE SCHEMA platform_schema; + - users + - roles + - permissions + - user_roles + - role_permissions + - tenants + - feature_flags + - notifications + - admin_logs + - system_configs + +-- 通用能力Schema +CREATE SCHEMA capability_schema; + - llm_usage_logs + - llm_quotas + - document_processing_logs + +-- 业务模块Schema +CREATE SCHEMA aia_schema; -- AI智能问答 +CREATE SCHEMA asl_schema; -- AI智能文献 +CREATE SCHEMA pkb_schema; -- 个人知识库 +CREATE SCHEMA dc_schema; -- 数据清洗 +CREATE SCHEMA ssa_schema; -- 智能统计分析 +CREATE SCHEMA st_schema; -- 统计分析工具 +CREATE SCHEMA review_schema; -- 稿件审查 +``` + +### 迁移策略 + +**阶段一:逻辑隔离(当前阶段)** +``` +目标:在代码层面按Schema组织,但数据库还是public +方式:Prisma中使用@@map指定表名前缀 + +例如: +@@map("aia_projects") // AI问答的项目表 +@@map("asl_projects") // AI文献的项目表 +@@map("dc_projects") // 数据清洗的项目表 +``` + +**阶段二:物理隔离(微服务拆分时)** +``` +目标:真正创建独立Schema +方式: +1. 创建新Schema +2. 迁移数据(INSERT INTO new_schema.table SELECT * FROM public.old_table) +3. 更新Prisma Schema +4. 测试验证 +``` + +--- + +## 🎯 可复用能力总结 + +### 什么是可复用能力? + +**定义:** +- ✅ 被多个模块使用的技术能力 +- ✅ 可以独立为服务 +- ✅ 有明确的接口定义 +- ✅ 职责单一 + +### 核心可复用能力清单 + +| 能力 | 使用频率 | 复用模块 | 优先级 | 当前状态 | +|------|---------|---------|--------|---------| +| **LLM网关** | 71% (5/7) | AIA、ASL、PKB、DC、RVW | P0 | ❌ 未实现 | +| **文档处理引擎** | 86% (6/7) | 所有模块 | P0 | ✅ 已实现 | +| **RAG引擎** | 43% (3/7) | AIA、ASL、PKB | P1 | ✅ 已实现(基于Dify) | +| **ETL引擎** | 29% (2/7) | DC、SSA | P2 | ❌ 未实现 | +| **医学NLP** | 14% (1/7) | DC | P2 | ❌ 未实现 | + +### 立即行动 + +**P0能力(必须立即设计):** +1. ✅ **LLM网关** - 商业模式的基础,5个模块依赖 +2. ✅ **文档处理引擎** - 已实现,需要增强(表格提取) + +**P1能力(近期设计):** +3. ✅ **RAG引擎** - 已实现,需要优化 +4. ⚠️ **ETL引擎** - DC模块开发时再设计 + +**P2能力(延后):** +5. ⚠️ **医学NLP** - DC模块开发时再设计 + +--- + +## 🚀 架构演进路径 + +### 阶段一:模块化单体(当前 - 6个月) + +**架构特点:** +``` +单一代码库,但严格按模块划分: +backend/ + ├── platform/ # 平台层 + │ ├── auth/ + │ ├── storage/ + │ └── notification/ + ├── capabilities/ # 通用能力层 + │ ├── llm-gateway/ + │ ├── document/ + │ └── rag/ + ├── modules/ # 业务模块层 + │ ├── aia/ + │ ├── asl/ + │ ├── pkb/ + │ ├── dc/ + │ ├── ssa/ + │ ├── st/ + │ └── review/ + └── shared/ # 共享工具 + +单一数据库,但逻辑隔离(表名前缀) +``` + +**关键纪律:** +- ✅ 模块间不直接import,只能通过接口调用 +- ✅ 每个模块有独立的路由、服务、数据访问层 +- ✅ 使用表名前缀(逻辑Schema隔离) + +--- + +### 阶段二:首次拆分(6-18个月) + +**触发条件:** +- 有客户要求私有化部署 +- 有客户要求单机版 +- 需要独立销售某个模块 + +**拆分策略:** +``` +1. 优先拆分RVW(审稿系统)- 最独立 +2. 其次拆分DC或ASL - 商业价值高 +3. 引入API网关 +4. 引入K8s(可选,私有化部署需要) +``` + +**架构:** +``` +API网关 (Kong/Traefik) + ├── 平台服务 (UAM、Storage) + ├── LLM网关服务 + ├── 文档处理服务 (Python微服务) + ├── 审稿模块服务 (独立部署) + └── 其他模块服务 (暂时仍为单体) +``` + +--- + +### 阶段三:全面微服务(18个月+) + +**架构:** +``` +所有模块独立部署,支持灵活组合和模块化售卖 +``` + +--- + +## 📊 总结 + +### 架构分层回答了您的关键问题 + +**1. 哪些是总体的?** +- ✅ 平台基础层:用户权限、存储、通知、监控、配置 + +**2. 哪些是通用的技术能力?** +- ✅ 通用能力层:LLM网关、文档处理、RAG引擎、ETL引擎、医学NLP + +**3. 哪些是各子模块独立的功能?** +- ✅ 业务模块层:AIA、ASL、PKB、DC、SSA、ST、RVW + +**4. 哪些能力是复用的?** +- ✅ LLM网关(5个模块) +- ✅ 文档处理(6个模块) +- ✅ RAG引擎(3个模块) + +**5. 哪些可以随时独立成系统?** +- ⭐⭐⭐⭐⭐ **RVW(审稿系统)** - 最适合独立 +- ⭐⭐⭐⭐⭐ **ASL(智能文献)** - 商业价值高 +- ⭐⭐⭐⭐⭐ **DC(数据清洗)** - 商业价值高 + +--- + +**下一步:基于这个架构分层,重新组织文档结构。** + + + + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/02-文档体系重构方案.md b/docs/00-系统总体设计/02-文档体系重构方案.md new file mode 100644 index 00000000..ef8fe2c6 --- /dev/null +++ b/docs/00-系统总体设计/02-文档体系重构方案.md @@ -0,0 +1,1480 @@ +# 文档体系重构方案 + +> **文档版本:** v3.0 +> **创建日期:** 2025-11-06 +> **最后更新:** 2025-11-06 +> **文档状态:** 待实施 +> **作者:** 技术架构师 +> +> **更新说明:** +> - v3.0: 新增文档分层原则、快速上下文体系、详细执行计划 +> - v2.0: 新增运营管理端、多种部署方案、Monorepo架构相关文档 + +--- + +## 📋 文档重构背景 + +### 当前问题 + +**现有文档结构:** +``` +AIclinicalresearch/docs/ + ├── 00-项目概述/ + ├── 01-设计文档/ + ├── 02-开发规范/ + ├── 03-业务规则/ + ├── 04-开发计划/ + ├── 05-每日进度/ + └── AI智能文献/ +``` + +**存在的问题:** +1. ❌ **总体与模块混杂**:系统总体设计与具体模块文档混在一起 +2. ❌ **层次不清晰**:无法区分平台层、通用能力层、业务模块层 +3. ❌ **模块文档分散**:AI智能文献有独立文件夹,其他模块没有 +4. ❌ **难以扩展**:新增模块时,文档结构混乱 +5. ❌ **不支持独立销售**:无法快速打包某个模块的完整文档 +6. ❌ **规范与设计混杂**:数据库设计规范和具体设计文档放在一起 +7. ❌ **缺少快速上下文**:新AI对接时需要阅读大量文档,Token消耗高 +8. ❌ **文档查找困难**:没有清晰的导航和分层 + +--- + +## 🎯 重构目标 + +### 核心原则 + +1. ✅ **总体与模块分离**:系统总体设计独立于业务模块 +2. ✅ **层次清晰**:平台层、通用能力层、业务模块层分开 +3. ✅ **模块完整**:每个模块有完整的文档结构(需求、设计、开发、测试、部署) +4. ✅ **易于扩展**:新增模块只需复制文档模板 +5. ✅ **支持独立销售**:每个模块的文档可以独立打包 +6. ✅ **规范与设计分离**:设计规范统一管理,具体设计按模块组织 +7. ✅ **快速上下文优先**:每个层级都有快速上下文文档,降低AI对接成本 +8. ✅ **金字塔式文档**:从简到详,按需深入 + +--- + +## 🏗️ 新文档结构设计 + +### 总体结构 + +``` +AIclinicalresearch/ + ├── docs/ + │ │ + │ ├── 📁 00-系统总体设计/ # 【新增】总体层面 + │ │ ├── 00-核心问题解答.md # ✅ 已创建 + │ │ ├── 01-系统架构分层设计.md # ✅ 已创建 + │ │ ├── 02-文档体系重构方案.md # ✅ 当前文档 + │ │ ├── 03-数据库架构说明.md # ✅ 已创建 + │ │ ├── 04-运营管理端架构设计.md # ✅ 已创建(v2.0新增) + │ │ ├── 05-Schema隔离方案与成本分析.md # ✅ 已创建(v2.0新增) + │ │ ├── 06-模块独立部署与单机版方案.md # ✅ 已创建(v2.0新增) + │ │ ├── 07-总体需求文档(PRD).md # ⏳ 待迁移 + │ │ ├── 08-技术架构白皮书.md # ⏳ 待迁移 + │ │ ├── 09-商业模式设计.md # ⏳ 待创建 + │ │ ├── 10-版本规划.md # ⏳ 待创建 + │ │ └── README.md # ✅ 已创建 + │ │ + │ ├── 📁 01-平台基础层/ # 【新增】平台层 + │ │ ├── 01-用户与权限中心(UAM)/ + │ │ ├── 02-存储服务/ + │ │ ├── 03-通知服务/ + │ │ ├── 04-监控与日志/ + │ │ ├── 05-系统配置/ + │ │ └── README.md + │ │ + │ ├── 📁 02-通用能力层/ # 【新增】通用能力层 + │ │ ├── 01-LLM大模型网关/ # P0优先级 + │ │ ├── 02-文档处理引擎/ + │ │ ├── 03-RAG引擎/ + │ │ ├── 04-数据ETL引擎/ + │ │ ├── 05-医学NLP引擎/ + │ │ └── README.md + │ │ + │ ├── 📁 03-业务模块/ # 【新增】业务模块层 + │ │ │ + │ │ ├── 📁 AIA-AI智能问答/ # ✅ 已完成 + │ │ ├── 📁 ASL-AI智能文献/ # ⏳ 下一步重点 + │ │ ├── 📁 PKB-个人知识库/ # ✅ 已完成 + │ │ ├── 📁 DC-数据清洗整理/ # ⏳ 规划中 + │ │ ├── 📁 SSA-智能统计分析/ # ⏳ 规划中 + │ │ ├── 📁 ST-统计分析工具/ # ⏳ 规划中 + │ │ ├── 📁 RVW-稿件审查系统/ # ⚡ 独立系统 + │ │ ├── 📁 ADMIN-运营管理端/ # ⭐ v2.0新增(独立系统) + │ │ │ + │ │ └── README.md # 业务模块导航 + │ │ + │ ├── 📁 04-开发规范/ # 保留 + │ │ ├── 代码规范.md + │ │ ├── Git规范.md + │ │ └── README.md + │ │ + │ ├── 📁 05-部署文档/ # 【扩展】部署相关(v2.0扩展) + │ │ ├── 01-云端SaaS部署/ # ⭐ v2.0扩展 + │ │ │ ├── 01-完整平台部署.md + │ │ │ ├── 02-微服务架构部署.md + │ │ │ ├── 03-K8s部署指南.md + │ │ │ └── README.md + │ │ │ + │ │ ├── 02-独立产品包部署/ # ⭐ v2.0新增 + │ │ │ ├── 01-审稿系统独立部署.md + │ │ │ ├── 02-AI文献系统独立部署.md + │ │ │ ├── 03-Docker打包指南.md + │ │ │ └── README.md + │ │ │ + │ │ ├── 03-Electron单机版/ # ⭐ v2.0新增 + │ │ │ ├── 01-单机版架构设计.md + │ │ │ ├── 02-打包配置指南.md + │ │ │ ├── 03-跨平台适配.md + │ │ │ ├── 04-自动更新方案.md + │ │ │ └── README.md + │ │ │ + │ │ ├── 04-私有化部署/ + │ │ │ ├── 01-Docker部署指南.md + │ │ │ ├── 02-K3s轻量级部署.md + │ │ │ ├── 03-一键部署脚本.md + │ │ │ └── README.md + │ │ │ + │ │ └── README.md # 部署文档总导航 + │ │ + │ ├── 📁 06-测试文档/ # 【新增】 + │ │ ├── 01-测试策略.md + │ │ ├── 02-自动化测试.md + │ │ ├── 03-性能测试.md + │ │ └── README.md + │ │ + │ ├── 📁 07-运维文档/ # 【新增】 + │ │ ├── 01-监控告警.md + │ │ ├── 02-故障排查.md + │ │ ├── 03-备份恢复.md + │ │ └── README.md + │ │ + │ ├── 📁 08-项目管理/ # 【调整】项目管理 + │ │ ├── 01-整体开发计划.md + │ │ ├── 02-里程碑规划.md + │ │ ├── 03-每日进度/ # 保留原有每日进度 + │ │ └── README.md + │ │ + │ ├── 📁 09-架构实施/ # ⭐ v2.0新增 + │ │ ├── 01-Monorepo架构设计/ + │ │ │ ├── 01-Monorepo总体设计.md + │ │ │ ├── 02-包管理策略.md + │ │ │ ├── 03-代码共享与复用.md + │ │ │ └── README.md + │ │ │ + │ │ ├── 02-产品打包方案/ + │ │ │ ├── 01-独立产品打包流程.md + │ │ │ ├── 02-依赖管理.md + │ │ │ ├── 03-构建脚本.md + │ │ │ └── README.md + │ │ │ + │ │ ├── 03-微服务拆分/ + │ │ │ ├── 01-拆分策略.md + │ │ │ ├── 02-服务间通信.md + │ │ │ ├── 03-API网关配置.md + │ │ │ └── README.md + │ │ │ + │ │ └── README.md + │ │ + │ └── README.md # 文档总导航 + │ + └── backend/ + └── frontend/ + └── ... +``` + +--- + +## 📐 文档分层原则 ⭐ **v3.0新增** + +### 核心问题:规范文档 vs 具体设计文档 + +在文档重构过程中,我们发现一个关键问题:**数据库设计文档、API设计规范等文档应该放在哪里?** + +### 解决方案:明确区分规范和设计 + +| 文档类型 | 位置 | 说明 | 示例 | +|---------|------|------|------| +| **全局规范** | `04-开发规范/` | 告诉大家"怎么做" | 数据库命名规范、API设计规范、代码规范 | +| **总体架构** | `00-系统总体设计/` | 整体视角 | Schema结构总览、部署架构、技术选型 | +| **平台层设计** | `01-平台基础层/` | 平台级服务的具体设计 | UAM的数据库设计、存储服务API | +| **通用能力设计** | `02-通用能力层/` | 可复用能力的具体设计 | LLM网关设计、文档处理设计 | +| **业务模块设计** | `03-业务模块/` | 各模块的具体设计 | ASL的数据库设计、AIA的API设计 | + +### 示例:数据库设计文档处理 + +**当前问题:** `01-设计文档/数据库设计文档.md`(1319行)包含所有模块的表设计 + +**重构方案:** 拆分为4部分 + +``` +┌─────────────────────────────────────────────────┐ +│ 1. 规范文档(告诉大家怎么设计) │ +│ 04-开发规范/03-数据库设计规范.md │ +│ - 表命名规范(模块前缀_表名) │ +│ - 字段类型规范(统一使用UUID) │ +│ - 索引设计原则 │ +│ - Schema隔离规范 │ +└─────────────────────────────────────────────────┘ + +┌─────────────────────────────────────────────────┐ +│ 2. 总体架构文档(整体视角) │ +│ 00-系统总体设计/03-数据库架构说明.md (已有) │ +│ - Schema结构总览 │ +│ - 表关系图 │ +│ - 数据流向 │ +└─────────────────────────────────────────────────┘ + +┌─────────────────────────────────────────────────┐ +│ 3. 平台层数据库设计(平台级服务) │ +│ 01-平台基础层/01-用户与权限中心(UAM)/ │ +│ └─ 01-设计文档/02-数据库设计.md │ +│ - platform_schema的表设计 │ +│ - users, roles, permissions等 │ +└─────────────────────────────────────────────────┘ + +┌─────────────────────────────────────────────────┐ +│ 4. 各业务模块数据库设计(模块具体设计) │ +│ 03-业务模块/AIA-AI智能问答/01-设计文档/ │ +│ └─ 02-数据库设计.md │ +│ - aia_schema的表设计 │ +│ │ +│ 03-业务模块/ASL-AI智能文献/01-设计文档/ │ +│ └─ 02-数据库设计.md │ +│ - asl_schema的表设计 │ +│ ... │ +└─────────────────────────────────────────────────┘ +``` + +### 示例:API设计规范处理 + +**重构方案:** + +``` +┌─────────────────────────────────────────────────┐ +│ 规范文档(全局标准) │ +│ 04-开发规范/02-API设计规范.md │ +│ - RESTful规范(GET/POST/PUT/DELETE) │ +│ - 错误码规范(200/400/500) │ +│ - 认证规范(JWT Token) │ +│ - 版本控制(/api/v1/) │ +│ - 分页规范(page/pageSize) │ +└─────────────────────────────────────────────────┘ + +┌─────────────────────────────────────────────────┐ +│ 各模块具体API设计(具体实现) │ +│ 03-业务模块/AIA-AI智能问答/01-设计文档/ │ +│ └─ 03-API设计.md │ +│ - POST /api/v1/projects │ +│ - GET /api/v1/conversations/:id │ +│ ... │ +│ │ +│ 03-业务模块/ASL-AI智能文献/01-设计文档/ │ +│ └─ 03-API设计.md │ +│ - POST /api/v1/literature/projects │ +│ - POST /api/v1/literature/screening │ +│ ... │ +└─────────────────────────────────────────────────┘ +``` + +### 规范文档清单(`04-开发规范/`) + +**需要创建的规范文档:** + +1. ✅ **01-代码规范.md**(已有) + - TypeScript代码规范 + - 命名规范 + - 注释规范 + +2. ⏳ **02-API设计规范.md**(待创建) + - RESTful规范 + - 错误码规范 + - 认证规范 + - 版本控制 + - 分页规范 + +3. ⏳ **03-数据库设计规范.md**(待创建) + - 表命名规范 + - 字段类型规范 + - 索引设计原则 + - Schema隔离规范 + - 外键规范 + +4. ⏳ **04-前端组件设计规范.md**(待创建) + - 组件命名规范 + - 目录结构规范 + - Props设计规范 + - 状态管理规范 + +5. ⏳ **05-Git规范.md**(待创建) + - 分支管理规范 + - Commit Message规范 + - PR规范 + +### 好处 + +✅ **规范统一**:所有模块遵循同一套规范 +✅ **模块独立**:每个模块的设计文档完整、可独立 +✅ **易于维护**:修改某个模块不影响其他模块 +✅ **支持独立部署**:模块打包时带上完整文档 +✅ **新人友好**:先学规范,再看具体设计 + +--- + +## 🚀 快速上下文体系 ⭐ **v3.0新增** + +### 核心问题:如何让新AI快速了解项目? + +**痛点:** +- ❌ 每次新对话都需要阅读大量文档 +- ❌ Token消耗高(完整文档可能5K-10K tokens) +- ❌ 无法快速定位到具体模块 +- ❌ 缺少分层的上下文导航 + +### 解决方案:金字塔式快速上下文 + +``` + ┌─────────────────────┐ + │ 30秒上下文 (L0) │ ← 1页,800 tokens + │ 总体快速上下文 │ 所有对话必读 + └─────────────────────┘ + ↓ 需要更多细节 + ┌─────────────────────┐ + │ 3分钟上下文 (L1) │ ← 3页,1500 tokens + │ 层级快速上下文 │ 平台层/能力层/模块层 + └─────────────────────┘ + ↓ 需要开发细节 + ┌─────────────────────┐ + │ 5分钟上下文 (L2) │ ← 5页,2000 tokens + │ 模块快速上下文 │ 具体模块开发 + └─────────────────────┘ + ↓ 需要完整信息 + ┌─────────────────────┐ + │ 完整文档体系 │ ← 完整PRD和设计文档 + └─────────────────────┘ +``` + +### 快速上下文文档布局 + +``` +docs/ + │ + ├── 00-系统总体设计/ + │ └── [AI对接] 快速上下文.md ⭐ L0:30秒-2分钟(800 tokens) + │ - 一句话描述项目 + │ - 8个业务模块状态 + │ - 关键架构决策 + │ - 快速跳转指引 + │ + ├── 01-平台基础层/ + │ ├── [AI对接] 平台层快速上下文.md ⭐ L1:2-3分钟(1500 tokens) + │ └── 01-用户与权限中心(UAM)/ + │ └── [AI对接] UAM快速上下文.md ⭐ L2:1-2分钟(800 tokens) + │ + ├── 02-通用能力层/ + │ ├── [AI对接] 通用能力快速上下文.md ⭐ L1:2-3分钟(1500 tokens) + │ └── 01-LLM大模型网关/ + │ └── [AI对接] LLM网关快速上下文.md ⭐ L2:1-2分钟(800 tokens) + │ + └── 03-业务模块/ + ├── [AI对接] 业务模块快速上下文.md ⭐ L1:2-3分钟(1500 tokens) + └── ASL-AI智能文献/ + └── [AI对接] ASL快速上下文.md ⭐ L2:3-5分钟(2000 tokens) +``` + +### 快速上下文内容标准 + +#### L0 - 总体快速上下文(必读) + +**位置:** `00-系统总体设计/[AI对接] 快速上下文.md` + +**内容结构:** +```markdown +# [AI对接] 快速上下文 + +> **阅读时间:** 2分钟 | **Token消耗:** ~800 tokens + +## 一句话描述 +[项目核心定位] + +## 核心信息卡片 +- 项目状态 +- 8个业务模块(优先级) +- 关键架构决策 +- 代码位置 +- 核心依赖 + +## 快速跳转(根据任务选择) +- 开发ASL模块 → [链接] +- 了解架构设计 → [链接] +- 了解数据库 → [链接] + +## 常见任务快速指引 +[任务类型 → 需要阅读的文档 → Token消耗] +``` + +#### L1 - 层级快速上下文 + +**位置:** 各大层级根目录 + +**内容:** 该层级的所有模块概览、依赖关系、快速导航 + +#### L2 - 模块快速上下文 + +**位置:** 具体模块根目录 + +**内容:** 模块定位、核心功能、技术架构、业务流程、开发计划 + +### 使用策略 + +**场景1:首次对话,完全不了解项目** +``` +阅读顺序: +1. [必读] 00-系统总体设计/[AI对接] 快速上下文.md (~800 tokens,2分钟) +→ 现在可以开始对话了 +``` + +**场景2:开发ASL模块** +``` +阅读顺序: +1. [必读] 00-系统总体设计/[AI对接] 快速上下文.md (~800 tokens) +2. [必读] 03-业务模块/ASL-AI智能文献/[AI对接] ASL快速上下文.md (~2000 tokens) +3. [可选] 如果需要LLM网关细节 → LLM网关快速上下文 (~800 tokens) +总计:~3600 tokens,5-8分钟 +``` + +**场景3:架构讨论** +``` +阅读顺序: +1. [必读] 00-系统总体设计/[AI对接] 快速上下文.md (~800 tokens) +2. [必读] 00-系统总体设计/08-架构设计全景图.md (~3000 tokens) +3. [可选] 根据讨论方向选择具体文档 +总计:~4000-8000 tokens,10-15分钟 +``` + +### Token消耗对比 + +| 方式 | Token消耗 | 阅读时间 | 覆盖范围 | +|-----|----------|---------|---------| +| **传统方式**(读完整PRD) | 5K-10K | 20-30分钟 | 单个模块 | +| **快速上下文L0** | 800 | 2分钟 | 项目全貌 | +| **快速上下文L0+L2** | 2.8K | 5-8分钟 | 项目+具体模块 | +| **节省** | **50-70%** | **70-80%** | - | + +### 实施要求 + +**在文档重构时,同步创建快速上下文:** + +1. ✅ **L0 - 总体快速上下文**(已存在,需更新) + - `00-系统总体设计/[AI对接] 快速上下文.md` + +2. ⏳ **L1 - 层级快速上下文**(新创建) + - `01-平台基础层/[AI对接] 平台层快速上下文.md` + - `02-通用能力层/[AI对接] 通用能力快速上下文.md` + - `03-业务模块/[AI对接] 业务模块快速上下文.md` + +3. ⏳ **L2 - 模块快速上下文**(随模块创建) + - ASL模块创建时,同步创建快速上下文 + - LLM网关设计时,同步创建快速上下文 + +4. ⏳ **标准模板**(创建模板文件) + - `_templates/[AI对接] 模块快速上下文-模板.md` + +--- + +## 📂 业务模块文档结构(标准模板) + +### 每个业务模块的标准结构 + +``` +03-业务模块/ + └── XXX-模块名称/ + │ + ├── 📁 00-项目概述/ + │ ├── 00-模块导航.md # 模块内文档导航 + │ ├── 01-产品需求文档(PRD).md # 产品需求 + │ ├── 02-核心功能清单.md # 功能列表 + │ ├── 03-用户故事.md # 用户故事 + │ ├── 04-非功能需求.md # 性能、安全等 + │ └── README.md + │ + ├── 📁 01-设计文档/ + │ ├── 01-技术架构设计.md # 模块技术架构 + │ ├── 02-数据库设计.md # Schema、表结构 + │ ├── 03-API设计.md # RESTful API + │ ├── 04-前端组件设计.md # UI组件 + │ ├── 05-AI模型集成设计.md # AI相关(如需要) + │ ├── 06-UI原型/ # 原型图 + │ │ ├── xxx原型.html + │ │ └── ... + │ └── README.md + │ + ├── 📁 02-业务规则/ + │ ├── 01-核心业务规则.md + │ ├── 02-数据验证规则.md + │ ├── 03-权限规则.md + │ └── README.md + │ + ├── 📁 03-开发计划/ + │ ├── 01-开发里程碑.md + │ ├── 02-任务分解.md + │ ├── 03-技术难点与风险.md + │ └── README.md + │ + ├── 📁 04-测试文档/ + │ ├── 01-测试计划.md + │ ├── 02-测试用例.md + │ ├── 03-测试报告.md + │ └── README.md + │ + ├── 📁 05-部署文档/ + │ ├── 01-部署指南.md + │ ├── 02-配置说明.md + │ ├── 03-常见问题.md + │ └── README.md + │ + ├── 📁 06-开发进度/ # 可选 + │ ├── Week-01.md + │ ├── Week-02.md + │ └── README.md + │ + └── README.md # 模块总导航 +``` + +--- + +## 🎯 具体模块文档规划 + +### 1. AIA - AI智能问答模块 ✅ **已完成** + +**当前状态:** 功能已完成,需要补充文档 + +**文档清单:** +``` +03-业务模块/AIA-AI智能问答/ + ├── 00-项目概述/ + │ ├── 01-产品需求文档(PRD).md # ⚠️ 需要补充 + │ ├── 02-核心功能清单.md # ✅ 可基于现有文档整理 + │ └── README.md + ├── 01-设计文档/ + │ ├── 01-技术架构设计.md # ✅ 可基于现有文档整理 + │ ├── 02-数据库设计.md # ✅ 已有(基于Prisma Schema) + │ ├── 03-API设计.md # ✅ 已有(基于API规范) + │ └── 04-前端组件设计.md # ⚠️ 需要补充 + ├── 02-业务规则/ + │ └── 01-核心业务规则.md # ⚠️ 需要补充 + ├── 03-开发计划/ + │ ├── 01-开发里程碑.md # ✅ 已完成(里程碑1、1.5) + │ └── README.md + └── README.md +``` + +**优先级:** P2(已完成,文档补充不急) + +--- + +### 2. ASL - AI智能文献模块 ⏳ **下一步重点** + +**当前状态:** 已有PRD和原型,即将开发 + +**文档清单:** +``` +03-业务模块/ASL-AI智能文献/ + ├── 00-项目概述/ + │ ├── 01-产品需求文档(PRD).md # ✅ 已有(3个PRD文档) + │ ├── 02-核心功能清单.md # ✅ 已有(6大模块) + │ ├── 03-用户故事.md # ⚠️ 需要补充 + │ └── README.md + ├── 01-设计文档/ + │ ├── 01-技术架构设计.md # ✅ 已有(系统架构设计) + │ ├── 02-数据库设计.md # ✅ 已有(数据库设计) + │ ├── 03-API设计.md # ✅ 已有(API设计) + │ ├── 04-前端组件设计.md # ✅ 已有(前端组件设计) + │ ├── 05-AI模型集成设计.md # ✅ 已有(AI模型集成设计) + │ └── 06-UI原型/ + │ ├── 标题摘要初筛原型.html # ✅ 已有 + │ └── 全文复筛原型.html # ✅ 已有 + ├── 02-业务规则/ + │ └── 01-核心业务规则.md # ⚠️ 需要补充 + ├── 03-开发计划/ + │ ├── 01-开发里程碑.md # ✅ 已有 + │ ├── 02-任务分解.md # ✅ 已有 + │ └── README.md + ├── 04-测试文档/ + │ ├── 01-测试计划.md # ✅ 已有 + │ ├── 02-测试用例.md # ✅ 已有(标题摘要初筛) + │ └── README.md + └── README.md +``` + +**优先级:** P0(下一步开发重点) + +**特点:** +- ✅ 文档最完整(已有AI智能文献/文件夹) +- ✅ 可以直接作为模板 +- ⚠️ 需要调整结构(按新模板重新组织) + +--- + +### 3. PKB - 个人知识库模块 ✅ **已完成** + +**当前状态:** 功能已完成,需要补充文档 + +**文档清单:** +``` +03-业务模块/PKB-个人知识库/ + ├── 00-项目概述/ + │ ├── 01-产品需求文档(PRD).md # ⚠️ 需要补充 + │ └── README.md + ├── 01-设计文档/ + │ ├── 01-技术架构设计.md # ⚠️ 需要补充 + │ ├── 02-数据库设计.md # ✅ 已有(基于Prisma Schema) + │ ├── 03-API设计.md # ✅ 已有(基于API规范) + │ └── README.md + └── README.md +``` + +**优先级:** P2(已完成,文档补充不急) + +--- + +### 4. DC - 数据清洗整理模块 ⏳ **规划中** + +**当前状态:** 未开发,需要完整设计 + +**文档清单:** +``` +03-业务模块/DC-数据清洗整理/ + ├── 00-项目概述/ + │ ├── 01-产品需求文档(PRD).md # ❌ 待创建 + │ ├── 02-核心功能清单.md # ❌ 待创建 + │ ├── 03-用户故事.md # ❌ 待创建 + │ └── README.md + ├── 01-设计文档/ + │ ├── 01-技术架构设计.md # ❌ 待创建 + │ ├── 02-数据库设计.md # ❌ 待创建 + │ ├── 03-API设计.md # ❌ 待创建 + │ ├── 04-前端组件设计.md # ❌ 待创建 + │ ├── 05-ETL引擎设计.md # ❌ 待创建(关键) + │ ├── 06-医学NLP设计.md # ❌ 待创建(关键) + │ └── README.md + ├── 02-业务规则/ + │ └── 01-核心业务规则.md # ❌ 待创建 + ├── 03-开发计划/ + │ ├── 01-开发里程碑.md # ❌ 待创建 + │ └── README.md + └── README.md +``` + +**优先级:** P1(核心竞争力,ASL之后开发) + +--- + +### 5. SSA - 智能统计分析模块 ⏳ **规划中** + +**当前状态:** 未开发,需要完整设计 + +**文档清单:** +``` +03-业务模块/SSA-智能统计分析/ + ├── 00-项目概述/ + │ ├── 01-产品需求文档(PRD).md # ❌ 待创建 + │ └── README.md + ├── 01-设计文档/ + │ ├── 01-技术架构设计.md # ❌ 待创建 + │ ├── 02-R语言集成设计.md # ❌ 待创建(关键) + │ ├── 03-数据库设计.md # ❌ 待创建 + │ └── README.md + └── README.md +``` + +**优先级:** P2(需要R语言,有一定难度) + +--- + +### 6. ST - 统计分析工具模块 ⏳ **规划中** + +**当前状态:** 未开发,需要完整设计 + +**文档清单:** +``` +03-业务模块/ST-统计分析工具/ + ├── 00-项目概述/ + │ ├── 01-产品需求文档(PRD).md # ❌ 待创建 + │ └── README.md + ├── 01-设计文档/ + │ ├── 01-技术架构设计.md # ❌ 待创建 + │ ├── 02-工具清单.md # ❌ 待创建(100+工具) + │ └── README.md + └── README.md +``` + +**优先级:** P3(相对简单,可延后) + +--- + +### 7. RVW - 稿件审查系统 ⚡ **独立系统** + +**当前状态:** 核心功能已完成,需要独立规划 + +**文档清单:** +``` +03-业务模块/RVW-稿件审查系统/ + ├── 00-项目概述/ + │ ├── 01-产品需求文档(PRD).md # ❌ 待创建 + │ ├── 02-独立系统规划.md # ❌ 待创建(关键) + │ ├── 03-商业模式设计.md # ❌ 待创建(独立销售) + │ └── README.md + ├── 01-设计文档/ + │ ├── 01-技术架构设计.md # ⚠️ 需要补充 + │ ├── 02-数据库设计.md # ✅ 已有(基于Prisma Schema) + │ ├── 03-审稿流程设计.md # ❌ 待创建 + │ ├── 04-审稿人管理设计.md # ❌ 待创建 + │ └── README.md + ├── 02-业务规则/ + │ ├── 01-稿约规范性评估标准.md # ✅ 已有 + │ ├── 02-方法学评估标准.md # ✅ 已有 + │ └── README.md + └── README.md +``` + +**优先级:** P1(独立系统,高商业价值) + +**特点:** +- ⚡ 可以完全独立部署和销售 +- ⚡ 目标客户:期刊编辑部、出版社 +- ⚡ 商业模式:按期刊订阅 + +--- + +### 8. ADMIN - 运营管理端 ⭐ **v2.0新增(独立系统)** + +**定位:** 横跨所有层次的管理系统 + +**核心功能模块(15个):** +``` +P0(必须,阶段一): +1. 用户管理 +2. Feature Flag管理(版本功能控制) +3. LLM模型管理 +4. 系统配置管理 + +P1(重要,阶段二): +5. 智能体提示词管理 +6. 监控与日志 +7. 数据统计与报表 +8. 成本分析与计费 + +P2(有用,阶段三): +9. 租户管理(私有化部署) +10. 公告与通知管理 +11. 帮助文档管理 +12. 反馈与工单管理 +13. 系统健康检查 +14. 数据库备份与恢复 +15. 运营数据分析 +``` + +**文档清单:** +``` +03-业务模块/ADMIN-运营管理端/ + ├── 00-项目概述/ + │ ├── 01-产品需求文档(PRD).md # ❌ 待创建 + │ ├── 02-功能清单(15个模块).md # ❌ 待创建 + │ ├── 03-权限体系设计.md # ❌ 待创建 + │ └── README.md + ├── 01-设计文档/ + │ ├── 01-技术架构设计.md # ❌ 待创建 + │ ├── 02-数据库设计.md # ❌ 待创建 + │ ├── 03-API设计.md # ❌ 待创建 + │ ├── 04-前端组件设计.md # ❌ 待创建 + │ ├── 05-权限体系实现.md # ❌ 待创建 + │ └── README.md + ├── 02-业务规则/ + │ ├── 01-权限规则.md # ❌ 待创建 + │ ├── 02-审计规则.md # ❌ 待创建 + │ └── README.md + ├── 03-开发计划/ + │ ├── 01-开发里程碑.md # ❌ 待创建 + │ ├── 02-任务分解(按阶段).md # ❌ 待创建 + │ └── README.md + └── README.md +``` + +**优先级:** P1(商业模式基础) + +**技术选型:** +- 前端:React + Ant Design Pro +- 后端:Node.js + Fastify +- 数据库:PostgreSQL(admin_schema) + +**部署方式:** +- 独立域名:`https://admin.yizhengxun.com` +- 独立前端应用 +- 独立后端API + +**实施阶段:** +- 阶段一(1-2个月):P0功能 +- 阶段二(1-2个月):P1功能 +- 阶段三(1-2个月):P2功能 + +--- + +## 🔄 文档迁移计划 + +### 第一阶段:创建新结构(1-2天) + +**Step 1:创建总体文件夹** +```bash +mkdir -p "00-系统总体设计" +mkdir -p "01-平台基础层" +mkdir -p "02-通用能力层" +mkdir -p "03-业务模块" +``` + +**Step 2:移动现有文档(保留原文件,先复制)** +``` +# 总体文档 +00-项目概述/ → 00-系统总体设计/ + - 壹证循科技 AI科研产品需求文档.md → 03-总体需求文档(PRD).md + - 壹证循科技AI科研产品 - 技术架构白皮书.md → 04-技术架构白皮书.md + - 技术架构总览.md → 05-技术架构总览.md(作为补充) + +# AI智能文献模块 +AI智能文献/ → 03-业务模块/ASL-AI智能文献/ + (调整内部结构,按新模板组织) + +# 稿件审查评估标准 +docs/稿件方法学评估标准.txt → 03-业务模块/RVW-稿件审查系统/02-业务规则/ +docs/稿约规范性评估标准.txt → 03-业务模块/RVW-稿件审查系统/02-业务规则/ +``` + +--- + +### 第二阶段:补充关键文档(按优先级) + +**P0文档(本周内):** +1. ✅ 00-系统总体设计/01-系统架构分层设计.md(已完成) +2. ✅ 00-系统总体设计/02-文档体系重构方案.md(当前文档) +3. ⚠️ 02-通用能力层/01-LLM大模型网关/01-设计文档.md +4. ⚠️ 03-业务模块/ASL-AI智能文献/(调整结构) + +**P1文档(本月内):** +5. ⚠️ 03-业务模块/RVW-稿件审查系统/00-项目概述/02-独立系统规划.md +6. ⚠️ 03-业务模块/DC-数据清洗整理/00-项目概述/01-产品需求文档(PRD).md +7. ⚠️ 01-平台基础层/01-用户与权限中心(UAM)/01-Feature-Flag设计.md + +**P2文档(下月):** +8. 其他模块的PRD和设计文档 + +--- + +### 第三阶段:清理旧文档(迁移完成后) + +**策略:** +- ✅ 保留原文档一段时间(1个月) +- ✅ 在原位置添加README,指向新位置 +- ✅ 确认新文档无问题后,删除旧文档 + +**示例README(原位置):** +```markdown +# 📣 文档已迁移 + +本文档已迁移到新位置,请访问: +- [00-系统总体设计](../00-系统总体设计/README.md) + +旧文档将在2025年12月后删除。 +``` + +--- + +## 📊 文档迁移矩阵 + +| 原位置 | 新位置 | 状态 | 优先级 | +|-------|-------|------|--------| +| `AI智能文献/` | `03-业务模块/ASL-AI智能文献/` | ⏳ 待迁移 | P0 | +| `壹证循科技 AI科研产品需求文档.md` | `00-系统总体设计/03-总体需求文档(PRD).md` | ⏳ 待迁移 | P0 | +| `壹证循科技AI科研产品 - 技术架构白皮书.md` | `00-系统总体设计/04-技术架构白皮书.md` | ⏳ 待迁移 | P0 | +| `稿件方法学评估标准.txt` | `03-业务模块/RVW-稿件审查系统/02-业务规则/` | ⏳ 待迁移 | P1 | +| `稿约规范性评估标准.txt` | `03-业务模块/RVW-稿件审查系统/02-业务规则/` | ⏳ 待迁移 | P1 | +| `04-开发计划/开发里程碑.md` | `08-项目管理/02-里程碑规划.md` | ⏳ 待迁移 | P2 | +| `05-每日进度/` | `08-项目管理/03-每日进度/` | ⏳ 待迁移 | P2 | + +--- + +## ✅ 迁移验收标准 + +### 结构验收 +- ✅ 所有总体文档都在`00-系统总体设计/` +- ✅ 所有业务模块都在`03-业务模块/`下,且结构一致 +- ✅ 每个模块都有完整的README导航 +- ✅ 文档层次清晰,无混杂 + +### 内容验收 +- ✅ 所有文档内的内部链接已更新 +- ✅ 所有文档的引用路径已更新 +- ✅ 所有图片、原型图路径已更新 + +### 可用性验收 +- ✅ 可以快速定位任何一个文档 +- ✅ 新增模块时,可以复制模板快速创建 +- ✅ 某个模块的文档可以独立打包(如审稿系统) + +--- + +## 🎯 总结 + +### 重构后的核心优势 + +**1. 总体与模块分离** +``` +总体设计(00-系统总体设计/): +- 面向整体产品战略 +- 面向技术架构师 +- 更新频率低,稳定性高 + +业务模块(03-业务模块/): +- 面向具体功能开发 +- 面向开发团队 +- 更新频率高,独立演进 +``` + +**2. 层次清晰** +``` +平台层(01-平台基础层/):所有模块的地基 +通用能力层(02-通用能力层/):跨模块共享能力 +业务模块层(03-业务模块/):独立产品单元 +``` + +**3. 支持独立销售** +``` +独立打包某个模块的完整文档: +- ASL(AI智能文献)→ 独立产品文档包 +- RVW(稿件审查)→ 独立产品文档包 +- DC(数据清洗)→ 独立产品文档包 +``` + +**4. 易于扩展** +``` +新增模块: +1. 复制模块模板 +2. 填充PRD和设计文档 +3. 开始开发 +``` + +--- + +**下一步行动:** +1. ✅ 创建新文件夹结构 +2. ⚠️ 迁移ASL模块文档(P0) +3. ⚠️ 补充LLM网关设计文档(P0) +4. ⚠️ 补充RVW独立系统规划(P1) + +--- + +## 📊 v2.0 更新总结 + +### 新增核心内容 + +**1. 运营管理端(ADMIN)** ⭐ **重要新增** +- 新增第8个业务模块:运营管理端 +- 15个核心功能模块(用户管理、Feature Flag、LLM模型管理等) +- 独立的文档结构和实施计划 +- 详见:`04-运营管理端架构设计.md` + +**2. 多种部署方案** ⭐⭐⭐ **重要扩展** +- **云端SaaS部署**(扩展):完整平台部署、微服务架构 +- **独立产品包部署**(新增):审稿系统、AI文献系统独立打包 +- **Electron单机版**(新增):完全离线、本地SQLite +- **私有化部署**(保留):Docker、K3s轻量级部署 + +**3. 架构实施文档** ⭐⭐ **新增** +- **Monorepo架构设计**:包管理、代码共享与复用 +- **产品打包方案**:独立产品打包流程、依赖管理 +- **微服务拆分**:拆分策略、服务间通信、API网关 + +**4. 系统总体设计文档** ⭐⭐⭐ **核心扩展** +- `03-数据库架构说明.md`:Docker部署、两个独立数据库对比 +- `05-Schema隔离方案与成本分析.md`:逻辑隔离 vs 物理隔离、改造成本 +- `06-模块独立部署与单机版方案.md`:完整打包、共享服务、Electron架构 + +### 文档结构变化 + +**00-系统总体设计/ - 新增文档:** +``` +✅ 03-数据库架构说明.md +✅ 04-运营管理端架构设计.md +✅ 05-Schema隔离方案与成本分析.md +✅ 06-模块独立部署与单机版方案.md +``` + +**03-业务模块/ - 新增模块:** +``` +⭐ ADMIN-运营管理端/(第8个模块) +``` + +**05-部署文档/ - 扩展结构:** +``` +⭐ 02-独立产品包部署/(新增) +⭐ 03-Electron单机版/(新增) +``` + +**09-架构实施/ - 新增文件夹:** +``` +⭐ 01-Monorepo架构设计/ +⭐ 02-产品打包方案/ +⭐ 03-微服务拆分/ +``` + +### 关键技术决策 + +**1. 模块独立部署方案:** +- ✅ 方案一:完整打包(独立产品) +- ✅ 方案二:共享服务(平台内模块) + +**2. Electron单机版:** +- ✅ 前端代码复用:90%+ +- ✅ 后端代码复用:80%+ +- ✅ 只需修改:API调用层、数据库(SQLite) + +**3. Schema隔离:** +- ✅ 现在做:1周,成本最低 +- ⚠️ 未来做:3-5周,成本5倍 + +### 实施优先级 + +**P0(已完成):** +- ✅ 系统架构分层设计 +- ✅ 数据库架构说明 +- ✅ 运营管理端架构设计 +- ✅ Schema隔离方案 +- ✅ 模块独立部署方案 +- ✅ 文档体系重构方案v2.0 + +**P1(本周):** +- ⏳ 创建新文件夹结构 +- ⏳ 迁移ASL模块文档 +- ⏳ LLM网关详细设计 +- ⏳ Schema隔离实施(可选) + +**P2(本月):** +- ⏳ 补充运营管理端详细文档 +- ⏳ 补充部署文档 +- ⏳ 补充Monorepo架构文档 + +**P3(下月):** +- ⏳ 迁移其他模块文档 +- ⏳ 补充测试和运维文档 + +--- + +## 📅 文档重构计划 v3.0 ⭐ **详细执行计划** + +### 执行时间估算 + +| 阶段 | 任务 | 预计时间 | 累计时间 | +|-----|------|---------|---------| +| **阶段一** | 创建目录结构 + 快速上下文模板 | 1小时 | 1小时 | +| **阶段二** | 迁移和整理现有文档 | 3小时 | 4小时 | +| **阶段三** | 创建业务模块基础文档 + 快速上下文 | 2小时 | 6小时 | +| **阶段四** | 创建总导航文档 + 规范文档 | 1.5小时 | 7.5小时 | +| **阶段五** | 清理和验证 + 更新链接 | 1小时 | 8.5小时 | +| **总计** | - | **8.5小时** | - | + +--- + +### 🎯 阶段一:创建目录结构(1小时) + +#### 1.1 创建所有目录框架 + +```bash +# 平台基础层 +01-平台基础层/ + ├── 01-用户与权限中心(UAM)/01-设计文档/ + ├── 02-存储服务/01-设计文档/ + ├── 03-通知服务/01-设计文档/ + ├── 04-监控与日志/01-设计文档/ + └── 05-系统配置/01-设计文档/ + +# 通用能力层 +02-通用能力层/ + ├── 01-LLM大模型网关/01-设计文档/ + ├── 02-文档处理引擎/01-设计文档/ + ├── 03-RAG引擎/01-设计文档/ + ├── 04-数据ETL引擎/01-设计文档/ + └── 05-医学NLP引擎/01-设计文档/ + +# 业务模块(8个模块) +03-业务模块/ + ├── AIA-AI智能问答/ + ├── ASL-AI智能文献/ + ├── PKB-个人知识库/ + ├── DC-数据清洗整理/ + ├── SSA-智能统计分析/ + ├── ST-统计分析工具/ + ├── RVW-稿件审查系统/ + └── ADMIN-运营管理端/ + +# 其他目录 +04-开发规范/ +05-部署文档/ + ├── 01-云端SaaS部署/ + ├── 02-独立产品包部署/ + ├── 03-Electron单机版/ + └── 04-私有化部署/ + +06-测试文档/ +07-运维文档/ +08-项目管理/ + ├── 01-整体开发计划/ + ├── 02-里程碑规划/ + └── 03-每日进度/ + +09-架构实施/ + ├── 01-Monorepo架构设计/ + ├── 02-产品打包方案/ + └── 03-微服务拆分/ + +_templates/(模板文件夹) +``` + +#### 1.2 创建快速上下文模板 + +**创建文件:** `_templates/[AI对接] 快速上下文-模板.md` + +**内容:** 标准的快速上下文模板,包含必填字段说明 + +--- + +### 🎯 阶段二:迁移和整理现有文档(3小时) + +#### 2.1 处理 `00-项目概述/` 文档(30分钟) + +| 文件名 | 处理方式 | 目标位置 | +|-------|---------|---------| +| 壹证循科技 AI科研产品需求文档.md | ✅ 迁移 | `00-系统总体设计/09-总体需求文档(PRD).md` | +| 壹证循科技AI科研产品 - 技术架构白皮书.md | ✅ 迁移 | `00-系统总体设计/10-技术架构白皮书.md` | +| 现有系统技术摸底报告.md | ✅ 保留 | 原位置(重要参考) | +| AI智能文献PRD(1-3).md | ✅ 迁移 | `03-业务模块/ASL-AI智能文献/00-项目概述/` | +| 产品需求文档(PRD).md | ⚠️ 审查合并 | 可能与总体PRD重复 | +| 技术架构总览.md | ⚠️ 审查 | 可能与白皮书重复 | +| 系统总体架构设计.md | ⚠️ 审查 | 可能与架构分层重复 | + +**操作:** +1. 先审查重复文档,确定保留版本 +2. 迁移文件(复制,不删除) +3. 在原位置创建迁移说明 + +#### 2.2 处理 `01-设计文档/` 文档(1小时) + +**核心任务:拆分数据库设计文档(1319行)** + +| 原文件 | 拆分方式 | 目标位置 | +|-------|---------|---------| +| 数据库设计文档.md | 提取规范部分 | `04-开发规范/03-数据库设计规范.md` | +| | 提取总体架构部分 | 补充到 `00-系统总体设计/03-数据库架构说明.md` | +| | 提取平台层表设计 | `01-平台基础层/01-用户与权限中心(UAM)/01-设计文档/02-数据库设计.md` | +| | 提取AIA模块表设计 | `03-业务模块/AIA-AI智能问答/01-设计文档/02-数据库设计.md` | +| | 提取PKB模块表设计 | `03-业务模块/PKB-个人知识库/01-设计文档/02-数据库设计.md` | +| | 提取RVW模块表设计 | `03-业务模块/RVW-稿件审查系统/01-设计文档/02-数据库设计.md` | + +| 原文件 | 处理方式 | 目标位置 | +|-------|---------|---------| +| API设计规范.md | 拆分 | `04-开发规范/02-API设计规范.md`(规范) + 各模块API设计 | +| 平台前端架构设计/ | 迁移 | `01-平台基础层/06-前端架构/` | +| AI智能文献原型.html(2个) | 迁移 | `03-业务模块/ASL-AI智能文献/01-设计文档/07-UI设计/` | + +#### 2.3 处理 `AI智能文献/` 目录(1小时) + +**操作:整体迁移并调整结构** + +``` +AI智能文献/ → 03-业务模块/ASL-AI智能文献/ + +调整后的结构: +ASL-AI智能文献/ + ├── [AI对接] ASL快速上下文.md # ⭐ 新建 + ├── 00-项目概述/ + │ ├── 01-产品需求文档(PRD).md # 合并3个PRD + │ ├── 02-核心功能清单.md + │ ├── 03-用户故事和验收标准.md + │ └── 04-非功能性需求.md + ├── 01-设计文档/ + │ ├── 01-系统架构设计.md + │ ├── 02-数据库设计.md + │ ├── 03-API设计.md + │ ├── 04-前端组件设计.md + │ ├── 05-AI模型集成设计.md + │ ├── 06-文件处理设计.md + │ └── 07-UI设计/ + │ ├── 标题摘要初筛UI设计.md + │ ├── 全文复筛UI设计.md + │ ├── 标题摘要初筛原型.html + │ └── 全文复筛原型.html + ├── 02-业务规则/ + │ └── 01-核心业务规则.md + ├── 03-开发计划/ + │ ├── 01-开发里程碑.md + │ └── 02-任务分解.md + ├── 04-测试文档/ + │ ├── 01-测试计划.md + │ └── 02-标题摘要初筛测试用例.md + └── README.md +``` + +#### 2.4 处理 `04-开发计划/` 和 `05-每日进度/`(30分钟) + +``` +04-开发计划/ → 08-项目管理/01-整体开发计划/ +05-每日进度/ → 08-项目管理/03-每日进度/ + +同时提取里程碑文档到: +08-项目管理/02-里程碑规划/ + ├── 里程碑1-MVP完成总结.md + ├── 里程碑1.5-RAG优化完成.md + └── README.md +``` + +#### 2.5 处理稿件审查相关(10分钟) + +``` +稿件方法学评估标准.txt → 03-业务模块/RVW-稿件审查系统/02-业务规则/01-方法学评估标准.md +稿约规范性评估标准.txt → 03-业务模块/RVW-稿件审查系统/02-业务规则/02-稿约规范性评估标准.md +``` + +--- + +### 🎯 阶段三:创建业务模块基础文档 + 快速上下文(2小时) + +#### 3.1 创建AIA模块文档(30分钟) + +**任务:** +1. ✅ 创建模块目录结构 +2. ✅ 创建 `[AI对接] AIA快速上下文.md`(根据模板) +3. ✅ 从现有代码和Prisma Schema提取数据库设计 +4. ✅ 整理核心功能清单 +5. ✅ 创建README导航 + +**目录结构:** +``` +AIA-AI智能问答/ + ├── [AI对接] AIA快速上下文.md # ⭐ 新建 + ├── 00-项目概述/ + │ ├── 01-功能清单.md # 基于现有功能整理 + │ └── README.md + ├── 01-设计文档/ + │ ├── 01-智能体配置系统.md # 基于现有代码整理 + │ ├── 02-数据库设计.md # 提取Prisma Schema + │ ├── 03-API设计.md # 提取现有API + │ └── README.md + └── README.md +``` + +#### 3.2 创建PKB模块文档(30分钟) + +**类似AIA模块,提取现有功能和设计** + +#### 3.3 创建RVW模块文档(30分钟) + +**包含稿件审查评估标准** + +#### 3.4 创建DC、SSA、ST、ADMIN空模板(30分钟) + +**每个模块创建:** +``` +模块名/ + ├── [AI对接] 快速上下文.md(标记为待完善) + ├── 00-项目概述/README.md + ├── 01-设计文档/README.md + └── README.md +``` + +--- + +### 🎯 阶段四:创建总导航文档 + 规范文档(1.5小时) + +#### 4.1 创建规范文档(1小时) + +**需要创建:** + +1. **02-API设计规范.md** + - 从现有代码中提取RESTful规范 + - 错误码规范 + - 认证规范(JWT) + - 分页规范 + +2. **03-数据库设计规范.md** + - 从现有Prisma Schema中提取命名规范 + - 字段类型规范 + - 索引规范 + - Schema隔离规范 + +3. **04-前端组件设计规范.md** + - 从现有前端代码中提取规范 + +4. **05-Git规范.md** + - Commit Message规范 + - 分支管理规范 + +#### 4.2 创建README导航(30分钟) + +**需要创建/更新的README:** + +1. ✅ `docs/README.md` - 总导航(更新) +2. ⏳ `01-平台基础层/README.md` +3. ⏳ `01-平台基础层/[AI对接] 平台层快速上下文.md` +4. ⏳ `02-通用能力层/README.md` +5. ⏳ `02-通用能力层/[AI对接] 通用能力快速上下文.md` +6. ⏳ `03-业务模块/README.md` +7. ⏳ `03-业务模块/[AI对接] 业务模块快速上下文.md` +8. ⏳ `04-开发规范/README.md` +9. ⏳ `05-部署文档/README.md` +10. ⏳ `08-项目管理/README.md` + +--- + +### 🎯 阶段五:清理和验证(1小时) + +#### 5.1 创建迁移说明(20分钟) + +**在所有迁移文件的原位置创建:** `_MIGRATED.md` + +```markdown +# 📣 文档已迁移 + +本文档已迁移到新位置: +- [新位置链接](../新路径/文档名.md) + +**迁移日期:** 2025-11-06 +**旧文档将在:** 2025-12-06 删除 + +--- + +**新文档结构说明:** +[简要说明为什么迁移,新结构的好处] +``` + +#### 5.2 验证清单(20分钟) + +- [ ] 所有文档链接已更新 +- [ ] 图片路径已更新(相对路径) +- [ ] README导航完整且链接有效 +- [ ] 无死链接 +- [ ] 每个模块都有快速上下文 +- [ ] 文档层次清晰,符合三层架构 + +#### 5.3 生成文档地图(20分钟) + +**创建:** `docs/[文档地图] 完整导航.md` + +**内容:** 树形结构展示所有文档及其用途,方便查找 + +--- + +## ✅ 关键决策确认 + +### 需要您确认的问题: + +#### 1. 重复文档处理 + +**问题:** 以下文档可能重复,如何处理? + +| 文档A | 文档B | 建议 | 您的决定 | +|------|------|------|---------| +| 00-项目概述/产品需求文档(PRD).md | 壹证循科技 AI科研产品需求文档.md | 审查后保留更完整的 | _________ | +| 00-项目概述/系统总体架构设计.md | 00-系统总体设计/01-系统架构分层设计.md | 保留新版本 | _________ | +| 00-项目概述/技术架构总览.md | 壹证循科技AI科研产品 - 技术架构白皮书.md | 审查后决定 | _________ | + +**您的决定:** +- [ ] 选项A:自动保留更新的版本 +- [ ] 选项B:我来手动审查每个重复文档 +- [ ] 选项C:都保留,标记为不同版本 + +#### 2. 旧文档删除策略 + +**您的决定:** +- [ ] 选项A:迁移后立即删除原文件(激进) +- [ ] 选项B:保留1个月,创建迁移说明(稳妥) ⭐ 推荐 +- [ ] 选项C:移动到 `docs/_archived/` 存档(保守) + +#### 3. AI智能文献PRD合并 + +**当前:** 3个独立PRD文档(产品概览、初筛与复筛、提取与分析) + +**您的决定:** +- [ ] 选项A:合并为1个完整PRD ⭐ 推荐 +- [ ] 选项B:保持独立,按章节组织 + +#### 4. 数据库设计文档拆分 + +**当前:** `01-设计文档/数据库设计文档.md`(1319行) + +**您的决定:** +- [ ] 选项A:自动拆分(AI辅助) ⭐ 推荐 +- [ ] 选项B:手动拆分(精确但耗时) +- [ ] 选项C:暂不拆分,标记为待处理 + +#### 5. 执行方式 + +**您的决定:** +- [ ] 选项A:分批执行(5批,每批1-2小时)⭐ 推荐 +- [ ] 选项B:一次性全部执行(8.5小时连续) + +--- + +## 📊 v3.0 完成标志 + +### 文档完整性 +- ✅ 8个业务模块(含运营管理端) +- ✅ 4种部署方案(云端、独立包、单机版、私有化) +- ✅ 3层架构(平台层、能力层、业务层) +- ⭐ **规范与设计分离**(规范在04-开发规范/) +- ⭐ **快速上下文体系**(L0/L1/L2三级) +- ⭐ **金字塔式文档**(从简到详) + +### 可操作性 +- ✅ 每个模块可独立打包和部署 +- ✅ 每个模块有完整文档(需求、设计、开发、测试、部署) +- ✅ 新增模块可复制模板快速创建 +- ⭐ **快速上下文导航**(新AI 2分钟了解项目) +- ⭐ **分层查找文档**(规范/总体/模块) + +### 商业价值 +- ✅ 支持模块独立销售(审稿系统、AI文献等) +- ✅ 支持多种部署模式(满足不同客户需求) +- ✅ 支持灵活的商业模式(订阅制、一次性License、模块化售卖) +- ⭐ **降低AI对接成本**(Token消耗减少50-70%) +- ⭐ **提升开发效率**(规范统一,查找快速) + +--- + +## 🚀 立即开始 + +**请您回复确认:** + +1. **是否认可整体计划?** + - [ ] 是,开始执行 + - [ ] 否,需要调整:___________ + +2. **关键决策确认:** + - 重复文档处理:选项 _____ + - 旧文档删除策略:选项 _____ + - PRD合并:选项 _____ + - 数据库文档拆分:选项 _____ + - 执行方式:选项 _____ + +3. **是否立即开始第1批操作?** + - [ ] 是,立即开始(创建目录结构 + 模板) + - [ ] 否,等待进一步确认 + +--- + +**最后更新:** 2025-11-06 v3.0 +**维护人:** 技术架构师 + +--- + +**下一步行动:** 等待您的确认后,立即开始执行文档重构!🚀 + diff --git a/docs/00-系统总体设计/03-数据库架构说明.md b/docs/00-系统总体设计/03-数据库架构说明.md new file mode 100644 index 00000000..a24aa91a --- /dev/null +++ b/docs/00-系统总体设计/03-数据库架构说明.md @@ -0,0 +1,447 @@ +# 数据库架构说明 + +> **创建日期:** 2025-11-06 +> **文档目的:** 澄清数据库部署方式和架构 + +--- + +## 📋 核心澄清 + +### ✅ 您有自己独立的PostgreSQL数据库! + +**关键事实:** +1. ✅ PostgreSQL是通过Docker部署的(`docker-compose.yml`) +2. ✅ 这是您项目的独立数据库,不是Dify的 +3. ✅ Dify有自己完全独立的数据库(在`dify/docker/`目录下) +4. ✅ 您不需要手动安装PostgreSQL,Docker会自动创建 + +--- + +## 🐳 Docker部署详情 + +### docker-compose.yml配置 + +```yaml +# 位置:AIclinicalresearch/docker-compose.yml + +services: + # PostgreSQL 数据库 + postgres: + image: postgres:15-alpine # 使用官方PostgreSQL镜像 + container_name: ai-clinical-postgres + environment: + POSTGRES_DB: ai_clinical_research # 数据库名 + POSTGRES_USER: postgres # 用户名 + POSTGRES_PASSWORD: postgres123 # 密码 + ports: + - "5432:5432" # 端口映射 + volumes: + - postgres_data:/var/lib/postgresql/data # 数据持久化 + networks: + - ai-clinical-network + healthcheck: + test: ["CMD-SHELL", "pg_isready -U postgres"] + interval: 10s + timeout: 5s + retries: 5 + + # Redis 缓存 + redis: + image: redis:7-alpine + container_name: ai-clinical-redis + ports: + - "6379:6379" + volumes: + - redis_data:/data + networks: + - ai-clinical-network + +volumes: + postgres_data: # PostgreSQL数据卷(数据持久化存储) + redis_data: # Redis数据卷 +``` + +--- + +## 🚀 启动流程 + +### 一键启动脚本(一键启动.bat) + +```batch +[步骤2/7] 启动PostgreSQL和Redis容器 +docker-compose up -d + +这个命令会: +1. 自动下载PostgreSQL 15镜像(如果本地没有) +2. 创建PostgreSQL容器 +3. 创建Redis容器 +4. 创建数据卷(postgres_data)用于持久化存储 +5. 启动容器并在后台运行 +``` + +**您不需要手动安装PostgreSQL!** +- ✅ Docker会自动创建和管理 +- ✅ 数据存储在Docker数据卷中,不会丢失 +- ✅ 可以通过`localhost:5432`连接 + +--- + +## 🗄️ 数据库连接信息 + +### 连接配置 + +**数据库连接字符串(DATABASE_URL):** +``` +postgresql://postgres:postgres123@localhost:5432/ai_clinical_research +``` + +**拆解:** +- **协议:** postgresql:// +- **用户名:** postgres +- **密码:** postgres123 +- **主机:** localhost(Docker映射到本地) +- **端口:** 5432 +- **数据库名:** ai_clinical_research + +### 后端配置(backend/.env) + +```bash +# 数据库连接 +DATABASE_URL=postgresql://postgres:postgres123@localhost:5432/ai_clinical_research + +# 这个连接的是您自己的PostgreSQL,不是Dify的! +``` + +--- + +## 🔍 两个独立的数据库系统 + +### 系统对比 + +| 项目 | 您的数据库 | Dify的数据库 | +|------|----------|-------------| +| **位置** | `AIclinicalresearch/docker-compose.yml` | `dify/docker/docker-compose.yml` | +| **容器名** | `ai-clinical-postgres` | `dify-db`(猜测) | +| **端口** | `5432` | 可能是`5433`或不暴露 | +| **数据库名** | `ai_clinical_research` | `dify` | +| **用途** | 存储您项目的业务数据 | 存储Dify的数据 | +| **访问方式** | 直接Prisma访问 | 通过Dify API访问 | + +### 架构图 + +``` +┌─────────────────────────────────────────────────────────┐ +│ AIclinicalresearch项目 │ +│ │ +│ ┌──────────────┐ ┌──────────────┐ │ +│ │ Backend │──────│ PostgreSQL │ │ +│ │ (Node.js) │ SQL │ (Docker) │ │ +│ │ │ │ │ │ +│ │ Prisma │ │ Port: 5432 │ │ +│ └──────────────┘ └──────────────┘ │ +│ │ │ +│ │ HTTP API │ +│ ↓ │ +│ ┌──────────────┐ │ +│ │ Dify │──────> Dify自己的PostgreSQL │ +│ │ (Docker) │ (完全独立) │ +│ └──────────────┘ │ +│ │ +└─────────────────────────────────────────────────────────┘ +``` + +--- + +## 📊 当前数据库表结构 + +### 您的PostgreSQL中的表 + +```sql +-- 来源:backend/prisma/schema.prisma + +-- 用户模块 +users -- 用户表 + +-- 项目模块 +projects -- 项目表 + +-- AI问答模块 +conversations -- 对话表 +messages -- 消息表 +general_conversations -- 通用对话表 +general_messages -- 通用消息表 + +-- 知识库模块 +knowledge_bases -- 知识库表 +documents -- 文档表 + +-- 批处理模块(Phase 3) +batch_tasks -- 批处理任务表 +batch_results -- 批处理结果表 +task_templates -- 任务模板表 + +-- 稿件审查模块 +review_tasks -- 稿件审查任务表 + +-- 运营管理模块 +admin_logs -- 管理员日志表 +``` + +**总计:16张表,全部在您自己的PostgreSQL中。** + +--- + +## 🔧 常用操作 + +### 查看Docker容器状态 + +```bash +# 查看所有容器 +docker ps + +# 应该能看到: +# ai-clinical-postgres (PostgreSQL) +# ai-clinical-redis (Redis) +``` + +### 连接到PostgreSQL + +**方法1:使用Docker命令** +```bash +# 进入PostgreSQL容器 +docker exec -it ai-clinical-postgres psql -U postgres -d ai_clinical_research + +# 然后可以执行SQL: +\dt # 查看所有表 +\d users # 查看users表结构 +SELECT * FROM users LIMIT 10; +``` + +**方法2:使用数据库客户端** +- **DBeaver** / **pgAdmin** / **DataGrip** / **Navicat** +- 连接信息: + - Host: `localhost` + - Port: `5432` + - Database: `ai_clinical_research` + - User: `postgres` + - Password: `postgres123` + +### 停止和启动数据库 + +```bash +# 停止(但不删除数据) +docker-compose down + +# 启动 +docker-compose up -d + +# 重启 +docker-compose restart postgres +``` + +### 查看数据库日志 + +```bash +# 查看PostgreSQL日志 +docker logs ai-clinical-postgres + +# 实时查看日志 +docker logs -f ai-clinical-postgres +``` + +--- + +## 💾 数据持久化 + +### 数据存储位置 + +**数据卷(Volume):** +``` +postgres_data:/var/lib/postgresql/data +``` + +**实际存储位置:** +- Windows: `C:\ProgramData\Docker\volumes\aiclinicalresearch_postgres_data\_data` +- Mac/Linux: `/var/lib/docker/volumes/aiclinicalresearch_postgres_data/_data` + +**重要:** +- ✅ 即使删除容器(`docker-compose down`),数据不会丢失 +- ✅ 数据存储在Docker数据卷中,持久化保存 +- ⚠️ 只有执行`docker-compose down -v`(删除数据卷)才会清空数据 + +### 备份数据库 + +```bash +# 备份(导出SQL) +docker exec ai-clinical-postgres pg_dump -U postgres ai_clinical_research > backup.sql + +# 恢复(导入SQL) +docker exec -i ai-clinical-postgres psql -U postgres ai_clinical_research < backup.sql +``` + +--- + +## 🎯 未来:Schema隔离计划 + +### 当前状态 + +```sql +-- 所有表都在public schema +public.users +public.projects +public.conversations +public.knowledge_bases +public.documents +public.review_tasks +... +``` + +### 目标架构(Schema隔离) + +```sql +-- 平台层Schema +CREATE SCHEMA platform_schema; +platform_schema.users +platform_schema.roles +platform_schema.permissions + +-- 业务模块Schema +CREATE SCHEMA aia_schema; -- AI智能问答 +aia_schema.projects +aia_schema.conversations +aia_schema.messages + +CREATE SCHEMA pkb_schema; -- 个人知识库 +pkb_schema.knowledge_bases +pkb_schema.documents + +CREATE SCHEMA asl_schema; -- AI智能文献 +asl_schema.projects +asl_schema.literature_items +asl_schema.screening_results + +CREATE SCHEMA review_schema; -- 稿件审查 +review_schema.review_tasks +review_schema.review_journals +``` + +**实施计划:** +- **阶段一(立即):** 逻辑隔离,使用表名前缀(`aia_projects`, `asl_projects`) +- **阶段二(微服务拆分时):** 物理隔离,创建真正的Schema + +--- + +## 🔍 Dify数据库(独立系统) + +### Dify的部署 + +``` +dify/docker/docker-compose.yml + ├── dify-db (PostgreSQL) + ├── dify-redis + ├── dify-web + ├── dify-api + └── ... +``` + +**关键点:** +- ✅ Dify有自己完全独立的docker-compose.yml +- ✅ Dify的PostgreSQL是独立的容器 +- ✅ 您的项目不直接访问Dify的数据库 +- ✅ 通过Dify API(HTTP REST)调用Dify功能 + +### 您的项目如何使用Dify + +```typescript +// 不是直接访问Dify数据库,而是通过API + +// 创建知识库 +const response = await fetch('http://localhost/v1/datasets', { + method: 'POST', + headers: { + 'Authorization': `Bearer ${DIFY_API_KEY}`, + 'Content-Type': 'application/json' + }, + body: JSON.stringify({ + name: '我的知识库' + }) +}); + +// 上传文档 +const formData = new FormData(); +formData.append('file', file); +await fetch(`http://localhost/v1/datasets/${datasetId}/document/create-by-file`, { + method: 'POST', + headers: { + 'Authorization': `Bearer ${DIFY_API_KEY}` + }, + body: formData +}); +``` + +**您的数据库中存储:** +```sql +-- knowledge_bases表 +{ + id: 'uuid', + name: '我的知识库', + dify_dataset_id: 'xxx' -- 关联Dify的dataset_id +} +``` + +--- + +## 🎯 总结 + +### 核心要点 + +1. ✅ **您有自己的PostgreSQL数据库** + - 通过Docker部署(`docker-compose.yml`) + - 容器名:`ai-clinical-postgres` + - 数据库名:`ai_clinical_research` + +2. ✅ **您不需要手动安装PostgreSQL** + - `docker-compose up -d`会自动创建 + - 数据持久化存储在Docker数据卷中 + +3. ✅ **Dify是完全独立的系统** + - 有自己的PostgreSQL数据库 + - 您通过Dify API访问,不直接访问数据库 + +4. ✅ **当前16张表全部在您的PostgreSQL中** + - 用户、项目、对话、知识库、文档、批处理、稿件审查等 + - 全部在`public` schema(未来需要隔离) + +### 为什么您不记得安装PostgreSQL? + +**因为您根本没有手动安装!** 😊 + +- ✅ Docker自动下载镜像 +- ✅ Docker自动创建容器 +- ✅ 一键启动脚本自动启动 +- ✅ 您只需要运行`一键启动.bat` + +**这就是Docker的魔力!** + +--- + +**需要进一步了解的内容:** +1. 如何备份和恢复数据库? +2. 如何迁移到Schema隔离架构? +3. 如何连接数据库进行手动查询? +4. Prisma如何管理数据库迁移? + + + + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/04-运营管理端架构设计.md b/docs/00-系统总体设计/04-运营管理端架构设计.md new file mode 100644 index 00000000..7bdbaaf4 --- /dev/null +++ b/docs/00-系统总体设计/04-运营管理端架构设计.md @@ -0,0 +1,872 @@ +# 运营管理端架构设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-11-06 +> **最后更新:** 2025-11-06 +> **文档状态:** 架构设计中 +> **作者:** 技术架构师 + +--- + +## 📋 文档说明 + +本文档详细设计运营管理端(Admin/Operations Platform)的完整架构,包括: +1. 运营管理端的层次定位 +2. 完整的功能清单 +3. 对系统总体设计的影响 +4. 技术实现方案 + +--- + +## 🎯 核心问题解答 + +### 1. 运营管理端是应用层吗? + +**答案:运营管理端是"横跨多层"的特殊系统** + +``` +运营管理端的定位: + +┌─────────────────────────────────────────────────────────┐ +│ 运营管理端(Admin Platform) │ +│ 独立的前端应用 + 独立的后端API │ +│ │ +│ 管理范围: │ +│ ├─ 平台基础层配置(用户、权限、租户) │ +│ ├─ 通用能力层配置(LLM模型、Feature Flag) │ +│ ├─ 业务模块配置(智能体提示词、模块开关) │ +│ └─ 运营数据分析(统计、监控、成本分析) │ +└─────────────────────────────────────────────────────────┘ + ↓ 管理 +┌─────────────────────────────────────────────────────────┐ +│ 业务模块层 │ +│ AIA | ASL | PKB | DC | SSA | ST | RVW │ +└─────────────────────────────────────────────────────────┘ + ↓ +┌─────────────────────────────────────────────────────────┐ +│ 通用能力层 │ +│ LLM网关 | 文档处理 | RAG | ETL | NLP │ +└─────────────────────────────────────────────────────────┘ + ↓ +┌─────────────────────────────────────────────────────────┐ +│ 平台基础层 │ +│ 用户权限 | 存储 | 通知 | 监控 | 配置 │ +└─────────────────────────────────────────────────────────┘ +``` + +**准确定位:** +- ✅ 运营管理端是一个**独立的应用系统** +- ✅ 它管理和配置所有三层(平台层、能力层、业务层) +- ✅ 它有自己的前端应用、后端API、权限体系 +- ✅ 它是"平台的管理者",而不是"应用层" + +**类比:** +- 业务前端(用户端):给医生、研究者使用 +- 运营管理端:给公司内部运营人员、管理员使用 + +--- + +### 2. 运营管理端的完整功能清单 + +基于7个业务模块,我为您补充了完整的功能清单: + +--- + +## 📊 功能模块设计 + +### 模块1:用户管理 ✅ 已提到 + +**核心功能:** +1. **用户列表与搜索** + - 列表展示(邮箱、姓名、注册时间、状态、版本) + - 搜索和筛选(按邮箱、姓名、状态、版本、注册时间) + - 批量操作(批量禁用、批量删除) + +2. **用户详情与编辑** + - 基本信息(邮箱、姓名、头像、手机号) + - 账户状态(激活、禁用、锁定) + - 用户版本(基础版、高级版、旗舰版) + - 配额管理(知识库配额、文档配额、月度AI配额) + - 试用期管理(是否试用、试用到期时间) + +3. **用户权限管理** + - 模块权限(可访问哪些模块:AIA、ASL、PKB等) + - 功能权限(批处理、全文模式、模型切换等) + - 角色分配(普通用户、高级用户、VIP用户、管理员) + +4. **用户操作日志** + - 登录日志(登录时间、IP地址、设备) + - 操作日志(上传文档、创建对话、批处理任务等) + - API调用日志(LLM调用次数、Token使用量) + +5. **用户数据统计** + - 知识库数量、文档数量 + - 对话数量、消息数量 + - AI调用次数、Token使用量 + - 存储空间使用量 + +--- + +### 模块2:智能体提示词管理 ✅ 已提到 + +**核心功能:** +1. **智能体列表** + - 10个智能体(选题评价、PICO梳理、样本量计算等) + - 每个智能体的基本信息(名称、描述、图标) + - 启用/禁用状态 + +2. **提示词编辑** + - System Prompt(系统提示词) + - User Prompt Template(用户提示词模板) + - 支持变量(如`{研究背景}`、`{研究目标}`) + - 实时预览 + +3. **提示词版本管理** + - 版本历史记录 + - 版本对比 + - 版本回滚 + - 版本发布(灰度发布、全量发布) + +4. **测试与验证** + - 提示词测试工具 + - 输入测试数据,查看AI输出 + - A/B测试(对比不同提示词效果) + +--- + +### 模块3:版本功能设置(Feature Flag) ✅ 已提到 + +**核心功能:** +1. **版本定义** + - 基础版(Basic) + - 高级版(Advanced) + - 旗舰版(Flagship) + - 企业版(Enterprise) + +2. **模块权限配置** + - 7个业务模块的访问权限矩阵 + ``` + 版本 | AIA | ASL | PKB | DC | SSA | ST | RVW + -----|-----|-----|-----|----|----|----|----| + 基础 | ✓ | ✗ | ✓ | ✗ | ✗ | ✗ | ✗ | + 高级 | ✓ | ✓ | ✓ | ✗ | ✗ | ✓ | ✗ | + 旗舰 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | + ``` + +3. **功能权限配置** + - AI模型选择权限(DeepSeek、Qwen3、Claude等) + - 批处理功能 + - 全文阅读模式 + - 知识库配额(3个、10个、无限) + - 文档配额(100个、1000个、无限) + - 月度AI配额(100次、500次、2000次、无限) + +4. **动态配置** + - 实时生效(无需重启) + - 配置预览(修改前预览效果) + - 配置回滚 + +--- + +### 模块4:用户权限和版本设置 ✅ 已提到 + +**核心功能:** +1. **批量版本调整** + - 选择多个用户批量升级/降级版本 + - 批量延长试用期 + - 批量调整配额 + +2. **自动化规则** + - 新用户默认版本(基础版) + - 新用户默认试用期(14天) + - 试用期到期自动降级 + - 配额超出自动限流 + +3. **特殊权限** + - 内部员工账号(所有权限) + - 测试账号(无限配额) + - 合作伙伴账号(特殊权限) + +--- + +### 模块5:租户管理 🆕 **新增** + +**适用场景:** 私有化部署、企业版 + +**核心功能:** +1. **租户列表** + - 租户名称、Logo、域名 + - 租户状态(试用、正式、过期、禁用) + - 租户类型(标准版、企业版、定制版) + +2. **租户配置** + - 品牌定制(Logo、主题色、名称) + - 独立域名(如`hospital-a.yizhengxun.com`) + - 数据隔离(独立Schema) + - 模块开关(可选模块) + +3. **租户统计** + - 用户数量、活跃用户 + - 存储使用量 + - API调用量 + - 成本分析 + +--- + +### 模块6:LLM模型管理 🆕 **新增(关键)** + +**核心功能:** +1. **模型配置** + - 支持的模型列表(DeepSeek-V3、Qwen3、Qwen-Long、Claude等) + - 每个模型的API Key + - 模型基础URL + - 模型参数(Temperature、Max Tokens等) + +2. **模型与版本绑定** + ``` + 基础版:只能用DeepSeek-V3 + 高级版:可用DeepSeek-V3、Qwen3 + 旗舰版:可用DeepSeek-V3、Qwen3、Qwen-Long、Claude + ``` + +3. **模型成本配置** + - 每个模型的成本(¥/百万tokens) + - DeepSeek-V3:¥1/百万tokens + - Qwen3:¥5/百万tokens + - Claude 3:¥50/百万tokens(估算) + +4. **模型切换策略** + - 默认模型(如DeepSeek-V3) + - 降级策略(模型不可用时自动降级) + - 限流策略(超出配额时禁用高成本模型) + +--- + +### 模块7:系统配置管理 🆕 **新增** + +**核心功能:** +1. **全局配置** + - 系统名称、Logo、Favicon + - 默认语言(中文、英文) + - 时区设置 + - 文件上传限制(单文件大小、总大小) + +2. **安全配置** + - JWT Token过期时间 + - 密码强度要求 + - 登录失败锁定策略 + - CORS配置 + +3. **邮件配置** + - SMTP服务器 + - 邮件模板(注册、密码重置、通知等) + +4. **存储配置** + - 对象存储类型(本地、MinIO、阿里云OSS、S3) + - 存储配额限制 + +--- + +### 模块8:监控与日志 🆕 **新增(关键)** + +**核心功能:** +1. **系统监控** + - 实时在线用户数 + - 实时API调用量(TPS/QPS) + - 系统资源使用(CPU、内存、磁盘) + - 数据库连接数 + +2. **错误监控** + - 错误日志列表(时间、用户、错误类型、错误信息) + - 错误统计(按类型、按模块、按时间) + - 错误告警(邮件、短信) + +3. **性能监控** + - API响应时间统计 + - 慢查询日志 + - LLM调用延迟 + +4. **审计日志** + - 管理员操作日志(登录、修改配置、修改用户等) + - 敏感操作记录(删除用户、修改权限、修改提示词等) + +--- + +### 模块9:数据统计与报表 🆕 **新增(关键)** + +**核心功能:** +1. **用户统计** + - 注册用户趋势(日/周/月) + - 活跃用户趋势(DAU/WAU/MAU) + - 用户留存率 + - 用户版本分布 + +2. **业务统计** + - 各模块使用情况(AIA、ASL、PKB等) + - 智能体使用排行 + - 知识库数量趋势 + - 文档上传量趋势 + +3. **AI调用统计** + - LLM调用次数趋势 + - Token使用量趋势 + - 各模型使用占比 + - 成本分析(按模型、按模块、按用户) + +4. **存储统计** + - 总存储使用量 + - 各模块存储占比 + - 用户存储排行 + +5. **导出报表** + - Excel导出 + - PDF导出 + - 定期自动生成报表(周报、月报) + +--- + +### 模块10:成本分析与计费 🆕 **新增(商业关键)** + +**核心功能:** +1. **成本统计** + - LLM API总成本(按日/周/月) + - 各模块成本占比 + - 各用户成本排行 + - 各模型成本占比 + +2. **计费管理** + - 用户账单生成 + - 欠费用户列表 + - 自动扣费 + - 发票管理 + +3. **成本预警** + - 成本超出预算告警 + - 单用户成本异常告警 + - 免费用户滥用检测 + +4. **利润分析** + - 收入 vs 成本 + - ROI分析 + - 各版本利润率 + +--- + +### 模块11:公告与通知管理 🆕 **新增** + +**核心功能:** +1. **系统公告** + - 创建公告(标题、内容、优先级) + - 公告展示位置(首页横幅、弹窗、消息中心) + - 公告定时发布 + - 公告过期时间 + +2. **站内消息** + - 给所有用户发消息 + - 给特定版本用户发消息 + - 给特定用户发消息 + - 消息模板 + +3. **邮件群发** + - 邮件内容编辑(富文本) + - 邮件预览 + - 定时发送 + - 发送记录 + +--- + +### 模块12:帮助文档管理 🆕 **新增** + +**核心功能:** +1. **文档库** + - 文档分类(快速入门、功能介绍、常见问题等) + - 文档列表(标题、状态、更新时间) + - 文档编辑(Markdown富文本) + - 文档预览 + +2. **视频教程** + - 视频上传 + - 视频分类 + - 视频播放统计 + +3. **常见问题(FAQ)** + - 问题分类 + - 问题编辑 + - 搜索优化 + +--- + +### 模块13:反馈与工单管理 🆕 **新增** + +**核心功能:** +1. **用户反馈** + - 反馈列表(用户、内容、类型、状态) + - 反馈分类(功能建议、Bug报告、咨询) + - 反馈回复 + - 反馈状态(待处理、处理中、已完成、已忽略) + +2. **工单系统** + - 工单创建 + - 工单分配(分配给客服、技术团队) + - 工单跟进 + - 工单关闭 + +3. **满意度调查** + - 问题解决后发送满意度调查 + - 满意度统计 + +--- + +### 模块14:系统健康检查 🆕 **新增** + +**核心功能:** +1. **健康检查** + - 数据库连接检查 + - Redis连接检查 + - Dify API连接检查 + - Python微服务连接检查 + - LLM API连接检查 + +2. **自动化测试** + - API可用性测试 + - 端到端测试(注册、登录、上传文档、AI对话) + +3. **告警通知** + - 服务异常告警 + - 邮件/短信通知管理员 + +--- + +### 模块15:数据库备份与恢复 🆕 **新增** + +**核心功能:** +1. **备份管理** + - 手动备份 + - 定时自动备份(每日、每周) + - 备份列表(时间、大小、状态) + - 备份下载 + +2. **恢复管理** + - 选择备份恢复 + - 恢复预览(确认恢复内容) + - 恢复进度 + +--- + +## 📊 功能优先级分类 + +### P0(必须,阶段一) + +| 模块 | 功能 | 原因 | +|------|------|------| +| **用户管理** | 用户列表、编辑、禁用 | 基础功能 | +| **版本功能设置** | Feature Flag配置 | 商业模式基础 | +| **LLM模型管理** | 模型配置、成本配置 | 成本控制 | +| **系统配置** | 全局配置、安全配置 | 系统运行基础 | + +### P1(重要,阶段一或阶段二) + +| 模块 | 功能 | 原因 | +|------|------|------| +| **智能体提示词管理** | 提示词编辑、版本管理 | 产品优化 | +| **监控与日志** | 错误监控、审计日志 | 稳定性 | +| **数据统计与报表** | 用户统计、AI调用统计 | 运营决策 | +| **成本分析与计费** | 成本统计、计费管理 | 商业运营 | + +### P2(有用,阶段二或阶段三) + +| 模块 | 功能 | 原因 | +|------|------|------| +| **租户管理** | 租户配置、数据隔离 | 私有化部署需要 | +| **公告与通知** | 系统公告、站内消息 | 用户运营 | +| **帮助文档** | 文档管理、视频教程 | 用户支持 | +| **反馈与工单** | 用户反馈、工单系统 | 客户服务 | +| **系统健康检查** | 健康检查、自动化测试 | 运维自动化 | +| **数据库备份** | 备份管理、恢复管理 | 数据安全 | + +--- + +## 🏗️ 对系统总体设计的影响 + +### 影响1:独立的前端应用 + +**当前架构:** +``` +frontend/ # 用户端前端(React) + ├── src/ + │ ├── pages/ + │ │ ├── login/ + │ │ ├── dashboard/ + │ │ └── ... + └── ... +``` + +**新架构(需要增加运营管理端):** +``` +frontend/ # 用户端前端(React) + └── ... + +admin-frontend/ # 运营管理端前端(React)⭐ 新增 + ├── src/ + │ ├── pages/ + │ │ ├── login/ # 管理员登录 + │ │ ├── dashboard/ # 运营仪表盘 + │ │ ├── users/ # 用户管理 + │ │ ├── agents/ # 智能体管理 + │ │ ├── feature-flags/ # Feature Flag管理 + │ │ ├── llm-models/ # LLM模型管理 + │ │ ├── monitoring/ # 监控与日志 + │ │ ├── statistics/ # 数据统计 + │ │ ├── cost-analysis/ # 成本分析 + │ │ └── ... + │ └── ... + └── ... +``` + +**部署方式:** +- 用户端:`https://app.yizhengxun.com` +- 运营管理端:`https://admin.yizhengxun.com` + +--- + +### 影响2:独立的后端API + +**当前后端API:** +``` +/api/auth/* # 用户认证 +/api/users/* # 用户相关 +/api/projects/* # 项目管理 +/api/conversations/* # AI对话 +/api/kb/* # 知识库 +... +``` + +**新增管理端API:** +``` +/api/admin/auth/* # 管理员认证 ⭐ +/api/admin/users/* # 用户管理 ⭐ +/api/admin/agents/* # 智能体管理 ⭐ +/api/admin/feature-flags/* # Feature Flag管理 ⭐ +/api/admin/llm-models/* # LLM模型管理 ⭐ +/api/admin/tenants/* # 租户管理 ⭐ +/api/admin/monitoring/* # 监控与日志 ⭐ +/api/admin/statistics/* # 数据统计 ⭐ +/api/admin/cost-analysis/* # 成本分析 ⭐ +/api/admin/announcements/* # 公告管理 ⭐ +/api/admin/feedback/* # 反馈管理 ⭐ +... +``` + +--- + +### 影响3:权限体系扩展 + +**当前权限:** +``` +用户角色: +- user(普通用户) +- admin(管理员,但功能有限) +``` + +**新权限体系:** +``` +用户角色: +- user(普通用户) +- vip(VIP用户,高级功能) + +管理员角色:⭐ 新增 +- super_admin(超级管理员,所有权限) +- admin(管理员,部分权限) +- operator(运营人员,用户管理、数据统计) +- customer_service(客服,反馈管理、工单管理) +- auditor(审计员,只读权限,查看日志和报表) + +管理员权限:⭐ 新增 +- user_management # 用户管理 +- agent_management # 智能体管理 +- feature_flag_management # Feature Flag管理 +- llm_model_management # LLM模型管理 +- tenant_management # 租户管理 +- monitoring_access # 监控与日志访问 +- statistics_access # 数据统计访问 +- cost_analysis_access # 成本分析访问 +- system_config_management # 系统配置管理 +- announcement_management # 公告管理 +- feedback_management # 反馈管理 +``` + +--- + +### 影响4:数据库Schema扩展 + +**当前Schema(逻辑隔离):** +```sql +-- 平台层 +platform_schema.users +platform_schema.admin_logs + +-- 业务模块 +aia_schema.projects +pkb_schema.knowledge_bases +... +``` + +**新增管理端Schema:** +```sql +-- 管理端Schema ⭐ 新增 +CREATE SCHEMA admin_schema; + +-- 管理员相关 +admin_schema.admin_users # 管理员账号 +admin_schema.admin_roles # 管理员角色 +admin_schema.admin_permissions # 管理员权限 + +-- Feature Flag +admin_schema.feature_flags # Feature Flag配置 +admin_schema.feature_flag_history # Feature Flag变更历史 + +-- 智能体配置 +admin_schema.agent_configs # 智能体配置 +admin_schema.agent_prompt_history # 提示词版本历史 + +-- LLM模型配置 +admin_schema.llm_models # LLM模型配置 +admin_schema.llm_cost_config # 模型成本配置 + +-- 租户管理 +admin_schema.tenants # 租户表 +admin_schema.tenant_configs # 租户配置 + +-- 公告与通知 +admin_schema.announcements # 系统公告 +admin_schema.notifications # 站内通知 + +-- 反馈与工单 +admin_schema.feedback # 用户反馈 +admin_schema.tickets # 工单 + +-- 系统配置 +admin_schema.system_configs # 系统配置 + +-- 审计日志 +admin_schema.audit_logs # 审计日志 +admin_schema.operation_logs # 操作日志 +``` + +--- + +### 影响5:新增通用能力 + +**LLM Gateway需要增强:** +```typescript +// 原有功能 +interface LLMGateway { + chat(...): Promise; +} + +// 新增功能(支持运营管理端)⭐ +interface LLMGateway { + chat(...): Promise; + + // 管理端功能 + getUsageStats(startDate, endDate): Promise; // 使用量统计 + getCostStats(startDate, endDate): Promise; // 成本统计 + getUserUsage(userId): Promise; // 单用户使用量 + getModelConfig(): Promise; // 模型配置 + updateModelConfig(config): Promise; // 更新模型配置 + checkQuota(userId): Promise; // 配额检查 + resetQuota(userId): Promise; // 重置配额 +} +``` + +--- + +### 影响6:监控与日志增强 + +**新增监控能力:** +```typescript +// 监控服务 ⭐ 新增 +interface MonitoringService { + // 实时监控 + getSystemStatus(): Promise; // 系统状态 + getOnlineUsers(): Promise; // 在线用户数 + getApiMetrics(): Promise; // API指标(TPS/QPS) + + // 错误监控 + getErrorLogs(filter): Promise; // 错误日志 + getErrorStats(): Promise; // 错误统计 + + // 性能监控 + getSlowQueries(): Promise; // 慢查询 + getApiLatency(): Promise; // API延迟 + + // 审计日志 + getAuditLogs(filter): Promise; // 审计日志 + logAdminOperation(operation): Promise; // 记录管理员操作 +} +``` + +--- + +## 🎯 实施方案 + +### 阶段一:核心功能(MVP) + +**时间:1-2个月** + +**实现内容:** +1. ✅ 管理端前端(React + Ant Design Pro) +2. ✅ 管理端后端API(Node.js + Fastify) +3. ✅ 管理员认证与权限 +4. ✅ 用户管理(P0) +5. ✅ Feature Flag管理(P0) +6. ✅ LLM模型管理(P0) +7. ✅ 基础监控(错误日志、审计日志) + +--- + +### 阶段二:运营功能 + +**时间:1-2个月** + +**实现内容:** +1. ✅ 智能体提示词管理 +2. ✅ 数据统计与报表 +3. ✅ 成本分析与计费 +4. ✅ 公告与通知管理 + +--- + +### 阶段三:高级功能 + +**时间:1-2个月** + +**实现内容:** +1. ✅ 租户管理(私有化部署需要) +2. ✅ 反馈与工单系统 +3. ✅ 帮助文档管理 +4. ✅ 系统健康检查 +5. ✅ 数据库备份与恢复 + +--- + +## 📊 技术选型 + +### 前端技术栈 + +**推荐:Ant Design Pro** +``` +admin-frontend/ + ├── React 18 + ├── TypeScript + ├── Ant Design Pro (开箱即用的中台前端解决方案) + ├── Ant Design Charts (数据可视化) + ├── ProComponents (高级组件) + └── UmiJS (路由和构建) +``` + +**优势:** +- ✅ 专为中台/管理系统设计 +- ✅ 开箱即用的布局、菜单、权限、表格、表单 +- ✅ 丰富的数据可视化组件 +- ✅ 与Ant Design生态完美集成 + +--- + +### 后端技术栈 + +**继续使用现有技术栈:** +``` +backend/ + ├── Node.js + TypeScript + ├── Fastify + ├── Prisma + └── PostgreSQL +``` + +**新增模块:** +``` +backend/src/admin/ + ├── controllers/ # 管理端控制器 + ├── services/ # 管理端服务 + ├── middleware/ # 管理员认证中间件 + └── routes/ # 管理端路由 +``` + +--- + +## 🎯 总结 + +### 运营管理端的定位 + +**运营管理端是:** +- ✅ 一个**独立的应用系统**(独立前端 + 独立API) +- ✅ **横跨所有层次**的管理者(管理平台层、能力层、业务层) +- ✅ **商业运营的核心**(Feature Flag、成本控制、计费管理) +- ✅ **系统健康的保障**(监控、日志、健康检查) + +### 完整功能清单 + +**您提到的4个功能:** +1. ✅ 用户管理 +2. ✅ 智能体提示词设置 +3. ✅ 版本功能设置(Feature Flag) +4. ✅ 用户权限和版本设置 + +**我补充的11个功能:** +5. 🆕 租户管理(私有化部署) +6. 🆕 LLM模型管理(关键) +7. 🆕 系统配置管理 +8. 🆕 监控与日志(关键) +9. 🆕 数据统计与报表(关键) +10. 🆕 成本分析与计费(商业关键) +11. 🆕 公告与通知管理 +12. 🆕 帮助文档管理 +13. 🆕 反馈与工单管理 +14. 🆕 系统健康检查 +15. 🆕 数据库备份与恢复 + +**总计:15个功能模块** + +### 对系统总体设计的影响 + +1. ✅ **新增独立前端应用**(admin-frontend/) +2. ✅ **新增独立后端API**(/api/admin/*) +3. ✅ **扩展权限体系**(管理员角色、管理员权限) +4. ✅ **扩展数据库Schema**(admin_schema) +5. ✅ **增强LLM Gateway**(使用量统计、成本分析) +6. ✅ **新增监控服务**(实时监控、错误监控、性能监控) + +### 实施建议 + +**阶段一(P0):** 1-2个月 +- 用户管理、Feature Flag、LLM模型管理、基础监控 + +**阶段二(P1):** 1-2个月 +- 智能体管理、数据统计、成本分析、公告管理 + +**阶段三(P2):** 1-2个月 +- 租户管理、反馈工单、帮助文档、健康检查、备份恢复 + +--- + +**下一步建议:** +1. 确认运营管理端的功能优先级 +2. 设计管理端的UI原型 +3. 设计管理端的数据库表结构 +4. 设计管理端的API接口 + + + + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/05-Schema隔离方案与成本分析.md b/docs/00-系统总体设计/05-Schema隔离方案与成本分析.md new file mode 100644 index 00000000..b634ac1e --- /dev/null +++ b/docs/00-系统总体设计/05-Schema隔离方案与成本分析.md @@ -0,0 +1,1055 @@ +# Schema隔离方案与成本分析 + +> **文档版本:** v1.0 +> **创建日期:** 2025-11-06 +> **最后更新:** 2025-11-06 +> **文档状态:** 架构分析 +> **作者:** 技术架构师 + +--- + +## 📋 核心问题 + +1. 什么是真正的Schema隔离? +2. 从逻辑隔离到物理隔离的改造成本有多高? +3. 现在做Schema隔离的成本高吗? +4. 当前业务体量下,需要现在做吗? +5. 最佳实施时机是什么时候? + +--- + +## 🎯 两种隔离方式对比 + +### 逻辑隔离(当前方案) + +**定义:** +- 所有表都在同一个Schema(`public`)中 +- 通过**表名前缀**来区分不同模块 +- 代码层面按模块组织 + +**示例:** +```sql +-- 所有表都在public schema +public.users -- 用户表 +public.aia_projects -- AI问答模块的项目表 +public.aia_conversations -- AI问答模块的对话表 +public.asl_projects -- AI文献模块的项目表 +public.asl_literature_items -- AI文献模块的文献表 +public.pkb_knowledge_bases -- 知识库模块的知识库表 +public.dc_projects -- 数据清洗模块的项目表 +public.review_tasks -- 稿件审查模块的任务表 +``` + +**Prisma Schema示例:** +```prisma +// 逻辑隔离:使用@@map指定表名 +model AiaProject { + id String @id @default(uuid()) + userId String @map("user_id") + name String + // ... + + @@map("aia_projects") // 表名前缀标识模块 +} + +model AslProject { + id String @id @default(uuid()) + userId String @map("user_id") + name String + // ... + + @@map("asl_projects") // 表名前缀标识模块 +} +``` + +**查询方式:** +```typescript +// 业务代码无感知 +const project = await prisma.aiaProject.findUnique({ + where: { id: projectId } +}); +``` + +--- + +### 物理隔离(真正的Schema隔离) + +**定义:** +- 为每个模块创建**独立的PostgreSQL Schema** +- 表分散在不同的Schema中 +- 数据库层面真正隔离 + +**示例:** +```sql +-- 创建独立Schema +CREATE SCHEMA platform_schema; -- 平台层 +CREATE SCHEMA aia_schema; -- AI问答模块 +CREATE SCHEMA asl_schema; -- AI文献模块 +CREATE SCHEMA pkb_schema; -- 知识库模块 +CREATE SCHEMA dc_schema; -- 数据清洗模块 +CREATE SCHEMA review_schema; -- 稿件审查模块 +CREATE SCHEMA admin_schema; -- 运营管理端 + +-- 表分布在不同Schema +platform_schema.users -- 用户表 +aia_schema.projects -- AI问答的项目表 +aia_schema.conversations -- AI问答的对话表 +asl_schema.projects -- AI文献的项目表 +asl_schema.literature_items -- AI文献的文献表 +pkb_schema.knowledge_bases -- 知识库表 +dc_schema.projects -- 数据清洗的项目表 +review_schema.tasks -- 稿件审查的任务表 +``` + +**Prisma Schema示例:** +```prisma +// 物理隔离:指定schema +model AiaProject { + id String @id @default(uuid()) + userId String @map("user_id") + name String + // ... + + @@map("projects") // 表名不需要前缀 + @@schema("aia_schema") // 指定Schema ⭐ +} + +model AslProject { + id String @id @default(uuid()) + userId String @map("user_id") + name String + // ... + + @@map("projects") // 表名不需要前缀 + @@schema("asl_schema") // 指定Schema ⭐ +} +``` + +**查询方式:** +```typescript +// 业务代码无感知(Prisma会自动处理) +const project = await prisma.aiaProject.findUnique({ + where: { id: projectId } +}); + +// 实际执行的SQL: +// SELECT * FROM aia_schema.projects WHERE id = $1 +``` + +--- + +## 📊 两种方案对比 + +| 维度 | 逻辑隔离(当前) | 物理隔离(目标) | +|------|----------------|----------------| +| **复杂度** | ⭐ 简单 | ⭐⭐⭐ 中等 | +| **实施难度** | ⭐ 低 | ⭐⭐⭐ 中等 | +| **维护成本** | ⭐⭐ 低 | ⭐⭐⭐ 中等 | +| **隔离性** | ⭐⭐ 中等(代码层面) | ⭐⭐⭐⭐⭐ 高(数据库层面) | +| **权限控制** | ⭐⭐ 中等 | ⭐⭐⭐⭐⭐ 高(数据库级别) | +| **微服务拆分** | ⭐⭐⭐ 需要改造 | ⭐⭐⭐⭐⭐ 易于拆分 | +| **模块独立部署** | ⭐⭐ 困难 | ⭐⭐⭐⭐⭐ 容易 | +| **跨模块查询** | ⭐⭐⭐⭐⭐ 容易(同一Schema) | ⭐⭐⭐ 需要跨Schema查询 | +| **备份恢复** | ⭐⭐⭐ 整体备份 | ⭐⭐⭐⭐⭐ 可按Schema备份 | +| **当前适用性** | ✅ 适合当前阶段 | ⚠️ 未来阶段 | + +--- + +## 💰 改造成本分析 + +### 从逻辑隔离到物理隔离需要改什么? + +#### 1. 数据库层面改造 + +**步骤1:创建Schema** +```sql +-- 创建新Schema(非常简单) +CREATE SCHEMA platform_schema; +CREATE SCHEMA aia_schema; +CREATE SCHEMA asl_schema; +CREATE SCHEMA pkb_schema; +CREATE SCHEMA dc_schema; +CREATE SCHEMA review_schema; +CREATE SCHEMA admin_schema; +``` + +**工作量:** 10分钟 + +--- + +**步骤2:创建新表结构** +```sql +-- 在新Schema中创建表 +CREATE TABLE aia_schema.projects ( + id UUID PRIMARY KEY DEFAULT gen_random_uuid(), + user_id UUID NOT NULL, + name VARCHAR(255) NOT NULL, + -- ... 其他字段 + + -- 外键可能需要跨Schema + CONSTRAINT fk_user FOREIGN KEY (user_id) + REFERENCES platform_schema.users(id) +); + +-- 类似的,为所有表创建新的表结构 +``` + +**工作量:** +- 自动生成(Prisma Migrate):1-2小时 +- 手动创建:1天 + +--- + +**步骤3:数据迁移** +```sql +-- 迁移数据(从public到新Schema) +INSERT INTO aia_schema.projects +SELECT * FROM public.aia_projects; + +INSERT INTO aia_schema.conversations +SELECT * FROM public.aia_conversations; + +-- ... 为所有表迁移数据 +``` + +**工作量:** +- 数据量小(<100万行):1-2小时 +- 数据量大(>100万行):半天到1天 + +**风险:** +- ⚠️ 需要停机(或做在线迁移) +- ⚠️ 需要验证数据完整性 +- ⚠️ 外键约束可能有问题 + +--- + +**步骤4:清理旧表** +```sql +-- 删除旧表(确认无误后) +DROP TABLE public.aia_projects; +DROP TABLE public.aia_conversations; +-- ... +``` + +**工作量:** 1小时 + +**总计数据库改造工作量:** +- 自动化:半天到1天 +- 手动:2-3天 + +--- + +#### 2. 代码层面改造 + +**步骤1:修改Prisma Schema** + +**逻辑隔离(当前):** +```prisma +model AiaProject { + id String @id @default(uuid()) + userId String @map("user_id") + name String + + @@map("aia_projects") // 需要前缀 +} +``` + +**物理隔离(修改后):** +```prisma +model AiaProject { + id String @id @default(uuid()) + userId String @map("user_id") + name String + + @@map("projects") // 不需要前缀 + @@schema("aia_schema") // 新增:指定Schema ⭐ +} +``` + +**工作量:** +- 修改所有Model(约50-100个Model) +- 时间:2-4小时 + +--- + +**步骤2:处理外键和关联** + +**问题:跨Schema的外键** +```prisma +// User在platform_schema +model User { + id String @id @default(uuid()) + email String + + @@map("users") + @@schema("platform_schema") +} + +// Project在aia_schema +model AiaProject { + id String @id @default(uuid()) + userId String @map("user_id") + + // 跨Schema关联 ⚠️ + user User @relation(fields: [userId], references: [id]) + + @@map("projects") + @@schema("aia_schema") +} +``` + +**Prisma处理:** +- ✅ Prisma会自动处理跨Schema的关联 +- ✅ 生成的SQL会包含正确的Schema前缀 +- ⚠️ 但需要测试验证 + +**工作量:** +- 测试所有跨Schema关联:半天到1天 + +--- + +**步骤3:业务代码改造** + +**好消息:业务代码几乎不需要改!** ✅ + +```typescript +// 业务代码完全不变 +const project = await prisma.aiaProject.findUnique({ + where: { id: projectId }, + include: { + user: true // 跨Schema关联,Prisma自动处理 + } +}); +``` + +**原因:** +- ✅ Prisma ORM抽象了底层Schema +- ✅ 业务代码只依赖Prisma Model,不直接写SQL + +**例外情况:** +- ⚠️ 如果有原始SQL查询(`prisma.$queryRaw`),需要修改 +- ⚠️ 如果有数据库视图(View),需要修改 +- ⚠️ 如果有数据库函数(Function),需要修改 + +**工作量:** +- 业务代码:0改造(如果没有原始SQL) +- 原始SQL:需要逐个修改(估计10-20处) +- 时间:半天到1天 + +--- + +**步骤4:运行Prisma Migrate** + +```bash +# 生成新的迁移文件 +npx prisma migrate dev --name schema-isolation + +# 或手动迁移(生产环境) +npx prisma migrate deploy +``` + +**工作量:** +- 开发环境:10分钟 +- 生产环境:需要详细计划(半天准备) + +--- + +#### 3. 测试验证 + +**需要测试的内容:** +1. ✅ 所有API接口是否正常 +2. ✅ 跨Schema关联是否正常(用户-项目、项目-对话等) +3. ✅ 外键约束是否正常 +4. ✅ 数据完整性检查 +5. ✅ 性能测试(跨Schema查询性能) +6. ✅ 备份恢复测试 + +**工作量:** +- 单元测试:自动化,1-2小时 +- 集成测试:半天 +- 端到端测试:1天 +- 总计:1-2天 + +--- + +### 总改造成本 + +**开发环境:** +| 任务 | 工作量 | +|------|-------| +| 数据库Schema创建 | 10分钟 | +| Prisma Schema修改 | 2-4小时 | +| 数据迁移脚本 | 1-2小时 | +| 原始SQL修改 | 半天 | +| 测试验证 | 1-2天 | +| **总计** | **2-3天** | + +**生产环境:** +| 任务 | 工作量 | +|------|-------| +| 迁移方案设计 | 半天 | +| 数据备份 | 1小时 | +| 数据迁移 | 半天到1天 | +| 验证测试 | 1天 | +| 应急回滚方案 | 半天 | +| **总计** | **3-4天** | + +**风险评估:** +- ⚠️ **风险等级:中等** +- ⚠️ **主要风险:数据迁移失败、外键约束问题、停机时间** +- ✅ **缓解措施:详细测试、回滚方案、灰度发布** + +--- + +## 🤔 现在做 vs 以后做 + +### 现在做的优势 ✅ + +1. **数据量小,迁移快** + ``` + 当前数据量(估算): + - 用户:< 100 + - 项目:< 500 + - 对话:< 5,000 + - 文档:< 1,000 + + 迁移时间:< 1小时 + 风险:低 + ``` + +2. **业务复杂度低,测试简单** + ``` + 当前模块: + - ✅ AIA(AI问答)- 已完成 + - ✅ PKB(知识库)- 已完成 + - ⏳ ASL(AI文献)- 未开发 + - ⏳ DC、SSA、ST、RVW - 未开发 + + 需要测试的模块少 + ``` + +3. **为未来打下坚实基础** + ``` + 优势: + - ✅ 新模块(ASL、DC等)直接用物理隔离 + - ✅ 避免未来大规模改造 + - ✅ 支持模块独立部署 + - ✅ 支持微服务拆分 + ``` + +4. **团队学习成本低** + ``` + 当前团队小: + - 开发人员少,沟通成本低 + - 代码改动影响范围小 + - 易于推广新规范 + ``` + +--- + +### 现在做的劣势 ❌ + +1. **需要投入时间** + ``` + 开发时间:2-3天(开发环境) + 生产时间:3-4天(生产环境) + 总计:1周 + + 延迟:ASL模块开发延迟1周 + ``` + +2. **有一定风险** + ``` + 风险: + - 数据迁移失败 + - 外键约束问题 + - 需要停机 + + 缓解:详细测试、回滚方案 + ``` + +3. **当前没有紧迫需求** + ``` + 事实: + - 没有微服务拆分需求 + - 没有模块独立部署需求 + - 没有私有化部署需求 + + 结论:暂时不需要物理隔离 + ``` + +--- + +### 以后做的优势 ✅ + +1. **延迟投入** + ``` + 当前:专注业务开发(ASL、DC等) + 未来:有需求时再改造 + + 优势:快速推进业务 + ``` + +2. **需求明确时再做** + ``` + 触发条件: + - 需要微服务拆分 + - 需要模块独立部署 + - 需要私有化部署 + - 数据量大,需要性能优化 + + 此时改造目标明确 + ``` + +--- + +### 以后做的劣势 ❌ + +1. **数据量大,迁移慢** + ``` + 未来数据量(估算): + - 用户:10,000+ + - 项目:100,000+ + - 对话:1,000,000+ + - 文档:500,000+ + + 迁移时间:数小时到数天 + 风险:高 + ``` + +2. **业务复杂,测试困难** + ``` + 未来模块: + - ✅ 7个模块全部上线 + - ✅ 复杂的跨模块关联 + - ✅ 大量用户在使用 + + 测试难度:高 + 回滚成本:高 + ``` + +3. **需要停机或在线迁移** + ``` + 停机迁移: + - 影响用户体验 + - 可能丢失订单 + + 在线迁移: + - 技术复杂度高 + - 需要双写、数据同步 + ``` + +4. **改造成本成倍增长** + ``` + 未来改造成本(估算): + - 开发时间:1-2周 + - 测试时间:1-2周 + - 生产迁移:1周 + - 总计:3-5周 + + 现在的3-5倍! + ``` + +--- + +## 🎯 建议与决策 + +### 方案A:现在做物理隔离 ⭐⭐⭐⭐⭐ **强烈推荐** + +**适用场景:** +- ✅ 有1周时间投入 +- ✅ 重视长期架构健康 +- ✅ 未来有模块独立部署需求 +- ✅ 未来有私有化部署需求 + +**理由:** +1. **成本最低**:数据量小,迁移快(< 1小时) +2. **风险最低**:业务简单,测试容易 +3. **收益最大**:为未来7个模块打下坚实基础 +4. **避免技术债**:避免未来大规模改造 + +**实施计划:** +``` +Week 1:Schema隔离改造(2-3天) + Day 1-2:开发环境改造 + - 创建Schema + - 修改Prisma Schema + - 数据迁移脚本 + - 测试验证 + + Day 3:生产环境迁移 + - 备份数据 + - 执行迁移 + - 验证测试 + - 监控 + +Week 2:继续ASL模块开发 +``` + +**投入产出比:** ⭐⭐⭐⭐⭐ 极高 + +--- + +### 方案B:暂不做物理隔离,继续逻辑隔离 ⭐⭐⭐ **可接受** + +**适用场景:** +- ✅ 时间紧迫,必须尽快上线ASL模块 +- ✅ 近期(6个月内)没有微服务拆分需求 +- ✅ 近期没有私有化部署需求 + +**理由:** +1. **快速推进业务**:专注ASL模块开发 +2. **逻辑隔离足够用**:当前阶段可以满足需求 +3. **延迟改造**:未来有需求时再做 + +**但需要遵守纪律:** ⚠️ 非常重要 +``` +严格使用表名前缀: +- aia_* +- asl_* +- pkb_* +- dc_* +- review_* +- admin_* + +为未来改造打基础 +``` + +**触发改造的条件:** +1. 需要微服务拆分 +2. 需要模块独立部署 +3. 需要私有化部署 +4. 数据量超过100万行 + +**投入产出比:** ⭐⭐⭐ 中等 + +--- + +### 方案C:混合方案(折中) ⭐⭐⭐⭐ **推荐** + +**方案描述:** +1. **新模块使用物理隔离** + - ASL、DC、SSA、ST、RVW等新模块直接用物理隔离 + - 从一开始就创建独立Schema + +2. **老模块暂时保持逻辑隔离** + - AIA、PKB等已完成模块暂时不动 + - 等未来有需求时再迁移 + +**实施计划:** +``` +立即: +1. 创建新Schema + CREATE SCHEMA asl_schema; + CREATE SCHEMA dc_schema; + CREATE SCHEMA admin_schema; + ... + +2. ASL模块使用物理隔离 + model AslProject { + @@schema("asl_schema") + } + +未来(6-12个月后): +3. 迁移老模块 + - 迁移AIA到aia_schema + - 迁移PKB到pkb_schema +``` + +**优势:** +- ✅ 立即投入小(只需创建Schema,10分钟) +- ✅ 新模块享受物理隔离的好处 +- ✅ 老模块延迟改造,风险低 + +**投入产出比:** ⭐⭐⭐⭐ 高 + +--- + +## 📊 决策矩阵 + +| 方案 | 立即投入 | 未来成本 | 风险 | 灵活性 | 推荐度 | +|------|---------|---------|------|-------|-------| +| **方案A:现在做物理隔离** | ⭐⭐⭐ 中(1周) | ⭐⭐⭐⭐⭐ 低 | ⭐⭐⭐⭐ 低 | ⭐⭐⭐⭐⭐ 高 | ⭐⭐⭐⭐⭐ | +| **方案B:继续逻辑隔离** | ⭐⭐⭐⭐⭐ 零 | ⭐⭐ 高 | ⭐⭐⭐ 中 | ⭐⭐ 低 | ⭐⭐⭐ | +| **方案C:混合方案** | ⭐⭐⭐⭐⭐ 低(10分钟) | ⭐⭐⭐⭐ 中 | ⭐⭐⭐⭐ 低 | ⭐⭐⭐⭐ 高 | ⭐⭐⭐⭐ | + +--- + +## 🎯 最终建议 + +### 我的推荐:方案A(现在做物理隔离)⭐⭐⭐⭐⭐ + +**理由:** + +**1. 成本最低的时间窗口** +``` +当前: +- 数据量小(< 1万行) +- 迁移时间:< 1小时 +- 测试时间:1-2天 +- 总成本:1周 + +6个月后: +- 数据量大(100万行+) +- 迁移时间:数小时到数天 +- 测试时间:1-2周 +- 总成本:3-5周 + +成本差异:3-5倍! +``` + +**2. 最佳学习机会** +``` +当前: +- 团队小,沟通成本低 +- 模块少,改造范围小 +- 易于建立规范 + +未来: +- 团队大,沟通成本高 +- 模块多,改造范围大 +- 难以统一规范 +``` + +**3. 避免技术债累积** +``` +技术债的特点: +- 时间越久,利息越高 +- 改造成本成倍增长 +- 影响业务创新 + +现在改造: +- 一次性还清 +- 轻装上阵 +``` + +**4. 为未来打下坚实基础** +``` +未来需求(6-12个月): +- 审稿系统独立部署 +- AI文献模块独立销售 +- 私有化部署 +- 微服务拆分 + +物理隔离是基础设施 +``` + +--- + +### 如果必须选择方案B或C + +**推荐:方案C(混合方案)** + +**最低要求:** +1. ✅ 立即创建所有Schema(10分钟) +2. ✅ 新模块(ASL、DC等)使用物理隔离 +3. ✅ 老模块(AIA、PKB)延迟迁移 + +**触发老模块迁移的条件:** +- 数据量超过50万行 +- 需要模块独立部署 +- 需要私有化部署 + +--- + +## 📋 实施清单(方案A) + +### 准备阶段(1天) + +- [ ] 详细阅读Prisma Schema文档 +- [ ] 设计Schema结构(platform_schema, aia_schema, asl_schema等) +- [ ] 编写数据迁移脚本 +- [ ] 准备测试用例 +- [ ] 准备回滚方案 + +### 开发环境改造(1-2天) + +- [ ] 创建所有Schema +- [ ] 修改Prisma Schema(所有Model) +- [ ] 运行Prisma Migrate +- [ ] 迁移开发环境数据 +- [ ] 运行单元测试 +- [ ] 运行集成测试 +- [ ] 手动测试所有功能 + +### 生产环境迁移(1天) + +- [ ] 备份数据库 +- [ ] 创建Schema +- [ ] 执行数据迁移 +- [ ] 验证数据完整性 +- [ ] 启动应用 +- [ ] 监控错误日志 +- [ ] 性能测试 + +### 验收标准 + +- [ ] 所有API接口正常 +- [ ] 跨Schema关联正常 +- [ ] 外键约束正常 +- [ ] 数据完整性正常 +- [ ] 性能无明显下降 +- [ ] 无错误日志 + +--- + +## 💡 技术细节:如何实现物理隔离 + +### Step 1: 创建Schema + +```sql +-- 创建所有Schema +CREATE SCHEMA platform_schema; +CREATE SCHEMA aia_schema; +CREATE SCHEMA asl_schema; +CREATE SCHEMA pkb_schema; +CREATE SCHEMA dc_schema; +CREATE SCHEMA ssa_schema; +CREATE SCHEMA st_schema; +CREATE SCHEMA review_schema; +CREATE SCHEMA admin_schema; +``` + +--- + +### Step 2: 修改Prisma Schema + +**修改database配置:** +```prisma +generator client { + provider = "prisma-client-js" + previewFeatures = ["multiSchema"] // 启用多Schema支持 ⭐ +} + +datasource db { + provider = "postgresql" + url = env("DATABASE_URL") + schemas = [ + "platform_schema", + "aia_schema", + "asl_schema", + "pkb_schema", + "dc_schema", + "ssa_schema", + "st_schema", + "review_schema", + "admin_schema" + ] // 声明所有Schema ⭐ +} +``` + +**修改Model:** +```prisma +// 平台层 +model User { + id String @id @default(uuid()) + email String @unique + password String + // ... + + @@map("users") + @@schema("platform_schema") // 指定Schema ⭐ +} + +// AI问答模块 +model AiaProject { + id String @id @default(uuid()) + userId String @map("user_id") + name String + + user User @relation(fields: [userId], references: [id]) + + @@map("projects") // 不需要前缀 + @@schema("aia_schema") // 指定Schema ⭐ +} + +// AI文献模块 +model AslProject { + id String @id @default(uuid()) + userId String @map("user_id") + name String + + user User @relation(fields: [userId], references: [id]) + + @@map("projects") + @@schema("asl_schema") // 指定Schema ⭐ +} +``` + +--- + +### Step 3: 生成迁移 + +```bash +# 生成迁移文件 +npx prisma migrate dev --name schema-isolation --create-only + +# 查看生成的SQL +# migrations/20251106_schema-isolation/migration.sql +``` + +**生成的SQL示例:** +```sql +-- CreateSchema +CREATE SCHEMA IF NOT EXISTS "platform_schema"; +CREATE SCHEMA IF NOT EXISTS "aia_schema"; +-- ... + +-- CreateTable +CREATE TABLE "platform_schema"."users" ( + "id" UUID NOT NULL DEFAULT gen_random_uuid(), + "email" VARCHAR(255) NOT NULL, + -- ... + PRIMARY KEY ("id") +); + +CREATE TABLE "aia_schema"."projects" ( + "id" UUID NOT NULL DEFAULT gen_random_uuid(), + "user_id" UUID NOT NULL, + "name" VARCHAR(255) NOT NULL, + -- ... + + CONSTRAINT "fk_user" FOREIGN KEY ("user_id") + REFERENCES "platform_schema"."users"("id") ON DELETE CASCADE, + + PRIMARY KEY ("id") +); +``` + +--- + +### Step 4: 数据迁移 + +**编写迁移脚本:** +```sql +-- migrate-data.sql + +-- 迁移用户表 +INSERT INTO platform_schema.users +SELECT * FROM public.users; + +-- 迁移AIA模块 +INSERT INTO aia_schema.projects +SELECT * FROM public.aia_projects; + +INSERT INTO aia_schema.conversations +SELECT * FROM public.aia_conversations; + +INSERT INTO aia_schema.messages +SELECT * FROM public.aia_messages; + +-- 迁移PKB模块 +INSERT INTO pkb_schema.knowledge_bases +SELECT * FROM public.knowledge_bases; + +INSERT INTO pkb_schema.documents +SELECT * FROM public.documents; + +-- ... 其他表 +``` + +**执行迁移:** +```bash +# 方式1:使用psql +psql -U postgres -d ai_clinical_research -f migrate-data.sql + +# 方式2:使用Prisma +npx prisma db execute --file migrate-data.sql +``` + +--- + +### Step 5: 验证 + +```typescript +// test-schema-isolation.ts + +async function testSchemaIsolation() { + // 测试跨Schema关联 + const project = await prisma.aiaProject.findUnique({ + where: { id: 'test-id' }, + include: { + user: true // 跨Schema关联(platform_schema.users) + } + }); + + console.log('跨Schema关联正常:', project); + + // 测试所有模块 + const stats = { + users: await prisma.user.count(), + aiaProjects: await prisma.aiaProject.count(), + aslProjects: await prisma.aslProject.count(), + knowledgeBases: await prisma.knowledgeBase.count(), + }; + + console.log('数据统计:', stats); +} +``` + +--- + +## 📊 成本收益总结 + +### 投入成本 + +| 项目 | 时间 | 风险 | +|------|------|------| +| 学习和准备 | 1天 | 低 | +| 开发环境改造 | 1-2天 | 低 | +| 测试验证 | 1-2天 | 中 | +| 生产环境迁移 | 1天 | 中 | +| **总计** | **5-6天** | **中等** | + +### 预期收益 + +| 收益 | 价值 | +|------|------| +| 模块独立部署 | ⭐⭐⭐⭐⭐ | +| 微服务拆分 | ⭐⭐⭐⭐⭐ | +| 数据库级别权限控制 | ⭐⭐⭐⭐ | +| 按Schema备份恢复 | ⭐⭐⭐⭐ | +| 避免未来大规模改造 | ⭐⭐⭐⭐⭐ | +| **总价值** | **极高** | + +--- + +## 🎯 最终建议总结 + +### 我的建议:立即做物理隔离(方案A) + +**核心理由:** +1. ✅ **现在是成本最低的时间窗口**(数据量小,改造快) +2. ✅ **避免技术债累积**(未来改造成本成倍增长) +3. ✅ **为7个模块打下坚实基础**(模块独立部署、微服务拆分) +4. ✅ **支持未来商业模式**(模块化销售、私有化部署) + +**投入:** 1周 +**收益:** 避免未来3-5倍的改造成本 +**投入产出比:** 极高 + +--- + +**如果您决定采纳方案A,我可以立即帮您:** +1. 设计详细的Schema结构 +2. 编写Prisma Schema修改方案 +3. 编写数据迁移脚本 +4. 制定详细的实施计划 +5. 准备测试用例和验收标准 + +**您觉得呢?** 😊 + + + + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/06-模块独立部署与单机版方案.md b/docs/00-系统总体设计/06-模块独立部署与单机版方案.md new file mode 100644 index 00000000..dd3fc1a1 --- /dev/null +++ b/docs/00-系统总体设计/06-模块独立部署与单机版方案.md @@ -0,0 +1,1554 @@ +# 模块独立部署与单机版方案 + +> **文档版本:** v1.0 +> **创建日期:** 2025-11-06 +> **最后更新:** 2025-11-06 +> **文档状态:** 架构设计 +> **作者:** 技术架构师 + +--- + +## 📋 核心问题 + +1. **如何实现每个模块独立部署?** + - 模块依赖平台层和通用能力层,如何独立? + - 如何变成独立产品销售? + - 如何实现本地化部署? + +2. **如何开发单机版?** + - 如何利用Electron框架? + - 如何复用现有代码? + - 架构如何设计? + +--- + +## 🎯 Part 1:模块独立部署方案 + +### 核心理念:独立部署 ≠ 完全孤立 + +**关键洞察:** +``` +独立部署的真正含义: +✅ 可以单独打包 +✅ 可以单独运行 +✅ 可以单独销售 +✅ 可以单独升级 + +但不是: +❌ 完全不依赖其他代码 +❌ 完全不共享基础设施 +``` + +**类比:** +``` +就像一个独立的手机App: +- 它依赖操作系统(Android/iOS) +- 它依赖系统API(摄像头、定位等) +- 但它可以独立下载、安装、运行、卸载 + +模块独立部署也是一样: +- 它依赖平台层(用户认证、存储等) +- 它依赖通用能力层(LLM网关、文档处理等) +- 但它可以独立打包、部署、销售 +``` + +--- + +## 📦 方案一:完整打包(推荐用于独立产品) + +### 适用场景 + +- ✅ 模块作为独立产品销售(如审稿系统) +- ✅ 客户要求完全本地化部署 +- ✅ 不依赖其他模块或平台 + +### 核心思路 + +**将依赖的平台层和通用能力层一起打包** + +``` +审稿系统独立产品包: +┌─────────────────────────────────────────┐ +│ RVW审稿系统独立产品 │ +│ │ +│ ┌────────────────────────────────────┐ │ +│ │ 业务模块层 │ │ +│ │ RVW(稿件审查) │ │ +│ └────────────────────────────────────┘ │ +│ │ +│ ┌────────────────────────────────────┐ │ +│ │ 通用能力层(必需部分) │ │ +│ │ - LLM网关 │ │ +│ │ - 文档处理引擎 │ │ +│ └────────────────────────────────────┘ │ +│ │ +│ ┌────────────────────────────────────┐ │ +│ │ 平台基础层(必需部分) │ │ +│ │ - 用户认证(简化版) │ │ +│ │ - 存储服务 │ │ +│ │ - 监控日志 │ │ +│ └────────────────────────────────────┘ │ +│ │ +│ ┌────────────────────────────────────┐ │ +│ │ 独立数据库 │ │ +│ │ PostgreSQL(Docker) │ │ +│ └────────────────────────────────────┘ │ +└─────────────────────────────────────────┘ +``` + +--- + +### 技术实现 + +#### Step 1: 代码组织(Monorepo) + +``` +AIclinicalresearch/ + ├── packages/ # Monorepo包管理 + │ │ + │ ├── platform-core/ # 平台核心(可复用) + │ │ ├── auth/ # 用户认证 + │ │ ├── storage/ # 存储服务 + │ │ ├── monitoring/ # 监控日志 + │ │ └── index.ts + │ │ + │ ├── capabilities-core/ # 通用能力核心(可复用) + │ │ ├── llm-gateway/ # LLM网关 + │ │ ├── document-processor/ # 文档处理 + │ │ ├── rag-engine/ # RAG引擎 + │ │ └── index.ts + │ │ + │ ├── module-aia/ # AI问答模块 + │ │ ├── backend/ + │ │ ├── frontend/ + │ │ └── package.json + │ │ + │ ├── module-asl/ # AI文献模块 + │ │ ├── backend/ + │ │ ├── frontend/ + │ │ └── package.json + │ │ + │ ├── module-review/ # 审稿系统模块 + │ │ ├── backend/ + │ │ ├── frontend/ + │ │ └── package.json + │ │ + │ └── ... + │ + ├── products/ # 独立产品打包 + │ │ + │ ├── review-system/ # 审稿系统独立产品 ⭐ + │ │ ├── docker-compose.yml + │ │ ├── deploy.sh + │ │ ├── README.md + │ │ └── package.json # 依赖关系 + │ │ + │ ├── literature-system/ # AI文献独立产品 ⭐ + │ │ └── ... + │ │ + │ └── full-platform/ # 完整平台 + │ └── ... + │ + └── ... +``` + +--- + +#### Step 2: 依赖管理(package.json) + +**审稿系统独立产品的依赖:** +```json +// products/review-system/package.json +{ + "name": "@yizhengxun/review-system", + "version": "1.0.0", + "private": true, + "dependencies": { + // 平台核心(必需) + "@yizhengxun/platform-core": "workspace:*", + + // 通用能力(必需) + "@yizhengxun/capabilities-core": "workspace:*", + + // 业务模块 + "@yizhengxun/module-review": "workspace:*" + }, + "scripts": { + "build": "node build.js", + "deploy": "sh deploy.sh" + } +} +``` + +**平台核心的选择性导出:** +```typescript +// packages/platform-core/index.ts + +// 完整导出(用于完整平台) +export * from './auth'; +export * from './storage'; +export * from './monitoring'; +export * from './notification'; + +// 精简导出(用于独立产品) +export { + // 只导出必需的认证功能 + authMiddleware, + jwtService +} from './auth'; + +export { + // 只导出必需的存储功能 + uploadFile, + downloadFile +} from './storage'; + +export { + // 只导出必需的监控功能 + logError, + logAudit +} from './monitoring'; +``` + +--- + +#### Step 3: 打包脚本 + +**审稿系统独立打包:** +```javascript +// products/review-system/build.js + +const { build } = require('esbuild'); +const { dependencies } = require('./package.json'); + +async function buildReviewSystem() { + console.log('构建审稿系统独立产品...'); + + // 1. 构建后端 + await build({ + entryPoints: ['../../packages/module-review/backend/src/index.ts'], + bundle: true, + platform: 'node', + target: 'node18', + outfile: 'dist/backend/index.js', + external: ['pg', 'fastify', 'prisma'], // 不打包这些大库 + + // 自动包含依赖 + plugins: [ + // 自动解析workspace依赖 + resolveWorkspaceDependencies() + ] + }); + + // 2. 构建前端 + await build({ + entryPoints: ['../../packages/module-review/frontend/src/main.tsx'], + bundle: true, + platform: 'browser', + outfile: 'dist/frontend/index.js', + loader: { '.tsx': 'tsx' } + }); + + // 3. 复制必要文件 + copyFiles([ + 'docker-compose.yml', + 'README.md', + 'deploy.sh' + ]); + + console.log('构建完成!'); +} + +buildReviewSystem(); +``` + +--- + +#### Step 4: Docker部署配置 + +**审稿系统独立部署:** +```yaml +# products/review-system/docker-compose.yml + +version: '3.8' + +services: + # PostgreSQL数据库(独立) + postgres: + image: postgres:15-alpine + container_name: review-system-postgres + environment: + POSTGRES_DB: review_system + POSTGRES_USER: review + POSTGRES_PASSWORD: ${DB_PASSWORD} + volumes: + - postgres_data:/var/lib/postgresql/data + networks: + - review-network + + # 后端服务(包含平台层和通用能力层) + backend: + build: + context: ./dist/backend + container_name: review-system-backend + environment: + DATABASE_URL: postgresql://review:${DB_PASSWORD}@postgres:5432/review_system + LLM_API_KEY: ${LLM_API_KEY} + depends_on: + - postgres + networks: + - review-network + + # 前端服务 + frontend: + build: + context: ./dist/frontend + container_name: review-system-frontend + ports: + - "80:80" + depends_on: + - backend + networks: + - review-network + +volumes: + postgres_data: + +networks: + review-network: + driver: bridge +``` + +--- + +#### Step 5: 一键部署脚本 + +```bash +#!/bin/bash +# products/review-system/deploy.sh + +echo "======================================" +echo " 审稿系统独立部署脚本" +echo "======================================" + +# 1. 检查Docker +if ! command -v docker &> /dev/null; then + echo "错误:未安装Docker" + exit 1 +fi + +# 2. 设置环境变量 +read -p "请输入数据库密码: " DB_PASSWORD +read -p "请输入LLM API密钥: " LLM_API_KEY + +export DB_PASSWORD +export LLM_API_KEY + +# 3. 启动服务 +docker-compose up -d + +# 4. 等待服务启动 +echo "等待服务启动..." +sleep 10 + +# 5. 初始化数据库 +docker exec review-system-backend npx prisma migrate deploy + +# 6. 创建默认管理员 +docker exec review-system-backend node scripts/create-admin.js + +echo "======================================" +echo " 部署完成!" +echo " 访问地址:http://localhost" +echo " 管理员账号:admin@review.com" +echo " 密码:admin123(请及时修改)" +echo "======================================" +``` + +--- + +### 关键技术点 + +#### 1. 平台层的精简和适配 + +**完整平台的用户认证(复杂):** +```typescript +// 完整平台 +- 多租户支持 +- RBAC权限控制 +- SSO单点登录 +- 第三方登录(微信、企业微信等) +- 复杂的权限树 +``` + +**审稿系统的用户认证(简化):** +```typescript +// 审稿系统独立产品 +- 简化的用户认证(邮箱+密码) +- 简单的角色(管理员、编辑、审稿人) +- 基于JWT的Token认证 +- 无SSO、无多租户 +``` + +**实现方式:** +```typescript +// packages/platform-core/auth/simple-auth.ts +// 为独立产品提供简化版认证 + +export class SimpleAuthService { + // 只保留核心功能 + async login(email: string, password: string) { } + async register(email: string, password: string) { } + async verifyToken(token: string) { } + async logout(userId: string) { } + + // 移除复杂功能 + // ❌ async loginWithWeChat() + // ❌ async setupSSO() + // ❌ async multiTenantCheck() +} +``` + +--- + +#### 2. 通用能力层的精简和适配 + +**完整平台的LLM网关(复杂):** +```typescript +// 完整平台 +- 支持10+种模型 +- Feature Flag控制 +- 配额管理 +- 成本分析 +- A/B测试 +``` + +**审稿系统的LLM网关(简化):** +```typescript +// 审稿系统独立产品 +- 只支持1-2种模型(DeepSeek + Claude) +- 简单的配额检查 +- 无Feature Flag +- 无成本分析 +``` + +**实现方式:** +```typescript +// packages/capabilities-core/llm-gateway/simple-llm.ts + +export class SimpleLLMGateway { + // 只保留核心功能 + async chat(params: ChatParams) { } + async checkQuota(userId: string) { } + + // 移除复杂功能 + // ❌ async getCostStats() + // ❌ async selectModelByVersion() + // ❌ async runABTest() +} +``` + +--- + +#### 3. 数据库的隔离 + +**完整平台的数据库(复杂):** +```sql +-- 平台层Schema +platform_schema.users +platform_schema.tenants +platform_schema.feature_flags +-- ... + +-- 所有模块Schema +aia_schema.* +asl_schema.* +review_schema.* +-- ... +``` + +**审稿系统独立产品的数据库(简化):** +```sql +-- 只包含必需的表 +CREATE DATABASE review_system; + +-- 简化的用户表 +CREATE TABLE users ( + id UUID PRIMARY KEY, + email VARCHAR(255) UNIQUE NOT NULL, + password VARCHAR(255) NOT NULL, + role VARCHAR(50) NOT NULL, -- admin/editor/reviewer + created_at TIMESTAMP DEFAULT NOW() +); + +-- 审稿系统的业务表 +CREATE TABLE review_tasks (...); +CREATE TABLE review_journals (...); +CREATE TABLE review_reviewers (...); +-- ... +``` + +--- + +### 独立产品的优势 + +| 优势 | 说明 | +|------|------| +| **独立销售** | 可以单独定价、单独销售 | +| **独立部署** | 客户可以本地化部署,数据完全隔离 | +| **独立升级** | 不影响其他模块 | +| **轻量化** | 只包含必需功能,包体积小 | +| **定制化** | 可以针对特定客户定制 | + +--- + +## 📦 方案二:共享服务(推荐用于平台内模块) + +### 适用场景 + +- ✅ 同一客户购买多个模块 +- ✅ 云端SaaS部署 +- ✅ 模块之间需要共享用户和数据 + +### 核心思路 + +**平台层和通用能力层作为共享服务** + +``` +完整平台架构(微服务版): + +┌─────────────────────────────────────────────────────────┐ +│ API网关(Kong/Traefik) │ +│ 路由:/aia/* /asl/* /review/* │ +└─────────────────────────────────────────────────────────┘ + │ │ │ + ↓ ↓ ↓ +┌─────────────┐ ┌─────────────┐ ┌─────────────┐ +│ AIA模块服务 │ │ ASL模块服务 │ │ RVW模块服务 │ +│ (独立部署) │ │ (独立部署) │ │ (独立部署) │ +└─────────────┘ └─────────────┘ └─────────────┘ + │ │ │ + └──────────────┴──────────────┘ + ↓ + ┌───────────────────────────┐ + │ 共享服务(平台层) │ + │ - 用户认证服务 │ + │ - 存储服务 │ + │ - 监控服务 │ + └───────────────────────────┘ + ↓ + ┌───────────────────────────┐ + │ 共享服务(通用能力层) │ + │ - LLM网关服务 │ + │ - 文档处理服务 │ + │ - RAG引擎服务 │ + └───────────────────────────┘ + ↓ + ┌───────────────────────────┐ + │ 共享数据库 │ + │ - PostgreSQL (多Schema) │ + └───────────────────────────┘ +``` + +--- + +### 技术实现 + +#### Step 1: 服务拆分 + +**平台基础服务(独立部署):** +```yaml +# services/platform/docker-compose.yml + +services: + # 用户认证服务 + auth-service: + image: yizhengxun/auth-service:latest + ports: + - "3001:3000" + environment: + DATABASE_URL: ${DATABASE_URL} + JWT_SECRET: ${JWT_SECRET} + + # 存储服务 + storage-service: + image: yizhengxun/storage-service:latest + ports: + - "3002:3000" + environment: + OSS_ENDPOINT: ${OSS_ENDPOINT} + + # 监控服务 + monitoring-service: + image: yizhengxun/monitoring-service:latest + ports: + - "3003:3000" +``` + +**通用能力服务(独立部署):** +```yaml +# services/capabilities/docker-compose.yml + +services: + # LLM网关服务 + llm-gateway: + image: yizhengxun/llm-gateway:latest + ports: + - "3010:3000" + environment: + DEEPSEEK_API_KEY: ${DEEPSEEK_API_KEY} + QWEN_API_KEY: ${QWEN_API_KEY} + + # 文档处理服务 + document-processor: + image: yizhengxun/document-processor:latest + ports: + - "3011:3000" + + # RAG引擎服务 + rag-engine: + image: yizhengxun/rag-engine:latest + ports: + - "3012:3000" +``` + +**业务模块服务(独立部署):** +```yaml +# services/modules/review-system/docker-compose.yml + +services: + review-system: + image: yizhengxun/review-system:latest + ports: + - "4001:3000" + environment: + # 依赖共享服务 + AUTH_SERVICE_URL: http://auth-service:3000 + STORAGE_SERVICE_URL: http://storage-service:3000 + LLM_GATEWAY_URL: http://llm-gateway:3000 + DOCUMENT_PROCESSOR_URL: http://document-processor:3000 + + # 自己的数据库Schema + DATABASE_URL: postgresql://user:pass@postgres:5432/platform?schema=review_schema +``` + +--- + +#### Step 2: API网关配置 + +**Kong API网关配置:** +```yaml +# api-gateway/kong.yml + +_format_version: "3.0" + +services: + # 用户认证服务 + - name: auth-service + url: http://auth-service:3000 + routes: + - name: auth-routes + paths: + - /api/auth + + # 审稿系统模块 + - name: review-system + url: http://review-system:3000 + routes: + - name: review-routes + paths: + - /api/review + plugins: + - name: jwt + config: + secret_is_base64: false + key_claim_name: kid + + # AI文献模块 + - name: literature-system + url: http://literature-system:3000 + routes: + - name: literature-routes + paths: + - /api/literature + plugins: + - name: jwt +``` + +--- + +#### Step 3: 服务间通信 + +**业务模块调用共享服务:** +```typescript +// packages/module-review/backend/src/services/review.service.ts + +import { AuthClient } from '@yizhengxun/platform-core/clients'; +import { LLMClient } from '@yizhengxun/capabilities-core/clients'; + +export class ReviewService { + private authClient: AuthClient; + private llmClient: LLMClient; + + constructor() { + // 连接到共享服务 + this.authClient = new AuthClient({ + baseURL: process.env.AUTH_SERVICE_URL + }); + + this.llmClient = new LLMClient({ + baseURL: process.env.LLM_GATEWAY_URL + }); + } + + async createReviewTask(userId: string, file: File) { + // 1. 验证用户(调用共享认证服务) + const user = await this.authClient.verifyUser(userId); + + // 2. 上传文件(调用共享存储服务) + const fileUrl = await this.storageClient.upload(file); + + // 3. AI分析(调用共享LLM网关) + const analysis = await this.llmClient.chat({ + messages: [{ role: 'user', content: `分析这篇稿件: ${fileUrl}` }] + }); + + // 4. 保存到自己的数据库 + const task = await prisma.reviewTask.create({ + data: { + userId, + fileUrl, + analysis: analysis.content + } + }); + + return task; + } +} +``` + +--- + +### 模块独立部署的步骤 + +**1. 部署共享服务(一次性):** +```bash +# 部署平台基础服务 +cd services/platform +docker-compose up -d + +# 部署通用能力服务 +cd services/capabilities +docker-compose up -d + +# 部署API网关 +cd services/api-gateway +docker-compose up -d +``` + +**2. 部署业务模块(按需):** +```bash +# 只部署审稿系统模块 +cd services/modules/review-system +docker-compose up -d + +# 客户A购买了审稿系统,只需部署这一个模块 +# 其他模块不需要部署 +``` + +**3. 新客户购买其他模块:** +```bash +# 客户B购买了AI文献模块,再部署这个模块 +cd services/modules/literature-system +docker-compose up -d + +# 共享服务已经部署,不需要重复部署 +# 只需增加新的业务模块 +``` + +--- + +## 🖥️ Part 2:Electron单机版方案 + +### 为什么需要单机版? + +**核心需求:** +1. **数据隐私**:医生个人数据不能上传云端 +2. **离线使用**:无需网络连接 +3. **便携性**:可以在任何电脑上安装使用 +4. **独立运行**:不依赖外部服务器 + +**目标用户:** +- 个人医生 +- 数据敏感的研究者 +- 无网络环境的场景 + +--- + +### Electron架构与现有代码的对应关系 + +#### 现有架构(云端版) + +``` +┌─────────────────────────────────────────┐ +│ 浏览器 (Chrome) │ +│ ┌───────────────────────────────────┐ │ +│ │ 前端 (React + Vite) │ │ +│ │ http://localhost:5173 │ │ +│ └───────────────────────────────────┘ │ +└─────────────────────────────────────────┘ + ↓ HTTP请求 +┌─────────────────────────────────────────┐ +│ 后端 (Node.js + Fastify) │ +│ http://localhost:3001 │ +│ ┌───────────────────────────────────┐ │ +│ │ API路由、业务逻辑、Prisma ORM │ │ +│ └───────────────────────────────────┘ │ +└─────────────────────────────────────────┘ + ↓ +┌─────────────────────────────────────────┐ +│ PostgreSQL (Docker) │ +│ localhost:5432 │ +└─────────────────────────────────────────┘ +``` + +--- + +#### Electron架构(单机版) + +``` +┌───────────────────────────────────────────────────────────┐ +│ Electron 应用 │ +│ │ +│ ┌─────────────────────────────────────────────────────┐ │ +│ │ 渲染进程 (Chromium) │ │ +│ │ ┌───────────────────────────────────────────────┐ │ │ +│ │ │ 前端 (React) ⭐ 复用现有代码 │ │ │ +│ │ │ file://app/index.html │ │ │ +│ │ └───────────────────────────────────────────────┘ │ │ +│ └─────────────────────────────────────────────────────┘ │ +│ ↓ IPC通信 │ +│ ┌─────────────────────────────────────────────────────┐ │ +│ │ 主进程 (Node.js) │ │ +│ │ ┌───────────────────────────────────────────────┐ │ │ +│ │ │ API逻辑、业务逻辑 ⭐ 复用现有代码 │ │ │ +│ │ │ Prisma ORM、本地文件系统 │ │ │ +│ │ └───────────────────────────────────────────────┘ │ │ +│ └─────────────────────────────────────────────────────┘ │ +│ ↓ │ +│ ┌─────────────────────────────────────────────────────┐ │ +│ │ SQLite (嵌入式数据库) │ │ +│ │ ~/Documents/YizhengxunData/app.db │ │ +│ └─────────────────────────────────────────────────────┘ │ +│ │ +│ ┌─────────────────────────────────────────────────────┐ │ +│ │ 子进程 (Python/R) │ │ +│ │ 文档提取、数据分析 │ │ +│ └─────────────────────────────────────────────────────┘ │ +└───────────────────────────────────────────────────────────┘ +``` + +--- + +### 核心技术方案 + +#### 1. 前端代码复用(90%+ 复用) + +**现有前端代码(Web版):** +```typescript +// frontend/src/api/client.ts +const API_BASE_URL = 'http://localhost:3001'; + +export const apiClient = { + async get(url: string) { + return fetch(`${API_BASE_URL}${url}`); + }, + async post(url: string, data: any) { + return fetch(`${API_BASE_URL}${url}`, { + method: 'POST', + body: JSON.stringify(data) + }); + } +}; +``` + +**Electron版前端(修改API调用方式):** +```typescript +// electron-frontend/src/api/client.ts + +// 使用Electron的IPC通信,而不是HTTP +const { ipcRenderer } = window.require('electron'); + +export const apiClient = { + async get(url: string) { + // 通过IPC发送到主进程 + return ipcRenderer.invoke('api-request', { + method: 'GET', + url + }); + }, + async post(url: string, data: any) { + return ipcRenderer.invoke('api-request', { + method: 'POST', + url, + data + }); + } +}; +``` + +**React组件完全不需要改:** +```typescript +// 业务组件完全不变 ✅ +function UserList() { + const [users, setUsers] = useState([]); + + useEffect(() => { + // API调用方式不变,底层自动适配 + apiClient.get('/api/users').then(setUsers); + }, []); + + return
{/* ... */}
; +} +``` + +**复用率:90%+ ✅** +- ✅ 所有React组件 +- ✅ 所有UI库(Ant Design) +- ✅ 所有状态管理(Zustand) +- ✅ 所有路由(React Router) +- ⚠️ 只需修改API调用层(1个文件) + +--- + +#### 2. 后端代码复用(80%+ 复用) + +**现有后端代码(Web版):** +```typescript +// backend/src/routes/users.ts +import { FastifyInstance } from 'fastify'; + +export async function userRoutes(fastify: FastifyInstance) { + // GET /api/users + fastify.get('/api/users', async (request, reply) => { + const users = await prisma.user.findMany(); + return users; + }); + + // POST /api/users + fastify.post('/api/users', async (request, reply) => { + const user = await prisma.user.create({ + data: request.body + }); + return user; + }); +} +``` + +**Electron版后端(主进程):** +```typescript +// electron-backend/src/ipc-handlers.ts +import { ipcMain } from 'electron'; +import { prisma } from './prisma-client'; + +// 复用业务逻辑 ⭐ +import { UserService } from '../../../backend/src/services/user.service'; + +export function setupIpcHandlers() { + const userService = new UserService(prisma); + + // 将HTTP路由转换为IPC Handler + ipcMain.handle('api-request', async (event, { method, url, data }) => { + // 路由分发(简化版的Fastify) + if (url === '/api/users' && method === 'GET') { + return userService.findAll(); + } + + if (url === '/api/users' && method === 'POST') { + return userService.create(data); + } + + // ... 其他路由 + }); +} +``` + +**核心业务逻辑完全复用:** +```typescript +// backend/src/services/user.service.ts +// 这个文件在Web版和Electron版完全共享 ✅ + +export class UserService { + constructor(private prisma: PrismaClient) {} + + async findAll() { + return this.prisma.user.findMany(); + } + + async create(data: CreateUserDto) { + // 业务逻辑 + const hashedPassword = await bcrypt.hash(data.password, 10); + return this.prisma.user.create({ + data: { + ...data, + password: hashedPassword + } + }); + } +} +``` + +**复用率:80%+ ✅** +- ✅ 所有Service层(业务逻辑) +- ✅ 所有Prisma Model和查询 +- ✅ 所有工具函数 +- ⚠️ 需要适配:HTTP路由 → IPC Handler +- ⚠️ 需要替换:PostgreSQL → SQLite + +--- + +#### 3. 数据库适配(PostgreSQL → SQLite) + +**Prisma Schema修改(最小改动):** +```prisma +// electron-backend/prisma/schema.prisma + +datasource db { + // Web版:PostgreSQL + // provider = "postgresql" + // url = env("DATABASE_URL") + + // Electron版:SQLite ⭐ + provider = "sqlite" + url = "file:./app.db" +} + +// Model定义完全不变 ✅ +model User { + id String @id @default(uuid()) + email String @unique + password String + name String? + + createdAt DateTime @default(now()) + updatedAt DateTime @updatedAt + + @@map("users") +} +``` + +**注意事项:** +```typescript +// SQLite不支持某些PostgreSQL特性 + +// ❌ PostgreSQL支持,SQLite不支持: +- JSON列类型(需要用TEXT存储) +- 复杂的全文搜索 +- 某些聚合函数 + +// ✅ 解决方案: +// 1. 用TEXT存储JSON(手动序列化) +model Config { + id String @id + data String // JSON.stringify(data) +} + +// 2. 简化查询(避免复杂SQL) +// 3. 在应用层实现某些功能 +``` + +--- + +### 完整项目结构 + +``` +AIclinicalresearch/ + ├── packages/ # 共享代码(Monorepo) + │ ├── frontend-core/ # 前端核心(Web + Electron复用) + │ ├── backend-core/ # 后端核心(Web + Electron复用) + │ └── shared-types/ # 共享类型定义 + │ + ├── apps/ + │ ├── web/ # Web版(当前) + │ │ ├── frontend/ + │ │ └── backend/ + │ │ + │ └── electron/ # Electron版 ⭐ + │ ├── main/ # 主进程(Node.js后端) + │ │ ├── src/ + │ │ │ ├── main.ts # Electron入口 + │ │ │ ├── ipc-handlers.ts # IPC处理器 + │ │ │ ├── services/ # 复用backend-core + │ │ │ └── prisma/ + │ │ │ └── schema.prisma # SQLite版本 + │ │ └── package.json + │ │ + │ ├── renderer/ # 渲染进程(React前端) + │ │ ├── src/ + │ │ │ ├── main.tsx + │ │ │ ├── api/ # IPC客户端 + │ │ │ ├── pages/ # 复用frontend-core + │ │ │ └── components/ # 复用frontend-core + │ │ └── package.json + │ │ + │ ├── resources/ # 打包资源 + │ │ ├── python/ # Python运行时 + │ │ ├── r/ # R运行时(如需要) + │ │ └── assets/ + │ │ + │ └── electron-builder.yml # 打包配置 + │ + └── ... +``` + +--- + +### 关键实现细节 + +#### 1. Electron主进程(main.ts) + +```typescript +// apps/electron/main/src/main.ts + +import { app, BrowserWindow, ipcMain } from 'electron'; +import path from 'path'; +import { setupIpcHandlers } from './ipc-handlers'; +import { initDatabase } from './database'; +import { startPythonService } from './python-service'; + +let mainWindow: BrowserWindow | null = null; + +async function createWindow() { + // 1. 创建浏览器窗口 + mainWindow = new BrowserWindow({ + width: 1200, + height: 800, + webPreferences: { + nodeIntegration: false, + contextIsolation: true, + preload: path.join(__dirname, 'preload.js') // 安全的IPC桥接 + } + }); + + // 2. 加载前端(生产环境) + if (app.isPackaged) { + mainWindow.loadFile(path.join(__dirname, '../renderer/index.html')); + } else { + // 开发环境:连接到Vite开发服务器 + mainWindow.loadURL('http://localhost:5173'); + } + + // 3. 初始化数据库 + await initDatabase(); + + // 4. 启动Python文档处理服务 + await startPythonService(); + + // 5. 设置IPC处理器 + setupIpcHandlers(); +} + +// Electron生命周期 +app.whenReady().then(createWindow); + +app.on('window-all-closed', () => { + if (process.platform !== 'darwin') { + app.quit(); + } +}); + +app.on('activate', () => { + if (BrowserWindow.getAllWindows().length === 0) { + createWindow(); + } +}); +``` + +--- + +#### 2. IPC处理器(ipc-handlers.ts) + +```typescript +// apps/electron/main/src/ipc-handlers.ts + +import { ipcMain } from 'electron'; +import { prisma } from './prisma-client'; + +// 复用业务逻辑 ⭐ +import { UserService } from '@yizhengxun/backend-core/services'; +import { ProjectService } from '@yizhengxun/backend-core/services'; +import { ConversationService } from '@yizhengxun/backend-core/services'; + +export function setupIpcHandlers() { + // 初始化服务 + const userService = new UserService(prisma); + const projectService = new ProjectService(prisma); + const conversationService = new ConversationService(prisma); + + // 用户相关API + ipcMain.handle('api:users:list', async () => { + return userService.findAll(); + }); + + ipcMain.handle('api:users:create', async (event, data) => { + return userService.create(data); + }); + + // 项目相关API + ipcMain.handle('api:projects:list', async (event, userId) => { + return projectService.findByUser(userId); + }); + + ipcMain.handle('api:projects:create', async (event, data) => { + return projectService.create(data); + }); + + // 对话相关API + ipcMain.handle('api:conversations:create', async (event, data) => { + return conversationService.create(data); + }); + + ipcMain.handle('api:conversations:chat', async (event, data) => { + // 调用LLM(本地或云端API) + return conversationService.chat(data); + }); + + // 文件操作 + ipcMain.handle('api:files:upload', async (event, file) => { + // 保存到本地文件系统 + const filePath = await saveFile(file); + return { url: filePath }; + }); +} +``` + +--- + +#### 3. 前端IPC客户端(api-client.ts) + +```typescript +// apps/electron/renderer/src/api/client.ts + +const { ipcRenderer } = window.require('electron'); + +export const apiClient = { + // 用户API + users: { + async list() { + return ipcRenderer.invoke('api:users:list'); + }, + async create(data: any) { + return ipcRenderer.invoke('api:users:create', data); + } + }, + + // 项目API + projects: { + async list(userId: string) { + return ipcRenderer.invoke('api:projects:list', userId); + }, + async create(data: any) { + return ipcRenderer.invoke('api:projects:create', data); + } + }, + + // 对话API + conversations: { + async create(data: any) { + return ipcRenderer.invoke('api:conversations:create', data); + }, + async chat(data: any) { + return ipcRenderer.invoke('api:conversations:chat', data); + } + }, + + // 文件上传 + files: { + async upload(file: File) { + // 将File转换为Buffer + const buffer = await file.arrayBuffer(); + return ipcRenderer.invoke('api:files:upload', { + name: file.name, + data: Buffer.from(buffer) + }); + } + } +}; +``` + +--- + +#### 4. Python子进程管理 + +```typescript +// apps/electron/main/src/python-service.ts + +import { spawn, ChildProcess } from 'child_process'; +import path from 'path'; +import { app } from 'electron'; + +let pythonProcess: ChildProcess | null = null; + +export async function startPythonService(): Promise { + return new Promise((resolve, reject) => { + // Python运行时路径(打包时包含) + const pythonPath = app.isPackaged + ? path.join(process.resourcesPath, 'python', 'python.exe') + : 'python'; // 开发环境使用系统Python + + // Python脚本路径 + const scriptPath = app.isPackaged + ? path.join(process.resourcesPath, 'python', 'extraction_service', 'main.py') + : path.join(__dirname, '../../../../extraction_service/main.py'); + + // 启动Python进程 + pythonProcess = spawn(pythonPath, [ + '-m', 'uvicorn', + 'main:app', + '--host', '127.0.0.1', + '--port', '8000' + ], { + cwd: path.dirname(scriptPath), + stdio: 'pipe' + }); + + // 监听输出 + pythonProcess.stdout?.on('data', (data) => { + console.log(`Python: ${data}`); + if (data.toString().includes('Application startup complete')) { + resolve(); + } + }); + + pythonProcess.stderr?.on('data', (data) => { + console.error(`Python Error: ${data}`); + }); + + pythonProcess.on('error', reject); + }); +} + +export function stopPythonService(): void { + if (pythonProcess) { + pythonProcess.kill(); + pythonProcess = null; + } +} + +// 应用退出时关闭Python服务 +app.on('will-quit', stopPythonService); +``` + +--- + +#### 5. 打包配置(electron-builder.yml) + +```yaml +# apps/electron/electron-builder.yml + +appId: com.yizhengxun.aiclinical +productName: 壹证循AI科研助手 + +# 打包目录 +directories: + output: dist + buildResources: resources + +# Windows配置 +win: + target: + - nsis + - portable + icon: resources/icon.ico + +# NSIS安装程序配置 +nsis: + oneClick: false + allowToChangeInstallationDirectory: true + createDesktopShortcut: always + createStartMenuShortcut: true + +# Mac配置 +mac: + target: + - dmg + - zip + icon: resources/icon.icns + category: public.app-category.productivity + +# 打包包含的文件 +files: + - "main/**/*" + - "renderer/**/*" + - "!**/*.ts" + - "!**/*.map" + +# 额外资源(Python运行时等) +extraResources: + - from: resources/python + to: python + - from: ../../../../extraction_service + to: python/extraction_service + +# 打包后大小 +asar: true +asarUnpack: + - "**/*.node" + - "resources/**/*" +``` + +--- + +### 单机版的关键技术挑战 + +#### 挑战1:打包体积(500MB+) + +**包含内容:** +``` +安装包组成: +- Electron框架:~100MB +- Node.js运行时:包含在Electron中 +- 前端代码(编译后):~10MB +- 后端代码(编译后):~5MB +- SQLite数据库:~5MB(空库) +- Python运行时:~150MB +- Python依赖:~100MB +- R运行时(可选):~200MB +- R依赖(可选):~100MB + +总计:500-700MB +``` + +**优化方案:** +1. ✅ 使用ASAR压缩(Electron默认) +2. ✅ 不包含R运行时(仅云端版需要) +3. ✅ Python依赖精简(只包含必需的包) +4. ✅ 增量更新(只下载变化的部分) + +--- + +#### 挑战2:跨平台兼容性 + +**需要分别打包:** +- Windows x64 +- Windows ARM64(Surface等设备) +- macOS x64 +- macOS ARM64(Apple Silicon) +- Linux x64 + +**测试工作量:** +- 每个平台都需要独立测试 +- 安装、升级、卸载流程 +- 权限问题、文件路径问题 + +--- + +#### 挑战3:自动更新 + +**electron-updater配置:** +```typescript +// apps/electron/main/src/updater.ts + +import { autoUpdater } from 'electron-updater'; +import { dialog } from 'electron'; + +export function setupAutoUpdater() { + // 配置更新服务器 + autoUpdater.setFeedURL({ + provider: 'generic', + url: 'https://releases.yizhengxun.com' + }); + + // 检查更新 + autoUpdater.checkForUpdatesAndNotify(); + + // 发现新版本 + autoUpdater.on('update-available', () => { + dialog.showMessageBox({ + type: 'info', + title: '发现新版本', + message: '检测到新版本,是否立即下载?', + buttons: ['是', '否'] + }).then((result) => { + if (result.response === 0) { + autoUpdater.downloadUpdate(); + } + }); + }); + + // 下载完成 + autoUpdater.on('update-downloaded', () => { + dialog.showMessageBox({ + type: 'info', + title: '更新已就绪', + message: '新版本已下载,是否立即安装?', + buttons: ['立即安装', '稍后'] + }).then((result) => { + if (result.response === 0) { + autoUpdater.quitAndInstall(); + } + }); + }); +} +``` + +--- + +## 📊 总结对比 + +### 三种部署方式对比 + +| 维度 | 云端SaaS | 独立产品包 | Electron单机版 | +|------|---------|----------|---------------| +| **部署方式** | 云端服务器 | Docker容器 | 本地安装 | +| **数据存储** | 云端PostgreSQL | 本地PostgreSQL | 本地SQLite | +| **网络需求** | 必须联网 | 可离线(LLM除外) | 完全离线 | +| **更新方式** | 无感知更新 | Docker镜像更新 | 应用内更新 | +| **安装难度** | 无需安装 | Docker部署 | 一键安装 | +| **代码复用** | 100% | 80%(精简版) | 90% | +| **适用客户** | 个人、小机构 | 医院、大机构 | 个人医生 | +| **商业模式** | 订阅制 | 一次性License | 一次性购买 | +| **维护成本** | 低 | 中 | 高 | + +--- + +## 🎯 最终建议 + +### 分阶段实施 + +**阶段一(当前-6个月):** +- ✅ 专注云端SaaS版 +- ✅ 完善7个业务模块 +- ✅ 建立Monorepo架构(为未来打基础) + +**阶段二(6-12个月):** +- ✅ 开发独立产品包(审稿系统、AI文献) +- ✅ 支持Docker本地化部署 +- ✅ 验证商业模式 + +**阶段三(12-18个月):** +- ✅ 开发Electron单机版(如有需求) +- ✅ 支持完全离线使用 +- ✅ 扩展个人用户市场 + +--- + +**您想先深入哪个方案?** +1. 模块独立部署的详细实施? +2. Electron单机版的开发计划? +3. Monorepo架构的设计? + + + + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/07-Monorepo架构评估.md b/docs/00-系统总体设计/07-Monorepo架构评估.md new file mode 100644 index 00000000..5de1ad39 --- /dev/null +++ b/docs/00-系统总体设计/07-Monorepo架构评估.md @@ -0,0 +1,568 @@ +# Monorepo架构评估 - 当前阶段是否需要? + +> **文档版本:** v1.0 +> **创建日期:** 2025-11-06 +> **文档目的:** 评估当前阶段采用Monorepo架构的必要性和成本 + +--- + +## 🤔 核心问题 + +1. 当前阶段需要使用Monorepo架构吗? +2. 对当前阶段的成本高吗? +3. 什么时候是最佳时机? + +--- + +## 📊 当前项目结构分析 + +### 现有代码结构 + +``` +AIclinicalresearch/ + ├── frontend/ # 前端(React + Vite) + │ ├── src/ + │ ├── package.json + │ └── node_modules/ + │ + ├── backend/ # 后端(Node.js + Fastify) + │ ├── src/ + │ ├── package.json + │ └── node_modules/ + │ + ├── extraction_service/ # Python文档提取服务 + │ ├── main.py + │ ├── requirements.txt + │ └── venv/ + │ + ├── docker-compose.yml # Docker配置 + └── ... +``` + +**当前特点:** +- ✅ 结构简单,易于理解 +- ✅ 前后端分离,职责清晰 +- ✅ 各自独立的依赖管理 +- ❌ 没有代码共享机制 +- ❌ 重复的配置文件 +- ❌ 不支持模块独立打包 + +--- + +## 🎯 Monorepo架构对比 + +### Monorepo结构示例 + +``` +AIclinicalresearch/ + ├── packages/ # 共享包 + │ ├── platform-core/ # 平台核心(可复用) + │ │ ├── auth/ + │ │ ├── storage/ + │ │ ├── package.json + │ │ └── tsconfig.json + │ │ + │ ├── capabilities-core/ # 通用能力(可复用) + │ │ ├── llm-gateway/ + │ │ ├── document-processor/ + │ │ ├── package.json + │ │ └── tsconfig.json + │ │ + │ └── shared-types/ # 共享类型定义 + │ ├── src/ + │ ├── package.json + │ └── tsconfig.json + │ + ├── apps/ # 应用 + │ ├── frontend/ # Web前端 + │ │ ├── src/ + │ │ └── package.json + │ │ + │ ├── backend/ # Web后端 + │ │ ├── src/ + │ │ └── package.json + │ │ + │ └── admin-frontend/ # 运营管理端(未来) + │ ├── src/ + │ └── package.json + │ + ├── products/ # 独立产品打包(未来) + │ ├── review-system/ + │ └── literature-system/ + │ + ├── package.json # 根package.json(Workspace配置) + ├── pnpm-workspace.yaml # Workspace配置 + └── tsconfig.base.json # 共享TS配置 +``` + +--- + +## 💰 成本分析:现在 vs 以后 + +### 方案A:现在转换Monorepo + +#### 成本(2-3天) + +**Day 1:学习和设计(0.5-1天)** +``` +学习内容: +- pnpm workspaces 或 npm workspaces +- 包依赖管理(workspace:*) +- TypeScript path mapping +- 共享配置(tsconfig, eslint等) + +工作量:4-8小时 +难度:⭐⭐⭐ 中等 +``` + +**Day 2:重构现有代码(1天)** +``` +任务清单: +1. 创建packages/和apps/目录结构 +2. 移动frontend和backend到apps/ +3. 提取共享类型到packages/shared-types/ +4. 配置workspace依赖 +5. 更新import路径 +6. 测试验证 + +工作量:8小时 +难度:⭐⭐⭐ 中等 +风险:⭐⭐ 低(有回滚方案) +``` + +**Day 3:测试和优化(0.5-1天)** +``` +测试内容: +- 前端启动和构建 +- 后端启动和构建 +- 依赖安装速度 +- 开发体验 + +工作量:4-8小时 +``` + +**总成本:2-3天** + +#### 收益 + +**立即收益:** +1. ✅ 代码共享变容易(类型定义、工具函数等) +2. ✅ 统一的依赖管理(减少重复安装) +3. ✅ 统一的配置(TypeScript、ESLint等) +4. ✅ 为未来打基础 + +**未来收益:** +1. ✅ 新增模块时,可以复用platform-core和capabilities-core +2. ✅ 独立产品打包变简单 +3. ✅ Electron单机版开发变容易 +4. ✅ 避免未来大规模重构 + +--- + +### 方案B:继续当前结构,以后再转 + +#### 短期成本(0天) + +**优点:** +- ✅ 无需学习新技术 +- ✅ 无需重构代码 +- ✅ 可以立即开始ASL模块开发 + +**缺点:** +- ❌ 代码重复(前后端类型定义、工具函数等) +- ❌ 依赖管理分散 +- ❌ 为未来埋下技术债 + +#### 未来成本(1-2周) + +**触发条件:** +- 需要开发运营管理端(独立前端) +- 需要开发独立产品包(审稿系统、AI文献) +- 需要开发Electron单机版 +- 代码重复严重,维护困难 + +**重构成本(估算):** +``` +未来重构成本: +- 学习和设计:1天(同现在) +- 重构代码:3-5天(代码量更大) + * 多个前端应用(Web、Admin、Electron) + * 多个后端模块 + * 大量共享代码需要提取 +- 测试验证:2-3天 +- 修复问题:1-2天 + +总成本:7-11天 + +是现在的3-5倍! +``` + +--- + +## 📊 对比矩阵 + +| 维度 | 方案A:现在转 | 方案B:以后转 | +|------|-------------|-------------| +| **立即成本** | ⭐⭐⭐ 中(2-3天) | ⭐⭐⭐⭐⭐ 零 | +| **未来成本** | ⭐⭐⭐⭐⭐ 零 | ⭐⭐ 高(7-11天) | +| **学习难度** | ⭐⭐⭐ 中等 | ⭐⭐⭐ 中等(延后) | +| **风险** | ⭐⭐ 低 | ⭐⭐⭐ 中(技术债) | +| **代码复用** | ⭐⭐⭐⭐⭐ 优秀 | ⭐⭐ 困难 | +| **模块独立打包** | ⭐⭐⭐⭐⭐ 容易 | ⭐⭐ 困难 | +| **团队协作** | ⭐⭐⭐⭐ 好 | ⭐⭐⭐ 一般 | +| **开发体验** | ⭐⭐⭐⭐ 好 | ⭐⭐⭐ 一般 | + +--- + +## 🎯 当前阶段评估 + +### 当前项目状态 + +**已完成:** +- ✅ 前端(React + Vite) +- ✅ 后端(Node.js + Fastify) +- ✅ Python文档提取服务 +- ✅ 基础功能(AIA、PKB) + +**即将开发:** +- ⏳ ASL模块(AI智能文献) +- ⏳ ADMIN(运营管理端)- 独立前端应用 + +**未来规划:** +- ⏳ DC、SSA、ST、RVW模块 +- ⏳ 独立产品包(审稿系统、AI文献) +- ⏳ Electron单机版 + +--- + +### 是否需要Monorepo? + +**评估标准:** + +#### ✅ 需要 - 如果满足以下条件: + +1. **近期(1-3个月)会开发多个独立应用** + - ✅ 运营管理端(独立前端) + - ✅ ASL、DC等新模块 + +2. **有代码共享需求** + - ✅ 类型定义(User、Project等) + - ✅ API客户端(apiClient) + - ✅ 工具函数(日期格式化、验证等) + +3. **未来有模块独立部署需求** + - ✅ 审稿系统独立产品 + - ✅ AI文献独立产品 + - ✅ Electron单机版 + +4. **团队能够接受2-3天的学习和重构** + - ✅ 学习曲线不陡峭 + - ✅ 文档和最佳实践丰富 + +#### ❌ 不需要 - 如果满足以下条件: + +1. **只有一个前端 + 一个后端** + - ❌ 当前已有运营管理端需求 + +2. **没有代码共享需求** + - ❌ 已有大量重复代码(类型定义等) + +3. **不打算模块化和独立部署** + - ❌ 已规划模块独立销售 + +4. **团队完全没有时间学习新技术** + - ⚠️ 只需2-3天 + +--- + +## 💡 我的建议 + +### 建议:现在转换Monorepo ⭐⭐⭐⭐ **推荐** + +**理由:** + +**1. 投入产出比极高** +``` +投入:2-3天 +节省:未来7-11天(节省5-8天) +ROI:300%+ +``` + +**2. 正处于最佳时机** +``` +当前: +- 代码量适中(不多不少) +- 即将开发多个新模块 +- 团队小,沟通成本低 + +未来: +- 代码量大(重构困难) +- 多个应用同时运行 +- 重构影响范围大 +``` + +**3. 符合未来需求** +``` +近期需求(3个月内): +- ✅ 运营管理端(独立前端) +- ✅ 多个业务模块(ASL、DC等) +- ✅ 代码共享(类型、工具函数) + +未来需求(6-12个月): +- ✅ 独立产品打包 +- ✅ Electron单机版 +- ✅ 微服务拆分 +``` + +**4. 学习成本不高** +``` +Monorepo工具: +- pnpm workspaces(推荐,最简单) +- npm workspaces(内置,无需安装) +- yarn workspaces(成熟) + +学习资源: +- ✅ 官方文档完善 +- ✅ 社区最佳实践丰富 +- ✅ AI助手(我)可以全程指导 +``` + +--- + +### 如果必须选择方案B + +**最低要求:** + +**1. 建立代码共享机制** +```typescript +// 创建共享目录 +shared/ + ├── types/ # 共享类型定义 + │ ├── user.ts + │ ├── project.ts + │ └── index.ts + │ + └── utils/ # 共享工具函数 + ├── date.ts + ├── validation.ts + └── index.ts + +// 前后端引用 +import { User } from '../../shared/types'; +``` + +**2. 统一配置文件** +``` +tsconfig.base.json # 共享TS配置 +.eslintrc.shared.js # 共享ESLint配置 +``` + +**3. 严格的代码规范** +``` +- 禁止复制粘贴代码 +- 强制使用共享类型 +- 定期代码审查 +``` + +**触发Monorepo转换的信号:** +- 开始开发运营管理端 +- 代码重复超过3处 +- 新增第3个应用 + +--- + +## 🚀 实施方案(如果选择转换) + +### 阶段一:准备(半天) + +**学习pnpm workspaces:** +```bash +# 1. 安装pnpm(如果没有) +npm install -g pnpm + +# 2. 阅读文档(30分钟) +https://pnpm.io/workspaces + +# 3. 看示例项目(30分钟) +``` + +**设计目录结构:** +``` +决定: +- packages/ 放什么?(shared-types、platform-core等) +- apps/ 放什么?(frontend、backend、admin-frontend) +- 是否需要products/?(暂时不需要) +``` + +--- + +### 阶段二:重构(1-1.5天) + +**Step 1:创建基础结构** +```bash +# 1. 创建根package.json +pnpm init + +# 2. 创建pnpm-workspace.yaml +cat > pnpm-workspace.yaml << EOF +packages: + - 'packages/*' + - 'apps/*' +EOF + +# 3. 创建目录 +mkdir -p packages/shared-types +mkdir -p apps +``` + +**Step 2:移动现有代码** +```bash +# 移动frontend +mv frontend apps/frontend + +# 移动backend +mv backend apps/backend + +# extraction_service保持原位(Python不需要Monorepo) +``` + +**Step 3:提取共享代码** +```bash +# 创建shared-types包 +cd packages/shared-types +pnpm init +# 移动类型定义 +``` + +**Step 4:配置依赖** +```json +// apps/frontend/package.json +{ + "dependencies": { + "@yizhengxun/shared-types": "workspace:*" + } +} + +// apps/backend/package.json +{ + "dependencies": { + "@yizhengxun/shared-types": "workspace:*" + } +} +``` + +**Step 5:更新import** +```typescript +// 修改前 +import { User } from '../types/user'; + +// 修改后 +import { User } from '@yizhengxun/shared-types'; +``` + +**Step 6:安装依赖** +```bash +# 根目录执行(会安装所有包的依赖) +pnpm install +``` + +--- + +### 阶段三:测试验证(半天) + +**测试清单:** +- [ ] 前端启动正常(`cd apps/frontend && pnpm dev`) +- [ ] 后端启动正常(`cd apps/backend && pnpm dev`) +- [ ] 类型提示正常(VSCode智能提示) +- [ ] 构建成功(`pnpm build`) +- [ ] 所有功能正常 + +**回滚方案:** +```bash +# 如果出现问题,可以立即回滚 +git reset --hard HEAD +``` + +--- + +## 📊 总结对比 + +### 立即转换 vs 延后转换 + +| 项目 | 立即转换 | 延后转换 | +|------|---------|---------| +| **时间成本** | 2-3天 | 未来7-11天 | +| **学习成本** | 中等 | 中等(延后) | +| **风险** | 低 | 中(技术债) | +| **代码质量** | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | +| **开发效率** | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | +| **未来扩展** | ⭐⭐⭐⭐⭐ | ⭐⭐ | +| **投入产出比** | ⭐⭐⭐⭐⭐ | ⭐⭐ | + +--- + +## 🎯 最终建议 + +### 推荐方案:立即转换Monorepo ⭐⭐⭐⭐⭐ + +**核心理由:** +1. ✅ **投入小,收益大**:2-3天换来未来5-8天的节省 +2. ✅ **正处于最佳时机**:代码量适中,即将开发多模块 +3. ✅ **符合未来规划**:运营管理端、独立产品包、Electron单机版 +4. ✅ **学习成本可控**:有AI全程指导,有详细文档 + +**实施计划:** +``` +本周:Monorepo重构(2-3天) + Day 1:学习 + 设计(半天) + Day 2:重构实施(1天) + Day 3:测试验证(半天) + +下周:继续ASL模块开发 + - 享受Monorepo带来的便利 + - 代码复用变简单 + - 类型共享开箱即用 +``` + +**如果您决定采纳,我可以:** +1. ✅ 提供详细的step-by-step指导 +2. ✅ 帮您设计目录结构 +3. ✅ 编写配置文件 +4. ✅ 协助重构和测试 + +--- + +### 替代方案:延后转换(不推荐) + +**如果时间确实紧迫:** + +**最低要求:** +1. ✅ 创建`shared/`目录存放共享代码 +2. ✅ 制定代码复用规范 +3. ✅ 在开发运营管理端前必须转换 + +**触发条件:** +- 开始开发运营管理端 +- 代码重复严重 +- 团队成员抱怨 + +--- + +**您觉得呢?** 😊 + +是否愿意投入2-3天,为未来节省5-8天? + + + + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/08-架构设计全景图.md b/docs/00-系统总体设计/08-架构设计全景图.md new file mode 100644 index 00000000..d7cbf519 --- /dev/null +++ b/docs/00-系统总体设计/08-架构设计全景图.md @@ -0,0 +1,684 @@ +# 架构设计全景图 + +> **文档版本:** v1.0 +> **创建日期:** 2025-11-06 +> **文档目的:** 一图看懂整个系统架构 + +--- + +## 🎯 完整架构全景 + +``` +┌───────────────────────────────────────────────────────────────────────────────┐ +│ 壹证循AI科研平台 - 完整架构 │ +└───────────────────────────────────────────────────────────────────────────────┘ + +┌───────────────────────────────────────────────────────────────────────────────┐ +│ 用户层(4类用户) │ +│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ +│ │ 临床医生 │ │ 研究者 │ │ 期刊编辑部 │ │ 运营人员 │ │ +│ │ 研究机构 │ │ 医学生 │ │ 出版社 │ │ 管理员 │ │ +│ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │ +└───────────────────────────────────────────────────────────────────────────────┘ + ↓ ↓ ↓ ↓ +┌───────────────────────────────────────────────────────────────────────────────┐ +│ 前端应用层(4个独立应用) │ +│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ +│ │ Web前端 │ │ 单机版 │ │ 独立产品 │ │ 运营管理端 │ │ +│ │ (React) │ │(Electron) │ │ 前端 │ │ (Admin) │ │ +│ │ │ │ │ │ │ │ │ │ +│ │ app.xxx.com │ │ 桌面应用 │ │ 独立域名 │ │admin.xxx.com│ │ +│ └─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘ │ +└───────────────────────────────────────────────────────────────────────────────┘ + ↓ ↓ ↓ ↓ +┌───────────────────────────────────────────────────────────────────────────────┐ +│ API网关层(可选,微服务时) │ +│ Kong / Traefik - 统一路由和鉴权 │ +└───────────────────────────────────────────────────────────────────────────────┘ + ↓ +┌───────────────────────────────────────────────────────────────────────────────┐ +│ 业务模块层(8个独立业务模块) │ +│ │ +│ ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐ │ +│ │ AIA │ │ ASL │ │ PKB │ │ DC │ │ SSA │ │ ST │ │ +│ │智能问答│ │智能文献│ │知识库 │ │数据清洗│ │智能统计│ │分析工具│ │ +│ │ │ │ │ │ │ │ │ │ │ │ │ │ +│ │✅已完成│ │⏳重点 │ │✅已完成│ │⏳规划中│ │⏳规划中│ │⏳规划中│ │ +│ └────────┘ └────────┘ └────────┘ └────────┘ └────────┘ └────────┘ │ +│ │ +│ ┌────────┐ ┌────────┐ │ +│ │ RVW │ │ ADMIN │ │ +│ │稿件审查│ │运营管理│ │ +│ │ │ │ │ │ +│ │⚡独立 │ │⭐新增 │ │ +│ └────────┘ └────────┘ │ +└───────────────────────────────────────────────────────────────────────────────┘ + ↓ 依赖 +┌───────────────────────────────────────────────────────────────────────────────┐ +│ 通用能力层(5个核心技术能力) │ +│ │ +│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ +│ │ LLM网关 │ │ 文档处理 │ │ RAG引擎 │ │ ETL引擎 │ │ +│ │ │ │ │ │ │ │ │ │ +│ │ 5模块依赖 │ │ 6模块依赖 │ │ 3模块依赖 │ │ 2模块依赖 │ │ +│ │ 71%复用 │ │ 86%复用 │ │ 43%复用 │ │ 29%复用 │ │ +│ │ │ │ │ │ │ │ │ │ +│ │ ❌待实现 │ │ ✅已实现 │ │ ✅已实现 │ │ ❌待实现 │ │ +│ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │ +│ │ +│ ┌──────────────┐ │ +│ │ 医学NLP │ │ +│ │ │ │ +│ │ 1模块依赖 │ │ +│ │ 14%复用 │ │ +│ │ │ │ +│ │ ❌待实现 │ │ +│ └──────────────┘ │ +└───────────────────────────────────────────────────────────────────────────────┘ + ↓ 依赖 +┌───────────────────────────────────────────────────────────────────────────────┐ +│ 平台基础层(通用基础设施) │ +│ │ +│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ +│ │用户与权限中心│ │ 存储服务 │ │ 通知服务 │ │ 监控与日志 │ │ +│ │ │ │ │ │ │ │ │ │ +│ │ - 用户认证 │ │ - 文件上传 │ │ - 站内消息 │ │ - 操作日志 │ │ +│ │ - JWT Token │ │ - OSS/本地 │ │ - 邮件通知 │ │ - 错误监控 │ │ +│ │ - RBAC权限 │ │ - 临时URL │ │ - WebSocket │ │ - 审计日志 │ │ +│ │ - Feature Flag│ │ │ │ │ │ │ │ +│ │ │ │ │ │ │ │ │ │ +│ │ ✅已有基础 │ │ ✅已实现 │ │ ⏳待实现 │ │ ✅已实现 │ │ +│ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │ +│ │ +│ ┌──────────────┐ │ +│ │ 系统配置 │ │ +│ │ │ │ +│ │ - 全局配置 │ │ +│ │ - 动态配置 │ │ +│ │ │ │ +│ │ ⏳待增强 │ │ +│ └──────────────┘ │ +└───────────────────────────────────────────────────────────────────────────────┘ + ↓ +┌───────────────────────────────────────────────────────────────────────────────┐ +│ 数据存储层(Schema隔离) │ +│ │ +│ ┌────────────────────────────────────────────────────────────────────────┐ │ +│ │ PostgreSQL(当前:逻辑隔离) │ │ +│ │ │ │ +│ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ +│ │ │platform │ │aia_schema │ │asl_schema │ │pkb_schema │ │ │ +│ │ │_schema │ │ │ │ │ │ │ │ │ +│ │ │ │ │ - projects │ │ - projects │ │ - kb │ │ │ +│ │ │ - users │ │ - conv │ │ - items │ │ - documents │ │ │ +│ │ │ - roles │ │ - messages │ │ - screening │ │ │ │ │ +│ │ │ - feature │ │ │ │ - extraction│ │ │ │ │ +│ │ │ _flags │ │ │ │ │ │ │ │ │ +│ │ └─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘ │ │ +│ │ │ │ +│ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ +│ │ │dc_schema │ │ssa_schema │ │st_schema │ │review │ │ │ +│ │ │ │ │ │ │ │ │_schema │ │ │ +│ │ │ - projects │ │ - projects │ │ - usage │ │ │ │ │ +│ │ │ - raw_files │ │ - tasks │ │ │ │ - tasks │ │ │ +│ │ │ - cleaned │ │ - results │ │ │ │ - journals │ │ │ +│ │ │ - ner │ │ │ │ │ │ - reviewers │ │ │ +│ │ └─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘ │ │ +│ │ │ │ +│ │ ┌─────────────┐ │ │ +│ │ │admin │ │ │ +│ │ │_schema │ │ │ +│ │ │ │ │ │ +│ │ │ - admin_users│ │ │ +│ │ │ - llm_models│ │ │ +│ │ │ - tenants │ │ │ +│ │ │ - audit_logs│ │ │ +│ │ └─────────────┘ │ │ +│ └────────────────────────────────────────────────────────────────────────┘ │ +│ │ +│ ┌────────────────────────────────────────────────────────────────────────┐ │ +│ │ Dify向量数据库(RAG) │ │ +│ │ 通过API访问,不直接连接 │ │ +│ └────────────────────────────────────────────────────────────────────────┘ │ +└───────────────────────────────────────────────────────────────────────────────┘ + ↓ +┌───────────────────────────────────────────────────────────────────────────────┐ +│ 外部服务层 │ +│ │ +│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ +│ │ DeepSeek │ │ Qwen3 │ │ Qwen-Long │ │ Claude │ │ +│ │ API │ │ API │ │ API │ │ API │ │ +│ │ │ │ │ │ │ │ │ │ +│ │ ¥1/百万tokens│ │ ¥5/百万tokens│ │ ¥20/百万 │ │ ¥50/百万 │ │ +│ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │ +│ │ +│ ┌──────────────┐ ┌──────────────┐ │ +│ │ Dify API │ │ Python微服务│ │ +│ │ (RAG) │ │ (文档提取) │ │ +│ └──────────────┘ └──────────────┘ │ +└───────────────────────────────────────────────────────────────────────────────┘ +``` + +--- + +## 📦 四种部署模式 + +### 模式1:云端SaaS版(当前重点) + +``` +┌─────────────────────────────────────────┐ +│ 云端服务器 │ +│ │ +│ ┌────────────────────────────────────┐ │ +│ │ Nginx (反向代理) │ │ +│ │ ├─ app.yizhengxun.com │ │ +│ │ └─ admin.yizhengxun.com │ │ +│ └────────────────────────────────────┘ │ +│ ↓ │ +│ ┌────────────────────────────────────┐ │ +│ │ Web前端 (React) │ │ +│ │ Admin前端 (React + Ant Design Pro)│ │ +│ └────────────────────────────────────┘ │ +│ ↓ │ +│ ┌────────────────────────────────────┐ │ +│ │ 后端 (Node.js + Fastify) │ │ +│ │ - 8个业务模块 │ │ +│ │ - 通用能力层 │ │ +│ │ - 平台基础层 │ │ +│ └────────────────────────────────────┘ │ +│ ↓ │ +│ ┌────────────────────────────────────┐ │ +│ │ PostgreSQL (Docker) │ │ +│ │ - 多Schema隔离 │ │ +│ └────────────────────────────────────┘ │ +│ │ +│ ┌────────────────────────────────────┐ │ +│ │ Redis (缓存) │ │ +│ └────────────────────────────────────┘ │ +│ │ +│ ┌────────────────────────────────────┐ │ +│ │ Dify (RAG服务) │ │ +│ └────────────────────────────────────┘ │ +│ │ +│ ┌────────────────────────────────────┐ │ +│ │ Python微服务 (文档提取) │ │ +│ └────────────────────────────────────┘ │ +└─────────────────────────────────────────┘ + +用户通过浏览器访问 +``` + +--- + +### 模式2:独立产品包(Docker打包) + +``` +┌─────────────────────────────────────────┐ +│ 审稿系统独立产品包 │ +│ (Docker Compose一键部署) │ +│ │ +│ ┌────────────────────────────────────┐ │ +│ │ 前端容器 (Nginx + React) │ │ +│ └────────────────────────────────────┘ │ +│ ↓ │ +│ ┌────────────────────────────────────┐ │ +│ │ 后端容器 (Node.js) │ │ +│ │ - RVW模块(审稿功能) │ │ +│ │ - LLM网关(精简版) │ │ +│ │ - 文档处理(精简版) │ │ +│ │ - 用户认证(精简版) │ │ +│ └────────────────────────────────────┘ │ +│ ↓ │ +│ ┌────────────────────────────────────┐ │ +│ │ PostgreSQL容器 │ │ +│ │ - 只包含review_schema和users │ │ +│ └────────────────────────────────────┘ │ +│ │ +│ 一键部署脚本:deploy.sh │ +│ 配置文件:docker-compose.yml │ +└─────────────────────────────────────────┘ + +医院内网部署,数据不外泄 +``` + +--- + +### 模式3:Electron单机版 + +``` +┌─────────────────────────────────────────┐ +│ 用户电脑 (Windows/Mac) │ +│ │ +│ ┌────────────────────────────────────┐ │ +│ │ Electron应用 │ │ +│ │ │ │ +│ │ ┌──────────────────────────────┐ │ │ +│ │ │ 渲染进程 (Chromium) │ │ │ +│ │ │ React前端(复用90%+) │ │ │ +│ │ └──────────────────────────────┘ │ │ +│ │ ↓ IPC通信 │ │ +│ │ ┌──────────────────────────────┐ │ │ +│ │ │ 主进程 (Node.js) │ │ │ +│ │ │ 后端逻辑(复用80%+) │ │ │ +│ │ └──────────────────────────────┘ │ │ +│ │ ↓ │ │ +│ │ ┌──────────────────────────────┐ │ │ +│ │ │ SQLite (本地数据库) │ │ │ +│ │ │ ~/Documents/YizhengxunData/ │ │ │ +│ │ └──────────────────────────────┘ │ │ +│ │ ↓ │ │ +│ │ ┌──────────────────────────────┐ │ │ +│ │ │ Python子进程 │ │ │ +│ │ │ 文档提取(打包在应用内) │ │ │ +│ │ └──────────────────────────────┘ │ │ +│ └────────────────────────────────────┘ │ +│ │ +│ 安装包:500MB+ │ +│ 100%离线运行 │ +└─────────────────────────────────────────┘ +``` + +--- + +### 模式4:私有化部署(K8s/Docker) + +``` +┌─────────────────────────────────────────┐ +│ 医院内网服务器 │ +│ │ +│ ┌────────────────────────────────────┐ │ +│ │ K8s / Docker Swarm │ │ +│ │ │ │ +│ │ Pod/Container: │ │ +│ │ ├─ 前端服务 x2(高可用) │ │ +│ │ ├─ 后端服务 x3(负载均衡) │ │ +│ │ ├─ PostgreSQL x1(主从) │ │ +│ │ ├─ Redis x1 │ │ +│ │ ├─ Python微服务 x2 │ │ +│ │ └─ Dify服务(可选) │ │ +│ │ │ │ +│ │ Ingress: hospital-a.yizhengxun.com│ │ +│ └────────────────────────────────────┘ │ +│ │ +│ 一键部署脚本 + 运维监控 │ +└─────────────────────────────────────────┘ + +数据100%留在医院内网 +``` + +--- + +## 🎯 代码组织架构 + +### 当前结构(简单) + +``` +AIclinicalresearch/ + ├── frontend/ # Web前端 + ├── backend/ # 后端 + └── extraction_service/ # Python服务 +``` + +--- + +### 目标结构(Monorepo) + +``` +AIclinicalresearch/ + ├── packages/ # 共享包(可复用) + │ ├── shared-types/ # 类型定义(前后端共享) + │ ├── platform-core/ # 平台核心 + │ │ ├── auth/ # 用户认证 + │ │ ├── storage/ # 存储服务 + │ │ └── monitoring/ # 监控日志 + │ ├── capabilities-core/ # 通用能力 + │ │ ├── llm-gateway/ # LLM网关 + │ │ ├── document-processor/ # 文档处理 + │ │ └── rag-engine/ # RAG引擎 + │ └── ui-components/ # UI组件库(可选) + │ + ├── apps/ # 应用 + │ ├── web-frontend/ # Web前端 + │ ├── web-backend/ # Web后端 + │ ├── admin-frontend/ # 运营管理端前端 + │ └── electron/ # Electron单机版(未来) + │ ├── main/ # 主进程 + │ └── renderer/ # 渲染进程 + │ + ├── products/ # 独立产品打包(未来) + │ ├── review-system/ # 审稿系统独立产品 + │ ├── literature-system/ # AI文献独立产品 + │ └── data-cleaning-system/ # 数据清洗独立产品 + │ + ├── services/ # 微服务(未来) + │ ├── platform/ # 平台服务 + │ ├── capabilities/ # 通用能力服务 + │ └── modules/ # 业务模块服务 + │ + ├── extraction_service/ # Python服务(保持原位) + ├── docker-compose.yml # Docker配置 + ├── pnpm-workspace.yaml # Workspace配置 + └── package.json # 根package.json +``` + +**转换成本:** 2-3天 +**未来收益:** 节省7-11天 + +--- + +## 📊 关键指标 + +### 模块复用分析 + +| 通用能力 | 使用频率 | 依赖模块 | 优先级 | 状态 | +|---------|---------|---------|--------|------| +| **LLM网关** | 71% | AIA、ASL、PKB、DC、RVW | P0 | ❌ 待实现 | +| **文档处理** | 86% | AIA、ASL、PKB、DC、SSA、ST、RVW | P0 | ✅ 已实现 | +| **RAG引擎** | 43% | AIA、ASL、PKB | P1 | ✅ 已实现 | +| **ETL引擎** | 29% | DC、SSA | P2 | ❌ 待实现 | +| **医学NLP** | 14% | DC | P2 | ❌ 待实现 | + +### 模块独立性分析 + +| 模块 | 独立性 | 商业价值 | 可独立销售 | 优先级 | +|------|-------|---------|-----------|--------| +| RVW(审稿) | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ 是 | P1 | +| ASL(文献) | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ 是 | P0 | +| DC(数据清洗) | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ 是 | P1 | +| ADMIN(运营) | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ 是(SaaS) | P1 | +| SSA(统计分析) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⚠️ 与ST协同 | P2 | +| ST(分析工具) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⚠️ 与SSA协同 | P2 | +| AIA(AI问答) | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⚠️ 与PKB关联 | P2 | +| PKB(知识库) | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ 与AIA关联 | P2 | + +--- + +## 🎯 技术债务与投资决策 + +### 两个关键技术改造 + +| 改造项目 | 现在做 | 未来做 | 投入产出比 | 建议 | +|---------|-------|-------|-----------|------| +| **Schema隔离** | 1周 | 3-5周 | 300-500% | ⭐⭐⭐⭐⭐ 现在做 | +| **Monorepo转换** | 2-3天 | 7-11天 | 300-400% | ⭐⭐⭐⭐⭐ 现在做 | + +**核心结论:** +``` +现在投入: +- Schema隔离:3天 +- Monorepo转换:3天 +- 总计:6天(1周) + +未来节省: +- Schema隔离:15-25天 +- Monorepo转换:7-11天 +- 总计:22-36天(1个月+) + +投入产出比:300-500% + +建议:立即做! +``` + +--- + +## 📋 下一步行动方案 + +### 方案A:快速推进业务 ⭐⭐⭐ + +**适合:时间紧迫,必须立即上线ASL模块** + +**本周:** +- Day 1-7:ASL模块开发 + +**风险:** +- ❌ 技术债累积 +- ❌ 未来改造成本高(1个月) + +--- + +### 方案B:夯实基础,稳步推进 ⭐⭐⭐⭐⭐ **强烈推荐** + +**适合:重视长期架构健康,愿意投入1周** + +**Week 1:架构改造(6天)** +- Day 1-3:Schema隔离 + * 设计Schema结构 + * 修改Prisma Schema + * 数据迁移 + * 测试验证 + +- Day 4-6:Monorepo转换 + * 学习pnpm workspaces + * 重构代码结构 + * 提取共享代码 + * 测试验证 + +**Week 2-4:ASL模块开发** +- 享受清晰的架构 +- 享受代码复用的便利 + +**优点:** +- ✅ 一次性还清技术债 +- ✅ 为7个模块打基础 +- ✅ 避免未来1个月的重构成本 + +**投入产出比:** ⭐⭐⭐⭐⭐ 极高 + +--- + +### 方案C:折中方案 ⭐⭐⭐⭐ + +**适合:部分认同,希望快速看到业务进展** + +**本周:** +- Day 1-3:Monorepo转换(必须,近期开发运营管理端) +- Day 4-7:ASL模块开发 + +**未来(1-2个月后):** +- Schema隔离(数据量增长前) + +**优点:** +- ✅ 解决最紧迫的问题 +- ✅ 快速推进业务 + +**缺点:** +- ⚠️ Schema隔离成本会增加 + +--- + +## 🎉 今日成就总结 + +### 完成的核心工作 + +**1. 系统架构设计(100%)** +- ✅ 三层架构设计 +- ✅ 8个业务模块规划 +- ✅ 5个通用能力定义 +- ✅ 依赖关系分析 + +**2. 部署方案设计(100%)** +- ✅ 云端SaaS部署 +- ✅ 独立产品包部署 +- ✅ Electron单机版方案 +- ✅ 私有化部署 + +**3. 数据库架构(100%)** +- ✅ PostgreSQL Docker部署说明 +- ✅ Schema隔离方案 +- ✅ 逻辑vs物理隔离对比 +- ✅ 改造成本分析 + +**4. 运营管理端(100%)** +- ✅ 15个功能模块设计 +- ✅ 3阶段实施计划 +- ✅ 权限体系设计 +- ✅ 数据库Schema设计 + +**5. 模块独立部署(100%)** +- ✅ 完整打包方案 +- ✅ 共享服务方案 +- ✅ Electron架构设计 +- ✅ 代码复用率分析 + +**6. Monorepo架构(100%)** +- ✅ 必要性评估 +- ✅ 成本收益分析 +- ✅ 实施方案设计 +- ✅ 时机建议 + +**7. 文档体系重构(100%)** +- ✅ v2.0文档结构设计 +- ✅ 模块文档模板 +- ✅ 迁移计划 + +--- + +### 产出的核心价值 + +**技术价值:** +- ✅ 清晰的技术路线图(未来6-12个月) +- ✅ 完整的架构设计(三层架构、8个模块) +- ✅ 详细的实施方案(部署、数据库、代码组织) + +**商业价值:** +- ✅ 支持模块独立销售(审稿、AI文献、数据清洗) +- ✅ 支持多种部署模式(覆盖全市场) +- ✅ 支持灵活商业模式(订阅、License、模块化售卖) + +**决策价值:** +- ✅ 明确的优先级(P0-P2) +- ✅ 清晰的成本收益分析 +- ✅ 具体的实施建议 + +--- + +## 📈 架构成熟度评估 + +### 设计完整性:⭐⭐⭐⭐⭐ (5/5) + +- ✅ 系统架构:三层架构,职责清晰 +- ✅ 业务模块:8个模块,完整规划 +- ✅ 部署方案:4种模式,覆盖全市场 +- ✅ 数据库架构:Schema隔离,支持微服务 +- ✅ 代码组织:Monorepo,支持复用 +- ✅ 运营管理:15个功能,商业基础 + +### 可实施性:⭐⭐⭐⭐⭐ (5/5) + +- ✅ 详细的实施步骤 +- ✅ 明确的时间估算 +- ✅ 清晰的成本收益分析 +- ✅ 具体的技术方案 +- ✅ 现实的风险评估 + +### 商业价值:⭐⭐⭐⭐⭐ (5/5) + +- ✅ 支持模块独立销售 +- ✅ 支持多种部署模式 +- ✅ 支持灵活定价策略 +- ✅ 成本控制机制完善 + +--- + +## 🚀 明确的下一步 + +### 立即可做的3件事 + +**1. 开始ASL模块开发(方案A)** +- 使用现有架构 +- 快速推进业务 +- 风险:累积技术债 + +**2. Schema隔离 + Monorepo(方案B)** ⭐⭐⭐⭐⭐ +- 投入1周 +- 夯实基础 +- 避免未来1个月改造成本 + +**3. Monorepo转换后开发(方案C)** +- 投入2-3天 +- 快速推进 +- 延后Schema隔离 + +--- + +## 💼 需要讨论的问题 + +### 技术决策 + +1. **Schema隔离:** 现在做 or 延后? + - 建议:现在做(成本最低) + +2. **Monorepo:** 现在转换 or 延后? + - 建议:现在转换(近期开发运营管理端) + +3. **部署优先级:** 先做哪种部署? + - 建议:专注云端SaaS(阶段一) + +### 业务规划 + +4. **模块开发顺序:** ASL → DC → SSA? + - 建议:ASL(已有PRD)→ DC(核心竞争力) + +5. **运营管理端时机:** 何时开发? + - 建议:ASL完成后(1-2个月后) + +6. **独立产品时机:** 何时打包独立产品? + - 建议:阶段二(6-12个月后) + +--- + +## 🎯 我的最终建议 + +**推荐:方案B(夯实基础,稳步推进)** + +**实施计划:** +``` +Week 1(本周):架构改造 + Day 1-3:Schema隔离 + Day 4-6:Monorepo转换 + +Week 2-4(下2-3周):ASL模块开发 + 标题摘要初筛 + 全文复筛 + +Week 5-6(第5-6周):ASL模块完善 + 全文解析与数据提取 + +Week 7-8(第7-8周):运营管理端P0功能 + 用户管理 + Feature Flag + LLM模型管理 +``` + +**核心理由:** +1. ✅ 投入1周,节省未来1个月 +2. ✅ 为7个模块打下坚实基础 +3. ✅ 架构清晰,长期收益巨大 +4. ✅ 避免技术债累积 + +--- + +**最后更新:** 2025-11-06 +**总结人:** 技术架构师 + +--- + +## 📖 相关文档 + +- [系统架构分层设计](./01-系统架构分层设计.md) +- [文档体系重构方案v2.0](./02-文档体系重构方案.md) +- [Schema隔离方案与成本分析](./05-Schema隔离方案与成本分析.md) +- [模块独立部署与单机版方案](./06-模块独立部署与单机版方案.md) +- [Monorepo架构评估](./07-Monorepo架构评估.md) + + + + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/09-总体需求文档(PRD).md b/docs/00-系统总体设计/09-总体需求文档(PRD).md new file mode 100644 index 00000000..78a3084c --- /dev/null +++ b/docs/00-系统总体设计/09-总体需求文档(PRD).md @@ -0,0 +1,100 @@ +# **壹证循科技 \- AI科研产品需求文档 (PRD)** + +文档版本: 1.0 +日期: 2025年11月5日 +致: 产品部、市场部、销售部、技术部及全体同仁 + +## **1\. 文档目的** + +本需求文档 (Product Requirements Document, PRD) 旨在清晰定义"壹证循科技AI科研产品"的核心功能、目标用户及关键的非功能性需求。 + +本文档是跨部门协作的基石,用于确保技术实现、产品设计与市场策略保持高度一致,特别是应对我们复杂的商业模式和多样的客户部署需求。 + +## **2\. 产品愿景与目标** + +产品愿景: +打造一个覆盖临床科研全生命周期、AI驱动的一站式智能科研平台。 +核心目标: +赋能临床医生和科研人员,通过AI与自动化工具,极大地提升科研效率、数据处理质量和文献分析深度,缩短从数据到洞察的周期。 + +## **3\. 目标用户画像 (User Personas)** + +1. **临床医生/研究者**: + * **画像**:三甲医院的科室主任、主治医师、研究生。 + * **痛点**:有科研项目(如国自然、GCP、回顾性研究)压力,但临床工作繁忙,缺乏专业统计和数据处理时间。 + * **需求**:需要"开箱即用"的工具,快速处理院内数据、分析文献、完成统计、撰写论文。**极其关注患者数据隐私与安全**。 +2. **医院科室/IT部门**: + * **画像**:医院的科研管理科室、信息中心。 + * **痛点**:需要为全院提供合规、可控的科研工具;希望科研数据(尤其是HIS、LIS数据)保留在院内。 + * **需求**:采购的工具必须支持**私有化部署**,且安全、稳定、易于管理。 + +## **4\. 核心功能需求 (Functional Requirements)** + +产品功能矩阵共分为7大核心模块,共同构成科研全流程闭环。 + +| 模块ID | 模块名称 | 核心功能描述 | +| :---- | :---- | :---- | +| **F1** | **智能统计分析 (SSA)** | 提供3条核心分析路径:队列研究、预测模型、RCT研究。实现从数据上传、质控、分析到报告导出的完整流程。 | +| **F2** | **统计分析工具 (ST)** | 提供一个包含100+种轻量化统计工具的工具箱,满足即时、小型的分析需求。 | +| **F3** | **AI智能回答 (AIA)** | 提供10+个专业AI智能体,覆盖科研关键节点:选题评价、PICO梳理、样本量计算、研究方案制定、文章润色与翻译等。 | +| **F4** | **AI智能文献 (ASL)** | 提供AI驱动的文献工作流:智能检索、标题摘要初筛、全文复筛、信息提取,并支持Meta分析、证据图谱等应用。 | +| **F5** | **个人知识库 (PKB)** | 允许用户创建私人文献库(如每个库50篇),并能基于库内文献进行AI问答(RAG)。 | +| **F6** | **数据清洗整理 (DC)** | **(核心难点)** 提供专业工具,处理医院导出的海量(百万行级)、多表格(10+张)的Excel数据,实现两大功能: 1\. **表格ETL**:将多张散乱的流水表,按"患者ID"和"时间"重组为一张干净的分析宽表。 2\. **文本提取(NER)**:从病理报告、住院小结等大段文本中,自动提取结构化的关键字段(如TNM分期)。 | +| **F7** | **个人中心 (UAM)** | 提供账户管理、版本信息、帮助中心、订单管理等基础支撑功能。 | + +## **5\. 关键非功能性需求 (Non-Functional Requirements)** + +这是本产品在商业推广中**最复杂、最核心**的需求,是技术架构必须解决的关键挑战。 + +### **NFR-1: 部署模式灵活性 (Deployment Flexibility)** + +产品必须支持以下四种部署形态,以满足不同客户(尤其是医院)对数据安全和合规性的严苛要求。 + +| 部署形态 | 描述 | 关键要求 | +| :---- | :---- | :---- | +| **云端SaaS版** | (默认) 产品部署在公有云,用户通过浏览器按需订阅使用。 | 必须支持多租户、高可用。 | +| **私有化部署** | (医院/机构) 将**整个平台**或**指定模块**(如DC, SSA)部署在客户的内网服务器上。 | 必须提供容器化(Docker/K8s)的一键部署方案。数据100%不出内网。 | +| **混合部署** | (私有化客户) 客户在内网使用"私有化"的DC/SSA模块,同时能调用我们"云端"的ASL/AIA模块。 | 平台必须支持这种"本地+云端"的混合调用模式,前端需智能路由。 | +| **单机版** | (个人医生) 提供**可安装的桌面应用(Windows/Mac)**,针对DC、SSA、ASL等核心模块。 | **数据100%本地化**。文献、病例原始文件严禁上传。必须支持离线运行(如DC, SSA)。 *(例外:ASL模块可受控调用云端LLM,但仅限发送"摘要"而非"原文")* | + +### **NFR-2: 商业模式可配置 (Commercial Flexibility)** + +产品架构必须支持销售和市场策略的灵活性。 + +1. **SaaS多版本 (Tiered SaaS)** + * **需求**:云端SaaS版必须支持至少三个等级:**专业版、高级版、旗舰版**。 + * **实现**:后端需具备完善的\*\*功能开关(Feature Flag)\*\*系统,能按版本限制用户可用的功能模块、使用次数、AI模型等。 +2. **模块化售卖 (Modular Sales)** + * **需求**:任何一个功能模块(如F4: AI智能文献)都**必须能**被独立打包,作为单独的产品进行售卖。 + * **实现**:技术架构必须是"松耦合"的,确保模块间没有硬依赖。 +3. **AI成本可控 (Configurable AI)** + * **需求**:为应对不同客户的成本敏感度,平台必须支持**动态切换**后端的大语言模型。 + * **实现**:例如,专业版用户默认调用成本较低的DeepSeek,旗舰版用户可调用更高质量的Claude或GPT。 + +### **NFR-3: 平台与性能 (Platform & Performance)** + +1. **平台兼容性**: + * Web版:必须支持所有现代浏览器(Chrome, Edge, Firefox, Safari)。 + * 单机版:必须支持 **Windows 10 (64位)及以上** 和 **macOS (Intel & Apple Silicon)**。 + * **【重点】明确不支持**:为保证产品稳定性和数据安全,单机版**不支持**任何32位操作系统及Windows 7等已停止服务的系统。 +2. **数据处理性能 (DC模块)**: + * 产品(尤其是单机版)必须能稳定处理百万行级别的多表Excel数据,**严禁**因内存溢出而导致程序崩溃。 + * 产品(服务器版)在处理相同数据时,应追求极致效率,在数分钟内完成处理。 +3. **文本提取质量 (DC模块)**: + * 产品必须能提供高准确率的医学文本提取。 + * **服务器版(最优解)**:应使用SOTA(业界顶尖)的LLM(如Claude 3)以保证最高质量。 + * **单机版(妥协解)**:为保证数据隐私,必须使用100%本地运行的NLP模型(如spaCy),在保护隐私的前提下尽力提高准确率。 + + + + + + + + + + + + + + diff --git a/docs/03-业务规则/核心业务规则总览.md b/docs/00-系统总体设计/10-核心业务规则总览.md similarity index 99% rename from docs/03-业务规则/核心业务规则总览.md rename to docs/00-系统总体设计/10-核心业务规则总览.md index 25f81759..3d92736f 100644 --- a/docs/03-业务规则/核心业务规则总览.md +++ b/docs/00-系统总体设计/10-核心业务规则总览.md @@ -593,3 +593,15 @@ + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/99-下一步行动决策建议.md b/docs/00-系统总体设计/99-下一步行动决策建议.md new file mode 100644 index 00000000..3d961a4e --- /dev/null +++ b/docs/00-系统总体设计/99-下一步行动决策建议.md @@ -0,0 +1,630 @@ +# 下一步行动决策建议 + +> **文档版本:** v1.0 +> **创建日期:** 2025-11-06 +> **文档目的:** 帮助您做出明确的技术和业务决策 + +--- + +## 🎯 当前状态 + +### ✅ 今日已完成 + +**架构设计(100%完成):** +- ✅ 8个核心文档(6000+行) +- ✅ 三层架构设计 +- ✅ 8个业务模块规划 +- ✅ 4种部署方案 +- ✅ 完整的技术路线图 + +**核心决策(100%完成):** +- ✅ 明确了运营管理端的定位和功能 +- ✅ 明确了模块独立部署方案 +- ✅ 明确了Electron单机版方案 +- ✅ 明确了Schema隔离的时机和成本 +- ✅ 明确了Monorepo的必要性和时机 + +--- + +## 🤔 需要您决策的关键问题 + +### 问题1:是否现在做Schema隔离?⭐⭐⭐⭐⭐ + +**选项A:现在做(强烈推荐)** +``` +投入:1周(3天开发 + 2天测试) +收益:避免未来3-5周改造 +ROI:300-500% + +优势: +✅ 数据量小(< 1万行),迁移快 +✅ 为7个模块打基础 +✅ 支持模块独立部署 +✅ 支持微服务拆分 + +劣势: +⚠️ ASL模块延迟1周 +``` + +**选项B:延后(不推荐)** +``` +投入:0(当前) +成本:未来3-5周改造 + +优势: +✅ 立即开始ASL开发 + +劣势: +❌ 技术债累积 +❌ 未来成本5倍 +❌ 数据量大,迁移风险高 +``` + +**我的建议:选择A(现在做)** ⭐⭐⭐⭐⭐ + +--- + +### 问题2:是否现在转换Monorepo?⭐⭐⭐⭐⭐ + +**选项A:现在转换(强烈推荐)** +``` +投入:2-3天 +收益:节省未来7-11天 +ROI:300-400% + +优势: +✅ 近期开发运营管理端(独立前端) +✅ 代码复用变容易 +✅ 为Electron单机版打基础 +✅ 为独立产品打包打基础 + +劣势: +⚠️ 需要学习新技术(但有AI全程指导) +``` + +**选项B:延后(不推荐)** +``` +投入:0(当前) +成本:未来7-11天改造 + +优势: +✅ 立即开始ASL开发 + +劣势: +❌ 代码重复(类型定义、工具函数等) +❌ 运营管理端开发时必须转换 +❌ 未来成本更高 +``` + +**我的建议:选择A(现在转换)** ⭐⭐⭐⭐⭐ + +**补充说明:** +- 如果近期(1-2个月)开发运营管理端,Monorepo是必须的 +- 如果6个月内不开发运营管理端,可以延后 + +--- + +### 问题3:下一步开发什么? + +**选项A:立即开发ASL模块** +``` +时间:从明天开始 +内容:标题摘要初筛 + 全文复筛 + +优势: +✅ 快速推进业务 +✅ 满足市场需求 + +劣势: +❌ 技术债累积 +❌ 未来改造成本高 +``` + +**选项B:先做架构改造,再开发ASL** +``` +时间: +- Week 1:Schema隔离 + Monorepo(6天) +- Week 2+:ASL模块开发 + +优势: +✅ 架构清晰,长期收益 +✅ 代码复用便利 +✅ 避免未来1个月改造成本 + +劣势: +⚠️ ASL模块延迟1周 +``` + +**选项C:只做Monorepo,延后Schema隔离** +``` +时间: +- Day 1-3:Monorepo转换 +- Day 4+:ASL模块开发 +- 未来:Schema隔离(数据量增长前) + +优势: +✅ 解决最紧迫的问题(运营管理端需要) +✅ 快速推进业务 + +劣势: +⚠️ Schema隔离成本会增加 +``` + +**我的建议:选择B(先做架构改造)** ⭐⭐⭐⭐⭐ + +--- + +## 📊 三个方案对比 + +| 维度 | 方案A:立即开发 | 方案B:先改造 | 方案C:折中 | +|------|---------------|-------------|-----------| +| **ASL上线时间** | 最快(2周) | 延迟1周(3周) | 延迟3天(2.5周) | +| **技术债** | 累积 | 还清 | 部分还清 | +| **未来改造成本** | 1个月 | 0 | 3-5周 | +| **代码质量** | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | +| **长期收益** | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | +| **投入产出比** | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | +| **推荐度** | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | + +--- + +## 🎯 我的最终建议 + +### 推荐:方案B(先做架构改造,再开发)⭐⭐⭐⭐⭐ + +### 核心理由 + +**1. 投入1周,节省未来1个月** +``` +现在投入:6天 + - Schema隔离:3天 + - Monorepo转换:3天 + +未来节省:22-36天 + - Schema隔离:15-25天 + - Monorepo转换:7-11天 + +投入产出比:300-500% +``` + +**2. 正处于最佳时机** +``` +当前: +✅ 数据量小(< 1万行) +✅ 代码量适中 +✅ 只有2个已完成模块(AIA、PKB) +✅ 即将开发多个新模块(ASL、DC、ADMIN等) + +未来: +❌ 数据量大(100万行+) +❌ 代码量大 +❌ 7-8个模块同时运行 +❌ 重构影响范围巨大 +``` + +**3. 为7个模块打下坚实基础** +``` +即将开发的模块: +- ASL(AI智能文献) +- DC(数据清洗) +- SSA(智能统计) +- ST(分析工具) +- RVW扩展(完整审稿系统) +- ADMIN(运营管理端) + +这些模块都将受益于: +✅ Schema隔离(清晰的数据架构) +✅ Monorepo(代码复用便利) +``` + +**4. 避免技术债累积** +``` +技术债的特点: +- 时间越久,利息越高 +- 改造成本成倍增长 +- 影响业务创新速度 + +现在改造 = 一次性还清 +轻装上阵,专注业务 +``` + +--- + +## 📅 详细实施计划(方案B) + +### Week 1:架构改造(6天) + +**Day 1-3:Schema隔离** + +``` +Day 1(准备): +- [ ] 设计Schema结构 + * platform_schema(用户、权限、Feature Flag) + * aia_schema(AI问答) + * asl_schema(AI文献) + * pkb_schema(知识库) + * dc_schema(数据清洗) + * review_schema(稿件审查) + * admin_schema(运营管理) + +- [ ] 编写迁移脚本 +- [ ] 准备测试用例 + +Day 2(开发环境改造): +- [ ] 创建所有Schema(10分钟) +- [ ] 修改Prisma Schema(2-4小时) + * 为每个Model添加@@schema指定 + * 更新外键关联 + * 启用multiSchema特性 + +- [ ] 运行Prisma Migrate +- [ ] 执行数据迁移 +- [ ] 运行测试 + +Day 3(生产环境迁移 + 验证): +- [ ] 备份生产数据库 +- [ ] 执行Schema迁移 +- [ ] 数据迁移 +- [ ] 验证测试 +- [ ] 监控错误日志 +- [ ] 性能测试 +``` + +**Day 4-6:Monorepo转换** + +``` +Day 4(学习 + 设计): +- [ ] 学习pnpm workspaces(1-2小时) +- [ ] 设计目录结构 + * packages/(放什么?) + * apps/(放什么?) + +- [ ] 设计共享包 + * shared-types(类型定义) + * platform-core(平台核心,暂时不拆) + +Day 5(重构实施): +- [ ] 创建根package.json和pnpm-workspace.yaml +- [ ] 创建packages/shared-types/ +- [ ] 移动frontend到apps/frontend/ +- [ ] 移动backend到apps/backend/ +- [ ] 提取共享类型定义 +- [ ] 配置workspace依赖 +- [ ] 更新import路径 + +Day 6(测试验证): +- [ ] 测试前端启动 +- [ ] 测试后端启动 +- [ ] 测试类型提示 +- [ ] 测试构建 +- [ ] 验证所有功能 +- [ ] 优化配置 +``` + +--- + +### Week 2-4:ASL模块开发 + +**Week 2:标题摘要初筛** +- [ ] 数据库设计(asl_schema) +- [ ] API设计 +- [ ] 后端实现(PICO配置、AI判断、筛选结果) +- [ ] 前端实现(表格工作台、审查弹窗) + +**Week 3:全文复筛** +- [ ] PDF查看器集成 +- [ ] 全文AI判断 +- [ ] 前端实现(全文审查界面) + +**Week 4:完善和测试** +- [ ] 功能完善 +- [ ] 测试 +- [ ] 优化 + +--- + +## 🎯 关键成功因素 + +### 如果选择方案B(架构改造) + +**成功要素:** +1. ✅ **坚定的决心**:相信长期价值,不急功近利 +2. ✅ **AI全程协助**:我会全程指导每一步 +3. ✅ **详细的计划**:每天的任务都清晰明确 +4. ✅ **充足的时间**:愿意投入6天做架构改造 + +**预期结果:** +- ✅ 1周后,拥有清晰、健壮的架构 +- ✅ 为未来7个模块打下坚实基础 +- ✅ 避免未来1个月的技术债偿还 + +--- + +### 如果选择方案A(立即开发) + +**成功要素:** +1. ⚠️ **严格的代码规范**:必须使用表名前缀(asl_projects) +2. ⚠️ **延后但不放弃**:数据量增长前必须做Schema隔离 +3. ⚠️ **及时转换**:开发运营管理端前必须做Monorepo + +**触发架构改造的条件:** +- 数据量超过50万行 +- 开始开发运营管理端 +- 代码重复严重 + +--- + +## 💡 我的个人建议 + +### 如果我是您的技术架构师 + +**我会选择方案B(先做架构改造)** + +**理由:** + +**1. 技术债的利息太高** +``` +技术债本金:6天工作量 +6-12个月后利息:22-36天 + +利率:300-500% + +这是任何投资都无法企及的回报率 +``` + +**2. 现在是最佳时机** +``` +数据量:小(迁移快) +代码量:适中(重构容易) +模块数:少(测试简单) +团队规模:小(沟通成本低) + +6个月后,以上所有条件都会恶化 +``` + +**3. 为未来7个模块负责** +``` +如果现在不做: +- ASL模块:可能有一定技术债 +- DC模块:继承ASL的技术债 +- SSA模块:继承DC的技术债 +- ... +- 7个模块叠加,技术债巨大 + +如果现在做: +- ASL模块:享受清晰架构 +- DC模块:享受清晰架构 +- ... +- 7个模块都受益 +``` + +**4. 长期vs短期** +``` +短期思维: +- 快1周上线ASL +- 但未来付出1个月代价 + +长期思维: +- 投入1周改造 +- 未来7个模块都受益 +- 长期收益巨大 +``` + +--- + +## 📋 实施清单(方案B) + +### 如果您决定采纳方案B + +**我会帮您:** + +**Schema隔离(Day 1-3):** +1. ✅ 设计完整的Schema结构 +2. ✅ 编写Prisma Schema修改方案 +3. ✅ 编写数据迁移脚本 +4. ✅ 提供详细的实施步骤 +5. ✅ 全程指导和答疑 + +**Monorepo转换(Day 4-6):** +1. ✅ 设计Monorepo目录结构 +2. ✅ 编写pnpm-workspace.yaml配置 +3. ✅ 提供重构步骤清单 +4. ✅ 帮助提取共享代码 +5. ✅ 全程指导和答疑 + +**ASL模块开发(Week 2+):** +1. ✅ 数据库设计 +2. ✅ API设计 +3. ✅ 前后端实现指导 + +--- + +## 🎯 决策矩阵 + +### 如何选择? + +**选择方案B,如果您:** +- ✅ 重视长期架构健康 +- ✅ 愿意投入1周做改造 +- ✅ 相信投入产出比(300-500%) +- ✅ 未来有多个模块要开发 +- ✅ 未来有模块独立部署需求 + +**选择方案C,如果您:** +- ⚠️ 愿意做Monorepo(必需) +- ⚠️ 但希望尽快看到ASL进展 +- ⚠️ 接受未来Schema隔离成本会增加 + +**选择方案A,如果您:** +- ⚠️ 时间极其紧迫(如:有硬性deadline) +- ⚠️ ASL必须在2周内上线 +- ⚠️ 接受未来1个月的改造成本 +- ⚠️ 愿意承担技术债 + +--- + +## 📊 投入产出比总结 + +| 方案 | 立即投入 | 未来成本 | ASL上线时间 | 长期收益 | 推荐度 | +|------|---------|---------|------------|---------|-------| +| **方案A** | 0 | 22-36天 | 2周 | ⭐⭐ | ⭐⭐⭐ | +| **方案B** | 6天 | 0 | 3周 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | +| **方案C** | 2-3天 | 15-25天 | 2.5周 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | + +--- + +## 🚀 立即可执行的行动 + +### 如果您决定方案B(推荐) + +**明天开始:** +```bash +# Day 1:Schema隔离设计 +我会帮您: +1. 设计完整的Schema结构 +2. 修改Prisma Schema +3. 编写迁移脚本 +4. 准备测试用例 + +您需要: +1. 审阅Schema设计 +2. 确认迁移方案 +3. 执行迁移命令 +``` + +--- + +### 如果您决定方案C(折中) + +**明天开始:** +```bash +# Day 1:Monorepo转换 +我会帮您: +1. 设计Monorepo目录结构 +2. 编写配置文件 +3. 提供重构步骤 +4. 全程指导 + +您需要: +1. 安装pnpm(如果没有) +2. 执行重构命令 +3. 测试验证 +``` + +--- + +### 如果您决定方案A(立即开发) + +**明天开始:** +```bash +# Day 1:ASL模块数据库设计 +我会帮您: +1. 设计asl_schema表结构 +2. 编写Prisma Schema +3. API设计 +4. 前端组件设计 + +您需要: +1. 审阅设计方案 +2. 确认后开始实施 +``` + +--- + +## 💼 最后的决策建议 + +### 如果只能记住一件事 + +**记住这个:** +``` +现在投入1周(Schema隔离 + Monorepo) +节省未来1个月(22-36天) + +这是300-500%的投资回报率 + +而且: +- 现在是成本最低的时机 +- 未来成本会成倍增长 +- 这是为7个模块打基础 +``` + +### 如果还在犹豫 + +**问自己3个问题:** + +1. **我的目标是什么?** + - 快速上线1个模块?→ 方案A + - 构建可持续的产品?→ 方案B + +2. **我能接受延迟吗?** + - 完全不能接受1周延迟?→ 方案A + - 可以接受1周换1个月?→ 方案B + +3. **我的技术债观念?** + - 先上线,后还债?→ 方案A + - 架构优先,稳步推进?→ 方案B + +--- + +## 🎉 今日成果回顾 + +**我们今天完成了:** +- ✅ 8个核心架构文档(6000+行) +- ✅ 完整的技术路线图 +- ✅ 清晰的决策建议 + +**这些成果的价值:** +- ✅ 指导未来6-12个月的开发 +- ✅ 避免走弯路 +- ✅ 支持模块化销售和多种部署 + +**您现在拥有的:** +- ✅ 清晰的架构设计 +- ✅ 明确的实施路径 +- ✅ 具体的成本收益分析 + +--- + +## 🤝 我的承诺 + +**无论您选择哪个方案,我都会全程协助!** + +**方案B:** +- ✅ Day 1-3:Schema隔离全程指导 +- ✅ Day 4-6:Monorepo转换全程指导 +- ✅ Week 2+:ASL模块开发全程协助 + +**方案C:** +- ✅ Day 1-3:Monorepo转换全程指导 +- ✅ Day 4+:ASL模块开发全程协助 + +**方案A:** +- ✅ 立即开始ASL模块开发全程协助 +- ⚠️ 提醒技术债风险 +- ⚠️ 在关键时机提醒架构改造 + +--- + +**您的决定?** 😊 + +请告诉我您的选择,我们立即开始行动! + +--- + +**最后更新:** 2025-11-06 +**文档作者:** 技术架构师 + + + + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/README.md b/docs/00-系统总体设计/README.md new file mode 100644 index 00000000..010c8cac --- /dev/null +++ b/docs/00-系统总体设计/README.md @@ -0,0 +1,278 @@ +# 系统总体设计 + +> **目录说明:** 本目录包含壹证循AI科研平台的系统总体设计文档 +> **文档层级:** 总体层面(Platform Level) +> **目标读者:** 技术架构师、产品经理、项目负责人 + +--- + +## 📚 文档导航 + +### 📌 快速导航 + +**🎉 重要:** [2025-11-06 架构设计完成报告](./%5B重要%5D%202025-11-06%20架构设计完成报告.md) - 今日重大里程碑! + +**👉 第一次阅读:** [00-阅读指南](./00-阅读指南.md) - 如何阅读这些文档 + +**👉 需要决策:** [99-下一步行动决策建议](./99-下一步行动决策建议.md) - 3个方案对比 + +--- + +### 核心文档 + +| 文档 | 说明 | 状态 | 优先级 | +|------|------|------|-------| +| **[00-阅读指南](./00-阅读指南.md)** | **如何阅读这些文档?** | ✅ 完成 | ⭐⭐⭐ **首次必读** | +| [00-今日架构设计总结](./00-今日架构设计总结.md) | 2025-11-06工作总结 | ✅ 完成 | ⭐⭐ 推荐阅读 | +| **[99-下一步行动决策建议](./99-下一步行动决策建议.md)** | **3个方案对比+决策建议** | ✅ 完成 | ⭐⭐⭐ **决策必读** | +| [00-核心问题解答](./00-核心问题解答.md) | 回答关键架构问题 | ✅ 完成 | P0 | +| [01-系统架构分层设计](./01-系统架构分层设计.md) | 三层架构设计(平台、能力、业务) | ✅ 完成 | P0 | +| [02-文档体系重构方案](./02-文档体系重构方案.md) | 文档结构重组方案v2.0 | ✅ 完成 | P0 | +| [03-数据库架构说明](./03-数据库架构说明.md) | PostgreSQL Docker部署说明 | ✅ 完成 | P0 | +| [04-运营管理端架构设计](./04-运营管理端架构设计.md) | 15个功能模块设计 | ✅ 完成 | P0 | +| [05-Schema隔离方案与成本分析](./05-Schema隔离方案与成本分析.md) | 逻辑隔离vs物理隔离 | ✅ 完成 | P0 | +| [06-模块独立部署与单机版方案](./06-模块独立部署与单机版方案.md) | 完整打包+Electron方案 | ✅ 完成 | P0 | +| [07-Monorepo架构评估](./07-Monorepo架构评估.md) | 当前阶段是否需要Monorepo | ✅ 完成 | P0 | +| [08-架构设计全景图](./08-架构设计全景图.md) | 一图看懂整个系统架构 | ✅ 完成 | ⭐ 推荐阅读 | +| 09-总体需求文档(PRD).md | 产品总体需求 | ⏳ 待迁移 | P1 | +| 10-技术架构白皮书.md | 技术架构总览 | ⏳ 待迁移 | P1 | +| 11-商业模式设计.md | 商业模式与定价 | ⏳ 待创建 | P2 | +| 12-版本规划.md | 版本演进路线图 | ⏳ 待创建 | P2 | + +--- + +## 🎯 核心内容概要 + +### 📌 快速开始 + +**如果您是第一次阅读,强烈推荐:** +1. ⭐ [今日架构设计总结](./00-今日架构设计总结.md) - 快速了解今天的成果 +2. ⭐ [架构设计全景图](./08-架构设计全景图.md) - 一图看懂整个系统 + +--- + +### 1. 系统架构分层 + +**三层架构 + 8个业务模块:** +``` +┌──────────────────────────────────────────────────┐ +│ 业务模块层(8个模块) │ +│ AIA | ASL | PKB | DC | SSA | ST | RVW | ADMIN │ +└──────────────────────────────────────────────────┘ + ↓ 依赖 +┌──────────────────────────────────────────────────┐ +│ 通用能力层(5个能力) │ +│ LLM网关(71%) | 文档处理(86%) | RAG(43%) │ +│ ETL(29%) | 医学NLP(14%) │ +└──────────────────────────────────────────────────┘ + ↓ 依赖 +┌──────────────────────────────────────────────────┐ +│ 平台基础层 │ +│ 用户权限 | 存储 | 通知 | 监控 | 配置 │ +└──────────────────────────────────────────────────┘ +``` + +**详见:** [01-系统架构分层设计.md](./01-系统架构分层设计.md) + +--- + +### 2. 文档体系结构 + +**新文档结构:** +``` +docs/ + ├── 00-系统总体设计/ # 总体层面 + ├── 01-平台基础层/ # 平台层(UAM、存储、通知等) + ├── 02-通用能力层/ # 通用能力(LLM网关、文档处理等) + ├── 03-业务模块/ # 7个独立业务模块 + │ ├── AIA-AI智能问答/ + │ ├── ASL-AI智能文献/ + │ ├── PKB-个人知识库/ + │ ├── DC-数据清洗整理/ + │ ├── SSA-智能统计分析/ + │ ├── ST-统计分析工具/ + │ └── RVW-稿件审查系统/ + ├── 04-开发规范/ + ├── 05-部署文档/ + ├── 06-测试文档/ + ├── 07-运维文档/ + └── 08-项目管理/ +``` + +**详见:** [02-文档体系重构方案.md](./02-文档体系重构方案.md) + +--- + +### 3. 核心决策 + +#### 部署模式(4种) +- ✅ 云端SaaS版(P0,当前) +- ✅ 独立产品包(P1,阶段二)- 支持模块化销售 +- ✅ Electron单机版(P2,阶段二)- 代码复用85%+ +- ✅ 私有化部署(P1,阶段二) +- ❌ ~~混合部署~~(不考虑) + +#### 模块划分(8个业务模块) +1. **AIA** - AI智能问答 ✅ 已完成 +2. **ASL** - AI智能文献 ⏳ 下一步重点 +3. **PKB** - 个人知识库 ✅ 已完成 +4. **DC** - 数据清洗整理 ⏳ 规划中 +5. **SSA** - 智能统计分析 ⏳ 规划中 +6. **ST** - 统计分析工具 ⏳ 规划中 +7. **RVW** - 稿件审查系统 ⚡ 独立系统 +8. **ADMIN** - 运营管理端 ⭐ v2.0新增 + +#### 核心能力(5个通用能力) +1. **LLM网关** ⭐ 最高优先级,5个模块依赖(71%复用率) +2. **文档处理引擎** ✅ 已实现,6个模块依赖(86%复用率) +3. **RAG引擎** ✅ 已实现,3个模块依赖(43%复用率) +4. **ETL引擎** ⏳ 待实现,2个模块依赖(29%复用率) +5. **医学NLP** ⏳ 待实现,1个模块依赖(14%复用率) + +#### 技术改造决策 +1. **Schema隔离** - 建议:现在做(1周)vs 未来做(3-5周)⭐⭐⭐⭐⭐ +2. **Monorepo转换** - 建议:现在做(2-3天)vs 未来做(7-11天)⭐⭐⭐⭐⭐ + +**详见:** [00-核心问题解答.md](./00-核心问题解答.md) + +--- + +## 🚀 架构演进路径 + +### 阶段一:模块化单体(当前 - 6个月) + +**目标:** 云端SaaS版MVP + +**关键纪律:** +- ✅ 严格按模块划分代码 +- ✅ 数据表使用模块前缀(逻辑隔离) +- ✅ 模块间不直接import + +**优先开发:** +- ASL(AI智能文献) +- DC(数据清洗) +- LLM网关 +- Schema隔离 + +--- + +### 阶段二:首次拆分(6-18个月) + +**触发条件:** +- 有客户要求私有化部署 +- 有客户要求单机版 +- 需要独立销售某个模块 + +**架构调整:** +- 引入API网关 +- 引入K8s(可选) +- 拆分RVW(审稿系统)为独立服务 + +--- + +### 阶段三:全面微服务(18个月+) + +**目标:** 所有模块独立部署,支持灵活组合 + +--- + +## 📊 关键指标 + +### 模块复用分析 + +| 通用能力 | 使用频率 | 复用模块数 | 优先级 | +|---------|---------|-----------|--------| +| LLM网关 | 71% | 5/7 | P0 | +| 文档处理 | 86% | 6/7 | P0 | +| RAG引擎 | 43% | 3/7 | P1 | +| ETL引擎 | 29% | 2/7 | P2 | +| 医学NLP | 14% | 1/7 | P2 | + +### 模块独立性分析 + +| 模块 | 独立性 | 商业价值 | 可独立销售 | +|------|-------|---------|-----------| +| RVW(审稿) | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ 是 | +| ASL(文献) | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ 是 | +| DC(数据清洗) | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ 是 | +| SSA(统计分析) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⚠️ 与ST协同 | +| ST(分析工具) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⚠️ 与SSA协同 | +| AIA(AI问答) | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⚠️ 与PKB关联 | +| PKB(知识库) | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ 与AIA关联 | + +--- + +## ✅ 当前任务清单 + +### P0任务(已完成)✅ + +- [x] 系统架构分层设计 +- [x] 文档体系重构方案v2.0 +- [x] 核心问题解答 +- [x] 数据库架构说明 +- [x] 运营管理端架构设计 +- [x] Schema隔离方案与成本分析 +- [x] 模块独立部署与单机版方案 +- [x] Monorepo架构评估 +- [x] 架构设计全景图 +- [x] 今日工作总结 + +### P1任务(待决策)⏳ + +**关键决策点:** +- [ ] 是否现在做Schema隔离?(建议:是,1周) +- [ ] 是否现在转换Monorepo?(建议:是,2-3天) + +**如果决定先做架构改造(方案B):** +- [ ] Week 1:Schema隔离 + Monorepo转换(6天) +- [ ] Week 2+:ASL模块开发 + +**如果决定立即开发(方案A):** +- [ ] Week 1+:ASL模块开发 +- [ ] 未来:架构改造(成本更高) + +### P2任务(后续) + +- [ ] 迁移总体需求文档和技术架构白皮书 +- [ ] 补充ASL模块缺失文档 +- [ ] LLM网关详细设计 +- [ ] RVW独立系统规划 +- [ ] 补充运营管理端详细文档 + +--- + +## 📖 相关文档 + +### 平台基础层 +- [01-平台基础层/](../01-平台基础层/) - 用户权限、存储、通知等 + +### 通用能力层 +- [02-通用能力层/](../02-通用能力层/) - LLM网关、文档处理、RAG等 + +### 业务模块 +- [03-业务模块/](../03-业务模块/) - 7个独立业务模块 + +### 项目管理 +- [08-项目管理/](../08-项目管理/) - 开发计划、里程碑、每日进度 + +--- + +## 🤝 贡献指南 + +### 如何更新文档 + +1. **总体架构调整**:需要团队讨论,更新本目录文档 +2. **模块设计调整**:更新对应模块目录文档 +3. **文档格式**:遵循Markdown规范,包含目录、表格、代码块 + +### 文档审核流程 + +1. 技术架构师审核总体文档 +2. 模块负责人审核模块文档 +3. 定期同步文档与代码 + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + diff --git a/docs/00-系统总体设计/[AI对接] 快速上下文.md b/docs/00-系统总体设计/[AI对接] 快速上下文.md new file mode 100644 index 00000000..9033c004 --- /dev/null +++ b/docs/00-系统总体设计/[AI对接] 快速上下文.md @@ -0,0 +1,167 @@ +# [AI对接] 快速上下文 + +> **阅读时间:** 2分钟 +> **Token消耗:** ~800 tokens +> **适用场景:** 新AI首次对话,快速了解项目全貌 +> **文档版本:** v2.0 +> **最后更新:** 2025-11-06 + +--- + +## 一句话描述 + +**壹证循AI科研平台**:覆盖医学科研全流程的智能化平台,包含8个业务模块,支持4种部署模式(SaaS、独立产品、单机版、私有化)。 + +--- + +## 📊 核心信息卡片 + +### 项目状态 +- **当前阶段:** 架构设计完成,文档重构中 +- **已完成:** AIA(AI问答)、PKB(知识库)、RVW(审稿)核心功能 +- **下一步:** ASL(AI智能文献)模块开发 +- **技术栈:** Node.js + React + PostgreSQL + Python微服务 + +### 8个业务模块(优先级排序) + +| 模块 | 名称 | 状态 | 优先级 | 说明 | +|------|------|------|--------|------| +| **ASL** | AI智能文献 | ⏳ 下一步 | P0 | 文献筛选、提取、分析 | +| **AIA** | AI智能问答 | ✅ 已完成 | - | 12个智能体、多轮对话 | +| **PKB** | 个人知识库 | ✅ 已完成 | - | RAG问答、智能引用 | +| **RVW** | 稿件审查 | ⚡ 独立系统 | P1 | 稿约规范性+方法学评估 | +| **ADMIN** | 运营管理端 | ⏳ 规划中 | P1 | 15个功能模块 | +| **DC** | 数据清洗 | ⏳ 规划中 | P1 | 核心竞争力 | +| **SSA** | 智能统计 | ⏳ 规划中 | P2 | 3条分析路径 | +| **ST** | 统计工具 | ⏳ 规划中 | P2 | 100+小工具 | + +### 关键架构决策 +1. ✅ **三层架构:** 平台层 + 通用能力层 + 业务模块层 +2. ⏳ **Schema隔离:** 即将实施(1周) +3. ⏳ **Monorepo:** 即将转换(2-3天) +4. ✅ **4种部署模式:** SaaS + 独立产品 + 单机版 + 私有化 + +--- + +## 📁 代码结构 + +``` +AIclinicalresearch/ + ├── backend/ # Node.js + Fastify + Prisma + ├── frontend/ # React + Vite + Ant Design + ├── extraction_service/ # Python FastAPI微服务 + ├── docs/ # 📖 文档(你在这里) + └── docker-compose.yml # PostgreSQL + Redis +``` + +--- + +## 🔧 核心依赖 + +**LLM模型:** +- DeepSeek-V3(主力,¥1/百万tokens) +- Qwen3-72B(备用,¥5/百万tokens) +- Qwen-Long(超长上下文,1M tokens) + +**数据库:** +- PostgreSQL 15(Docker部署) +- Redis(缓存) +- Dify(RAG向量数据库) + +**已实现能力:** +- ✅ 文档处理引擎(Python微服务) +- ✅ RAG引擎(基于Dify) +- ❌ LLM网关(待实现,P0优先级) + +--- + +## 🚀 快速跳转(根据任务选择) + +### 开发任务 + +**开发ASL模块:** +→ 阅读 `03-业务模块/ASL-AI智能文献/[AI对接] ASL快速上下文.md` + +**实现LLM网关:** +→ 阅读 `02-通用能力层/01-LLM大模型网关/[AI对接] LLM网关快速上下文.md` + +**开发运营管理端:** +→ 阅读 `03-业务模块/ADMIN-运营管理端/README.md` + +### 架构讨论 + +**了解整体架构:** +→ 阅读 `00-系统总体设计/08-架构设计全景图.md` + +**了解数据库架构:** +→ 阅读 `00-系统总体设计/03-数据库架构说明.md` + +**了解模块独立部署:** +→ 阅读 `00-系统总体设计/06-模块独立部署与单机版方案.md` + +### 了解现有系统 + +**了解已完成功能:** +→ 阅读 `00-项目概述/现有系统技术摸底报告.md` + +--- + +## 📖 常见任务快速指引 + +| 任务类型 | 需要阅读的文档(按顺序) | Token消耗 | 阅读时间 | +|---------|----------------------|----------|---------| +| **开发新模块** | 1. 本文档
2. 对应模块快速上下文
3. 模块PRD | ~3K | 5-8分钟 | +| **修改已有功能** | 1. 本文档
2. 现有系统摸底报告
3. 具体模块文档 | ~5K | 10-15分钟 | +| **架构讨论** | 1. 本文档
2. 架构设计全景图
3. 分层设计文档 | ~4K | 10分钟 | +| **数据库修改** | 1. 本文档
2. 数据库架构说明
3. 具体模块数据库设计 | ~3K | 5-8分钟 | + +--- + +## ⚠️ 关键提醒 + +**数据库:** +- ✅ PostgreSQL在Docker中,不需要手动安装 +- ✅ 数据库名:`ai_clinical_research` +- ✅ 连接:`localhost:5432` + +**Dify:** +- ✅ 独立系统,有自己的数据库 +- ✅ 通过API调用,不直接访问数据库 + +**文档状态:** +- ⏳ 文档正在重构中(v3.0) +- ✅ 新文档按三层架构组织 +- ✅ 每个层级都有快速上下文 + +--- + +## 📂 文档导航体系 + +``` +docs/ + ├── 00-系统总体设计/ # 总体架构、技术决策 + ├── 01-平台基础层/ # 用户权限、存储、通知 + ├── 02-通用能力层/ # LLM网关、文档处理、RAG + ├── 03-业务模块/ # 8个独立业务模块 + ├── 04-开发规范/ # API规范、数据库规范、代码规范 + ├── 05-部署文档/ # 4种部署模式 + └── 08-项目管理/ # 开发计划、里程碑、每日进度 +``` + +--- + +## 🎯 下一步行动(2025-11-06) + +**本周计划:** +1. 完成文档重构 +2. 创建快速上下文体系 +3. 准备ASL模块开发 + +**未来2-4周:** +1. ASL模块开发(标题摘要初筛 + 全文复筛) +2. LLM网关实现(P0,ASL依赖) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 diff --git a/docs/00-系统总体设计/[重要] 2025-11-06 架构设计完成报告.md b/docs/00-系统总体设计/[重要] 2025-11-06 架构设计完成报告.md new file mode 100644 index 00000000..068125af --- /dev/null +++ b/docs/00-系统总体设计/[重要] 2025-11-06 架构设计完成报告.md @@ -0,0 +1,554 @@ +# 2025-11-06 架构设计完成报告 + +> **报告日期:** 2025-11-06 +> **报告类型:** 里程碑完成报告 +> **重要程度:** ⭐⭐⭐⭐⭐ 极高 + +--- + +## 🎉 重大里程碑 + +### 今日完成:壹证循AI科研平台 - 完整架构设计 + +**历时:** 1天深度设计 +**产出:** 11个核心文档,6000+行详细设计 +**价值:** 指导未来6-12个月的技术和业务发展 + +--- + +## 📊 完成清单 + +### 核心架构文档(11个) + +| # | 文档名称 | 页数/行数 | 核心价值 | +|---|---------|---------|---------| +| 1 | 00-阅读指南 | - | 快速导航 | +| 2 | 00-核心问题解答 | 详尽 | 回答关键架构问题 | +| 3 | 00-今日架构设计总结 | 详尽 | 工作总结 | +| 4 | 01-系统架构分层设计 | 926行 | 三层架构核心设计 | +| 5 | 02-文档体系重构方案v2.0 | 790行 | 文档结构重组 | +| 6 | 03-数据库架构说明 | 434行 | 数据库澄清 | +| 7 | 04-运营管理端架构设计 | 859行 | 15个功能模块 | +| 8 | 05-Schema隔离方案与成本分析 | 1042行 | 改造决策依据 | +| 9 | 06-模块独立部署与单机版方案 | 1541行 | 部署技术方案 | +| 10 | 07-Monorepo架构评估 | 555行 | Monorepo决策依据 | +| 11 | 08-架构设计全景图 | 详尽 | 一图看懂系统 | +| 12 | 99-下一步行动决策建议 | 详尽 | 明确行动方案 | + +**总计:** 6000+ 行详细设计 + +--- + +## 🏗️ 核心架构成果 + +### 1. 系统架构分层(三层架构) + +``` +业务模块层(8个模块) + AIA | ASL | PKB | DC | SSA | ST | RVW | ADMIN + ↓ +通用能力层(5个能力) + LLM网关(71%) | 文档处理(86%) | RAG(43%) | ETL(29%) | NLP(14%) + ↓ +平台基础层 + 用户权限 | 存储 | 通知 | 监控 | 配置 +``` + +**价值:** +- ✅ 职责清晰,易于理解 +- ✅ 高复用率(LLM网关71%,文档处理86%) +- ✅ 支持模块独立部署 + +--- + +### 2. 业务模块规划(8个模块) + +| 模块 | 状态 | 商业价值 | 独立性 | 优先级 | +|------|------|---------|-------|-------| +| AIA - AI智能问答 | ✅ 已完成 | ⭐⭐⭐⭐ | ⭐⭐⭐ | - | +| ASL - AI智能文献 | ⏳ 下一步重点 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | P0 | +| PKB - 个人知识库 | ✅ 已完成 | ⭐⭐⭐ | ⭐⭐⭐ | - | +| DC - 数据清洗整理 | ⏳ 规划中 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | P1 | +| SSA - 智能统计分析 | ⏳ 规划中 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | P2 | +| ST - 统计分析工具 | ⏳ 规划中 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | P2 | +| RVW - 稿件审查系统 | ⚡ 独立系统 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | P1 | +| **ADMIN - 运营管理端** | ⭐ v2.0新增 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | P1 | + +**价值:** +- ✅ 覆盖科研全流程 +- ✅ 3个模块可独立销售(RVW、ASL、DC) +- ✅ 运营管理端是商业模式基础 + +--- + +### 3. 部署方案(4种模式) + +| 部署模式 | 技术方案 | 代码复用 | 目标客户 | 阶段 | +|---------|---------|---------|---------|------| +| 云端SaaS | Node.js + PostgreSQL | 100% | 个人、小机构 | P0(当前) | +| 独立产品包 | Docker完整打包 | 80% | 特定客户 | P1(阶段二) | +| Electron单机版 | 前端90%+后端80% | 85% | 个人医生 | P2(阶段二) | +| 私有化部署 | K8s/Docker | 100% | 医院、机构 | P1(阶段二) | + +**价值:** +- ✅ 覆盖全部市场需求 +- ✅ Electron代码复用率极高(85%+) +- ✅ 支持灵活的商业模式 + +--- + +### 4. 运营管理端(15个功能模块) + +**P0功能(必须):** +1. 用户管理 +2. Feature Flag管理 +3. LLM模型管理 +4. 系统配置管理 + +**P1功能(重要):** +5. 智能体提示词管理 +6. 监控与日志 +7. 数据统计与报表 +8. 成本分析与计费 + +**P2功能(有用):** +9-15. 租户管理、公告、文档、工单等 + +**价值:** +- ✅ 商业模式的技术保障 +- ✅ 成本控制的核心 +- ✅ 运营决策的基础 + +--- + +## 💰 技术债务决策 + +### 两个关键改造 + +| 改造 | 现在做 | 未来做 | ROI | 建议 | +|------|-------|-------|-----|------| +| **Schema隔离** | 1周 | 3-5周 | 300-500% | ⭐⭐⭐⭐⭐ 现在做 | +| **Monorepo** | 2-3天 | 7-11天 | 300-400% | ⭐⭐⭐⭐⭐ 现在做 | + +**核心结论:** +``` +现在投入:6天(1周) +未来节省:22-36天(1个月+) +投入产出比:300-500% + +建议:立即改造! +``` + +--- + +## 🎯 关键发现 + +### 发现1:LLM网关是商业模式的核心 + +``` +为什么? +- 5个模块依赖(71%复用率) +- 成本控制的关键(根据版本动态切换模型) +- Feature Flag的技术实现 + +优先级:P0(最高) +当前状态:❌ 未实现 +``` + +--- + +### 发现2:审稿系统极具独立价值 + +``` +为什么? +- 用户群完全不同(期刊编辑部 vs 临床医生) +- 业务逻辑完全独立 +- 可以完全独立部署和销售 + +商业价值:⭐⭐⭐⭐⭐ 极高 +目标客户:期刊编辑部、出版社 +商业模式:按期刊订阅 +``` + +--- + +### 发现3:现在是最佳改造时机 + +``` +为什么? +1. 数据量小(< 1万行)→ 迁移快 +2. 代码量适中 → 重构容易 +3. 模块少(只有2个已完成)→ 测试简单 +4. 即将开发多个新模块 → 新模块直接受益 + +6个月后: +- 数据量:100万行+ +- 代码量:大 +- 模块:7-8个 +- 改造成本:5倍+ + +结论:越早改造,成本越低 +``` + +--- + +### 发现4:Electron单机版代码复用率极高 + +``` +前端复用:90%+ +后端复用:80%+ +总复用率:85%+ + +只需修改: +- API调用层(HTTP → IPC) +- 数据库(PostgreSQL → SQLite) + +技术可行性:⭐⭐⭐⭐⭐ 非常高 +``` + +--- + +## 📋 下一步决策 + +### 您需要做出的2个关键决策 + +**决策1:是否现在做Schema隔离?** +- ✅ 建议:是(1周,节省未来3-5周) +- ⚠️ 如果不做:技术债累积,未来成本5倍 + +**决策2:是否现在转换Monorepo?** +- ✅ 建议:是(2-3天,节省未来7-11天) +- ⚠️ 如果不做:开发运营管理端时必须转换 + +--- + +### 3个实施方案 + +**方案A:立即开发ASL** +- ASL上线:最快(2周) +- 技术债:累积 +- 未来成本:1个月改造 +- 推荐度:⭐⭐⭐ + +**方案B:先改造,再开发** ⭐⭐⭐⭐⭐ **强烈推荐** +- ASL上线:延迟1周(3周) +- 技术债:还清 +- 未来成本:0 +- 推荐度:⭐⭐⭐⭐⭐ + +**方案C:只做Monorepo,延后Schema** +- ASL上线:延迟3天(2.5周) +- 技术债:部分还清 +- 未来成本:3-5周 +- 推荐度:⭐⭐⭐⭐ + +--- + +## 🎯 架构师的建议 + +### 如果我是您的技术架构师 + +**我会坚定地选择方案B(先改造,再开发)** + +**核心理由:** + +**1. 这是技术领导力的体现** +``` +短期思维: +- 追求快速上线 +- 忽视技术债 +- 未来付出代价 + +长期思维: +- 架构优先 +- 技术债归零 +- 长期收益巨大 +``` + +**2. 这是最佳投资决策** +``` +投入:1周 +回报:节省1个月 + 清晰架构 + 7个模块受益 + +任何金融产品都达不到这个回报率 +``` + +**3. 这是对团队负责** +``` +如果不做: +- 未来1个月重构 +- 团队士气受影响 +- 业务创新受阻 + +如果现在做: +- 轻装上阵 +- 专注业务 +- 高效开发 +``` + +**4. 这是对产品负责** +``` +7个模块的未来: +- 都需要清晰的架构 +- 都需要代码复用 +- 都需要独立部署能力 + +现在打好基础 = 为产品的未来负责 +``` + +--- + +## 📊 成果价值评估 + +### 技术价值:⭐⭐⭐⭐⭐ + +- ✅ 清晰的三层架构 +- ✅ 完整的8个模块规划 +- ✅ 详细的技术方案 +- ✅ 明确的实施路径 + +### 商业价值:⭐⭐⭐⭐⭐ + +- ✅ 支持模块独立销售 +- ✅ 支持4种部署模式 +- ✅ 支持灵活商业模式 +- ✅ 成本控制机制完善 + +### 决策价值:⭐⭐⭐⭐⭐ + +- ✅ 明确的优先级 +- ✅ 清晰的成本收益分析 +- ✅ 具体的实施建议 +- ✅ 3个可选方案 + +--- + +## 🚀 立即行动 + +### 如果您决定采纳方案B(夯实基础) + +**我可以立即帮您:** + +**明天开始(Schema隔离 Day 1):** +1. ✅ 设计完整的Schema结构 +2. ✅ 修改Prisma Schema(所有Model) +3. ✅ 编写数据迁移脚本 +4. ✅ 准备测试用例 +5. ✅ 提供详细实施步骤 + +**后天(Schema隔离 Day 2):** +1. ✅ 开发环境迁移指导 +2. ✅ 测试验证指导 +3. ✅ 问题排查和修复 + +**第3天(Schema隔离 Day 3):** +1. ✅ 生产环境迁移指导 +2. ✅ 数据完整性验证 +3. ✅ 性能测试 + +**第4-6天(Monorepo转换):** +1. ✅ 目录结构设计 +2. ✅ 配置文件编写 +3. ✅ 重构步骤清单 +4. ✅ 全程指导和答疑 + +**第7天+(ASL模块开发):** +1. ✅ 数据库设计 +2. ✅ API设计 +3. ✅ 前后端实现指导 + +--- + +## 📖 重要文档推荐 + +### 必读文档(优先级顺序) + +**1. 决策必读:** +👉 [99-下一步行动决策建议](./99-下一步行动决策建议.md) +- 3个方案对比 +- 明确的建议 +- 详细的实施计划 + +**2. 快速了解:** +👉 [00-今日架构设计总结](./00-今日架构设计总结.md) +- 今天完成了什么 +- 关键决策 +- 下一步建议 + +**3. 一图看懂:** +👉 [08-架构设计全景图](./08-架构设计全景图.md) +- 完整架构图 +- 四种部署模式 +- 代码组织结构 + +**4. 深入理解:** +👉 [01-系统架构分层设计](./01-系统架构分层设计.md) +- 三层架构详细设计 +- 8个模块详述 +- 依赖关系分析 + +**5. 改造决策:** +👉 [05-Schema隔离方案与成本分析](./05-Schema隔离方案与成本分析.md) +👉 [07-Monorepo架构评估](./07-Monorepo架构评估.md) + +--- + +## 🎯 关键数字 + +### 投入产出比 + +``` +现在投入:6天(Schema隔离 + Monorepo) +未来节省:22-36天 +投入产出比:300-500% + +这是任何投资都无法企及的回报率! +``` + +### 代码复用率 + +``` +Electron单机版: +- 前端复用:90%+ +- 后端复用:80%+ +- 总复用率:85%+ + +技术可行性:⭐⭐⭐⭐⭐ 非常高 +``` + +### 模块复用率 + +``` +LLM网关:71%(5/7模块依赖) +文档处理:86%(6/7模块依赖) +RAG引擎:43%(3/7模块依赖) + +通用能力的价值巨大! +``` + +--- + +## 💡 关键建议 + +### 给决策者的3条建议 + +**1. 相信长期价值** +``` +技术债像高利贷: +- 本金小,利息高 +- 时间越久,利息越高 +- 早还早轻松 + +投入1周,节省1个月 +这是最划算的投资 +``` + +**2. 把握最佳时机** +``` +现在: +- 数据量小,改造快 +- 代码量适中,重构易 +- 团队小,沟通低 + +未来: +- 数据量大,改造慢 +- 代码量大,重构难 +- 团队大,沟通高 + +现在是成本最低的时间窗口 +``` + +**3. 为未来打基础** +``` +即将开发: +- ASL、DC、SSA、ST、RVW、ADMIN + +如果现在改造: +- 这些模块都享受清晰架构 +- 开发效率高 +- 代码质量好 + +如果不改造: +- 每个模块都继承技术债 +- 技术债叠加 +- 最终爆发 +``` + +--- + +## ✅ 验收标准 + +### 架构设计完成标志 + +- [x] ✅ 三层架构设计完成 +- [x] ✅ 8个业务模块规划完成 +- [x] ✅ 5个通用能力定义完成 +- [x] ✅ 4种部署方案设计完成 +- [x] ✅ 运营管理端设计完成 +- [x] ✅ Schema隔离方案完成 +- [x] ✅ Monorepo评估完成 +- [x] ✅ 模块独立部署方案完成 +- [x] ✅ Electron单机版方案完成 +- [x] ✅ 文档体系重构方案完成 +- [x] ✅ 下一步行动建议完成 + +**状态:100% 完成!** ✅ + +--- + +## 🎉 总结 + +### 今日成就 + +**架构设计:** ⭐⭐⭐⭐⭐ 优秀 +- 完整、清晰、可实施 +- 考虑了未来6-12个月的需求 +- 支持模块化销售和多种部署 + +**决策支持:** ⭐⭐⭐⭐⭐ 优秀 +- 明确的成本收益分析 +- 清晰的实施路径 +- 3个可选方案 + +**文档产出:** ⭐⭐⭐⭐⭐ 优秀 +- 11个核心文档 +- 6000+行详细设计 +- 结构清晰,易于阅读 + +--- + +### 下一步 + +**等待您的决策:** +1. 方案A:立即开发ASL +2. 方案B:先改造,再开发 ⭐⭐⭐⭐⭐ **强烈推荐** +3. 方案C:只做Monorepo,延后Schema + +**一旦决策,我会:** +- ✅ 提供详细的实施步骤 +- ✅ 全程指导和协助 +- ✅ 确保顺利完成 + +--- + +**恭喜!今天完成了一个重大的架构设计里程碑!** 🎉 + +--- + +**报告完成日期:** 2025-11-06 +**报告人:** 技术架构师 + + + + + + + + + + + + + + + diff --git a/docs/00-系统总体设计/前后端模块化架构设计-V2.md b/docs/00-系统总体设计/前后端模块化架构设计-V2.md new file mode 100644 index 00000000..1f4a8c03 --- /dev/null +++ b/docs/00-系统总体设计/前后端模块化架构设计-V2.md @@ -0,0 +1,1342 @@ +# 前后端模块化架构设计 V2.0 + +> **版本:** V2.2 +> **创建日期:** 2025-11-12 +> **实施阶段:** Week 2(2025-11-13开始) +> **维护者:** 开发团队 +> **状态:** ✅ Week 2 Day 6-9 全部完成(前端架构+模块注册+后端分层)⭐⭐⭐ + +--- + +## 📋 文档说明 + +本文档是**AI临床研究平台的模块化架构设计总纲**,定义了: + +1. **前端架构**:全新的 frontend-v2 模块化架构 +2. **后端架构**:基于Schema隔离的分层架构 +3. **前后端对应关系**:模块化的组织方式 +4. **开发规范**:统一的代码组织和命名规范 +5. **实施路线**:渐进式的架构改造计划 + +**适用对象:** +- 新加入的开发人员(快速了解系统架构) +- AI助手(理解代码组织结构) +- 技术决策者(架构演进参考) + +--- + +## 🎯 架构演进历史 + +### V1.0 阶段(2025-10之前) +- ❌ 单体前端应用(所有功能耦合) +- ❌ 后端代码平铺(无模块划分) +- ❌ 数据库表全在public schema + +### V1.5 阶段(2025-11-12完成) +- ✅ **数据库Schema隔离**(10个Schema) +- ✅ Prisma多Schema配置 +- ✅ 数据100%迁移成功 +- ⚠️ 前后端代码仍需模块化 + +### V2.0 阶段(2025-11-13~14完成)⭐ +- ✅ **前端模块化架构**(frontend-v2)- Day 6-7完成 +- ✅ **模块注册机制**(权限控制+错误边界+路由守卫)- Day 7完成 +- ✅ **后端增量演进架构**(legacy/common/modules)- Day 8-9完成 +- ✅ 前后端模块对应 +- ✅ 支持模块独立开发和部署 +- ✅ **所有功能测试通过**(包括批处理修复)⭐⭐⭐ + +--- + +## 📸 当前架构真实状态(2025-11-14) + +> **⭐ 重要提示:本章节描述当前实际运行的架构状态** +> **适用对象:新开发人员、新AI助手、快速上手** +> **更新频率:架构变更时立即更新** + +--- + +### 🎯 架构概览 + +``` +【当前状态】增量演进架构(新旧并存) + +Frontend-v2 (新) Backend (混合) Database (隔离) + ↓ ↓ ↓ +顶部导航 + 6模块 legacy/ + common/ 10个独立 Schema + 占位 + modules/asl (3详细 + 7空) +``` + +**核心策略:** +- ✅ 前端:全新架构(frontend-v2) +- ✅ 后端:新旧并存(legacy保持稳定,新模块标准化) +- ✅ 数据库:Schema隔离完成 + +--- + +### 📁 前端真实架构(Frontend-v2) + +#### **目录结构(实际存在)** + +```bash +frontend-v2/ +├── src/ +│ ├── framework/ # 🏗️ 框架层(已实现) +│ │ ├── layout/ +│ │ │ ├── MainLayout.tsx # ✅ 主布局 +│ │ │ ├── TopNavigation.tsx # ✅ 顶部导航 +│ │ │ └── UserMenu.tsx # ✅ 用户菜单 +│ │ │ +│ │ ├── modules/ +│ │ │ ├── moduleRegistry.ts # ✅ 模块注册中心 +│ │ │ ├── ErrorBoundary.tsx # ✅ 错误边界 +│ │ │ └── ModuleErrorFallback.tsx # ✅ 错误回退UI +│ │ │ +│ │ ├── router/ +│ │ │ ├── RouteGuard.tsx # ✅ 路由守卫 +│ │ │ └── PermissionDenied.tsx # ✅ 权限拒绝页 +│ │ │ +│ │ └── permission/ +│ │ ├── PermissionContext.tsx # ✅ 权限上下文 +│ │ ├── usePermission.ts # ✅ 权限Hook +│ │ └── types.ts # ✅ 权限类型 +│ │ +│ ├── modules/ # 📦 业务模块(占位) +│ │ ├── asl/ # 🚧 Week 3开发 +│ │ │ └── index.tsx # ✅ 占位页面 +│ │ ├── aia/ # 📋 占位 +│ │ ├── pkb/ # 📋 占位 +│ │ ├── dc/ # 📋 占位 +│ │ ├── ssa/ # 📋 占位 +│ │ └── st/ # 📋 占位 +│ │ +│ ├── pages/ +│ │ └── Home.tsx # ✅ 首页 +│ │ +│ └── App.tsx # ✅ 应用入口 +│ +├── package.json # ✅ React 19 +└── vite.config.ts # ✅ Vite配置 +``` + +**当前运行状态:** +- ✅ 访问地址:http://localhost:3000 +- ✅ 顶部导航显示6个模块 +- ✅ 权限控制工作正常(mock premium用户) +- ✅ 路由守卫生效 +- ✅ 错误边界正常捕获 + +--- + +### 🗄️ 后端真实架构(Backend) + +#### **目录结构(实际存在)⭐ 关键** + +```bash +backend/ +├── src/ +│ ├── legacy/ # 🔸 现有业务代码(稳定运行) +│ │ ├── routes/ # 7个路由文件 +│ │ │ ├── agents.ts # AIA: 智能体路由 +│ │ │ ├── conversations.ts # AIA: 对话路由 +│ │ │ ├── chatRoutes.ts # AIA: 通用对话路由 +│ │ │ ├── projects.ts # AIA: 项目路由 +│ │ │ ├── knowledgeBases.ts # PKB: 知识库路由 +│ │ │ ├── batchRoutes.ts # PKB: 批处理路由 +│ │ │ └── reviewRoutes.ts # RVW: 稿件审查路由 +│ │ │ +│ │ ├── controllers/ # 8个控制器 +│ │ │ ├── agentController.ts +│ │ │ ├── conversationController.ts +│ │ │ ├── chatController.ts +│ │ │ ├── projectController.ts +│ │ │ ├── knowledgeBaseController.ts +│ │ │ ├── documentController.ts +│ │ │ ├── batchController.ts +│ │ │ └── reviewController.ts +│ │ │ +│ │ ├── services/ # 8个服务 +│ │ │ ├── agentService.ts +│ │ │ ├── conversationService.ts +│ │ │ ├── projectService.ts +│ │ │ ├── knowledgeBaseService.ts +│ │ │ ├── documentService.ts +│ │ │ ├── batchService.ts +│ │ │ ├── reviewService.ts +│ │ │ └── tokenService.ts +│ │ │ +│ │ └── templates/ +│ │ └── clinicalResearch.ts # 批处理模板 +│ │ +│ ├── common/ # 🔧 通用能力层(共享) +│ │ ├── llm/ +│ │ │ └── adapters/ # LLM适配器 +│ │ │ ├── DeepSeekAdapter.ts # ✅ DeepSeek-V3 +│ │ │ ├── QwenAdapter.ts # ✅ Qwen3-72B + Qwen-Long +│ │ │ ├── LLMFactory.ts # ✅ 工厂类 +│ │ │ └── types.ts # ✅ LLM类型定义 +│ │ │ +│ │ ├── rag/ # RAG能力 +│ │ │ ├── DifyClient.ts # ✅ Dify客户端 +│ │ │ └── types.ts # ✅ RAG类型 +│ │ │ +│ │ ├── document/ # 文档处理 +│ │ │ └── ExtractionClient.ts # ✅ 文档提取客户端 +│ │ │ +│ │ ├── middleware/ +│ │ │ └── validateProject.ts # ✅ 项目验证中间件 +│ │ │ +│ │ └── utils/ +│ │ └── jsonParser.ts # ✅ JSON解析工具 +│ │ +│ ├── modules/ # 🌟 新架构模块(标准化) +│ │ └── asl/ # ⭐ AI智能文献(占位,Week 3开发) +│ │ └── (空目录,等待开发) +│ │ +│ ├── config/ # ⚙️ 配置层 +│ │ ├── database.ts # ✅ 数据库配置 +│ │ └── env.ts # ✅ 环境变量 +│ │ +│ ├── scripts/ # 🛠️ 工具脚本 +│ │ ├── create-mock-user.ts +│ │ └── test-dify-client.ts +│ │ +│ └── index.ts # ✅ 主入口(统一注册) +│ +├── config/ # 外部配置文件 +│ └── agents.yaml # ✅ 智能体配置(348行) +│ +├── prompts/ # Prompt模板 +│ ├── topic_evaluation_system.txt +│ ├── review_editorial_system.txt +│ └── review_methodology_system.txt +│ +├── prisma/ +│ ├── schema.prisma # ✅ 10个Schema定义 +│ └── migrations/ # ✅ 4个迁移文件 +│ +├── package.json # ✅ Fastify + Prisma +└── .env # ✅ 环境变量 +``` + +**当前运行状态:** +- ✅ 访问地址:http://localhost:3001 +- ✅ 健康检查:http://localhost:3001/health +- ✅ Legacy模块(AIA/PKB/RVW)正常运行 +- ✅ Common层通用能力可用 +- ✅ Modules/asl 占位就绪 + +**主入口(index.ts)实际代码:** +```typescript +// ============================================ +// 【旧架构】Legacy 模块 - 保持不变 +// ============================================ +import { projectRoutes } from './legacy/routes/projects.js'; +import { agentRoutes } from './legacy/routes/agents.js'; +import { conversationRoutes } from './legacy/routes/conversations.js'; +import knowledgeBaseRoutes from './legacy/routes/knowledgeBases.js'; +import { chatRoutes } from './legacy/routes/chatRoutes.js'; +import { batchRoutes } from './legacy/routes/batchRoutes.js'; +import reviewRoutes from './legacy/routes/reviewRoutes.js'; + +// 注册 Legacy 模块路由 +await fastify.register(projectRoutes, { prefix: '/api/v1/aia' }); +await fastify.register(agentRoutes, { prefix: '/api/v1/aia' }); +await fastify.register(conversationRoutes, { prefix: '/api/v1/aia' }); +await fastify.register(chatRoutes, { prefix: '/api/v1/aia' }); +await fastify.register(knowledgeBaseRoutes, { prefix: '/api/v1/pkb' }); +await fastify.register(batchRoutes, { prefix: '/api/v1/pkb' }); +await fastify.register(reviewRoutes, { prefix: '/api/v1/rvw' }); +``` + +--- + +### 🗃️ 数据库真实架构(PostgreSQL 15) + +#### **Schema 结构(实际存在)** + +```sql +-- ==================== 平台层 Schema ==================== +platform_schema (平台基础表) + └── users # ✅ 用户表(已实现) + +-- ==================== 详细 Schema(数据已迁移)==================== +aia_schema (AI智能问答) + ├── projects # ✅ 项目表 + ├── agents # ✅ 智能体配置表 + ├── conversations # ✅ 对话表 + └── messages # ✅ 消息表 + +pkb_schema (个人知识库) + ├── knowledge_bases # ✅ 知识库表 + ├── documents # ✅ 文档表 + ├── batch_tasks # ✅ 批处理任务表 + ├── batch_results # ✅ 批处理结果表 + └── task_templates # ✅ 任务模板表 + +rvw_schema (稿件审查) + ├── review_tasks # ✅ 审查任务表 + └── (在public schema中) # ⚠️ 历史原因 + +-- ==================== 占位 Schema(数据结构未定义)==================== +asl_schema (AI智能文献) # 🚧 Week 3开发 + └── (空,等待定义) + +common_schema (通用工具) # 📋 占位 +dc_schema (数据采集) # 📋 占位 +ssa_schema (统计分析) # 📋 占位 +st_schema (研究工具) # 📋 占位 +admin_schema (运营管理) # 📋 占位 +``` + +**Prisma Schema 配置:** +```prisma +datasource db { + provider = "postgresql" + url = env("DATABASE_URL") + schemas = [ + "platform_schema", # ✅ 平台 + "aia_schema", # ✅ 智能问答 + "pkb_schema", # ✅ 知识库 + "asl_schema", # 🚧 智能文献(Week 3) + "common_schema", # 📋 占位 + "dc_schema", # 📋 占位 + "rvw_schema", # 📋 占位 + "admin_schema", # 📋 占位 + "ssa_schema", # 📋 占位 + "st_schema", # 📋 占位 + "public" # ✅ 历史遗留 + ] +} +``` + +--- + +### 🔌 API 真实路由(当前可用) + +#### **AIA 模块(AI智能问答)** +``` +基础路径:/api/v1/aia + +项目管理: + ✅ GET /projects # 获取项目列表 + ✅ POST /projects # 创建项目 + ✅ GET /projects/:id # 获取项目详情 + ✅ PUT /projects/:id # 更新项目 + ✅ DELETE /projects/:id # 删除项目 + +智能体管理: + ✅ GET /agents # 获取智能体列表 + ✅ GET /agents/enabled # 获取启用的智能体 + ✅ GET /agents/:id # 获取智能体详情 + +对话管理: + ✅ POST /conversations # 创建对话 + ✅ GET /conversations # 获取对话列表 + ✅ GET /conversations/:id # 获取对话详情 + ✅ POST /conversations/:id/messages/stream # 流式发送消息 + ✅ POST /conversations/:id/messages # 非流式发送消息 + ✅ DELETE /conversations/:id # 删除对话 + +通用对话: + ✅ POST /chat/stream # 通用流式对话 + ✅ POST /chat # 通用非流式对话 +``` + +#### **PKB 模块(个人知识库)** +``` +基础路径:/api/v1/pkb + +知识库管理: + ✅ GET /knowledge-bases # 获取知识库列表 + ✅ POST /knowledge-bases # 创建知识库 + ✅ GET /knowledge-bases/:id # 获取知识库详情 + ✅ PUT /knowledge-bases/:id # 更新知识库 + ✅ DELETE /knowledge-bases/:id # 删除知识库 + +文档管理: + ✅ POST /knowledge-bases/:id/documents # 上传文档 + ✅ GET /knowledge-bases/:id/documents # 获取文档列表 + ✅ DELETE /knowledge-bases/:kbId/documents/:docId # 删除文档 + +批处理: + ✅ POST /batch/execute # 执行批处理任务 + ✅ GET /batch/tasks/:taskId # 获取任务状态 + ✅ GET /batch/tasks/:taskId/results # 获取任务结果 + ✅ POST /batch/tasks/:taskId/retry-failed # 重试失败项 +``` + +#### **RVW 模块(稿件审查)** +``` +基础路径:/api/v1/rvw + +稿件审查: + ✅ POST /review/upload # 上传稿件并开始审查 + ✅ GET /review/tasks/:taskId # 查询任务状态 + ✅ GET /review/tasks/:taskId/report # 获取完整报告 + ✅ GET /review/tasks # 获取任务列表 + ✅ DELETE /review/tasks/:taskId # 删除任务 +``` + +#### **系统端点** +``` +✅ GET /health # 健康检查 +✅ GET /api/v1 # API信息 +``` + +--- + +### 📊 技术栈真实配置 + +#### **前端(Frontend-v2)** +```json +{ + "react": "^19.0.0", + "react-dom": "^19.0.0", + "react-router-dom": "^6.x", + "typescript": "^5.x", + "vite": "^6.x", + "antd": "^5.x", + "tailwindcss": "^3.x" +} +``` + +#### **后端(Backend)** +```json +{ + "fastify": "^4.x", + "typescript": "^5.x", + "prisma": "^6.17.0", + "@prisma/client": "^6.17.0", + "tsx": "^4.x", + "axios": "^1.x", + "js-yaml": "^4.x", + "p-queue": "^8.x" +} +``` + +#### **数据库** +``` +PostgreSQL: 15.x +Schema数量: 10个(3详细 + 7占位) +迁移文件: 4个 +``` + +#### **LLM 集成(CloseAI)** +``` +✅ DeepSeek-V3 (主力,性价比) +✅ Qwen3-72B (备用,中文理解) +✅ Qwen-Long (超长上下文1M) +✅ GPT-4o (可选,高质量) +``` + +--- + +### 🔄 前后端模块对应关系(当前) + +| 前端模块 | 后端位置 | 数据库Schema | API路由 | 状态 | +|---------|---------|-------------|---------|------| +| frontend-v2/modules/asl/ | backend/modules/asl/ | asl_schema | /api/v1/asl/* | 🚧 Week 3开发 | +| frontend-v2/modules/aia/ | backend/legacy/routes/agents.ts等 | aia_schema | /api/v1/aia/* | ✅ 运行中 | +| frontend-v2/modules/pkb/ | backend/legacy/routes/knowledgeBases.ts等 | pkb_schema | /api/v1/pkb/* | ✅ 运行中 | +| frontend-v2/modules/rvw/ | backend/legacy/routes/reviewRoutes.ts | public + rvw_schema | /api/v1/rvw/* | ✅ 运行中 | +| frontend-v2/modules/dc/ | (未实现) | dc_schema | /api/v1/dc/* | 📋 占位 | +| frontend-v2/modules/ssa/ | (未实现) | ssa_schema | /api/v1/ssa/* | 📋 占位 | +| frontend-v2/modules/st/ | (未实现) | st_schema | /api/v1/st/* | 📋 占位 | + +--- + +### 📋 功能测试清单(已验证) + +| 功能 | 测试项 | 状态 | 备注 | +|------|--------|------|------| +| 智能问答 | 创建项目 | ✅ | | +| 智能问答 | 对话模式 | ✅ | 流式+非流式 | +| 智能问答 | 知识库模式 | ✅ | RAG检索 | +| 智能问答 | 批处理模式 | ✅ | 修复rawOutput问题后正常 | +| 知识库 | 创建知识库 | ✅ | | +| 知识库 | 上传文档 | ✅ | PDF/Word/TXT/MD | +| 知识库 | 文档管理 | ✅ | 列表/删除 | +| 稿件审查 | 上传稿件 | ✅ | | +| 稿件审查 | 审查报告 | ✅ | | +| 前端 | 顶部导航 | ✅ | 6个模块 | +| 前端 | 权限控制 | ✅ | mock premium | +| 前端 | 路由守卫 | ✅ | | +| 前端 | 错误边界 | ✅ | | + +--- + +### 🎯 新模块开发指南(以ASL为例) + +#### **开发流程(Week 3):** + +``` +第1步:数据库设计 + ├─ 设计 asl_schema 表结构 + ├─ 在 Prisma schema 中定义模型 + └─ 运行迁移创建表 + +第2步:后端开发 + ├─ 在 backend/src/modules/asl/ 下开发 + ├─ 创建 routes/(路由) + ├─ 创建 controllers/(控制器) + ├─ 创建 services/(服务) + └─ 注册路由到 index.ts + +第3步:前端开发 + ├─ 在 frontend-v2/src/modules/asl/ 下开发 + ├─ 创建 pages/(页面) + ├─ 创建 components/(组件) + ├─ 创建 api/(API调用) + └─ 更新 index.tsx(模块注册) + +第4步:联调测试 + ├─ 前后端联调 + └─ 功能验收 +``` + +--- + +### 📚 相关文档索引 + +**快速上手:** +- ⭐ **本文档** - 架构总纲 + 当前状态 +- ⭐ `docs/09-架构实施/后端架构增量演进方案.md` - 后端详细说明(450行) + +**任务记录:** +- `docs/08-项目管理/下一阶段行动计划-V2.2-完整版.md` - 项目计划 +- `docs/09-架构实施/前端模块注册机制实施报告.md` - 前端任务17 +- `docs/08-项目管理/2025-11-14-任务19完成总结.md` - 后端任务19 + +**技术规范:** +- `docs/09-架构实施/编码规范-UTF8最佳实践.md` - 编码规范 +- `.editorconfig` - 编辑器配置 +- `.gitattributes` - Git配置 + +--- + +**本章节更新日期:** 2025-11-14 +**下次更新时机:** ASL模块开发完成后 + +--- + +## 🏗️ 整体架构设计 + +### 系统架构图 + +``` +┌─────────────────────────────────────────────────────────────────┐ +│ AI临床研究平台 │ +└─────────────────────────────────────────────────────────────────┘ + │ + ┌─────────────────────┴─────────────────────┐ + │ │ + ┌────▼─────┐ ┌─────▼────┐ + │ 前端层 │ │ 后端层 │ + │frontend-v2│◄────────── HTTP API ────────►│ backend │ + └──────────┘ └──────────┘ + │ │ + │ 模块化 │ 模块化 + Schema隔离 + │ │ + ┌────┴────────────────────────┐ ┌───────┴──────────────────┐ + │ │ │ │ + │ ┌─────┐ ┌─────┐ ┌─────┐ │ │ ┌─────────────────────┐ │ + │ │ ASL │ │ AIA │ │ PKB │ │ │ │ PostgreSQL │ │ + │ │模块 │ │模块 │ │模块 │ │ │ │ ┌─────────────────┐│ │ + │ └─────┘ └─────┘ └─────┘ │ │ │ │ platform_schema ││ │ + │ ┌─────┐ ┌─────┐ │ │ │ │ aia_schema ││ │ + │ │ RVW │ │ DC │ ... │ │ │ │ pkb_schema ││ │ + │ │模块 │ │模块 │ │ │ │ │ asl_schema ││ │ + │ └─────┘ └─────┘ │ │ │ │ ... ││ │ + │ │ │ │ └─────────────────┘│ │ + └─────────────────────────────┘ │ └─────────────────────┘ │ + └──────────────────────────┘ +``` + +--- + +## 📁 前端架构设计(frontend-v2) + +### 设计原则 + +1. **彻底的模块化** - 每个业务模块完全独立 +2. **框架与业务分离** - 框架层提供基础能力,业务模块专注功能 +3. **渐进式开发** - 新架构与旧代码并存,逐步替换 +4. **独立部署支持** - 模块可独立打包和部署 + +### 目录结构 + +``` +frontend-v2/ +├── src/ +│ ├── framework/ # 🏗️ 框架层(平台级基础设施) +│ │ │ +│ │ ├── layout/ # 布局系统 +│ │ │ ├── MainLayout.tsx # 主布局(顶部导航+内容区) +│ │ │ ├── TopNavigation.tsx # 顶部导航栏 +│ │ │ ├── UserMenu.tsx # 用户菜单 +│ │ │ └── ModuleContainer.tsx # 模块容器 +│ │ │ +│ │ ├── modules/ # 模块管理系统 +│ │ │ ├── moduleRegistry.ts # 模块注册中心 +│ │ │ ├── ModuleLoader.tsx # 动态模块加载器 +│ │ │ ├── types.ts # 模块接口定义 +│ │ │ └── config.ts # 模块配置 +│ │ │ +│ │ ├── router/ # 路由系统 +│ │ │ ├── AppRouter.tsx # 应用路由配置 +│ │ │ ├── RouteGuard.tsx # 路由守卫 +│ │ │ └── routes.ts # 路由定义 +│ │ │ +│ │ ├── permission/ # 权限控制(预留) +│ │ │ ├── PermissionProvider.tsx # 权限上下文 +│ │ │ ├── usePermission.ts # 权限Hook +│ │ │ └── config.ts # 权限配置 +│ │ │ +│ │ └── config/ # 全局配置 +│ │ ├── env.ts # 环境变量 +│ │ ├── api.ts # API配置 +│ │ └── theme.ts # 主题配置 +│ │ +│ ├── modules/ # 📦 业务模块(完全独立) +│ │ │ +│ │ ├── asl/ # ⭐ AI智能文献模块(优先开发) +│ │ │ ├── index.tsx # 模块入口(导出ModuleDefinition) +│ │ │ ├── routes.tsx # 模块路由配置 +│ │ │ │ +│ │ │ ├── layouts/ # 模块布局 +│ │ │ │ └── ASLLayout.tsx # ASL左侧导航布局 +│ │ │ │ +│ │ │ ├── pages/ # 模块页面 +│ │ │ │ ├── ProjectList.tsx # 项目列表 +│ │ │ │ ├── ProjectCreate.tsx # 创建项目 +│ │ │ │ ├── TitleScreening/ # 标题摘要初筛 +│ │ │ │ │ ├── index.tsx +│ │ │ │ │ ├── ScreeningWorkbench.tsx +│ │ │ │ │ └── ResultsView.tsx +│ │ │ │ ├── FullTextScreening/ # 全文复筛 +│ │ │ │ │ └── ... +│ │ │ │ ├── DataExtraction/ # 数据提取 +│ │ │ │ │ └── ... +│ │ │ │ └── Analysis/ # 综合分析 +│ │ │ │ └── ... +│ │ │ │ +│ │ │ ├── components/ # 模块组件(仅本模块使用) +│ │ │ │ ├── LiteratureCard.tsx +│ │ │ │ ├── ScreeningPanel.tsx +│ │ │ │ ├── LLMSelector.tsx +│ │ │ │ └── ... +│ │ │ │ +│ │ │ ├── api/ # 模块API(对接后端) +│ │ │ │ ├── projectApi.ts +│ │ │ │ ├── screeningApi.ts +│ │ │ │ ├── extractionApi.ts +│ │ │ │ └── index.ts +│ │ │ │ +│ │ │ ├── hooks/ # 模块Hooks +│ │ │ │ ├── useProject.ts +│ │ │ │ ├── useScreening.ts +│ │ │ │ └── useLLMScreening.ts +│ │ │ │ +│ │ │ ├── store/ # 模块状态管理 +│ │ │ │ ├── projectStore.ts +│ │ │ │ ├── screeningStore.ts +│ │ │ │ └── index.ts +│ │ │ │ +│ │ │ ├── types/ # 模块类型定义 +│ │ │ │ ├── project.ts +│ │ │ │ ├── literature.ts +│ │ │ │ └── index.ts +│ │ │ │ +│ │ │ └── utils/ # 模块工具函数 +│ │ │ ├── fileParser.ts +│ │ │ └── exportHelper.ts +│ │ │ +│ │ ├── aia/ # 📋 AI智能问答模块(后续重写) +│ │ │ ├── index.tsx +│ │ │ └── Placeholder.tsx # 临时占位页面 +│ │ │ +│ │ ├── pkb/ # 📋 个人知识库模块(后续重写) +│ │ │ ├── index.tsx +│ │ │ └── Placeholder.tsx +│ │ │ +│ │ ├── rvw/ # 📋 审稿系统模块(后续重写) +│ │ │ ├── index.tsx +│ │ │ └── Placeholder.tsx +│ │ │ +│ │ └── dc/ # 📋 数据清洗模块(占位) +│ │ ├── index.tsx +│ │ └── Placeholder.tsx +│ │ +│ ├── shared/ # 🔧 共享资源(跨模块使用) +│ │ ├── components/ # 通用UI组件 +│ │ │ ├── Button/ +│ │ │ ├── Table/ +│ │ │ ├── Modal/ +│ │ │ └── ... +│ │ │ +│ │ ├── hooks/ # 通用Hooks +│ │ │ ├── useDebounce.ts +│ │ │ ├── useAsync.ts +│ │ │ └── ... +│ │ │ +│ │ ├── utils/ # 工具函数 +│ │ │ ├── date.ts +│ │ │ ├── format.ts +│ │ │ ├── validation.ts +│ │ │ └── ... +│ │ │ +│ │ └── api/ # API客户端 +│ │ ├── client.ts # Axios实例 +│ │ ├── request.ts # 请求拦截器 +│ │ └── types.ts # API类型 +│ │ +│ ├── App.tsx # 应用根组件 +│ ├── main.tsx # 应用入口 +│ └── vite-env.d.ts +│ +├── public/ # 静态资源 +├── package.json +├── vite.config.ts # Vite配置 +├── tsconfig.json # TypeScript配置 +├── tailwind.config.js # Tailwind配置 +└── README.md +``` + +### 模块定义接口 + +```typescript +// framework/modules/types.ts + +/** + * 模块定义接口 + * 每个业务模块必须实现这个接口 + */ +export interface ModuleDefinition { + /** 模块唯一标识 */ + id: string + + /** 模块名称(显示在导航栏) */ + name: string + + /** 模块路由前缀 */ + path: string + + /** 模块图标(可选) */ + icon?: ReactNode + + /** 模块入口组件(懒加载) */ + component: LazyExoticComponent> + + /** 模块路由配置 */ + routes?: RouteObject[] + + /** 模块是否有左侧导航 */ + hasSideNav?: boolean + + /** 左侧导航配置(如果有) */ + sideNavConfig?: SideNavItem[] + + /** 权限要求(可选) */ + requiredVersion?: UserVersion + + /** 是否为占位模块 */ + placeholder?: boolean + + /** 是否支持独立部署 */ + standalone?: boolean +} + +/** + * 左侧导航项 + */ +export interface SideNavItem { + id: string + label: string + path: string + icon?: ReactNode + children?: SideNavItem[] +} +``` + +### 模块注册示例 + +```typescript +// modules/asl/index.tsx + +import { lazy } from 'react' +import { ModuleDefinition } from '@/framework/modules/types' +import routes from './routes' +import { sideNavConfig } from './config' + +const ASLModule: ModuleDefinition = { + id: 'asl', + name: 'AI智能文献', + path: '/literature', + icon: , + component: lazy(() => import('./layouts/ASLLayout')), + routes, + hasSideNav: true, + sideNavConfig, + requiredVersion: 'advanced', +} + +export default ASLModule +``` + +### 模块路由示例 + +```typescript +// modules/asl/routes.tsx + +import { lazy } from 'react' +import { RouteObject } from 'react-router-dom' + +const routes: RouteObject[] = [ + { + path: '', + element: lazy(() => import('./pages/ProjectList')), + }, + { + path: 'project/:projectId', + children: [ + { + path: 'title-screening', + element: lazy(() => import('./pages/TitleScreening')), + }, + { + path: 'fulltext-screening', + element: lazy(() => import('./pages/FullTextScreening')), + }, + { + path: 'extraction', + element: lazy(() => import('./pages/DataExtraction')), + }, + { + path: 'analysis', + element: lazy(() => import('./pages/Analysis')), + }, + ], + }, +] + +export default routes +``` + +--- + +## 📁 后端架构设计(backend) + +### 设计原则 + +1. **Schema隔离** - 数据库层面的模块隔离(已完成) +2. **代码分层** - platform/common/modules三层架构 +3. **模块独立** - 每个模块的API和逻辑独立 +4. **保持兼容** - 轻度重构,不破坏现有功能 + +### 目录结构 + +``` +backend/ +├── src/ +│ ├── platform/ # 🏛️ 平台层(基础设施) +│ │ ├── auth/ # 认证授权 +│ │ │ ├── authController.ts +│ │ │ ├── authService.ts +│ │ │ ├── authMiddleware.ts +│ │ │ └── routes.ts +│ │ │ +│ │ └── users/ # 用户管理 +│ │ ├── userController.ts +│ │ ├── userService.ts +│ │ └── routes.ts +│ │ +│ ├── common/ # 🔧 通用层(共享能力) +│ │ ├── middleware/ # 中间件 +│ │ │ ├── errorHandler.ts +│ │ │ ├── logger.ts +│ │ │ ├── validation.ts +│ │ │ └── cors.ts +│ │ │ +│ │ ├── utils/ # 工具函数 +│ │ │ ├── date.ts +│ │ │ ├── encryption.ts +│ │ │ └── format.ts +│ │ │ +│ │ ├── errors/ # 错误处理 +│ │ │ ├── AppError.ts +│ │ │ ├── errorTypes.ts +│ │ │ └── errorHandler.ts +│ │ │ +│ │ └── types/ # 通用类型 +│ │ ├── request.ts +│ │ ├── response.ts +│ │ └── common.ts +│ │ +│ ├── modules/ # 📦 业务模块 +│ │ │ +│ │ ├── aia/ # AI智能问答模块 +│ │ │ ├── controllers/ # 控制器 +│ │ │ │ ├── projectController.ts +│ │ │ │ ├── agentController.ts +│ │ │ │ ├── conversationController.ts +│ │ │ │ └── chatController.ts +│ │ │ │ +│ │ │ ├── services/ # 业务逻辑 +│ │ │ │ ├── projectService.ts +│ │ │ │ ├── conversationService.ts +│ │ │ │ └── llmService.ts +│ │ │ │ +│ │ │ ├── routes/ # 路由配置 +│ │ │ │ └── index.ts +│ │ │ │ +│ │ │ ├── types/ # 模块类型 +│ │ │ │ ├── project.ts +│ │ │ │ └── conversation.ts +│ │ │ │ +│ │ │ └── utils/ # 模块工具 +│ │ │ └── prompt.ts +│ │ │ +│ │ ├── pkb/ # 个人知识库模块 +│ │ │ ├── controllers/ +│ │ │ │ ├── knowledgeBaseController.ts +│ │ │ │ ├── documentController.ts +│ │ │ │ └── batchController.ts +│ │ │ │ +│ │ │ ├── services/ +│ │ │ │ ├── kbService.ts +│ │ │ │ ├── documentService.ts +│ │ │ │ ├── batchService.ts +│ │ │ │ └── difyService.ts +│ │ │ │ +│ │ │ ├── routes/ +│ │ │ │ └── index.ts +│ │ │ │ +│ │ │ └── types/ +│ │ │ ├── knowledgeBase.ts +│ │ │ └── document.ts +│ │ │ +│ │ ├── rvw/ # 审稿系统模块 +│ │ │ ├── controllers/ +│ │ │ │ └── reviewController.ts +│ │ │ │ +│ │ │ ├── services/ +│ │ │ │ ├── reviewService.ts +│ │ │ │ └── extractionService.ts +│ │ │ │ +│ │ │ ├── routes/ +│ │ │ │ └── index.ts +│ │ │ │ +│ │ │ └── types/ +│ │ │ └── review.ts +│ │ │ +│ │ └── asl/ # ⭐ AI智能文献模块(Week 3新建) +│ │ ├── controllers/ +│ │ │ ├── projectController.ts +│ │ │ ├── literatureController.ts +│ │ │ ├── screeningController.ts +│ │ │ └── extractionController.ts +│ │ │ +│ │ ├── services/ +│ │ │ ├── projectService.ts +│ │ │ ├── literatureService.ts +│ │ │ ├── screeningService.ts +│ │ │ ├── llmScreeningService.ts +│ │ │ └── extractionService.ts +│ │ │ +│ │ ├── routes/ +│ │ │ └── index.ts +│ │ │ +│ │ ├── types/ +│ │ │ ├── project.ts +│ │ │ ├── literature.ts +│ │ │ └── screening.ts +│ │ │ +│ │ └── utils/ +│ │ ├── fileParser.ts +│ │ ├── llmPrompts.ts +│ │ └── exportHelper.ts +│ │ +│ ├── config/ # 配置文件(现有) +│ │ ├── database.ts +│ │ ├── env.ts +│ │ └── ... +│ │ +│ └── index.ts # 应用入口 +│ +├── prisma/ +│ └── schema.prisma # Prisma Schema(已配置10个Schema) +│ +├── package.json +└── tsconfig.json +``` + +### 模块路由注册 + +```typescript +// src/index.ts + +import { platformRoutes } from './platform/routes' +import { aiaRoutes } from './modules/aia/routes' +import { pkbRoutes } from './modules/pkb/routes' +import { rvwRoutes } from './modules/rvw/routes' +import { aslRoutes } from './modules/asl/routes' + +// 注册平台路由 +fastify.register(platformRoutes, { prefix: '/api/v1/platform' }) + +// 注册业务模块路由 +fastify.register(aiaRoutes, { prefix: '/api/v1/aia' }) +fastify.register(pkbRoutes, { prefix: '/api/v1/pkb' }) +fastify.register(rvwRoutes, { prefix: '/api/v1/rvw' }) +fastify.register(aslRoutes, { prefix: '/api/v1/asl' }) +``` + +--- + +## 🔗 前后端对应关系 + +### 模块映射表 + +| 前端模块 | 后端模块 | 数据库Schema | 路由前缀 | 开发状态 | +|---------|---------|-------------|---------|---------| +| `frontend-v2/src/modules/asl/` | `backend/src/modules/asl/` | `asl_schema` | `/api/v1/asl/*` | 🚧 Week 3开发 | +| `frontend-v2/src/modules/aia/` | `backend/src/modules/aia/` | `aia_schema` | `/api/v1/aia/*` | 📋 后续重写 | +| `frontend-v2/src/modules/pkb/` | `backend/src/modules/pkb/` | `pkb_schema` | `/api/v1/pkb/*` | 📋 后续重写 | +| `frontend-v2/src/modules/rvw/` | `backend/src/modules/rvw/` | `public.review_tasks` | `/api/v1/rvw/*` | 📋 后续重写 | +| `frontend-v2/src/modules/dc/` | `backend/src/modules/dc/` | `dc_schema` | `/api/v1/dc/*` | 📋 占位 | + +### API调用示例 + +```typescript +// 前端:frontend-v2/src/modules/asl/api/projectApi.ts +import { apiClient } from '@/shared/api/client' + +export const aslProjectApi = { + // 创建项目 + create: (data: CreateProjectDTO) => + apiClient.post('/api/v1/asl/projects', data), + + // 获取项目列表 + list: () => + apiClient.get('/api/v1/asl/projects'), + + // 获取项目详情 + getById: (id: string) => + apiClient.get(`/api/v1/asl/projects/${id}`), +} + +// 后端:backend/src/modules/asl/routes/index.ts +import { FastifyInstance } from 'fastify' +import { aslProjectController } from '../controllers/projectController' + +export async function aslRoutes(fastify: FastifyInstance) { + fastify.post('/projects', aslProjectController.create) + fastify.get('/projects', aslProjectController.list) + fastify.get('/projects/:id', aslProjectController.getById) +} +``` + +--- + +## 📐 开发规范 + +### 命名规范 + +#### 前端 + +**文件命名:** +- 组件:PascalCase(`ProjectList.tsx`) +- Hooks:camelCase + use前缀(`useProject.ts`) +- 工具函数:camelCase(`formatDate.ts`) +- 类型定义:PascalCase(`Project.ts`) + +**代码命名:** +- 组件:PascalCase(`ProjectList`) +- 函数:camelCase(`fetchProjects`) +- 常量:UPPER_SNAKE_CASE(`API_BASE_URL`) +- 接口:PascalCase + I前缀(`IProject`) +- 类型:PascalCase(`Project`) + +#### 后端 + +**文件命名:** +- Controller:camelCase + Controller后缀(`projectController.ts`) +- Service:camelCase + Service后缀(`projectService.ts`) +- Routes:`index.ts` 或 `routes.ts` +- Types:camelCase(`project.ts`) + +**代码命名:** +- 类:PascalCase(`ProjectService`) +- 函数:camelCase(`createProject`) +- 常量:UPPER_SNAKE_CASE(`MAX_FILE_SIZE`) +- 接口:PascalCase(`ProjectDTO`) + +### 模块开发规范 + +#### 1. 新模块开发流程 + +``` +第一步:数据库设计 +├─ 在 docs/03-业务模块/[模块名]/02-技术设计/01-数据库设计.md +├─ 设计表结构 +├─ 在 Prisma schema 中定义模型 +└─ 运行迁移 + +第二步:后端开发 +├─ 创建 backend/src/modules/[模块名]/ +├─ 编写 controllers/ +├─ 编写 services/ +├─ 编写 routes/ +└─ 测试 API + +第三步:前端开发 +├─ 创建 frontend-v2/src/modules/[模块名]/ +├─ 定义模块接口(index.tsx) +├─ 编写 pages/ +├─ 编写 components/ +├─ 编写 api/ +├─ 编写 hooks/ +└─ 测试功能 + +第四步:集成测试 +├─ 端到端测试 +└─ 性能测试 +``` + +#### 2. 模块独立性原则 + +**DO ✅:** +- 模块内的组件只在模块内使用 +- 模块有自己的状态管理 +- 模块有自己的API调用 +- 模块有自己的类型定义 +- 模块可以独立运行和部署 + +**DON'T ❌:** +- 不要在模块间直接import组件 +- 不要在模块间共享状态 +- 不要在模块间直接调用API +- 共享的逻辑放在 `shared/` 目录 + +#### 3. API设计规范 + +**RESTful风格:** +``` +GET /api/v1/[module]/resources # 列表 +GET /api/v1/[module]/resources/:id # 详情 +POST /api/v1/[module]/resources # 创建 +PUT /api/v1/[module]/resources/:id # 更新 +DELETE /api/v1/[module]/resources/:id # 删除 +``` + +**响应格式:** +```typescript +// 成功响应 +{ + success: true, + data: any, + message?: string +} + +// 错误响应 +{ + success: false, + error: { + code: string, + message: string, + details?: any + } +} +``` + +--- + +## 🚀 实施计划 + +### Week 2:架构改造(2025-11-13 至 2025-11-17) + +#### Day 6(11-13):前端架构基础 ⏰ 4-6小时 + +**上午:项目创建和框架层** +- [x] 创建 frontend-v2 项目(Vite + React + TS) +- [x] 安装依赖(Antd、Router、Zustand、React Query) +- [x] 配置 Tailwind CSS +- [x] 创建目录结构(framework/modules/shared) +- [x] 实现 TopNavigation.tsx +- [x] 实现 MainLayout.tsx +- [x] 定义模块接口(ModuleDefinition) + +**下午:模块占位** +- [x] 为5个模块创建目录 +- [x] 创建 Placeholder.tsx 组件 +- [x] 配置基本路由 +- [x] 测试导航切换 + +**交付物:** +- ✅ 可运行的 frontend-v2 项目 +- ✅ 顶部导航正常工作 +- ✅ 5个模块占位页面 + +#### Day 7(11-14):模块注册机制 ⏰ 6-8小时 + +**上午:注册系统** +- [ ] 实现 moduleRegistry.ts +- [ ] 实现 ModuleLoader.tsx +- [ ] 实现动态路由加载 +- [ ] 实现懒加载机制 + +**下午:测试和文档** +- [ ] 测试模块注册 +- [ ] 测试路由切换 +- [ ] 编写开发文档 +- [ ] 更新 README + +**交付物:** +- ✅ 完整的模块注册系统 +- ✅ 动态路由加载 +- ✅ 开发文档 + +#### Day 8-9(11-15 至 11-16):后端代码分层 ⏰ 1-2天 + +**Day 8 上午:创建目录结构** +- [ ] 创建 platform/ 目录 +- [ ] 创建 common/ 目录 +- [ ] 创建 modules/ 目录 + +**Day 8 下午:迁移 AIA 模块** +- [ ] 创建 modules/aia/ 结构 +- [ ] 迁移 projectController.ts +- [ ] 迁移 conversationController.ts +- [ ] 更新路由注册 + +**Day 9 上午:迁移 PKB 和 RVW** +- [ ] 迁移 PKB 模块代码 +- [ ] 迁移 RVW 模块代码 +- [ ] 更新所有 import 路径 + +**Day 9 下午:测试和文档** +- [ ] 测试所有 API +- [ ] 更新 API 文档 +- [ ] 编写迁移说明 + +**交付物:** +- ✅ 完成后端代码分层 +- ✅ 所有API正常工作 +- ✅ 更新文档 + +#### Day 10(11-17):Week 2 验收 ⏰ 4小时 + +- [ ] 前端架构验收 +- [ ] 后端分层验收 +- [ ] 集成测试 +- [ ] 编写 Week 2 总结报告 +- [ ] 规划 Week 3 ASL 任务 + +--- + +### Week 3-4:ASL模块开发(在新架构下) + +**在全新的 frontend-v2 和分层后的 backend 中开发 ASL 模块** + +详见:[下一阶段行动计划-V2.2-完整版.md](../08-项目管理/下一阶段行动计划-V2.2-完整版.md) + +--- + +## 📝 旧代码处理 + +### frontend/ 目录 + +**状态:** ⏸️ 保留,不再开发 + +**处理方式:** +1. 添加 `README-ARCHIVED.md` 说明文件 +2. 在根目录 `package.json` 中区分启动命令 +3. 保留3-6个月,作为参考和应急备份 +4. 新架构稳定后再删除 + +**参考价值:** +- UI交互设计 +- 某些组件实现 +- API调用逻辑 +- 业务流程 + +### 启动命令 + +```json +{ + "scripts": { + "dev:frontend-old": "cd frontend && npm run dev", + "dev:frontend-new": "cd frontend-v2 && npm run dev", + "dev:frontend": "npm run dev:frontend-new", + "dev:backend": "cd backend && npm run dev", + "dev": "concurrently \"npm run dev:backend\" \"npm run dev:frontend\"" + } +} +``` + +--- + +## 🎯 成功标准 + +### Week 2 验收标准 + +**前端:** +- [x] frontend-v2 项目可运行 +- [x] 顶部导航正常工作 +- [x] 模块注册系统完整 +- [x] 5个模块占位页面 +- [x] 路由切换正常 +- [x] 完整的开发文档 + +**后端:** +- [ ] 代码分层完成(platform/common/modules) +- [ ] 所有现有API正常工作 +- [ ] 路由前缀统一(/api/v1/[module]/*) +- [ ] import路径全部更新 +- [ ] API文档更新 + +**文档:** +- [x] 本架构设计文档 +- [ ] 前端开发规范文档 +- [ ] 后端开发规范文档 +- [ ] Week 2总结报告 + +--- + +## 📚 相关文档 + +### 架构设计 +- [Schema隔离架构设计(10个)](../09-架构实施/01-Schema隔离架构设计(10个).md) +- [前端总体架构设计](../01-平台基础层/06-前端架构/01-前端总体架构设计.md) +- [导航结构设计](../01-平台基础层/06-前端架构/02-导航结构设计.md) + +### 数据库设计 +- [AIA数据库设计](../03-业务模块/AIA-AI智能问答/02-技术设计/01-数据库设计.md) +- [PKB数据库设计](../03-业务模块/PKB-个人知识库/02-技术设计/01-数据库设计.md) + +### 实施报告 +- [Schema迁移完成报告](../09-架构实施/Schema迁移完成报告.md) +- [Prisma配置完成报告](../09-架构实施/Prisma配置完成报告.md) + +### 项目管理 +- [下一阶段行动计划-V2.2-完整版](../08-项目管理/下一阶段行动计划-V2.2-完整版.md) + +--- + +## 🔄 版本历史 + +| 版本 | 日期 | 变更内容 | 维护者 | +|------|------|---------|--------| +| V2.0 | 2025-11-12 | 创建本文档,定义前后端模块化架构 | AI助手 | +| V2.1 | 2025-11-13 | 完成权限系统、错误边界、路由守卫实施 | AI助手 | + +--- + +**文档维护者:** AI助手 + 开发团队 +**最后更新:** 2025-11-13 +**文档状态:** ✅ 已完成,Week 2 Day 7实施完成 + +**🎉 这是系统架构演进的重要里程碑!** + + diff --git a/docs/00-项目概述/壹证循科技 AI科研产品需求文档.md b/docs/00-项目概述/壹证循科技 AI科研产品需求文档.md new file mode 100644 index 00000000..286404a3 --- /dev/null +++ b/docs/00-项目概述/壹证循科技 AI科研产品需求文档.md @@ -0,0 +1,86 @@ +# **壹证循科技 \- AI科研产品需求文档 (PRD)** + +文档版本: 1.0 +日期: 2025年11月5日 +致: 产品部、市场部、销售部、技术部及全体同仁 + +## **1\. 文档目的** + +本需求文档 (Product Requirements Document, PRD) 旨在清晰定义“壹证循科技AI科研产品”的核心功能、目标用户及关键的非功能性需求。 + +本文档是跨部门协作的基石,用于确保技术实现、产品设计与市场策略保持高度一致,特别是应对我们复杂的商业模式和多样的客户部署需求。 + +## **2\. 产品愿景与目标** + +产品愿景: +打造一个覆盖临床科研全生命周期、AI驱动的一站式智能科研平台。 +核心目标: +赋能临床医生和科研人员,通过AI与自动化工具,极大地提升科研效率、数据处理质量和文献分析深度,缩短从数据到洞察的周期。 + +## **3\. 目标用户画像 (User Personas)** + +1. **临床医生/研究者**: + * **画像**:三甲医院的科室主任、主治医师、研究生。 + * **痛点**:有科研项目(如国自然、GCP、回顾性研究)压力,但临床工作繁忙,缺乏专业统计和数据处理时间。 + * **需求**:需要“开箱即用”的工具,快速处理院内数据、分析文献、完成统计、撰写论文。**极其关注患者数据隐私与安全**。 +2. **医院科室/IT部门**: + * **画像**:医院的科研管理科室、信息中心。 + * **痛点**:需要为全院提供合规、可控的科研工具;希望科研数据(尤其是HIS、LIS数据)保留在院内。 + * **需求**:采购的工具必须支持**私有化部署**,且安全、稳定、易于管理。 + +## **4\. 核心功能需求 (Functional Requirements)** + +产品功能矩阵共分为7大核心模块,共同构成科研全流程闭环。 + +| 模块ID | 模块名称 | 核心功能描述 | +| :---- | :---- | :---- | +| **F1** | **智能统计分析 (SSA)** | 提供3条核心分析路径:队列研究、预测模型、RCT研究。实现从数据上传、质控、分析到报告导出的完整流程。 | +| **F2** | **统计分析工具 (ST)** | 提供一个包含100+种轻量化统计工具的工具箱,满足即时、小型的分析需求。 | +| **F3** | **AI智能回答 (AIA)** | 提供10+个专业AI智能体,覆盖科研关键节点:选题评价、PICO梳理、样本量计算、研究方案制定、文章润色与翻译等。 | +| **F4** | **AI智能文献 (ASL)** | 提供AI驱动的文献工作流:智能检索、标题摘要初筛、全文复筛、信息提取,并支持Meta分析、证据图谱等应用。 | +| **F5** | **个人知识库 (PKB)** | 允许用户创建私人文献库(如每个库50篇),并能基于库内文献进行AI问答(RAG)。 | +| **F6** | **数据清洗整理 (DC)** | **(核心难点)** 提供专业工具,处理医院导出的海量(百万行级)、多表格(10+张)的Excel数据,实现两大功能: 1\. **表格ETL**:将多张散乱的流水表,按“患者ID”和“时间”重组为一张干净的分析宽表。 2\. **文本提取(NER)**:从病理报告、住院小结等大段文本中,自动提取结构化的关键字段(如TNM分期)。 | +| **F7** | **个人中心 (UAM)** | 提供账户管理、版本信息、帮助中心、订单管理等基础支撑功能。 | + +## **5\. 关键非功能性需求 (Non-Functional Requirements)** + +这是本产品在商业推广中**最复杂、最核心**的需求,是技术架构必须解决的关键挑战。 + +### **NFR-1: 部署模式灵活性 (Deployment Flexibility)** + +产品必须支持以下四种部署形态,以满足不同客户(尤其是医院)对数据安全和合规性的严苛要求。 + +| 部署形态 | 描述 | 关键要求 | +| :---- | :---- | :---- | +| **云端SaaS版** | (默认) 产品部署在公有云,用户通过浏览器按需订阅使用。 | 必须支持多租户、高可用。 | +| **私有化部署** | (医院/机构) 将**整个平台**或**指定模块**(如DC, SSA)部署在客户的内网服务器上。 | 必须提供容器化(Docker/K8s)的一键部署方案。数据100%不出内网。 | +| **混合部署** | (私有化客户) 客户在内网使用“私有化”的DC/SSA模块,同时能调用我们“云端”的ASL/AIA模块。 | 平台必须支持这种“本地+云端”的混合调用模式,前端需智能路由。 | +| **单机版** | (个人医生) 提供**可安装的桌面应用(Windows/Mac)**,针对DC、SSA、ASL等核心模块。 | **数据100%本地化**。文献、病例原始文件严禁上传。必须支持离线运行(如DC, SSA)。 *(例外:ASL模块可受控调用云端LLM,但仅限发送“摘要”而非“原文”)* | + +### **NFR-2: 商业模式可配置 (Commercial Flexibility)** + +产品架构必须支持销售和市场策略的灵活性。 + +1. **SaaS多版本 (Tiered SaaS)** + * **需求**:云端SaaS版必须支持至少三个等级:**专业版、高级版、旗舰版**。 + * **实现**:后端需具备完善的\*\*功能开关(Feature Flag)\*\*系统,能按版本限制用户可用的功能模块、使用次数、AI模型等。 +2. **模块化售卖 (Modular Sales)** + * **需求**:任何一个功能模块(如F4: AI智能文献)都**必须能**被独立打包,作为单独的产品进行售卖。 + * **实现**:技术架构必须是“松耦合”的,确保模块间没有硬依赖。 +3. **AI成本可控 (Configurable AI)** + * **需求**:为应对不同客户的成本敏感度,平台必须支持**动态切换**后端的大语言模型。 + * **实现**:例如,专业版用户默认调用成本较低的DeepSeek,旗舰版用户可调用更高质量的Claude或GPT。 + +### **NFR-3: 平台与性能 (Platform & Performance)** + +1. **平台兼容性**: + * Web版:必须支持所有现代浏览器(Chrome, Edge, Firefox, Safari)。 + * 单机版:必须支持 **Windows 10 (64位)及以上** 和 **macOS (Intel & Apple Silicon)**。 + * **【重点】明确不支持**:为保证产品稳定性和数据安全,单机版**不支持**任何32位操作系统及Windows 7等已停止服务的系统。 +2. **数据处理性能 (DC模块)**: + * 产品(尤其是单机版)必须能稳定处理百万行级别的多表Excel数据,**严禁**因内存溢出而导致程序崩溃。 + * 产品(服务器版)在处理相同数据时,应追求极致效率,在数分钟内完成处理。 +3. **文本提取质量 (DC模块)**: + * 产品必须能提供高准确率的医学文本提取。 + * **服务器版(最优解)**:应使用SOTA(业界顶尖)的LLM(如Claude 3)以保证最高质量。 + * **单机版(妥协解)**:为保证数据隐私,必须使用100%本地运行的NLP模型(如spaCy),在保护隐私的前提下尽力提高准确率。 \ No newline at end of file diff --git a/docs/00-项目概述/壹证循科技AI科研产品 - 技术架构白皮书.md b/docs/00-项目概述/壹证循科技AI科研产品 - 技术架构白皮书.md new file mode 100644 index 00000000..f010a441 --- /dev/null +++ b/docs/00-项目概述/壹证循科技AI科研产品 - 技术架构白皮书.md @@ -0,0 +1,234 @@ +# **壹证循科技AI科研产品 \- 技术架构白皮书** + +## **1\. 执行摘要 (Executive Summary)** + +本文档为“壹证循科技”AI科研产品套件提供了一个统一的技术架构方案。 + +**核心战略**:采用\*\*“演进式架构”**。以**“模块化单体”**(Modular Monolith)启动,快速迭代;并为未来向**“微服务”\*\*(Microservices)架构的平滑过渡做好充分准备。 + +**核心原则**: + +1. **平台与产品分离**:严格划分“底层通用模块”(如用户中心)和“上层业务模块”(如统计分析)。 +2. **一个架构,多种部署**:设计一套灵活的架构,通过“容器化”和“逻辑重组”,同时支持**①云端SaaS**、**②医院私有化部署**、**③混合部署**和**④医生个人单机版**。 +3. **技术异构(Polyglot)**:采用“用最合适的工具做最合适的事”的原则,允许Node.js、R、Python、Java等技术栈在微服务架构中共存。 + +**技术路径**: + +* **云端/私有化**:采用 Docker(容器) \+ Kubernetes(编排) \+ API网关 的标准微服务部署方案。 +* **单机版**:采用 **Electron** 框架,**100%复用前端UI代码**,并通过 Node.js主进程 \+ 本地子进程(R/Python) 的方式重组后端逻辑,实现数据100%本地化。 + +## **2\. 业务需求与架构挑战** + +### **2.1 产品功能矩阵 (7大模块)** + +1. **智能统计分析 (SSA)** +2. **统计分析工具 (ST)** +3. **AI智能回答 (AIA)** +4. **AI智能文献 (ASL)** +5. **个人知识库 (PKB)** +6. **数据清洗整理 (DC)** +7. **个人中心 (UAM)** + +### **2.2 复杂的商业与部署挑战** + +1. **多版本 (SaaS)**:云端版分为专业版、高级版、旗舰版。 +2. **模块化售卖**:任何模块(如AI智能文献)都可能独立售卖。 +3. **私有化部署**:医院要求将数据敏感模块(如SSA、DC)部署在内网服务器。 +4. **混合部署**:医院本地使用SSA,同时又调用云端的ASL。 +5. **单机版部署**:医生需要在个人电脑(Windows/Mac)上离线运行SSA、DC、ASL等模块,确保数据(文献、病例)不出本地。 + +## **3\. 核心架构:API网关 \+ 微服务** + +为满足以上所有需求,我们推荐一个解耦的、面向服务的架构。 + +* **客户端 (Clients)**:包括Web浏览器、PC单机版(Electron)、移动端。 +* **API网关 (API Gateway)**:所有流量的统一入口。负责: + * **认证**:校验用户Token。 + * **路由**:将请求转发给正确的后端微服务(如 /api/stats \-\> SSA服务)。 + * **聚合**:(未来)合并多个服务的数据。 +* **后端服务 (Services)**:真正执行业务逻辑的单元。 + +## **4\. 服务模块划分 (平台 vs 产品)** + +这是架构解耦的第一步。 + +### **4.1 底层通用模块 (平台层)** + +这些是所有产品共用的“地基”,必须稳固、统一。 + +1. **用户与权限中心 (UAM)** + * **功能**:管理用户、角色、租户(医院)、权限。 + * **价值**:实现SaaS多版本(专业版/高级版)的功能开关(Feature Flag)控制。 +2. **AI大模型网关 (LLM Gateway)** + * **功能**:统一管理所有对大模型的调用(DeepSeek, Claude等)。 + * **价值**:根据SaaS版本、成本考量动态切换模型。是AI功能的核心中枢。 +3. **账户/个人中心**:管理用户配置、订单、帮助文档。 +4. **通知服务**:邮件、站内信。 + +### **4.2 独立业务模块 (产品层)** + +这些是可插拔的“积木”,对应你们的7大功能,每个都应设计为**独立的服务**。 + +1. **智能统计 (SSA) 服务** (可包含统计工具ST) +2. **AI问答 (AIA) 服务** +3. **AI文献 (ASL) 服务** +4. **知识库 (PKB) 服务** +5. **数据清洗 (DC) 服务** (详见第6节) + +## **5\. 推荐技术栈 (技术异构)** + +我们允许“用最合适的工具做最合适的事”。 + +| 领域 | 推荐技术 | 理由 | +| 前端 (UI) | React 或 Vue | 1\. 现代SPA框架。 2\. 可100%复用于Web版和Electron单机版。 | +| API网关 & 粘合层 | Node.js | 1\. 高并发I/O性能。 2\. 作为“总指挥”粘合R/Python非常成熟。 3\. Electron单机版后端复用。 | +| 统计分析 (SSA) | R 语言 | 统计分析的王者。通过 Plumber 包暴露为API,或通过子进程调用。 | +| AI/数据清洗 (DC) | Python | 强大的Pandas、Scikit-learn、NLP生态。通过 FastAPI 暴露API,或通过子进程调用。 | +| 数据库 | PostgreSQL \+ Vector DB | PostgreSQL处理结构化数据;向量数据库支持知识库(PKB)的RAG。 | +| 部署方案 | Docker \+ Kubernetes | 现代云原生的唯一标准,实现弹性和多环境部署。 | +| 单机版方案 | Electron | 唯一能原生支持Node.js后端、复用Web前端UI的跨平台方案。 | + +## **6\. 模块深度解析:(DC) 数据清洗整理服务** + +“数据清洗整理 (DC)” 模块是连接原始数据与有效分析的桥梁,技术挑战分为两部分: + +1. **海量表格ETL**:处理百万行、多表格的结构化数据,执行高效的连接(Join)、重组(Pivot)和排序。 +2. **非结构化文本NER**:从病理、出入院小结等大段文本中,提取结构化字段(如TNM分期、肿瘤大小)。 + +针对不同的部署场景,我们采用两种实现方案: + +### **6.1 方案一:服务器最优版 (Cloud-Optimal)** + +此方案用于**云端SaaS版**和**私有化部署**,目标是追求极致的**效率、准确率和质量**(假设数据已脱敏)。 + +* **技术栈**:Python (FastAPI) \+ Polars \+ LLM API (Claude/GPT) \+ PostgreSQL +* **工作流**: + 1. **API接收**:FastAPI (Python) 服务接收用户上传的多个Excel文件。 + 2. **ETL (Polars)**: + * **放弃Pandas**,采用Polars库。Polars基于Rust,天生**多线程并行**,内存效率极高。 + * 在服务器的大内存中(如64GB+),Polars能以**数秒或数十秒**的速度,在内存中完成200万行数据的多表JOIN、GROUP BY等操作,速度是Pandas的10-100倍。 + 3. **NER (LLM API)**: + * FastAPI 服务**并行调用** AI大模型网关(见4.1节)。 + * 使用 **Claude 3** 或 **GPT-4o** 等SOTA模型,配合JSON Mode,从病理报告中提取结构化信息。 + * **优势**:准确率极高,能理解复杂上下文,无需训练模型。 + 4. **交付**:清洗完成的Polars DataFrame被存入PostgreSQL结果表,前端可在线浏览或导出。 +* **架构融合**:此 FastAPI \+ Polars 服务,**就是**白皮书架构中的“数据清洗 (DC) 微服务”,由“Node.js API网关”负责调用。 + +### **6.2 方案二:单机版 (Desktop-Offline)** + +此方案用于**医生个人电脑**,目标是**100%数据隐私**和**离线可用性**,是对性能和准确率的**必要妥协**。 + +* **技术栈**:Electron (Node.js) \+ Python (Pandas) \+ SQLite \+ spaCy (本地NLP) +* **工作流**: + 1. **总指挥 (Node.js)**:Electron的主进程作为总指挥,调度Python子进程。 + 2. **ETL (SQLite)**: + * **严禁**将200万行数据一次性读入内存(会导致用户电脑崩溃)。 + * Python脚本被调用,使用Pandas的chunksize参数,**分块**读取Excel,**逐行**写入一个本地**SQLite**数据库文件 (.db)。 + * **关键**:利用 **SQLite 数据库引擎**(而不是Pandas内存)来执行所有繁重的JOIN和GROUP BY。这是在低内存电脑上处理大数据的唯一稳定方案。 + 3. **NER (本地 spaCy)**: + * **严禁**将原始病例(PHI)发送到任何云端API(重大违规)。 + * Python脚本被调用,加载 **spaCy** 等**100%本地运行**的NLP模型,在用户电脑上提取实体。 + * **劣势**:spaCy准确率有限,无法处理复杂语义,效果远不如LLM。 + 4. **交付**:所有结果被写回本地 SQLite 数据库。Electron前端通过分页从SQLite中读取数据展示,或导出为Excel。 +* **架构融合**:此方案**就是**白皮书【7.4 场景四:医生单机版】的具体实现。 + +## **7\. 关键路径:多部署模式实现** + +同一套代码库,如何支持所有商业场景? + +### **7.1 场景一:云端SaaS版 (标准微服务)** + +* **架构**:所有服务(UAM, SSA, ASL...)和数据库都在云端,通过K8s管理。 +* **客户端**:用户通过浏览器访问。 + +### **7.2 场景二:医院本地化部署 (私有化)** + +* **架构**:将数据敏感的服务(如 SSA服务、DC服务)及其数据库打包为Docker容器。 +* **部署**:使用K8s或更轻量的K3s,在医院内网服务器上“一键部署”。 +* **数据**:数据100%留在医院内网。 + +### **7.3 场景三:混合部署** + +* **架构**:在场景二的基础上,前端应用被智能配置。 +* **流程**: + * 用户访问 .../stats \-\> 前端调用**医院内网API** (http://192.168.x.x/api/stats)。 + * 用户访问 .../literature \-\> 前端调用**云端公网API** (https://api.yizhengxun.com/api/lit)。 + +### **7.4 场景四:医生单机版 (Electron)** + +这是技术上最关键的“过渡”,它不是“打包”,而是\*\*“架构重组”\*\*。 + +云端版架构: +\[浏览器UI\] \<-- (HTTP网络) \--\> \[云端Node.js API\] \<-- (HTTP) \--\> \[云端R/Python服务\] +单机版架构: +\[Electron UI (复用)\] \<-- (IPC本机通信) \--\> \[Electron主进程 (Node.js复用)\] \<-- (Child Process本机调用) \--\> \[本地R/Python脚本\] +**实现路径:** + +1. **新建Electron项目**。 +2. **移植前端 (UI复用)**:将云端版的React/Vue**编译后的静态文件** (dist目录) 完整复制到Electron中。 +3. **重组后端 (逻辑复用)**: + * 云端版的 **Node.js API逻辑**,被移植到 **Electron的主进程(main.js)** 中。 + * 云端版的 **R 和 Python 脚本**,被作为**本地文件**打包进安装包。 + * main.js (Node.js) 通过 child\_process.spawn(子进程)来**本地调用**这些R/Python脚本。(具体实现见第6.2节) +4. **数据交换**:Node.js、R、Python之间通过 stdin/stdout 和 **JSON** 字符串进行数据交换。 +5. **本地AI功能 (ASL模块)**: + * Node.js (fs模块) 读取本地文献夹中的PDF。 + * Node.js (用 pdf-parse) 在**本地**提取摘要文本。 + * Node.js (用 axios) **只将“摘要文本”发送给云端LLM API** (如DeepSeek) 进行分析。(注意:这与DC模块的原始病例处理不同)。 + * **文献原文件 (.pdf) 100% 不离开用户电脑**。 +6. **本地存储**:使用 **SQLite**(通过 npm install sqlite3)在本地存储文献的元数据、分析结果等。 + +## **8\. 工程化与兼容性 (必读)** + +### **8.1 单机版的“全家桶”挑战** + +单机版的工程挑战不是开发,而是**打包**。 + +* 您的 .exe (Windows) 和 .dmg (Mac) 安装包必须是一个“全家桶”。 +* 您需要使用 electron-builder 等工具,将以下所有内容捆绑进一个安装包: + 1. 您的Electron应用 (Node.js \+ 前端UI)。 + 2. 一个**嵌入式的 Python 运行时**及所有依赖 (pandas, spaCy等)。 + 3. 一个**嵌入式的 R 运行时**及所有依赖 (jsonlite等)。 +* 这会使安装包体积变大(如500MB+),这对于专业软件是完全可以接受的。 + +### **8.2 必须放弃:Win 7 与 32位系统** + +**这是一个商业和安全决策,不是技术选项。** + +**必须声明:** 您的单机版最低系统要求是 **Windows 10 (64位)**。 + +**理由:** + +1. **稳定性的“崩溃”问题**:32位系统有4GB内存上限,APP最多用2-3GB。您的**R语言统计分析**和**数据清洗**都是内存消耗大户,处理真实数据时**不是变卡,而是会直接崩溃闪退**,导致用户数据丢失。 +2. **安全性的“漏洞”问题**:微软已放弃Win 7。现代Electron, Node.js, Python, R生态已**全部停止支持32位和Win 7**。强行兼容意味着您必须使用5年前、充满已知安全漏洞的“古董”技术栈来处理敏感医疗数据,这是不可接受的。 + +## **9\. 分阶段实施路线图 (Roadmap)** + +作为初创公司,我们必须务实。 + +### **9.1 阶段一:云端MVP (0-6个月) \- “模块化单体”** + +* **目标**:快速上线云端SaaS版,验证市场。 +* **架构**:一个代码仓库 (Monorepo),一个主后端服务(如Node.js)。 +* **关键纪律 (打地基)**: + 1. **代码隔离**:在代码目录上,严格按“平台模块”和“业务模块”划分。 + 2. **数据隔离**:在同一个PostgreSQL数据库中,**严格使用不同的Schema** (如 uam\_schema, stats\_schema) 来隔离数据。这是未来拆分微服务的生命线。 + 3. **全员Docker**:从第一天起,所有开发、测试、生产环境都必须基于 Docker 和 docker-compose。 + +### **9.2 阶段二:首次部署 (6-18个月) \- “首次拆分”** + +* **触发点**:迎来第一个“私有化部署”客户,或“单机版”需求。 +* **架构**: + 1. **引入K8s**:在云端正式启用Kubernetes进行服务编排。 + 2. **引入API网关**:在K8s集群前部署Nginx或Kong。 + 3. **执行首次拆分**:将 SSA 和 DC 模块(连同它们的 stats\_schema)从主应用中**物理拆分**出来,打包成第一个独立的微服务(采用6.1节的“最优版”架构)。 + 4. **开发单机版**:启动第一个Electron项目,按照【7.4】中的路径进行“重组”(采用6.2节的“单机版”架构)。 + +### **9.3 阶段三:全面微服务 (18个月+)** + +* **目标**:支持灵活的业务组合和团队扩张。 +* **架构**:随着业务发展,将 ASL, PKB 等其他成熟模块也逐步拆分为独立的微服务,实现最终的“乐高积木式”的灵活架构。 + +## **10\. 结论** + +本架构方案的核心是\*\*“演进”\*\*。它在初期(阶段一)通过“模块化单体”保证了初创公司的迭代速度,同时通过“代码/数据隔离”和“全面Docker化”的纪律,为未来(阶段二、三)向复杂微服务和多部署形态的平滑过渡打下了坚实的地基,避免了未来推倒重来的灾难性成本。 \ No newline at end of file diff --git a/docs/00-项目概述/文档梳理与差异分析.md b/docs/00-项目概述/文档梳理与差异分析.md new file mode 100644 index 00000000..a7280f4c --- /dev/null +++ b/docs/00-项目概述/文档梳理与差异分析.md @@ -0,0 +1,498 @@ +# AIclinicalresearch 文档梳理与差异分析 + +> **文档版本:** v1.0 +> **创建日期:** 2025-11-06 +> **维护者:** 项目团队 +> **最后更新:** 2025-11-06 + +--- + +## 📋 执行摘要 + +本文档对AIclinicalresearch项目下的所有文档进行了系统梳理,并重点对比了**最新需求文档**(壹证循科技 AI科研产品需求文档.md 和 技术架构白皮书.md)与**现有文档**之间的差异。 + +### 🎯 核心发现 + +**最新需求文档(2025-11-05)反映了产品战略的重大调整:** + +1. **产品定位变化:** 从单一的"AI科研助手"扩展为**7大模块的综合性AI科研平台** +2. **商业模式变化:** 从简单SaaS模式扩展为**4种部署形态**(云端SaaS、私有化、混合部署、单机版) +3. **技术架构变化:** 从"模块化单体"演进为**微服务架构**,支持模块化售卖 +4. **目标用户变化:** 从科研人员扩展到**医院机构**(强调数据安全和私有化部署) + +--- + +## 📚 文档结构梳理 + +### 1. 00-项目概述 文件夹 + +| 文档名称 | 状态 | 版本日期 | 核心内容 | 是否符合最新需求 | +|---------|------|---------|---------|----------------| +| **壹证循科技 AI科研产品需求文档.md** | ✅ 最新 | 2025-11-05 | 7大模块功能矩阵、4种部署模式、商业模式 | ✅ 基准文档 | +| **壹证循科技AI科研产品 - 技术架构白皮书.md** | ✅ 最新 | 2025-11-05 | 微服务架构、技术异构、Electron单机版 | ✅ 基准文档 | +| 产品需求文档(PRD).md | ⚠️ 旧版 | 2025-10-10 | 仅包含AI问答、知识库、项目管理 | ❌ **需要更新** | +| 技术架构总览.md | ⚠️ 旧版 | 2025-10-10 | 基于Dify+LobeChat的简化架构 | ❌ **需要更新** | +| AI智能文献PRD(1)-产品概览.md | ⚠️ 部分旧 | 2025-10-21 | 6大模块(研究方案、检索、初筛、复筛、提取、分析) | ⚠️ **部分符合,需整合** | +| AI智能文献PRD(2)-初筛与复筛.md | ⚠️ 部分旧 | 2025-10-21 | 初筛和复筛详细设计 | ⚠️ **部分符合,需整合** | +| AI智能文献PRD(3)-提取与分析模块.md | ⚠️ 部分旧 | 2025-10-21 | 提取和分析详细设计 | ⚠️ **部分符合,需整合** | +| 系统总体架构设计.md | ⚠️ 占位 | 2025-10-29 | 占位文档,待完善 | ❌ **需要重写** | +| 设计文档完成总结.md | ⚠️ 旧版 | 2025-10-10 | 基于旧版PRD的总结 | ❌ **需要更新** | + +### 2. 01-设计文档 文件夹 + +| 文档名称 | 状态 | 版本日期 | 核心内容 | 是否符合最新需求 | +|---------|------|---------|---------|----------------| +| 数据库设计文档.md | ⚠️ 旧版 | 2025-10-10 | 基于AI问答+知识库的数据库设计 | ❌ **缺少DC、SSA、ASL模块表** | +| API设计规范.md | ⚠️ 旧版 | 2025-10-10 | 基于AI问答+知识库的API设计 | ❌ **缺少新模块API** | +| 平台前端架构设计/01-前端总体架构设计.md | ⚠️ 部分旧 | 2025-10-29 | 7个模块的顶部导航设计 | ⚠️ **架构正确,但缺少部署模式考虑** | +| 平台前端架构设计/02-导航结构设计.md | ⚠️ 部分旧 | 2025-10-29 | 导航详细设计 | ⚠️ **架构正确,但缺少部署模式考虑** | +| 系统架构/01-系统总体架构设计.md | ⚠️ 占位 | 2025-10-29 | 占位文档 | ❌ **需要重写** | +| 系统架构/04-运营管理端架构设计.md | ⚠️ 占位 | 2025-10-29 | 占位文档 | ❌ **需要重写** | +| 系统架构/05-部署架构设计.md | ⚠️ 占位 | 2025-10-29 | 占位文档 | ❌ **需要重写(关键)** | + +### 3. AI智能文献 文件夹 + +| 文档名称 | 状态 | 版本日期 | 核心内容 | 是否符合最新需求 | +|---------|------|---------|---------|----------------| +| 所有文档 | ⚠️ 部分旧 | 2025-10-29 | 基于Web版的AI智能文献设计 | ⚠️ **缺少单机版、私有化部署考虑** | + +### 4. 07-部署文档 文件夹 + +| 文档名称 | 状态 | 版本日期 | 核心内容 | 是否符合最新需求 | +|---------|------|---------|---------|----------------| +| 本地化部署方案.md | ⚠️ 占位 | 2025-10-29 | 占位文档 | ❌ **需要重写(关键)** | +| 模块独立部署指南.md | ⚠️ 占位 | 2025-10-29 | 占位文档 | ❌ **需要重写(关键)** | + +### 5. 05-每日进度 文件夹 + +| 状态 | 说明 | +|------|------| +| ⚠️ 历史记录 | 记录了AI问答+知识库的开发历史(Day04-Day31),基于旧版PRD | + +--- + +## 🔍 关键差异分析 + +### 差异1:产品功能范围 + +#### 旧版文档(产品需求文档(PRD).md) +``` +核心功能: +1. 项目/课题管理 +2. AI智能体(12个智能体) +3. 个人知识库 +4. 历史记录 +5. 运营后台 +``` + +#### 最新需求(壹证循科技 AI科研产品需求文档.md) +``` +7大核心模块: +F1. 智能统计分析 (SSA) - ❌ 旧文档完全缺失 +F2. 统计分析工具 (ST) - ❌ 旧文档完全缺失 +F3. AI智能回答 (AIA) - ✅ 对应旧文档的"AI智能体" +F4. AI智能文献 (ASL) - ⚠️ 有独立PRD,但未整合 +F5. 个人知识库 (PKB) - ✅ 对应旧文档的"个人知识库" +F6. 数据清洗整理 (DC) - ❌ 旧文档完全缺失(核心难点) +F7. 个人中心 (UAM) - ✅ 对应旧文档的"个人中心" +``` + +**影响:** +- ❌ 旧版数据库设计缺少 SSA、ST、DC、ASL 模块的表结构 +- ❌ 旧版API设计缺少这些模块的接口 +- ❌ 旧版前端架构虽然预留了导航位置,但缺少详细设计 + +--- + +### 差异2:部署模式 + +#### 旧版文档(技术架构总览.md) +``` +部署模式: +- 云端SaaS版(唯一模式) +- 基于Docker部署 +- 单一租户架构 +``` + +#### 最新需求(技术架构白皮书.md) +``` +4种部署形态(NFR-1核心要求): +1. 云端SaaS版 - 多租户、高可用 +2. 私有化部署 - 整个平台或指定模块部署在客户内网 +3. 混合部署 - 本地使用DC/SSA,云端调用ASL/AIA +4. 单机版 - Electron桌面应用(Windows/Mac),数据100%本地化 +``` + +**影响:** +- ❌ 旧版架构设计**完全不支持**私有化部署和单机版 +- ❌ 旧版前端架构设计未考虑**混合部署**的路由策略 +- ❌ 缺少**Electron单机版**的技术方案和开发计划 +- ❌ 缺少**容器化(K8s)**的部署架构设计 + +--- + +### 差异3:商业模式 + +#### 旧版文档 +``` +商业模式: +- 简单的SaaS订阅模式 +- 未明确版本分级 +``` + +#### 最新需求(NFR-2核心要求) +``` +商业模式(NFR-2): +1. SaaS多版本:专业版、高级版、旗舰版 + - 需要完善的Feature Flag系统 +2. 模块化售卖:任何模块可独立打包售卖 + - 技术架构必须松耦合 +3. AI成本可控:动态切换LLM模型 + - 专业版用DeepSeek,旗舰版用Claude/GPT +``` + +**影响:** +- ⚠️ 旧版前端架构设计已考虑版本权限控制,但**未实现Feature Flag系统** +- ❌ 旧版架构设计未考虑**模块独立售卖**的技术实现 +- ⚠️ 旧版已支持多模型切换,但未与版本权限绑定 + +--- + +### 差异4:技术架构 + +#### 旧版文档(技术架构总览.md) +``` +技术架构: +- 前端:React + Vite + LobeChat组件 +- 后端:Node.js + Fastify + Prisma +- 数据库:PostgreSQL +- RAG:Dify(仅用于知识库) +- LLM:DeepSeek-V3 + Qwen3 +- 架构:模块化单体(Monolith) +``` + +#### 最新需求(技术架构白皮书.md) +``` +技术架构(演进式): +- 阶段一(0-6个月):模块化单体 ✅ 与旧版一致 +- 阶段二(6-18个月):首次拆分(SSA、DC微服务)+ Electron单机版 +- 阶段三(18个月+):全面微服务架构 + +核心技术栈(技术异构): +- 前端:React/Vue(Web + Electron复用) +- API网关:Node.js +- 统计分析(SSA):R语言 + Plumber API ❌ 旧文档缺失 +- 数据清洗(DC):Python + Polars/Pandas + FastAPI ❌ 旧文档缺失 +- 部署:Docker + Kubernetes ⚠️ 旧文档仅Docker +- 单机版:Electron + 本地R/Python子进程 ❌ 旧文档完全缺失 +``` + +**影响:** +- ❌ 旧版架构设计**未考虑R语言和Python微服务**的集成 +- ❌ 旧版架构设计**未考虑Kubernetes编排** +- ❌ 旧版架构设计**完全缺少Electron单机版**的技术方案 +- ❌ 旧版架构设计**未考虑API网关**的引入 + +--- + +### 差异5:数据清洗模块(DC)- 核心难点 + +#### 旧版文档 +``` +状态:完全缺失 +``` + +#### 最新需求(技术架构白皮书第6节) +``` +数据清洗整理 (DC) 模块: +1. 海量表格ETL:处理百万行、多表格的Excel数据 +2. 非结构化文本NER:从病理报告中提取结构化字段 + +两种实现方案: +方案一:服务器最优版(云端/私有化) +- Python + Polars(替代Pandas,10-100倍速度) +- LLM API(Claude 3/GPT-4o)进行NER +- PostgreSQL存储结果 + +方案二:单机版(Desktop-Offline) +- Electron + Python子进程 +- SQLite(避免内存溢出) +- spaCy本地NLP模型(100%隐私保护) +``` + +**影响:** +- ❌ 旧版数据库设计**完全缺少DC模块的表结构** +- ❌ 旧版API设计**完全缺少DC模块的接口** +- ❌ 旧版技术栈**未包含Python微服务** +- ❌ 旧版架构设计**未考虑Polars、SQLite、spaCy**等关键技术 + +--- + +### 差异6:AI智能文献模块(ASL) + +#### 旧版文档(AI智能文献PRD系列) +``` +状态:有独立PRD文档(2025-10-21) +内容:6大模块(研究方案、检索、初筛、复筛、提取、分析) +架构:基于Web版的设计 +``` + +#### 最新需求(壹证循科技 AI科研产品需求文档.md) +``` +F4. AI智能文献 (ASL): +- 提供AI驱动的文献工作流 +- 智能检索、标题摘要初筛、全文复筛、信息提取 +- 支持Meta分析、证据图谱等应用 +- 必须支持单机版(文献原文100%不离开用户电脑) +``` + +**影响:** +- ⚠️ 现有AI智能文献PRD文档**内容基本符合**,但需要: + 1. ❌ 补充**单机版实现方案**(Electron + 本地PDF解析) + 2. ❌ 补充**私有化部署方案** + 3. ⚠️ 整合到**7大模块**的整体架构中 + +--- + +### 差异7:智能统计分析模块(SSA) + +#### 旧版文档 +``` +状态:完全缺失 +``` + +#### 最新需求 +``` +F1. 智能统计分析 (SSA): +- 3条核心分析路径:队列研究、预测模型、RCT研究 +- 数据上传、质控、分析、报告导出 +- 必须支持私有化部署(医院内网) +- 必须支持单机版(数据100%本地化) + +技术实现(白皮书): +- R语言 + Plumber API(服务器版) +- R语言 + Electron子进程(单机版) +``` + +**影响:** +- ❌ 旧版文档**完全缺少SSA模块的PRD** +- ❌ 旧版数据库设计**完全缺少SSA模块的表结构** +- ❌ 旧版技术栈**未包含R语言** +- ❌ 旧版架构设计**未考虑R语言微服务**的集成 + +--- + +## 📊 文档符合度评分 + +| 文档类别 | 符合度 | 说明 | +|---------|-------|------| +| **产品需求文档** | 30% | 仅覆盖3/7模块(AIA、PKB、UAM) | +| **技术架构文档** | 40% | 基础架构正确,但缺少微服务、Electron、K8s | +| **数据库设计** | 35% | 仅覆盖3/7模块的表结构 | +| **API设计** | 35% | 仅覆盖3/7模块的接口 | +| **前端架构** | 60% | 导航结构正确,但缺少部署模式考虑 | +| **部署文档** | 0% | 完全缺失(占位文档) | +| **AI智能文献** | 70% | 内容基本符合,但缺少单机版和私有化方案 | + +**总体符合度:约 40%** + +--- + +## 🚨 关键缺失内容清单 + +### 1. 产品需求层面 + +- [ ] **SSA模块完整PRD**(队列研究、预测模型、RCT研究) +- [ ] **ST模块完整PRD**(100+种统计工具) +- [ ] **DC模块完整PRD**(表格ETL + 文本NER) +- [ ] **4种部署模式的详细需求说明** +- [ ] **模块化售卖的商业模式设计** +- [ ] **Feature Flag系统的需求定义** + +### 2. 技术架构层面 + +- [ ] **微服务架构设计**(API网关 + 服务拆分) +- [ ] **R语言微服务集成方案** +- [ ] **Python微服务集成方案**(Polars + FastAPI) +- [ ] **Kubernetes部署架构设计** +- [ ] **Electron单机版完整技术方案** +- [ ] **混合部署的路由策略设计** +- [ ] **私有化部署的容器化方案** + +### 3. 数据库设计层面 + +- [ ] **SSA模块表结构**(研究项目、数据集、分析结果) +- [ ] **ST模块表结构**(工具配置、使用记录) +- [ ] **DC模块表结构**(清洗任务、ETL配置、NER结果) +- [ ] **ASL模块表结构**(文献项目、筛选记录、提取数据) +- [ ] **多租户数据隔离设计**(Schema隔离) + +### 4. API设计层面 + +- [ ] **SSA模块API**(数据上传、分析执行、报告生成) +- [ ] **ST模块API**(工具列表、工具执行) +- [ ] **DC模块API**(文件上传、ETL执行、NER执行) +- [ ] **ASL模块API**(文献导入、筛选、提取) +- [ ] **API网关路由配置** + +### 5. 前端架构层面 + +- [ ] **Electron单机版前端架构** +- [ ] **混合部署的前端路由策略** +- [ ] **Feature Flag前端实现** +- [ ] **模块独立打包方案** + +### 6. 部署文档层面 + +- [ ] **云端SaaS部署方案**(K8s + 多租户) +- [ ] **私有化部署方案**(Docker + K3s) +- [ ] **混合部署方案**(本地+云端) +- [ ] **Electron单机版打包方案**(Windows + Mac) +- [ ] **模块独立部署指南** + +--- + +## 📝 建议的文档更新优先级 + +### 🔴 P0 - 立即更新(阻塞开发) + +1. **系统总体架构设计.md** - 重写,基于技术架构白皮书 +2. **部署架构设计.md** - 重写,详细说明4种部署模式 +3. **数据库设计文档.md** - 补充SSA、ST、DC、ASL模块表结构 +4. **产品需求文档(PRD).md** - 重写,整合7大模块 + +### 🟠 P1 - 近期更新(影响规划) + +5. **DC模块PRD** - 新建,详细说明ETL和NER需求 +6. **SSA模块PRD** - 新建,详细说明3条分析路径 +7. **ST模块PRD** - 新建,详细说明100+工具 +8. **Electron单机版技术方案** - 新建,详细说明实现路径 +9. **API设计规范.md** - 补充新模块API + +### 🟡 P2 - 后续更新(优化完善) + +10. **前端总体架构设计.md** - 补充部署模式考虑 +11. **AI智能文献PRD系列** - 补充单机版和私有化方案 +12. **技术架构总览.md** - 重写,基于技术架构白皮书 +13. **本地化部署方案.md** - 详细说明私有化部署 +14. **模块独立部署指南.md** - 详细说明模块化售卖 + +--- + +## 🎯 下一步行动建议 + +### 建议1:明确开发阶段 + +根据技术架构白皮书的分阶段实施路线图: + +**阶段一(0-6个月):云端MVP - "模块化单体"** +- ✅ 可以继续使用现有架构(Node.js + Fastify + PostgreSQL) +- ⚠️ 但必须严格遵循"代码隔离"和"数据隔离"(Schema隔离) +- ❌ 暂不开发Electron单机版和私有化部署 + +**阶段二(6-18个月):首次拆分** +- 引入K8s和API网关 +- 拆分SSA和DC为独立微服务 +- 开发Electron单机版 + +### 建议2:模块开发优先级 + +基于商业价值和技术复杂度: + +**第一优先级(核心差异化):** +1. **DC模块(数据清洗整理)** - 核心难点,差异化竞争力 +2. **ASL模块(AI智能文献)** - 已有PRD,可快速推进 + +**第二优先级(完善产品矩阵):** +3. **SSA模块(智能统计分析)** - 需要R语言团队 +4. **ST模块(统计分析工具)** - 相对简单 + +**第三优先级(已完成):** +5. AIA模块(AI智能回答) - ✅ 已完成 +6. PKB模块(个人知识库) - ✅ 已完成 +7. UAM模块(个人中心) - ✅ 已完成 + +### 建议3:文档更新策略 + +**立即行动(本周):** +1. 创建 `系统总体架构设计.md`(基于白皮书) +2. 创建 `部署架构设计.md`(4种部署模式) +3. 更新 `数据库设计文档.md`(补充新模块表结构) + +**近期行动(本月):** +4. 创建 `DC模块PRD.md` +5. 创建 `SSA模块PRD.md` +6. 创建 `Electron单机版技术方案.md` + +**持续行动:** +7. 随着开发进展,持续更新API设计、前端架构等文档 + +### 建议4:技术选型确认 + +**需要与团队确认的关键技术决策:** + +1. **是否引入R语言?** + - SSA模块需要R语言(统计分析的王者) + - 需要评估团队能力和学习成本 + +2. **是否引入Python微服务?** + - DC模块需要Python + Polars/Pandas + - 需要评估与现有Node.js架构的集成复杂度 + +3. **是否立即规划Electron单机版?** + - 白皮书建议在阶段二(6-18个月)开发 + - 需要确认市场需求的紧迫性 + +4. **是否立即引入K8s?** + - 白皮书建议在阶段二引入 + - 阶段一可以继续使用Docker Compose + +--- + +## 📌 总结 + +### 核心问题 + +**旧版文档与最新需求的核心差异:** + +1. **产品范围扩大:** 从3个模块扩展到7个模块 +2. **部署模式复杂化:** 从单一云端SaaS扩展到4种部署形态 +3. **技术架构演进:** 从模块化单体演进到微服务架构 +4. **商业模式升级:** 从简单订阅到模块化售卖 + 多版本 + 多部署 + +### 关键建议 + +**务实的推进策略:** + +1. **阶段一(当前):** 继续使用现有架构,专注于**云端SaaS版**的7大模块开发 +2. **严格纪律:** 必须遵循"代码隔离"和"数据Schema隔离",为未来拆分打基础 +3. **优先级:** 先开发DC和ASL模块(差异化竞争力) +4. **文档先行:** 立即更新P0级文档,指导后续开发 + +**避免过度设计:** + +- ❌ 不要在阶段一就引入K8s和API网关(增加复杂度) +- ❌ 不要在阶段一就开发Electron单机版(分散精力) +- ✅ 专注于云端SaaS版的功能完善和市场验证 +- ✅ 为未来的架构演进打好基础(代码和数据隔离) + +--- + +**文档维护者:** 项目团队 +**最后更新:** 2025-11-06 +**下次审查:** 2025-11-13 + + + + + + + + + + + + + + + diff --git a/docs/00-项目概述/最新需求与技术方案深度评估.md b/docs/00-项目概述/最新需求与技术方案深度评估.md new file mode 100644 index 00000000..9fa93f92 --- /dev/null +++ b/docs/00-项目概述/最新需求与技术方案深度评估.md @@ -0,0 +1,1348 @@ +# 最新需求与技术方案深度评估 + +> **评估日期:** 2025-11-06 +> **评估人:** 技术架构师 +> **评估对象:** 壹证循科技 AI科研产品需求文档 + 技术架构白皮书 +> **评估目的:** 深度分析产品战略和技术路径的合理性、可行性和潜在风险 + +--- + +## 📊 执行摘要 + +### 总体评价 + +**产品战略:⭐⭐⭐⭐⭐ (5/5)** +- ✅ 目标清晰,定位准确 +- ✅ 用户画像深刻 +- ✅ 商业模式完整 +- ✅ 非功能需求考虑周全 + +**技术方案:⭐⭐⭐⭐ (4/5)** +- ✅ 演进式架构设计合理 +- ✅ 技术选型务实 +- ✅ 分阶段实施可行 +- ⚠️ 部分技术细节需要补充 + +### 核心发现 + +**优点:** +1. ✅ **战略清晰**:7大模块覆盖科研全流程 +2. ✅ **商业模式完善**:4种部署 + 模块化售卖 + 多版本 +3. ✅ **技术路径务实**:演进式架构,避免过度设计 +4. ✅ **风险控制合理**:分阶段实施,快速验证 + +**需要注意的问题:** +1. ⚠️ **技术复杂度高**:7个模块 + 4种部署 + 3种技术栈 +2. ⚠️ **团队能力要求**:需要Node.js + R + Python多栈能力 +3. ⚠️ **时间估算乐观**:阶段一6个月可能紧张 +4. ⚠️ **成本控制挑战**:单机版打包和维护成本可能被低估 + +--- + +## 📋 Part 1:产品需求文档深度分析 + +### 1.1 产品定位评估 ✅ **优秀** + +#### 核心定位 +``` +"一个覆盖临床科研全生命周期、AI驱动的一站式智能科研平台" +``` + +**评价:⭐⭐⭐⭐⭐** +- ✅ **定位清晰**:临床科研全流程 +- ✅ **差异化明显**:AI驱动是核心竞争力 +- ✅ **目标明确**:提升效率、降低门槛 + +**对比分析:** +| 竞品类型 | 定位 | 我们的差异化 | +|---------|------|------------| +| 统计分析软件(SPSS/SAS) | 专注统计 | ✅ 我们覆盖全流程 | +| 文献管理软件(EndNote) | 专注文献 | ✅ 我们有AI智能分析 | +| AI写作助手(ChatGPT) | 通用AI | ✅ 我们是医学垂直领域 | +| 科研管理平台(各种SaaS) | 流程管理 | ✅ 我们有AI核心能力 | + +**结论:定位准确,具有差异化竞争力** + +--- + +### 1.2 用户画像评估 ✅ **准确** + +#### 两类核心用户 +**1. 临床医生/研究者** +- 痛点:繁忙、缺乏统计能力、数据处理困难 +- 需求:开箱即用、快速处理、**数据隐私** +- 特点:**极其关注数据安全** + +**2. 医院科室/IT部门** +- 痛点:需要合规工具、科研数据不能外泄 +- 需求:**私有化部署**、安全稳定、易管理 +- 特点:采购决策者,看重合规性 + +**评价:⭐⭐⭐⭐⭐** +- ✅ **用户分层准确**:个人用户 vs 机构用户 +- ✅ **痛点挖掘深刻**:数据隐私是核心痛点 +- ✅ **需求理解到位**:私有化部署是必需,不是可选 + +**关键洞察:** +``` +医院对"数据隐私"的要求,直接决定了必须支持: +1. 私有化部署(数据不出内网) +2. 单机版(数据不上传) +3. 本地NLP模型(DC模块) +``` + +**这是产品战略的核心支撑,非常正确!** + +--- + +### 1.3 功能模块设计评估 ⭐⭐⭐⭐⭐ **优秀** + +#### 7大模块矩阵 + +| 模块 | 价值定位 | 差异化竞争力 | 技术难度 | 商业价值 | +|------|---------|------------|---------|---------| +| **F1: SSA(智能统计分析)** | 核心工具 | ⭐⭐⭐⭐ 3条路径完整 | ⭐⭐⭐⭐⭐ 需要R语言 | ⭐⭐⭐⭐⭐ 刚需 | +| **F2: ST(统计分析工具)** | 补充工具 | ⭐⭐⭐ 100+工具 | ⭐⭐⭐ 相对简单 | ⭐⭐⭐⭐ 高频使用 | +| **F3: AIA(AI智能回答)** | AI能力 | ⭐⭐⭐⭐⭐ 10+智能体 | ⭐⭐⭐ 已验证 | ⭐⭐⭐⭐ 差异化 | +| **F4: ASL(AI智能文献)** | AI能力 | ⭐⭐⭐⭐⭐ 全流程自动化 | ⭐⭐⭐⭐ 复杂但可行 | ⭐⭐⭐⭐⭐ 巨大痛点 | +| **F5: PKB(个人知识库)** | 辅助功能 | ⭐⭐⭐ RAG问答 | ⭐⭐⭐ 已验证 | ⭐⭐⭐ 锦上添花 | +| **F6: DC(数据清洗)** | **核心难点** | ⭐⭐⭐⭐⭐ 独家能力 | ⭐⭐⭐⭐⭐ 最高难度 | ⭐⭐⭐⭐⭐ 核心痛点 | +| **F7: UAM(个人中心)** | 基础功能 | ⭐ 标配 | ⭐⭐ 简单 | ⭐⭐ 必需 | + +**评价:⭐⭐⭐⭐⭐** + +**核心优势:** +1. ✅ **模块组合合理**:覆盖科研全流程 +2. ✅ **差异化突出**:DC和ASL是核心竞争力 +3. ✅ **刚需清晰**:SSA、DC、ASL都是强痛点 + +**关键洞察:** +``` +DC模块(数据清洗整理)的价值被充分认识: +- 问题:医院导出的流水表,百万行级别,10+张表 +- 痛点:手工整理要数周,容易出错 +- 价值:自动ETL + NER提取,数小时完成 +- 差异化:市面上几乎没有这样的产品 + +这是产品的核心竞争力! +``` + +--- + +### 1.4 非功能需求评估 ⭐⭐⭐⭐⭐ **卓越** + +#### NFR-1: 部署模式灵活性(最核心) + +| 部署形态 | 目标用户 | 核心要求 | 技术挑战 | 评价 | +|---------|---------|---------|---------|------| +| **云端SaaS版** | 个人用户、小机构 | 多租户、高可用 | ⭐⭐⭐ 中等 | ✅ 已验证 | +| **私有化部署** | 医院、大机构 | 数据不出内网、容器化 | ⭐⭐⭐⭐ 高 | ⚠️ 需要K8s | +| **混合部署** | 私有化客户(高级) | 本地DC/SSA + 云端ASL/AIA | ⭐⭐⭐⭐⭐ 很高 | ⚠️ 需要智能路由 | +| **单机版** | 个人医生 | 100%本地化、离线运行 | ⭐⭐⭐⭐⭐ 很高 | ⚠️ Electron复杂 | + +**评价:⭐⭐⭐⭐⭐** + +**核心洞察:** +``` +4种部署模式不是"可选项",而是"必需项": + +1. 云端SaaS:个人用户、小机构(70%市场) +2. 私有化:大医院、三甲医院(20%市场,但客单价高) +3. 混合部署:高级需求,技术挑战最大 +4. 单机版:个人医生、数据敏感场景(10%市场,但口碑传播) + +没有这4种部署模式,就无法覆盖全部市场! +``` + +**这是产品战略的关键决策,非常正确!** + +**但需要注意:** +⚠️ 这4种部署模式的技术复杂度远超想象: +- 单机版:需要Electron + 本地R/Python子进程 + 嵌入式数据库 +- 混合部署:需要前端智能路由 + 跨网络通信 +- 私有化:需要K8s + 一键部署脚本 + 客户侧运维支持 + +**建议分阶段实施,不要一次性全做!** + +--- + +#### NFR-2: 商业模式可配置 + +| 需求 | 描述 | 技术要求 | 评价 | +|------|------|---------|------| +| **SaaS多版本** | 专业版、高级版、旗舰版 | Feature Flag系统 | ⚠️ 未实现 | +| **模块化售卖** | 任何模块可独立打包售卖 | 松耦合架构 | ⚠️ 未实现 | +| **AI成本可控** | 动态切换LLM模型 | 模型与版本绑定 | ⚠️ 未实现 | + +**评价:⭐⭐⭐⭐** + +**优点:** +- ✅ 商业模式设计完整 +- ✅ 考虑了成本控制 +- ✅ 支持灵活销售策略 + +**问题:** +- ⚠️ **Feature Flag系统**:当前架构未实现 +- ⚠️ **模块松耦合**:当前架构有一定耦合(共用数据库) +- ⚠️ **动态模型切换**:已支持用户切换,但未与版本绑定 + +**建议:** +```typescript +// Feature Flag系统设计(建议) +interface FeatureFlag { + // 用户版本 + version: 'basic' | 'advanced' | 'flagship'; + + // 模块权限 + modules: { + SSA: boolean; // 智能统计分析 + ST: boolean; // 统计分析工具 + AIA: boolean; // AI智能回答 + ASL: boolean; // AI智能文献 + PKB: boolean; // 个人知识库 + DC: boolean; // 数据清洗 + }; + + // 功能权限 + features: { + aiModelSelection: boolean; // 可切换AI模型 + batchProcessing: boolean; // 批处理功能 + fullTextMode: boolean; // 全文精读 + knowledgeBaseQuota: number; // 知识库配额 + documentQuota: number; // 文档配额 + monthlyAIQuota: number; // 每月AI调用次数 + }; + + // 模型权限 + allowedModels: ModelType[]; // ['deepseek-v3'] or ['deepseek-v3', 'qwen3', 'claude'] +} + +// 版本配置示例 +const versionConfig = { + basic: { + modules: { AIA: true, PKB: true, UAM: true }, + allowedModels: ['deepseek-v3'], + monthlyAIQuota: 100 + }, + advanced: { + modules: { AIA: true, PKB: true, ASL: true, UAM: true }, + allowedModels: ['deepseek-v3', 'qwen3'], + monthlyAIQuota: 500 + }, + flagship: { + modules: { SSA: true, ST: true, AIA: true, ASL: true, PKB: true, DC: true, UAM: true }, + allowedModels: ['deepseek-v3', 'qwen3', 'qwen-long', 'claude'], + monthlyAIQuota: 2000 + } +}; +``` + +**这个系统需要尽快实现,是商业模式的基础!** + +--- + +#### NFR-3: 平台与性能 + +**明确不支持Win7和32位系统:⭐⭐⭐⭐⭐ 非常正确!** + +``` +理由(文档说得很清楚): +1. 稳定性:32位系统4GB内存上限,R和Python会崩溃 +2. 安全性:Win7已停止维护,存在已知漏洞 +3. 技术生态:现代技术栈已全面停止支持32位 + +结论:必须放弃,这是明智的技术决策! +``` + +**DC模块性能要求:** +- 服务器版:百万行数据,数分钟完成(Polars性能) +- 单机版:百万行数据,不崩溃(SQLite方案) + +**评价:⭐⭐⭐⭐⭐** +- ✅ 性能目标清晰 +- ✅ 技术方案合理(Polars + SQLite) +- ✅ 区分了服务器版和单机版的不同目标 + +--- + +### 1.5 产品需求文档总结 + +**总体评价:⭐⭐⭐⭐⭐ (5/5)** + +**核心优势:** +1. ✅ **战略清晰**:7大模块覆盖全流程,定位准确 +2. ✅ **用户洞察深刻**:数据隐私是核心痛点 +3. ✅ **商业模式完整**:4种部署 + 模块化售卖 + 多版本 +4. ✅ **非功能需求完善**:部署、性能、平台兼容性都考虑到了 + +**需要注意的风险:** +1. ⚠️ **实施复杂度高**:7个模块 + 4种部署,工作量巨大 +2. ⚠️ **技术挑战大**:单机版、混合部署技术难度很高 +3. ⚠️ **团队能力要求**:需要多栈能力(Node.js + R + Python) + +**建议:** +- ✅ **分阶段实施**:不要试图一次性全做 +- ✅ **聚焦核心**:先做云端SaaS版的核心模块(DC、ASL) +- ✅ **验证市场**:单机版和混合部署可以等市场验证后再做 + +--- + +## 🏗️ Part 2:技术架构白皮书深度分析 + +### 2.1 核心架构设计评估 ⭐⭐⭐⭐⭐ **卓越** + +#### "演进式架构"战略 + +``` +核心战略:以"模块化单体"启动,快速迭代; + 并为未来向"微服务"架构的平滑过渡做好充分准备。 +``` + +**评价:⭐⭐⭐⭐⭐ 非常务实!** + +**为什么这个战略是正确的?** + +**传统错误做法:** +``` +❌ 一开始就设计微服务架构 + - 问题:过度设计,开发效率低 + - 风险:需求未验证,可能推倒重来 + - 成本:K8s、API网关、服务编排,复杂度10倍+ +``` + +**正确做法(白皮书方案):** +``` +✅ 阶段一(0-6个月):模块化单体 + - 快速迭代,验证市场 + - 但严格遵守"代码隔离"和"数据Schema隔离" + - 为未来拆分打基础 + +✅ 阶段二(6-18个月):首次拆分 + - 引入K8s和API网关 + - 拆分SSA和DC为独立微服务 + - 开发Electron单机版 + +✅ 阶段三(18个月+):全面微服务 + - 所有模块独立部署 + - 支持灵活组合和模块化售卖 +``` + +**关键纪律(阶段一必须遵守):** +1. ✅ **代码隔离**:严格按模块划分目录 +2. ✅ **数据隔离**:使用不同的Schema(如`uam_schema`, `stats_schema`, `dc_schema`) +3. ✅ **全员Docker**:从第一天起就用Docker和docker-compose + +**评价:这是最佳实践!** + +**对比现有系统:** +| 要求 | 现有系统 | 符合度 | +|------|---------|-------| +| 代码隔离 | ✅ 已按模块划分 | 90% | +| 数据隔离 | ❌ 所有表在同一Schema | 0% | +| Docker化 | ⚠️ 部分Docker | 50% | + +**建议:立即开始Schema隔离!这是关键!** + +--- + +### 2.2 服务模块划分评估 ⭐⭐⭐⭐⭐ **优秀** + +#### 平台层 vs 产品层 + +**平台层(通用模块):** +1. **用户与权限中心(UAM)** + - 管理用户、角色、租户、权限 + - Feature Flag控制 + - **评价:⭐⭐⭐⭐⭐ 必需且设计合理** + +2. **AI大模型网关(LLM Gateway)** + - 统一管理所有LLM调用 + - 根据版本动态切换模型 + - **评价:⭐⭐⭐⭐⭐ 核心中枢,必需** + +3. **账户/个人中心** + - 用户配置、订单、帮助文档 + - **评价:⭐⭐⭐⭐ 标配** + +4. **通知服务** + - 邮件、站内信 + - **评价:⭐⭐⭐ 辅助功能** + +**产品层(业务模块):** +1. SSA服务(智能统计) +2. AIA服务(AI问答) +3. ASL服务(AI文献) +4. PKB服务(知识库) +5. DC服务(数据清洗) + +**评价:⭐⭐⭐⭐⭐** +- ✅ **分层清晰**:平台层是地基,产品层是积木 +- ✅ **职责明确**:平台层统一管理,产品层独立运行 +- ✅ **易于扩展**:新增模块只需加产品层 + +**关键洞察:** +``` +"AI大模型网关"是核心创新: +- 统一入口:所有LLM调用都经过网关 +- 动态切换:根据用户版本、成本考量切换模型 +- 成本控制:统一监控、计费、限流 +- 未来扩展:易于接入新模型 + +这是商业模式的技术保障! +``` + +**对比现有系统:** +| 模块 | 现有系统 | 白皮书要求 | 差距 | +|------|---------|----------|------| +| UAM | ⚠️ 简化版 | ✅ Feature Flag | ⚠️ 需要增强 | +| LLM Gateway | ❌ 无 | ✅ 统一网关 | ❌ 需要新建 | +| 账户中心 | ✅ 有 | ✅ 有 | ✅ 符合 | +| 通知服务 | ❌ 无 | ⚠️ 可选 | ⚠️ 暂时不需要 | + +**建议:立即设计LLM Gateway,这是商业模式的基础!** + +--- + +### 2.3 技术栈评估 ⭐⭐⭐⭐⭐ **务实** + +#### 技术异构(Polyglot)策略 + +``` +核心原则:"用最合适的工具做最合适的事" +``` + +| 技术 | 用途 | 理由 | 评价 | +|------|------|------|------| +| **React/Vue** | 前端UI | 现代SPA框架,Web和Electron复用 | ✅ 正确 | +| **Node.js** | API网关、粘合层 | 高并发I/O,粘合R/Python成熟 | ✅ 正确 | +| **R语言** | 统计分析(SSA) | 统计分析的王者,通过Plumber暴露API | ✅ 正确 | +| **Python** | AI/数据清洗(DC) | Pandas、Polars、NLP生态强大 | ✅ 正确 | +| **PostgreSQL** | 结构化数据 | 可靠、成熟、支持JSON | ✅ 正确 | +| **Vector DB** | RAG向量检索 | PKB模块需要 | ✅ 正确 | +| **Docker + K8s** | 部署 | 现代云原生标准 | ✅ 正确 | +| **Electron** | 单机版 | 唯一支持Node.js后端的跨平台方案 | ✅ 正确 | + +**评价:⭐⭐⭐⭐⭐** +- ✅ **技术选型务实**:每个技术都有明确理由 +- ✅ **避免盲目统一**:不强求单一技术栈 +- ✅ **考虑了复用**:前端Web和Electron复用 + +**关键决策分析:** + +**1. 为什么用R语言做SSA?** +``` +R语言优势: +- 统计分析的王者,生态最丰富 +- 医学统计专家都用R +- 可以通过Plumber包暴露为REST API + +替代方案(为什么不用): +- Python:统计生态不如R完善 +- Node.js:统计能力严重不足 +- Java:复杂度高,医学统计生态弱 + +结论:R语言是唯一合理选择 +``` + +**2. 为什么用Python做DC?** +``` +Python优势: +- Polars性能极高(10-100倍于Pandas) +- NLP生态强大(spaCy等本地模型) +- 医学NER有成熟方案 + +替代方案(为什么不用): +- R语言:数据处理不如Python灵活 +- Node.js:无Polars,NLP生态弱 + +结论:Python是最佳选择 +``` + +**3. 为什么用Node.js做API网关?** +``` +Node.js优势: +- 高并发I/O性能 +- 粘合R/Python很成熟(child_process) +- Electron后端复用(关键!) + +替代方案(为什么不用): +- Java:性能好,但Electron不支持 +- Python:不适合做API网关 +- Go:性能好,但Electron不支持 + +结论:Node.js是唯一选择(因为Electron) +``` + +**关键洞察:** +``` +技术选型的核心约束是"单机版": +- 必须用Electron(唯一的跨平台桌面方案) +- Electron后端只能是Node.js +- 所以API网关/粘合层必须是Node.js +- R和Python作为子进程调用 + +这是一个务实的技术决策链! +``` + +**对比现有系统:** +| 技术 | 现有系统 | 白皮书要求 | 差距 | +|------|---------|----------|------| +| React | ✅ 已用 | ✅ React/Vue | ✅ 符合 | +| Node.js | ✅ 已用 | ✅ API网关 | ✅ 符合 | +| R语言 | ❌ 无 | ✅ SSA模块 | ❌ 需要引入 | +| Python | ✅ 微服务 | ✅ DC模块 | ✅ 符合 | +| PostgreSQL | ✅ 已用 | ✅ 已用 | ✅ 符合 | +| K8s | ❌ 无 | ⚠️ 阶段二 | ⚠️ 暂时不需要 | +| Electron | ❌ 无 | ⚠️ 阶段二 | ⚠️ 暂时不需要 | + +**建议:阶段一先引入R语言(SSA模块),K8s和Electron在阶段二。** + +--- + +### 2.4 DC模块深度解析评估 ⭐⭐⭐⭐⭐ **卓越** + +#### 两种方案对比 + +**方案一:服务器最优版(Cloud-Optimal)** +``` +技术栈:Python (FastAPI) + Polars + LLM API (Claude/GPT) + PostgreSQL + +工作流: +1. FastAPI接收多个Excel文件 +2. Polars在大内存中(64GB+)并行处理,数秒完成JOIN +3. 并行调用AI大模型(Claude 3)进行NER提取 +4. 结果存入PostgreSQL + +优势: +- 效率:Polars比Pandas快10-100倍 +- 准确率:Claude 3 NER准确率极高 +- 扩展性:服务器资源可弹性扩展 + +劣势: +- 成本:LLM API成本较高 +- 数据:假设数据已脱敏 +``` + +**方案二:单机版(Desktop-Offline)** +``` +技术栈:Electron (Node.js) + Python (Pandas) + SQLite + spaCy (本地NLP) + +工作流: +1. Electron主进程调度Python子进程 +2. Pandas分块读取,写入本地SQLite +3. 利用SQLite引擎做JOIN和GROUP BY(不在内存) +4. spaCy 100%本地运行,提取实体 +5. 结果写回SQLite,前端分页展示 + +优势: +- 隐私:100%本地,无任何数据上传 +- 成本:无API成本 +- 离线:完全离线可用 + +劣势: +- 性能:比服务器版慢 +- 准确率:spaCy不如Claude 3 +- 稳定性:用户电脑资源有限 +``` + +**评价:⭐⭐⭐⭐⭐ 方案设计非常合理!** + +**核心洞察:** +``` +两种方案的本质区别: +1. 服务器版:追求"极致效率和准确率" +2. 单机版:追求"100%隐私保护" + +这是根据用户需求(数据隐私)做出的正确技术决策! +``` + +**关键技术点:** + +**1. 为什么用Polars而不是Pandas?** +``` +Polars优势: +- 基于Rust,天生多线程并行 +- 内存效率极高 +- 速度是Pandas的10-100倍 + +示例: +- 200万行数据多表JOIN +- Pandas:30-60秒 +- Polars:3-5秒 + +结论:服务器版必须用Polars +``` + +**2. 为什么单机版用SQLite?** +``` +问题:200万行数据一次性读入内存会崩溃 + +SQLite方案: +- Pandas分块读取(chunksize=10000) +- 逐行写入SQLite +- 利用SQLite引擎做JOIN(而不是内存) +- 前端分页读取 + +关键:让SQLite做繁重工作,而不是内存 +这是低内存电脑处理大数据的唯一稳定方案 + +结论:单机版必须用SQLite +``` + +**3. 为什么单机版用spaCy?** +``` +问题:原始病例(PHI)严禁发送到云端API + +spaCy方案: +- 100%本地运行 +- 支持医学NER +- 零成本 + +劣势: +- 准确率有限(70-80%) +- 无法理解复杂语义 + +结论:隐私保护第一,准确率第二 +这是必要的妥协 +``` + +**对比现有系统:** +| 功能 | 现有系统 | 白皮书要求 | 差距 | +|------|---------|----------|------| +| 服务器版 | ❌ 无 | ✅ Polars + Claude | ❌ 需要新建 | +| 单机版 | ❌ 无 | ✅ SQLite + spaCy | ❌ 需要新建 | +| Python微服务 | ✅ 有(文档提取) | ✅ 有 | ⚠️ 需要扩展 | + +**建议:DC模块是核心竞争力,应优先开发!** + +--- + +### 2.5 多部署模式实现评估 ⭐⭐⭐⭐ **合理但复杂** + +#### 四种场景实现 + +**场景一:云端SaaS版 - ⭐⭐⭐ 中等难度** +``` +架构:所有服务和数据库都在云端,K8s管理 +客户端:用户通过浏览器访问 + +实现: +- 标准微服务架构 +- Docker容器化 +- K8s编排 + +评价:成熟方案,风险低 +``` + +**场景二:医院私有化部署 - ⭐⭐⭐⭐ 高难度** +``` +架构:数据敏感服务(SSA、DC)打包为Docker容器 +部署:K8s或K3s,在医院内网服务器"一键部署" +数据:100%留在医院内网 + +挑战: +1. 一键部署脚本复杂(需要适配不同环境) +2. 客户侧运维支持(网络问题、性能调优) +3. 版本升级管理(如何平滑升级?) +4. License管理(如何防盗版?) + +评价:技术可行,但工程量大 +``` + +**场景三:混合部署 - ⭐⭐⭐⭐⭐ 极高难度** +``` +架构: +- 医院内网:SSA服务(http://192.168.x.x/api/stats) +- 云端公网:ASL服务(https://api.yizhengxun.com/api/lit) +- 前端智能配置,动态路由 + +挑战: +1. 前端如何知道用户是混合部署? +2. 如何配置两套API地址? +3. 跨网络通信的安全性? +4. 用户体验如何保证?(延迟、错误处理) + +评价:技术难度极高,建议暂缓 +``` + +**场景四:医生单机版 - ⭐⭐⭐⭐⭐ 极高难度** +``` +架构重组: +云端版:[浏览器UI] <-> [Node.js API] <-> [R/Python服务] +单机版:[Electron UI] <-> [Node.js主进程] <-> [本地R/Python子进程] + +实现路径: +1. 新建Electron项目 +2. 移植前端(复用React编译后的静态文件) +3. 重组后端(Node.js逻辑移植到Electron主进程) +4. 打包R和Python运行时("全家桶"安装包) +5. 本地SQLite存储 + +挑战: +1. 打包体积:500MB+(包含R/Python运行时) +2. 跨平台兼容性:Windows + Mac两套方案 +3. 性能优化:低内存电脑不能崩溃 +4. 版本管理:如何自动更新? +5. License管理:如何防盗版? + +评价:技术难度极高,工程量巨大 +``` + +**总体评价:⭐⭐⭐⭐** + +**优点:** +- ✅ 四种场景覆盖全部市场需求 +- ✅ 技术方案务实可行 + +**问题:** +- ⚠️ **实施难度被低估**:单机版和混合部署极难 +- ⚠️ **工程量被低估**:4种部署=4套运维体系 +- ⚠️ **维护成本被低估**:4套环境=4倍维护成本 + +**建议:** +``` +分阶段实施(务实策略): + +阶段一(0-6个月):专注云端SaaS版 +- 目标:验证市场,快速迭代 +- 部署:单一云端环境 +- 收益:70%市场,开发效率高 + +阶段二(6-12个月):增加私有化部署 +- 前提:云端版已验证,有客户需求 +- 目标:攻克大医院市场 +- 收益:20%市场,但客单价高 + +阶段三(12-18个月):开发单机版 +- 前提:私有化部署已成熟 +- 目标:个人医生市场 +- 收益:10%市场,口碑传播 + +阶段四(18个月+):混合部署 +- 前提:有明确客户需求 +- 目标:高级需求,定制化 +- 收益:少量客户,超高客单价 + +不要一次性全做! +``` + +--- + +### 2.6 分阶段实施路线图评估 ⭐⭐⭐⭐⭐ **卓越** + +#### 三个阶段 + +**阶段一:云端MVP(0-6个月)- "模块化单体"** +``` +目标:快速上线云端SaaS版,验证市场 + +关键纪律(打地基): +1. 代码隔离:严格按模块划分 +2. 数据隔离:使用不同Schema +3. 全员Docker:从第一天起 + +评价:⭐⭐⭐⭐⭐ 非常务实! +``` + +**阶段二:首次拆分(6-18个月)** +``` +触发点:迎来第一个"私有化部署"客户,或"单机版"需求 + +架构: +1. 引入K8s +2. 引入API网关 +3. 拆分SSA和DC为独立微服务 +4. 开发Electron单机版 + +评价:⭐⭐⭐⭐⭐ 合理的演进路径 +``` + +**阶段三:全面微服务(18个月+)** +``` +目标:支持灵活的业务组合和团队扩张 + +架构:所有模块独立部署,"乐高积木式" + +评价:⭐⭐⭐⭐ 合理但不急 +``` + +**总体评价:⭐⭐⭐⭐⭐ 这是最佳实践!** + +**为什么这个路线图是正确的?** + +**1. 避免过度设计** +``` +❌ 错误做法:一开始就微服务 + - 需求未验证,可能推倒重来 + - 开发效率低,迭代慢 + - 复杂度高,维护困难 + +✅ 正确做法:先模块化单体 + - 快速迭代,验证市场 + - 开发效率高 + - 但为未来拆分打基础(关键!) +``` + +**2. 根据市场需求演进** +``` +阶段一:验证产品价值 +阶段二:响应客户需求(私有化/单机版) +阶段三:支持规模化扩张 + +这是精益创业的最佳实践! +``` + +**3. 降低技术风险** +``` +每个阶段都有明确的验收标准: +- 阶段一:产品可用,有用户 +- 阶段二:有私有化客户,有收入 +- 阶段三:用户规模扩大,需要微服务 + +逐步演进,风险可控 +``` + +**对比现有系统:** +| 阶段 | 现有系统 | 白皮书要求 | 符合度 | +|------|---------|----------|-------| +| 阶段一 | ✅ 已做 | ✅ 模块化单体 | 90% | +| 阶段二 | ❌ 未做 | ⚠️ 暂时不需要 | N/A | +| 阶段三 | ❌ 未做 | ⚠️ 暂时不需要 | N/A | + +**建议:继续阶段一,完善核心模块,等待市场信号再进入阶段二。** + +--- + +### 2.7 技术架构白皮书总结 + +**总体评价:⭐⭐⭐⭐ (4/5)** + +**核心优势:** +1. ✅ **演进式架构**:避免过度设计,务实可行 +2. ✅ **技术选型合理**:每个技术都有明确理由 +3. ✅ **分阶段实施**:降低风险,逐步演进 +4. ✅ **考虑了复用**:前端Web和Electron复用,Node.js粘合R/Python + +**需要注意的问题:** +1. ⚠️ **实施难度被低估**:单机版、混合部署、私有化都是极难的工程问题 +2. ⚠️ **时间估算偏乐观**:阶段一6个月可能紧张(7个模块) +3. ⚠️ **成本控制挑战**:单机版打包和维护成本可能被低估 +4. ⚠️ **R语言集成风险**:团队是否有R语言能力? + +**建议:** +- ✅ 继续遵循演进式架构 +- ✅ 但要更保守地估算时间和成本 +- ✅ 优先验证R语言集成的可行性 +- ✅ 单机版不要着急,等市场需求明确再做 + +--- + +## 🎯 Part 3:关键问题与风险评估 + +### 3.1 技术可行性风险 ⚠️ **中等风险** + +#### 风险1:R语言集成 + +**问题:** +- 现有团队是否有R语言能力? +- R语言如何与Node.js通信? +- 性能是否满足要求? + +**建议:** +``` +立即做技术验证(1-2天): + +1. 安装R语言和Plumber包 +2. 创建一个简单的R API: + - 读取CSV数据 + - 进行简单统计(t检验) + - 返回JSON结果 + +3. Node.js调用R API: + - 方案A:HTTP调用(Plumber API) + - 方案B:子进程调用(Rscript命令) + +4. 性能测试: + - 1000行数据处理时间 + - 10000行数据处理时间 + +如果验证通过,再开发SSA模块 +``` + +--- + +#### 风险2:Electron单机版打包 + +**问题:** +- 如何打包R和Python运行时? +- 安装包体积是否可接受?(可能500MB+) +- 跨平台兼容性如何? + +**建议:** +``` +暂缓开发,等阶段二再做: + +理由: +1. 单机版技术难度极高 +2. 市场需求未验证 +3. 维护成本高 + +但需要提前规划: +- 前端代码要考虑Electron复用 +- 后端逻辑要模块化,易于移植 +``` + +--- + +#### 风险3:数据Schema隔离 + +**问题:** +- 现有系统所有表在同一Schema +- 如何迁移到多Schema架构? +- 是否影响现有功能? + +**建议:** +``` +立即开始Schema隔离(优先级高): + +步骤: +1. 设计Schema结构: + - public(共用表:users, admin_logs) + - uam_schema(用户权限) + - aia_schema(AI问答) + - pkb_schema(知识库) + - asl_schema(AI文献) + - ssa_schema(统计分析) + - dc_schema(数据清洗) + +2. 创建迁移脚本 +3. 更新Prisma Schema +4. 测试验证 + +这是未来微服务拆分的生命线! +``` + +--- + +### 3.2 时间估算风险 ⚠️ **中高风险** + +#### 阶段一时间估算:6个月 + +**白皮书计划:** +``` +阶段一(0-6个月): +- 7个模块全部开发 +- 严格的代码和数据隔离 +- 云端SaaS版上线 +``` + +**实际情况(基于现有进度):** +``` +已用时:1个月 +已完成:3个模块(AIA、PKB、UAM) +剩余:4个模块(SSA、ST、DC、ASL) + +预估剩余时间: +- DC模块:2-3个月(最难) +- ASL模块:2个月(已有PRD) +- SSA模块:2个月(需要R语言) +- ST模块:1个月(相对简单) + +总计:7-8个月(乐观估计) +``` + +**风险:⚠️ 6个月可能完成不了!** + +**建议:** +``` +调整策略: + +方案A:延长时间到8-9个月 + - 更现实的估算 + - 降低团队压力 + +方案B:缩减范围 + - 阶段一只做核心模块(DC、ASL、部分SSA) + - ST模块和完整SSA放到阶段1.5 + +推荐:方案B,聚焦核心竞争力 +``` + +--- + +### 3.3 成本控制风险 ⚠️ **中等风险** + +#### LLM API成本 + +**DC模块NER提取:** +``` +服务器版(使用Claude 3): +- 单文档:1000-2000 tokens(病理报告) +- 50个文档:50,000-100,000 tokens +- 成本(Claude 3):$0.5-1(¥3.5-7) + +单机版(使用spaCy): +- 成本:¥0 +- 但准确率低 +``` + +**建议:** +``` +成本控制策略: + +1. 服务器版: + - 优先使用DeepSeek(¥1/百万tokens) + - Claude 3作为可选高级版 + +2. 单机版: + - 100%本地spaCy + - 提供"云端增强"选项(付费) +``` + +--- + +#### 单机版维护成本 + +**问题:** +- 打包复杂(R + Python + Node.js) +- 跨平台测试(Windows + Mac) +- 版本更新困难 +- 用户支持成本高 + +**估算:** +``` +单机版开发成本: +- 初次开发:2-3个月 +- 测试和优化:1个月 +- 总计:3-4个月 + +后续维护成本: +- 每次版本更新:1-2周 +- 用户支持:1人专职 +- 总计:持续投入 + +ROI(投资回报率): +- 单机版市场:10% +- 单价:可能更低(个人用户) +- 回报:不确定 + +风险:投入大,回报不确定 +``` + +**建议:** +``` +单机版策略: + +1. 暂缓开发,等市场验证 +2. 先做云端版和私有化部署 +3. 如果有大量单机版需求,再投入 + +但要保证: +- 前端代码可复用 +- 后端逻辑模块化 +``` + +--- + +### 3.4 团队能力风险 ⚠️ **中高风险** + +#### 多技术栈要求 + +**需要的技能:** +1. **Node.js/TypeScript** - API网关、粘合层 +2. **React** - 前端UI +3. **R语言** - SSA模块(统计分析) +4. **Python** - DC模块(数据清洗) +5. **Docker/K8s** - 部署(阶段二) +6. **Electron** - 单机版(阶段二) + +**风险:** +- ⚠️ R语言:团队可能不熟悉 +- ⚠️ K8s:需要DevOps能力 +- ⚠️ Electron:前端架构需要重组 + +**建议:** +``` +团队能力建设: + +1. 立即验证R语言: + - 安排1人学习R + Plumber + - 1周内完成技术验证 + +2. K8s延后: + - 阶段一不需要 + - 阶段二再学习或外包 + +3. Electron延后: + - 阶段一不需要 + - 可以找Electron专家咨询 + +4. 考虑招聘: + - 如果内部学习困难 + - 招聘有R语言经验的统计背景人才 +``` + +--- + +## 🎯 Part 4:关键建议与行动计划 + +### 4.1 总体建议 ⭐⭐⭐⭐⭐ + +**产品战略:完全正确,无需调整** +- ✅ 7大模块覆盖全流程 +- ✅ 4种部署满足全市场 +- ✅ 商业模式完整 + +**技术路径:基本正确,需要务实调整** +- ✅ 演进式架构 +- ✅ 技术选型合理 +- ⚠️ 但时间估算偏乐观 +- ⚠️ 实施难度被低估 + +--- + +### 4.2 立即行动(本周内) + +**行动1:R语言技术验证** +``` +目标:验证R语言集成可行性 +时间:1-2天 +人员:后端开发1人 + +步骤: +1. 安装R + Plumber +2. 创建简单统计API +3. Node.js调用测试 +4. 性能测试 + +验收标准: +- R API能正常返回统计结果 +- Node.js能成功调用 +- 性能满足要求(<5秒) +``` + +**行动2:Schema隔离设计** +``` +目标:设计多Schema架构 +时间:1天 +人员:架构师1人 + +步骤: +1. 设计Schema结构 +2. 规划迁移策略 +3. 评估影响范围 + +产出: +- Schema设计文档 +- 迁移计划 +``` + +**行动3:LLM Gateway设计** +``` +目标:设计AI大模型网关 +时间:2天 +人员:架构师1人 + +步骤: +1. 设计接口 +2. 规划Feature Flag集成 +3. 规划成本控制逻辑 + +产出: +- LLM Gateway设计文档 +- Feature Flag设计文档 +``` + +--- + +### 4.3 近期行动(本月内) + +**行动4:模块优先级确认** +``` +建议优先级: + +P0(必须立即做): +1. DC模块(数据清洗)- 核心竞争力 +2. LLM Gateway - 商业模式基础 +3. Schema隔离 - 未来架构基础 + +P1(近期做): +4. ASL模块(AI智能文献)- 已有PRD +5. Feature Flag系统 - 商业模式 + +P2(可延后): +6. SSA模块(智能统计分析)- 需要R语言 +7. ST模块(统计分析工具)- 相对简单 + +P3(阶段二): +8. K8s部署 +9. Electron单机版 +10. 私有化部署 +``` + +**行动5:文档更新** +``` +P0文档(立即更新): +1. 系统总体架构设计 - 基于白皮书 +2. 数据库设计文档 - 补充Schema隔离 +3. LLM Gateway设计文档 - 新建 +4. DC模块PRD - 新建 + +P1文档(近期更新): +5. Feature Flag设计文档 - 新建 +6. ASL模块PRD - 完善 +7. 前端总体架构设计 - 补充 +``` + +--- + +### 4.4 长期规划(3-6个月) + +**阶段一目标(调整后):** +``` +时间:6-8个月(更现实) + +核心目标: +1. 云端SaaS版上线 +2. 3个核心模块完成(DC、ASL、AIA优化) +3. Feature Flag系统完成 +4. LLM Gateway完成 + +次要目标: +5. SSA模块基础版 +6. ST模块部分功能 + +验收标准: +- 产品可用,有真实用户 +- 核心竞争力(DC、ASL)验证 +- 商业模式(Feature Flag)可运行 +``` + +**阶段二触发条件:** +``` +触发条件(满足任一): +1. 有客户明确要求私有化部署 +2. 有大量用户要求单机版 +3. 用户规模需要微服务扩展 + +触发后行动: +1. 引入K8s和API网关 +2. 拆分SSA和DC为独立微服务 +3. 开发Electron单机版(如有需求) +``` + +--- + +## 📊 Part 5:总结与结论 + +### 5.1 产品战略评价 ⭐⭐⭐⭐⭐ (5/5) + +**完全正确,无需调整!** + +1. ✅ **定位准确**:临床科研全流程,AI驱动 +2. ✅ **用户洞察深刻**:数据隐私是核心痛点 +3. ✅ **模块设计合理**:7大模块覆盖全流程,DC和ASL是核心竞争力 +4. ✅ **商业模式完整**:4种部署 + 模块化售卖 + 多版本 +5. ✅ **非功能需求完善**:部署、性能、平台兼容性都考虑到了 + +**这是一个深思熟虑、战略清晰的产品规划!** + +--- + +### 5.2 技术架构评价 ⭐⭐⭐⭐ (4/5) + +**基本正确,需要务实调整!** + +**优点:** +1. ✅ **演进式架构**:避免过度设计,务实可行 +2. ✅ **技术选型合理**:每个技术都有明确理由 +3. ✅ **分阶段实施**:降低风险,逐步演进 +4. ✅ **考虑了复用**:前端Web和Electron复用 + +**问题:** +1. ⚠️ **时间估算偏乐观**:阶段一6个月可能紧张,建议8-9个月 +2. ⚠️ **实施难度被低估**:单机版、混合部署、私有化都是极难的工程问题 +3. ⚠️ **成本控制挑战**:单机版打包和维护成本可能被低估 +4. ⚠️ **R语言风险**:需要立即验证集成可行性 + +--- + +### 5.3 核心建议 + +**建议1:继续遵循演进式架构,但要更保守地估算时间** +``` +✅ 采纳白皮书的分阶段实施策略 +✅ 但将阶段一时间从6个月调整为8-9个月 +✅ 聚焦核心模块(DC、ASL、AIA),其他模块可延后 +``` + +**建议2:立即做关键技术验证** +``` +✅ R语言集成验证(1-2天) +✅ Schema隔离设计(1天) +✅ LLM Gateway设计(2天) +``` + +**建议3:优先级排序,不要全面铺开** +``` +P0:DC模块、LLM Gateway、Schema隔离 +P1:ASL模块、Feature Flag系统 +P2:SSA模块、ST模块 +P3:K8s、Electron、私有化(阶段二) +``` + +**建议4:单机版和混合部署不要着急** +``` +⚠️ 单机版技术难度极高,维护成本高 +⚠️ 混合部署技术难度极高,需求不明确 +✅ 先做云端SaaS版和私有化部署 +✅ 等市场需求明确再做单机版和混合部署 +``` + +--- + +### 5.4 最终结论 + +**产品需求文档和技术架构白皮书总体上是优秀的!** + +**核心优势:** +1. ✅ 战略清晰,定位准确 +2. ✅ 技术路径务实可行 +3. ✅ 商业模式完整 +4. ✅ 分阶段实施降低风险 + +**需要调整的地方:** +1. ⚠️ 时间估算更保守(6个月 → 8-9个月) +2. ⚠️ 优先级更聚焦(先做核心模块) +3. ⚠️ 单机版和混合部署延后(阶段二或更晚) +4. ⚠️ 立即做关键技术验证(R语言、Schema隔离) + +**行动建议:** +- ✅ 立即开始R语言技术验证 +- ✅ 立即设计Schema隔离和LLM Gateway +- ✅ 优先开发DC和ASL模块 +- ✅ Feature Flag系统尽快实现 +- ✅ 单机版和混合部署暂缓,等市场信号 + +**这是一个具有巨大潜力的产品和合理的技术路径!** + +--- + +**评估完成日期:** 2025-11-06 +**评估人:** 技术架构师 +**下一步:** 开始关键技术验证和架构设计 + + + + + + + + + + + + + + + diff --git a/docs/00-项目概述/现有系统技术摸底报告.md b/docs/00-项目概述/现有系统技术摸底报告.md new file mode 100644 index 00000000..0f0b24bf --- /dev/null +++ b/docs/00-项目概述/现有系统技术摸底报告.md @@ -0,0 +1,1604 @@ +# AIclinicalresearch 现有系统技术摸底报告 + +> **报告日期:** 2025-11-06 +> **报告人:** 技术团队 +> **报告目的:** 全面梳理现有系统已完成的功能、技术架构、数据库设计和代码实现,为后续架构讨论提供基础 + +--- + +## 📊 执行摘要 + +### 项目基本信息 + +| 项目 | 信息 | +|------|------| +| **项目名称** | AI科研助手(AIclinicalresearch) | +| **开发周期** | 2025-10-10 至今(约1个月) | +| **开发模式** | 敏捷迭代,MVP优先 | +| **当前阶段** | 里程碑1-1.5完成,Phase2/3完成,稿件审查完成 | +| **代码量** | 后端~12,000行,前端~10,000行,Python微服务~2,100行 | +| **完成度** | 核心功能85%,基础架构100% | + +### 核心成果 + +✅ **已完成5大核心功能模块** +✅ **完整的技术架构体系** +✅ **成熟的AI集成能力** +✅ **完善的文档体系** + +--- + +## 🎯 已完成功能清单 + +### 1. **AI智能问答系统**(里程碑1核心) + +#### 1.1 智能体配置系统 +**完成时间:** Day 10-11 + +**核心能力:** +- ✅ 12个智能体的YAML配置框架 +- ✅ 动态Prompt模板加载(System + User) +- ✅ 变量替换和条件渲染 +- ✅ 热更新支持 +- ✅ 模型参数配置(temperature, maxTokens, topP) + +**已开发智能体:** +1. **选题评价智能体** - 四维度评价框架(创新性、临床价值、科学性、可行性) + +**配置文件:** +- `backend/config/agents.yaml` (348行) +- `backend/prompts/topic_evaluation_system.txt` (143行) +- `backend/prompts/topic_evaluation_user.txt` (12行) + +**技术架构:** +```typescript +// 智能体服务层 +backend/src/services/agentService.ts +- loadAgentConfig() // 加载智能体配置 +- getAgentById() // 获取智能体详情 +- renderPrompt() // 渲染Prompt模板 +- 支持变量替换:{{projectBackground}}, {{userInput}} +- 支持条件渲染:{{#if}}...{{/if}} +``` + +--- + +#### 1.2 多轮对话系统 +**完成时间:** Day 12-14 + +**核心能力:** +- ✅ 上下文组装(System + 历史 + 用户输入) +- ✅ 支持最近100条历史消息 +- ✅ 智能的上下文注入策略 +- ✅ 流式输出(SSE,打字机效果) +- ✅ 非流式输出(普通模式) + +**技术实现:** +```typescript +// 对话服务层 +backend/src/services/conversationService.ts (381行) + +// 上下文组装策略 +if (isFirstMessage) { + // 首次消息:完整模板(项目背景 + 用户问题 + 知识库) + userPrompt = renderTemplate({ + projectBackground, + userInput, + knowledgeBaseContext + }); +} else { + // 后续消息:只发送新内容 + userPrompt = knowledgeBaseContext + ? `${userInput}\n\n## 参考文献\n${knowledgeBaseContext}` + : userInput; +} + +// 流式输出 +for await (const chunk of adapter.chatStream(messages)) { + reply.raw.write(`data: ${JSON.stringify(chunk)}\n\n`); +} +``` + +**API端点:** +- `POST /api/v1/conversations/:id/messages/stream` - 发送消息(流式) +- `POST /api/v1/conversations/:id/messages` - 发送消息(非流式) +- `GET /api/v1/conversations/:id` - 获取对话详情 + +--- + +#### 1.3 LLM适配器系统 +**完成时间:** Day 12-13 + +**核心能力:** +- ✅ 统一的LLM接口抽象(ILLMAdapter) +- ✅ 3个LLM模型支持:DeepSeek-V3、Qwen3-72B、Qwen-Long +- ✅ 流式和非流式两种模式 +- ✅ 完整错误处理和Token统计 +- ✅ 工厂模式实现,易于扩展 + +**技术架构:** +```typescript +// 适配器接口 +backend/src/adapters/types.ts +interface ILLMAdapter { + chat(messages, options): Promise + chatStream(messages, options): AsyncGenerator +} + +// 具体实现 +backend/src/adapters/ +├── DeepSeekAdapter.ts (150行) - DeepSeek-V3 +├── QwenAdapter.ts (162行) - Qwen3-72B + Qwen-Long +└── LLMFactory.ts (75行) - 工厂类 +``` + +**模型对比:** +| 模型 | 定位 | 优势 | Token限制 | 成本 | +|------|------|------|----------|------| +| **DeepSeek-V3** | 主力 | 性价比极高 | 64K | ¥1/百万 | +| **Qwen3-72B** | 备用 | 中文理解好 | 128K | ¥4/百万 | +| **Qwen-Long** | 全文 | 1M超长上下文 | 1M | ¥5/百万 | + +--- + +#### 1.4 项目管理系统 +**完成时间:** Day 8-9 + +**核心能力:** +- ✅ 项目CRUD(创建、读取、更新、删除) +- ✅ 项目背景管理(动态注入到AI对话) +- ✅ 软删除机制 +- ✅ 用户项目关联 + +**数据模型:** +```prisma +model Project { + id String @id @default(uuid()) + userId String + name String + description String? @db.Text // 项目背景 + background String? @db.Text // 详细背景 + researchType String? // 研究类型 + createdAt DateTime @default(now()) + updatedAt DateTime @updatedAt + deletedAt DateTime? // 软删除 + + user User @relation(fields: [userId], references: [id]) + conversations Conversation[] + + @@index([userId, deletedAt]) +} +``` + +**API端点:** +- `POST /api/v1/projects` - 创建项目 +- `GET /api/v1/projects` - 获取项目列表 +- `GET /api/v1/projects/:id` - 获取项目详情 +- `PUT /api/v1/projects/:id` - 更新项目 +- `DELETE /api/v1/projects/:id` - 删除项目 + +--- + +### 2. **个人知识库系统**(里程碑1核心) + +#### 2.1 知识库管理 +**完成时间:** Day 18-22 + +**核心能力:** +- ✅ 知识库CRUD +- ✅ 文档上传(PDF、Word、TXT、Markdown) +- ✅ 文档状态追踪(uploading → parsing → indexing → completed/error) +- ✅ 配额管理(每用户3个知识库,每库50个文档) +- ✅ 文件格式和大小限制(最大10MB) + +**技术集成:** +- **Dify平台** - RAG知识库管理 +- **Qdrant向量数据库** - Dify内置 +- **多租户架构** - 每个知识库独立Dataset + +**数据模型:** +```prisma +model KnowledgeBase { + id String @id @default(uuid()) + userId String + name String + description String? @db.Text + difyDatasetId String @unique // 映射到Dify Dataset + documentCount Int @default(0) + totalSize BigInt @default(0) + totalTokens BigInt @default(0) // Phase2新增 + tokenLimit BigInt @default(980000) // Phase2新增 + documentLimit Int @default(50) // Phase2新增 + createdAt DateTime @default(now()) + updatedAt DateTime @updatedAt + + user User @relation(fields: [userId], references: [id]) + documents Document[] + + @@index([userId]) +} + +model Document { + id String @id @default(uuid()) + knowledgeBaseId String + name String + originalName String + fileType String + fileSize BigInt + difyDocumentId String @unique // 映射到Dify Document + status String // uploading/parsing/indexing/completed/error + errorMessage String? @db.Text + + // Phase2新增:全文存储 + fullText String? @db.Text + tokenCount Int? + charCount Int? + extractionMethod String? // nougat/pymupdf/mammoth + extractionQuality Float? + detectedLanguage String? // chinese/english + + uploadedAt DateTime @default(now()) + processedAt DateTime? + + knowledgeBase KnowledgeBase @relation(fields: [knowledgeBaseId], references: [id]) + + @@index([knowledgeBaseId, status]) +} +``` + +**API端点:** +- `POST /api/v1/knowledge-bases` - 创建知识库 +- `GET /api/v1/knowledge-bases` - 获取知识库列表 +- `GET /api/v1/knowledge-bases/:id` - 获取详情 +- `PUT /api/v1/knowledge-bases/:id` - 更新知识库 +- `DELETE /api/v1/knowledge-bases/:id` - 删除知识库 +- `POST /api/v1/knowledge-bases/:kbId/documents` - 上传文档 +- `GET /api/v1/knowledge-bases/:kbId/documents` - 获取文档列表 +- `DELETE /api/v1/documents/:id` - 删除文档 +- `POST /api/v1/documents/:id/reprocess` - 重新处理文档 + +--- + +#### 2.2 RAG检索系统(里程碑1.5优化) +**完成时间:** Day 23-27 + +**核心能力:** +- ✅ 语义检索(Dify API) +- ✅ 多知识库联合检索 +- ✅ @知识库功能(前端下拉选择) +- ✅ 检索结果注入到LLM上下文 +- ✅ **智能引用系统**(100%准确溯源) + +**优化成果:** +| 指标 | 优化前 | 优化后 | 提升 | +|------|--------|--------|------| +| 检索数量 | 3 chunks | 15 chunks | **5倍** | +| Chunk大小 | 500 tokens | 1500 tokens | **3倍** | +| **总覆盖** | **1,500 tokens** | **22,500 tokens** | **15倍** | +| 覆盖页数 | ~1页 | ~15-20页 | **15-20倍** | +| 覆盖率 | ~5% | ~40-50% | **8-10倍** | + +**智能引用系统:** +```typescript +// 后端自动收集引用信息 +interface Citation { + index: number; + documentName: string; + segmentIndex: number; + score: number; + content: string; +} + +// AI回答格式 +根据[来源1]和[来源5]的研究,阿尔兹海默病主要特征包括: +1. 记忆力减退[来源1][来源3] +2. 认知功能下降[来源5] + +--- +📚 **参考文献** +[1] 📄 **阿尔兹海默综述2023.pdf** - 第3段 (相关度95%) + "阿尔兹海默病是一种神经退行性疾病..." +``` + +**前端视觉优化:** +- `[来源N]`:蓝色高亮badge(#1890ff) +- 鼠标悬停:背景变深(#bae7ff) +- 点击跳转:平滑滚动到引用详情 +- 详情闪烁:黄色高亮2秒(#fffbe6) + +--- + +#### 2.3 全文阅读模式(Phase2) +**完成时间:** Day 28-32 + +**核心能力:** +- ✅ **Python微服务**:文档提取服务 +- ✅ **多格式支持**:PDF、Docx、Txt +- ✅ **智能提取**:Nougat(英文学术) + PyMuPDF(兜底+中文) + Mammoth(Docx) +- ✅ **语言检测**:自动识别中英文,优化提取策略 +- ✅ **Token管理**:精确计数,双重限制(50文件 + 980K tokens) +- ✅ **全文存储**:数据库保存完整文本 +- ✅ **智能文档选择**:基于Token容量的智能推荐 + +**技术架构:** +``` +┌─────────────────────────────────────────────┐ +│ Frontend (React) │ +│ - 文档上传 │ +│ - 容量显示(双进度条) │ +│ - 实时进度 │ +└──────────────┬──────────────────────────────┘ + │ REST API +┌──────────────▼──────────────────────────────┐ +│ Backend (Node.js + Fastify) │ +│ - ExtractionClient │ +│ - TokenService │ +│ - 智能文档选择 │ +└──────────────┬──────────────────────────────┘ + │ HTTP +┌──────────────▼──────────────────────────────┐ +│ Python Microservice (FastAPI) │ +│ ├── PyMuPDF (快速,中文友好) │ +│ ├── Nougat (学术论文,高质量) │ +│ ├── Mammoth (Docx → Markdown) │ +│ ├── Language Detector │ +│ └── Quality Evaluator │ +└─────────────────────────────────────────────┘ +``` + +**提取策略:** +```typescript +// 语言检测 → 选择提取方法 +if (language === 'chinese') { + // 中文PDF:PyMuPDF(快速) + text = await pymupdf.extract(pdf); +} else { + // 英文PDF:Nougat(高质量) + 降级PyMuPDF + try { + text = await nougat.extract(pdf); + if (quality < 0.7) throw new Error('Quality too low'); + } catch { + // 自动降级 + text = await pymupdf.extract(pdf); + } +} +``` + +**Python微服务文件结构:** +``` +extraction_service/ +├── main.py (509行) - FastAPI主服务 +├── services/ +│ ├── pdf_extractor.py (242行) - PDF提取总协调 +│ ├── pdf_processor.py (280行) - PyMuPDF实现 +│ ├── language_detector.py (120行) - 语言检测 +│ ├── nougat_extractor.py (242行) - Nougat实现 +│ ├── docx_extractor.py (253行) - Docx提取 +│ └── txt_extractor.py (316行) - Txt提取(多编码) +├── requirements.txt +└── README.md +``` + +**Backend集成:** +```typescript +// ExtractionClient.ts (268行) +export class ExtractionClient { + async extractDocument( + filePath: string, + fileType: string + ): Promise { + // 调用Python微服务 + const response = await axios.post( + `${this.baseUrl}/api/extract/${fileType}`, + formData + ); + return response.data; + } +} + +// TokenService.ts (243行) +export class TokenService { + calculateTokens(text: string): number { + const encoder = encoding_for_model("gpt-4"); + const tokens = encoder.encode(text); + return tokens.length; + } + + canUploadDocument( + kbId: string, + newDocTokens: number + ): Promise { + // 检查文档数量(≤50) + // 检查Token容量(≤980K) + } +} +``` + +**API端点:** +- `POST /api/v1/knowledge-bases/:id/document-selection` - 智能文档选择 +- `GET /api/v1/knowledge-bases/:id/capacity` - 获取容量信息 + +--- + +### 3. **批处理模式**(Phase3) + +#### 3.1 核心能力 +**完成时间:** Day 29(6小时) + +**定位:** 任务式交互(非对话),结构化数据提取器 + +**核心功能:** +- ✅ **预设模板**:临床研究信息提取(8字段) +- ✅ **自定义模板**:用户提示词 → 文本块显示 +- ✅ **批量处理**:3-50篇文献 +- ✅ **固定3并发**(p-queue) +- ✅ **失败重试机制** +- ✅ **Excel导出**(双Sheet设计) + +**数据模型:** +```prisma +model BatchTask { + id String @id @default(uuid()) + userId String + name String + templateType String // preset/custom + templateId String? // 预设模板ID + customPrompt String? @db.Text + + modelType String // deepseek-v3/qwen3/qwen-long + concurrency Int @default(3) + + status String // processing/completed/failed + totalCount Int + completedCount Int @default(0) + failedCount Int @default(0) + + startedAt DateTime? + completedAt DateTime? + duration Int? // 秒 + + user User @relation(fields: [userId], references: [id]) + results BatchResult[] + + @@index([userId, status]) +} + +model BatchResult { + id String @id @default(uuid()) + taskId String + documentId String // 关联Document + documentName String + + status String // success/failed + extractedData Json? // 提取的结构化数据 + rawOutput String? @db.Text + errorMessage String? @db.Text + + processingTime Int? // 毫秒 + tokenUsage Int? + + task BatchTask @relation(fields: [taskId], references: [id]) + + @@index([taskId, status]) +} +``` + +**预设模板(临床研究信息提取):** +| 字段 | 类型 | 说明 | +|------|------|------| +| research_purpose | text | 研究目的 | +| research_design | text | 研究设计(RCT/队列研究等) | +| research_subjects | text | 研究对象(纳入/排除标准) | +| sample_size | **text** | 样本量(保留原文描述) | +| intervention_group | text | 干预组 | +| control_group | text | 对照组 | +| results_data | longtext | 结果及数据 | +| oxford_level | text | 牛津评级(1a/1b/2a/2b/3a/3b/4/5) | + +**技术实现:** +```typescript +// batchService.ts (421行) +export class BatchService { + async executeBatchTask( + taskId: string, + documentIds: string[], + templateType: 'preset' | 'custom', + options: BatchOptions + ): Promise { + // 1. 加载模板或自定义Prompt + const template = await this.loadTemplate(templateType, options); + + // 2. 并发执行(固定3并发) + const queue = new PQueue({ concurrency: 3 }); + const promises = documentIds.map(docId => + queue.add(() => this.processDocument(docId, template)) + ); + + // 3. 等待所有任务完成 + const results = await Promise.allSettled(promises); + + // 4. 统计和保存 + await this.updateTaskStatistics(taskId, results); + } + + async processDocument( + docId: string, + template: Template + ): Promise { + // 1. 获取文档全文 + const document = await this.getDocument(docId); + + // 2. 构造LLM消息 + const messages = [ + { role: 'system', content: template.systemPrompt }, + { role: 'user', content: `${template.userPrompt}\n\n${document.fullText}` } + ]; + + // 3. 调用LLM + const response = await llm.chat(messages); + + // 4. 解析JSON(预设模板)或保存文本(自定义) + const extractedData = template.type === 'preset' + ? this.parseJSON(response.content) + : response.content; + + return { + documentId: docId, + status: 'success', + extractedData, + rawOutput: response.content + }; + } +} + +// jsonParser.ts (145行) - 容错的JSON解析 +export function extractJSON(text: string): object { + // 支持多种格式 + // 1. 纯JSON:{ "key": "value" } + // 2. 带前言:这是结果:\n{ ... } + // 3. 代码块:```json\n{ ... }\n``` + // 4. 带后缀:{ ... }\n\n以上是结果 +} +``` + +**API端点:** +- `POST /api/v1/batch/execute` - 执行批处理任务 +- `GET /api/v1/batch/tasks/:taskId` - 获取任务状态 +- `GET /api/v1/batch/tasks/:taskId/results` - 获取任务结果 +- `POST /api/v1/batch/tasks/:taskId/retry-failed` - 重试失败项 +- `GET /api/v1/batch/templates` - 获取所有模板 + +**效率提升:** +- 手动处理:10篇 × 10分钟 = 100分钟 +- 批处理模式:10篇 × 平均20秒 = ~7分钟 +- **提升约14倍效率** 🚀 + +--- + +### 4. **稿件审查功能**(Day 30独立开发) + +#### 4.1 核心能力 +**完成时间:** Day 30(1天) + +**定位:** 独立的稿件智能审查系统 + +**核心功能:** +- ✅ **双维度评估**:稿约规范性(11项) + 方法学评估(3部分) +- ✅ **智能分析**:基于真实期刊标准(中华医学超声杂志) +- ✅ **完整流程**:上传Word → 提取文本 → AI评估 → 生成报告 → 导出PDF +- ✅ **用户体验**:渐变卡片、拖拽上传、实时进度、颜色编码 + +**评估标准:** + +**稿约规范性评估(11项):** +1. 文题(Title) +2. 作者(Authors) +3. 中文摘要(Chinese Abstract) +4. 英文摘要(English Abstract) +5. 中文关键词(Chinese Keywords) +6. 英文关键词(English Keywords) +7. 正文(Main Text) +8. 参考文献(References) +9. 图表(Figures and Tables) +10. 利益冲突(Conflict of Interest) +11. 伦理审查(Ethics Approval) + +**方法学评估(3部分):** +1. 科研设计(Research Design) +2. 统计方法(Statistical Methods) +3. 统计分析(Statistical Analysis) + +**数据模型:** +```prisma +model ReviewTask { + id String @id @default(uuid()) + userId String + fileName String + fileType String + fileSize BigInt + + status String // processing/completed/failed + modelType String // deepseek-v3/qwen3/qwen-long + + // 评估结果 + editorialScore Float? // 稿约规范性总分 + editorialResult Json? // 详细评估结果 + methodologyScore Float? // 方法学总分 + methodologyResult Json? // 详细评估结果 + + errorMessage String? @db.Text + processingTime Int? // 毫秒 + + createdAt DateTime @default(now()) + completedAt DateTime? + + user User @relation(fields: [userId], references: [id]) + + @@index([userId, status]) +} +``` + +**Prompt设计:** +```typescript +// 稿约规范性评估Prompt (210行) +// prompts/editorial_review_system.txt + +您是一位专业的医学期刊编辑,您的任务是按照《中华医学超声杂志》的稿约要求,对提交的稿件进行规范性评估。 + +评估维度: +1. 文题 + - 检查点:准确性、简明性、规范性 + - 评分标准:0-10分 + +2. 作者 + - 检查点:作者信息完整性、排序、单位标注 + - 评分标准:0-10分 + +...(共11个维度) + +输出格式(JSON): +{ + "overall_score": 85.5, + "items": [ + { + "dimension": "文题", + "score": 9.0, + "status": "符合", + "issues": [], + "suggestions": [] + }, + ... + ] +} +``` + +```typescript +// 方法学评估Prompt (231行) +// prompts/methodology_review_system.txt + +您是一位专业的医学统计学专家,您的任务是评估医学研究稿件的方法学质量。 + +评估维度: +1. 科研设计 + - 研究类型识别 + - 设计合理性 + - 样本量计算 + +2. 统计方法 + - 方法选择 + - 参数设置 + - 假设检验 + +3. 统计分析 + - 结果呈现 + - 图表规范 + - 结论合理性 +``` + +**技术实现:** +```typescript +// reviewService.ts (437行) +export class ReviewService { + async reviewManuscript( + userId: string, + file: File, + modelType: ModelType + ): Promise { + // 1. 上传文件并创建任务 + const task = await this.createTask(userId, file); + + // 2. 提取文档全文(调用Python微服务) + const fullText = await extractionClient.extractDocument(file); + + // 3. 稿约规范性评估 + const editorialResult = await this.evaluateEditorial(fullText, modelType); + + // 4. 方法学评估 + const methodologyResult = await this.evaluateMethodology(fullText, modelType); + + // 5. 保存结果 + await this.updateTaskResult(task.id, { + editorialScore: editorialResult.overall_score, + editorialResult: editorialResult, + methodologyScore: methodologyResult.overall_score, + methodologyResult: methodologyResult + }); + + return task; + } +} +``` + +**API端点:** +- `POST /api/v1/review/upload` - 上传稿件并开始审查 +- `GET /api/v1/review/tasks/:taskId` - 查询任务状态 +- `GET /api/v1/review/tasks/:taskId/report` - 获取完整报告 +- `GET /api/v1/review/tasks` - 获取任务列表(分页) +- `DELETE /api/v1/review/tasks/:taskId` - 删除任务 + +**前端组件:** +```tsx +// ReviewPage.tsx (625行) - 主页面 +// 包含:上传区 + 进度条 + 报告展示 + PDF导出 + +// ScoreCard.tsx - 分数卡片(颜色编码) +// EditorialReview.tsx - 稿约规范性评估详情 +// MethodologyReview.tsx - 方法学评估详情 +``` + +--- + +## 🏗️ 技术架构总览 + +### 1. **技术栈** + +#### 后端技术栈 +```typescript +核心框架: +- Node.js 18+ +- TypeScript 5.x +- Fastify 4.x (高性能HTTP框架) + +数据层: +- PostgreSQL 15+ (关系数据库) +- Prisma 5.x (ORM) +- Redis (缓存,待集成) + +AI集成: +- DeepSeek-V3 (主力LLM,¥1/百万tokens) +- Qwen3-72B (备用LLM,¥4/百万tokens) +- Qwen-Long (超长上下文,1M tokens) +- Dify (RAG平台,向量检索) + +文件处理: +- @fastify/multipart (文件上传) +- @dqbd/tiktoken (Token计数) +- axios (HTTP客户端) + +并发控制: +- p-queue (队列管理) + +配置管理: +- js-yaml (YAML解析) +- dotenv (环境变量) +``` + +#### 前端技术栈 +```typescript +核心框架: +- React 18 +- TypeScript 5.x +- Vite 5.x (构建工具) + +UI组件: +- Ant Design 5.x (主要UI库) +- TailwindCSS (工具类CSS) +- React Router 6 (路由) + +状态管理: +- Zustand (轻量级状态管理) + +数据请求: +- Axios (HTTP客户端) +- EventSource (SSE流式输出) + +辅助工具: +- react-markdown (Markdown渲染) +- rehype-raw (HTML渲染) +- html2canvas + jsPDF (PDF导出) +- xlsx (Excel导出) +``` + +#### Python微服务 +```python +核心框架: +- FastAPI (高性能异步框架) +- uvicorn (ASGI服务器) + +PDF处理: +- PyMuPDF (fitz) - 快速通用 +- pdfplumber - 表格提取 +- nougat-ocr - 学术论文高质量提取 + +Docx处理: +- mammoth - 转Markdown +- python-docx - 结构化读取 + +文本处理: +- chardet - 编码检测 +- langdetect - 语言检测 + +工具: +- python-multipart - 文件上传 +- python-dotenv - 配置管理 +``` + +--- + +### 2. **数据库设计** + +#### 核心表结构(13个表) + +**用户相关(1个表):** +```prisma +model User { + id String @id @default(uuid()) + email String @unique + password String // bcrypt加密 + name String? + avatarUrl String? + role String @default("user") + status String @default("active") + kbQuota Int @default(3) + createdAt DateTime @default(now()) + updatedAt DateTime @updatedAt +} +``` + +**项目管理(1个表):** +```prisma +model Project { + id String @id @default(uuid()) + userId String + name String + description String? @db.Text + background String? @db.Text + researchType String? + createdAt DateTime @default(now()) + updatedAt DateTime @updatedAt + deletedAt DateTime? + + @@index([userId, deletedAt]) +} +``` + +**对话系统(2个表):** +```prisma +// 项目对话 +model Conversation { + id String @id @default(uuid()) + projectId String + agentId String + title String? + metadata Json? + createdAt DateTime @default(now()) + updatedAt DateTime @updatedAt + deletedAt DateTime? +} + +model Message { + id String @id @default(uuid()) + conversationId String + role String // user/assistant + content String @db.Text + model String? // deepseek-v3/qwen3/qwen-long + metadata Json? // 知识库引用等 + createdAt DateTime @default(now()) +} + +// 通用对话(智能问答) +model GeneralConversation { + id String @id @default(uuid()) + userId String + title String? + metadata Json? + createdAt DateTime @default(now()) + updatedAt DateTime @updatedAt + deletedAt DateTime? +} + +model GeneralMessage { + id String @id @default(uuid()) + conversationId String + role String + content String @db.Text + model String? + metadata Json? + createdAt DateTime @default(now()) +} +``` + +**知识库系统(2个表):** +```prisma +model KnowledgeBase { + id String @id @default(uuid()) + userId String + name String + description String? @db.Text + difyDatasetId String @unique + documentCount Int @default(0) + totalSize BigInt @default(0) + totalTokens BigInt @default(0) + tokenLimit BigInt @default(980000) + documentLimit Int @default(50) + createdAt DateTime @default(now()) + updatedAt DateTime @updatedAt + + @@index([userId]) +} + +model Document { + id String @id @default(uuid()) + knowledgeBaseId String + name String + originalName String + fileType String + fileSize BigInt + difyDocumentId String @unique + status String + errorMessage String? @db.Text + + // 全文存储 + fullText String? @db.Text + tokenCount Int? + charCount Int? + extractionMethod String? + extractionQuality Float? + detectedLanguage String? + + uploadedAt DateTime @default(now()) + processedAt DateTime? + + @@index([knowledgeBaseId, status]) +} +``` + +**批处理系统(2个表):** +```prisma +model BatchTask { + id String @id @default(uuid()) + userId String + name String + templateType String + templateId String? + customPrompt String? @db.Text + modelType String + concurrency Int @default(3) + status String + totalCount Int + completedCount Int @default(0) + failedCount Int @default(0) + startedAt DateTime? + completedAt DateTime? + duration Int? + + @@index([userId, status]) +} + +model BatchResult { + id String @id @default(uuid()) + taskId String + documentId String + documentName String + status String + extractedData Json? + rawOutput String? @db.Text + errorMessage String? @db.Text + processingTime Int? + tokenUsage Int? + + @@index([taskId, status]) +} +``` + +**稿件审查(1个表):** +```prisma +model ReviewTask { + id String @id @default(uuid()) + userId String + fileName String + fileType String + fileSize BigInt + status String + modelType String + editorialScore Float? + editorialResult Json? + methodologyScore Float? + methodologyResult Json? + errorMessage String? @db.Text + processingTime Int? + createdAt DateTime @default(now()) + completedAt DateTime? + + @@index([userId, status]) +} +``` + +**运营管理(1个表):** +```prisma +model AdminLog { + id String @id @default(uuid()) + adminId String + action String + targetType String? + targetId String? + details Json? + ipAddress String? + userAgent String? + createdAt DateTime @default(now()) + + @@index([adminId, createdAt]) + @@index([action, createdAt]) +} +``` + +**总统计:13个表,~80个字段** + +--- + +### 3. **代码结构** + +#### 后端代码结构 +``` +backend/ +├── config/ +│ └── agents.yaml (348行) - 智能体配置 +├── prompts/ (441行) +│ ├── topic_evaluation_system.txt (143行) +│ ├── topic_evaluation_user.txt (12行) +│ ├── editorial_review_system.txt (210行) +│ └── methodology_review_system.txt (231行) +├── src/ +│ ├── adapters/ (387行) - LLM适配器 +│ │ ├── types.ts (57行) +│ │ ├── DeepSeekAdapter.ts (150行) +│ │ ├── QwenAdapter.ts (162行) +│ │ └── LLMFactory.ts (18行) +│ ├── clients/ (~550行) - 外部服务客户端 +│ │ ├── DifyClient.ts (282行) +│ │ └── ExtractionClient.ts (268行) +│ ├── config/ (56行) +│ │ └── env.ts - 环境配置 +│ ├── controllers/ (~2,700行) - 控制器 +│ │ ├── projectController.ts +│ │ ├── agentController.ts (197行) +│ │ ├── conversationController.ts (247行) +│ │ ├── chatController.ts +│ │ ├── knowledgeBaseController.ts +│ │ ├── documentController.ts +│ │ ├── batchController.ts (429行) +│ │ └── reviewController.ts (265行) +│ ├── services/ (~3,000行) - 业务逻辑 +│ │ ├── projectService.ts +│ │ ├── agentService.ts (232行) +│ │ ├── conversationService.ts (381行) +│ │ ├── knowledgeBaseService.ts +│ │ ├── documentService.ts +│ │ ├── batchService.ts (421行) +│ │ ├── reviewService.ts (437行) +│ │ └── tokenService.ts (243行) +│ ├── templates/ (145行) +│ │ └── clinicalResearch.ts - 批处理预设模板 +│ ├── utils/ (145行) +│ │ └── jsonParser.ts - 容错JSON解析 +│ ├── routes/ (~250行) - 路由 +│ │ ├── projects.ts +│ │ ├── agents.ts +│ │ ├── conversations.ts +│ │ ├── chatRoutes.ts +│ │ ├── knowledgeBases.ts +│ │ ├── batchRoutes.ts +│ │ └── reviewRoutes.ts +│ ├── middleware/ (~50行) +│ │ └── validateProject.ts +│ └── index.ts (主入口) +├── prisma/ +│ ├── schema.prisma (~600行) +│ └── migrations/ +├── package.json +└── tsconfig.json + +总计:~12,000行代码 +``` + +#### 前端代码结构 +``` +frontend/ +├── src/ +│ ├── api/ (~1,500行) - API封装 +│ │ ├── projectApi.ts +│ │ ├── agentApi.ts (76行) +│ │ ├── conversationApi.ts +│ │ ├── chatApi.ts +│ │ ├── knowledgeBaseApi.ts +│ │ ├── batchApi.ts (147行) +│ │ ├── reviewApi.ts (319行) +│ │ └── request.ts (axios配置) +│ ├── components/ (~5,000行) +│ │ ├── chat/ (~3,000行) +│ │ │ ├── MessageList.tsx (含智能引用) +│ │ │ ├── MessageInput.tsx (含@知识库) +│ │ │ ├── ModelSelector.tsx +│ │ │ ├── ModeSelector.tsx +│ │ │ ├── FullTextMode.tsx +│ │ │ ├── DeepReadMode.tsx +│ │ │ ├── BatchMode.tsx +│ │ │ ├── TaskDefinition.tsx +│ │ │ ├── DocumentSelection.tsx +│ │ │ ├── BatchProgress.tsx +│ │ │ ├── PresetTable.tsx +│ │ │ ├── CustomTable.tsx +│ │ │ ├── BatchResults.tsx +│ │ │ └── CapacityIndicator.tsx +│ │ ├── knowledge/ (~800行) +│ │ │ ├── KnowledgeBaseList.tsx +│ │ │ ├── DocumentList.tsx +│ │ │ ├── DocumentUpload.tsx +│ │ │ ├── CreateKBDialog.tsx +│ │ │ └── EditKBDialog.tsx +│ │ ├── review/ (~500行) +│ │ │ ├── ScoreCard.tsx +│ │ │ ├── EditorialReview.tsx +│ │ │ └── MethodologyReview.tsx +│ │ ├── ProjectSelector.tsx +│ │ ├── CreateProjectDialog.tsx +│ │ └── EditProjectDialog.tsx +│ ├── pages/ (~2,500行) +│ │ ├── HomePage.tsx +│ │ ├── AgentChatPage.tsx +│ │ ├── ChatPage.tsx +│ │ ├── KnowledgePage.tsx +│ │ ├── ReviewPage.tsx (625行) +│ │ └── HistoryPage.tsx +│ ├── stores/ (~400行) +│ │ ├── useProjectStore.ts +│ │ └── useKnowledgeBaseStore.ts +│ ├── hooks/ (~400行) +│ │ ├── useChatMode.ts +│ │ ├── useDeepReadState.ts +│ │ └── useBatchTask.ts (198行) +│ ├── layouts/ (~200行) +│ │ └── MainLayout.tsx +│ ├── types/ (~300行) +│ │ ├── chat.ts +│ │ └── index.ts +│ └── App.tsx +├── package.json +└── vite.config.ts + +总计:~10,000行代码 +``` + +#### Python微服务结构 +``` +extraction_service/ +├── services/ +│ ├── pdf_extractor.py (242行) +│ ├── pdf_processor.py (280行) +│ ├── language_detector.py (120行) +│ ├── nougat_extractor.py (242行) +│ ├── docx_extractor.py (253行) +│ └── txt_extractor.py (316行) +├── main.py (509行) +├── requirements.txt +└── README.md + +总计:~2,100行代码 +``` + +--- + +## 📊 数据流架构 + +### 1. **AI对话流程** + +``` +用户输入 + ↓ +前端 ChatPage/AgentChatPage + ↓ POST /api/v1/conversations/:id/messages/stream +后端 conversationController + ↓ +conversationService + ├→ agentService.getAgent() - 获取智能体配置 + ├→ projectService.getProject() - 获取项目背景 + ├→ conversationService.getHistory() - 获取历史对话 + ├→ knowledgeBaseService.search() - 知识库检索(可选) + └→ 组装上下文(System + 历史 + 项目背景 + 知识库 + 用户输入) + ↓ +LLMFactory.getAdapter(modelType) + ↓ +DeepSeekAdapter / QwenAdapter + ↓ HTTP (SSE Stream) +OpenAI API / DashScope API + ↓ (流式返回) +后端 conversationService + ├→ 实时写入数据库(messages表) + └→ SSE流式返回前端 + ↓ +前端 MessageList + └→ 实时渲染(打字机效果) +``` + +--- + +### 2. **知识库RAG流程** + +``` +用户上传文档 + ↓ +前端 DocumentUpload + ↓ POST /api/v1/knowledge-bases/:id/documents +后端 documentController + ↓ +documentService.uploadDocument() + ├→ 保存文件到临时目录 + ├→ 调用Python微服务提取文本 (Phase2) + ├→ 计算Token数 (Phase2) + ├→ 检查容量限制 (Phase2) + ├→ 上传到Dify (RAG索引) + ├→ 保存全文到数据库 (Phase2) + └→ 更新知识库统计 + ↓ +后台轮询Dify处理状态 + └→ 更新document.status + +--- + +用户@知识库提问 + ↓ +前端 MessageInput (选择知识库) + ↓ POST /api/v1/conversations/:id/messages/stream +后端 conversationService + ↓ +knowledgeBaseService.search(kbIds, query) + ├→ 对每个知识库调用Dify检索API + ├→ 返回Top 15相关文档片段 + ├→ 格式化:【知识库:xxx】\n1. [相关度XX%] 内容... + └→ 收集引用信息 (Phase 1.5) + ↓ +注入到LLM上下文 + ├→ 指导AI使用[来源N]标准编号 + └→ 追加引用清单(HTML格式) + ↓ +前端 MessageList + ├→ 解析引用标记 + ├→ 高亮显示[来源N] + ├→ 点击跳转到引用详情 + └→ 详情区域高亮闪烁 +``` + +--- + +### 3. **批处理流程** + +``` +用户选择文献 + 配置任务 + ↓ +前端 BatchMode + ↓ POST /api/v1/batch/execute +后端 batchController + ↓ +batchService.executeBatchTask() + ├→ 创建BatchTask记录 + ├→ 加载预设模板或自定义Prompt + └→ 异步执行批处理 + ↓ +并发队列(p-queue,固定3并发) + ├→ processDocument(doc1) + ├→ processDocument(doc2) + └→ processDocument(doc3) + ↓ 每个文档处理 + ├→ 获取文档全文(database) + ├→ 构造LLM消息(System + User + 文档全文) + ├→ 调用LLM API + ├→ 解析JSON(预设)或保存文本(自定义) + └→ 保存BatchResult记录 + ↓ +后台更新任务统计 + └→ completedCount, failedCount, status + +--- + +前端轮询任务状态 + ↓ GET /api/v1/batch/tasks/:taskId (每5秒) +后端返回任务进度 + ├→ status, totalCount, completedCount, failedCount + └→ 预估剩余时间 + ↓ +任务完成后 + ↓ GET /api/v1/batch/tasks/:taskId/results +后端返回完整结果 + ├→ 预设模板:8列表格 + ├→ 自定义模板:3列文本块 + └→ 失败项列表 + ↓ +前端 BatchResults + ├→ 渲染结果表格 + ├→ 导出Excel(双Sheet) + └→ 重试失败项 +``` + +--- + +## 💾 数据统计 + +### 代码量统计 + +| 模块 | 文件数 | 代码行数 | 占比 | +|------|-------|---------|------| +| **后端主代码** | 38 | ~12,000 | 50% | +| **前端主代码** | 75 | ~10,000 | 42% | +| **Python微服务** | 8 | ~2,100 | 8% | +| **总计** | **121** | **~24,100** | **100%** | + +### 数据库统计 + +| 类别 | 数量 | +|------|------| +| **表** | 13 | +| **字段** | ~80 | +| **索引** | ~20 | +| **关系** | 15 | + +### API端点统计 + +| 模块 | 端点数 | +|------|-------| +| 项目管理 | 5 | +| 智能体管理 | 4 | +| 对话系统 | 8 | +| 知识库管理 | 12 | +| 批处理系统 | 5 | +| 稿件审查 | 5 | +| **总计** | **39** | + +--- + +## 🎯 已验证的技术能力 + +### 1. AI集成能力 ✅ +- ✅ **多模型支持**:DeepSeek-V3、Qwen3-72B、Qwen-Long +- ✅ **流式输出**:SSE实时传输,打字机效果 +- ✅ **上下文管理**:智能组装,历史对话,项目背景 +- ✅ **错误处理**:完整的重试机制和降级策略 +- ✅ **Token优化**:精确计数,成本控制 + +### 2. RAG能力 ✅ +- ✅ **向量检索**:Dify + Qdrant,语义搜索 +- ✅ **多知识库**:联合检索,结果合并 +- ✅ **智能引用**:100%准确溯源,可点击跳转 +- ✅ **覆盖率优化**:从5%提升到40-50%(15倍提升) + +### 3. 文档处理能力 ✅ +- ✅ **多格式支持**:PDF、Docx、Txt +- ✅ **智能提取**:Nougat(学术论文) + PyMuPDF(兜底) + Mammoth(Docx) +- ✅ **语言检测**:中英文自动识别,优化提取策略 +- ✅ **质量评估**:提取质量评分,自动降级 +- ✅ **大文件处理**:支持50MB+文档 + +### 4. 并发控制能力 ✅ +- ✅ **队列管理**:p-queue,固定3并发 +- ✅ **容错机制**:Promise.allSettled,单个失败不影响其他 +- ✅ **进度追踪**:实时统计,预估剩余时间 +- ✅ **失败重试**:失败项可单独重试 + +### 5. 数据管理能力 ✅ +- ✅ **关系数据库**:PostgreSQL + Prisma ORM +- ✅ **数据隔离**:用户级、项目级隔离 +- ✅ **软删除**:关键数据可恢复 +- ✅ **事务管理**:ACID保证 +- ✅ **索引优化**:查询性能优化 + +--- + +## 📈 性能指标 + +### 已测试的性能数据 + +| 指标 | 数值 | 说明 | +|------|------|------| +| API响应时间 | < 500ms | 普通API端点 | +| LLM首字响应 | < 3s | DeepSeek-V3 | +| 流式输出延迟 | < 100ms | SSE chunk延迟 | +| 文档上传速度 | ~5MB/s | 10MB文档约2秒 | +| PDF提取速度(PyMuPDF) | ~2页/秒 | 20页PDF约10秒 | +| PDF提取速度(Nougat) | ~0.5页/秒 | 20页PDF约40秒 | +| Docx提取速度 | ~1秒/MB | 10MB Docx约10秒 | +| Token计数速度 | ~10ms/1000字 | Tiktoken | +| 批处理速度 | ~20秒/文档 | 3并发平均 | +| RAG检索延迟 | < 1s | Dify检索 | + +### 成本指标 + +| 项目 | 成本 | 说明 | +|------|------|------| +| LLM API成本(DeepSeek-V3) | ¥1/百万tokens | 主力模型 | +| LLM API成本(Qwen3) | ¥4/百万tokens | 备用模型 | +| LLM API成本(Qwen-Long) | ¥5/百万tokens | 全文模式 | +| 单次对话成本 | ¥0.001-0.01 | 500-5000 tokens | +| 全文精读成本(50篇) | ¥0.5-1 | 100K-200K tokens | +| 批处理成本(50篇) | ¥0.3-0.5 | 60K-100K tokens | +| 稿件审查成本 | ¥0.05-0.1 | 10K-20K tokens | + +--- + +## 🚧 技术债务清单 + +### 高优先级(建议优先处理) + +1. **日志系统** + - 现状:大量console.log用于调试 + - 建议:引入日志级别控制(winston/pino) + - 影响:生产环境日志管理 + +2. **错误码体系** + - 现状:部分API缺少详细错误信息 + - 建议:统一错误码和错误消息 + - 影响:前端错误处理和用户体验 + +3. **类型定义完善** + - 现状:部分使用了`any`类型 + - 建议:补充完整的TypeScript类型定义 + - 影响:代码可维护性 + +4. **Redis缓存集成** + - 现状:已配置但未使用 + - 建议:缓存热点数据(智能体配置、知识库列表) + - 影响:性能优化 + +### 中优先级(可在里程碑2-3处理) + +5. **单元测试** + - 现状:缺少系统性测试 + - 建议:核心业务逻辑添加单元测试 + - 影响:代码质量和重构信心 + +6. **WebSocket实时推送** + - 现状:批处理进度使用HTTP轮询 + - 建议:改为WebSocket实时推送 + - 影响:用户体验优化 + +7. **文档处理并行化** + - 现状:文档提取串行处理 + - 建议:并行提取多个文档 + - 影响:批量上传性能 + +8. **API限流** + - 现状:无限流机制 + - 建议:添加限流中间件 + - 影响:防止API滥用 + +--- + +## 🎉 核心成就 + +### 1. **快速迭代能力** +- ✅ 1个月内完成5大核心功能模块 +- ✅ 每周都有可见成果 +- ✅ 技术验证全部通过 + +### 2. **AI集成深度** +- ✅ 3个LLM模型完整集成 +- ✅ 流式输出体验优秀 +- ✅ RAG检索效果显著 + +### 3. **文档处理能力** +- ✅ Python微服务高质量提取 +- ✅ 多格式全面支持 +- ✅ 智能降级策略可靠 + +### 4. **代码质量** +- ✅ TypeScript全覆盖 +- ✅ 清晰的三层架构 +- ✅ 良好的模块解耦 + +### 5. **文档完善** +- ✅ 详细的PRD文档 +- ✅ 完整的技术文档 +- ✅ 丰富的开发日志(60+篇) + +--- + +## 📝 总结 + +### 现有系统的优势 + +1. **技术架构成熟** + - 清晰的三层架构(Controller → Service → Database) + - 良好的模块化设计 + - 完整的LLM适配器抽象 + +2. **功能完整性高** + - AI对话系统:✅ 完整可用 + - 知识库系统:✅ 完整可用(RAG + 全文) + - 批处理系统:✅ 完整可用 + - 稿件审查:✅ 完整可用 + +3. **AI能力突出** + - 多模型支持,灵活切换 + - RAG检索准确,溯源清晰 + - 智能引用100%准确 + +4. **工程质量良好** + - TypeScript全覆盖 + - Prisma ORM,类型安全 + - 清晰的代码结构 + +### 现有系统的局限 + +1. **架构层面** + - ❌ 缺少SSA、ST、DC模块(最新需求) + - ❌ 未考虑私有化部署和单机版 + - ❌ 未考虑微服务架构和K8s + - ❌ 未考虑模块化售卖 + +2. **技术栈层面** + - ❌ 缺少R语言集成(SSA需要) + - ❌ 缺少API网关 + - ❌ 缺少Electron单机版 + +3. **数据库层面** + - ❌ 单一数据库,未考虑Schema隔离 + - ❌ 未考虑多租户架构 + +4. **部署层面** + - ❌ 仅支持云端SaaS,未考虑其他3种部署模式 + - ❌ 未考虑容器化部署(K8s) + +--- + +## 🔮 下一步建议 + +基于现有系统的技术摸底,建议: + +1. **明确开发阶段** + - 当前处于"阶段一:模块化单体" + - 是否立即规划"阶段二:微服务拆分"? + - 是否立即规划Electron单机版? + +2. **明确模块优先级** + - DC模块(数据清洗):核心差异化 + - ASL模块(AI智能文献):已有部分PRD + - SSA模块(智能统计分析):需要R语言 + - ST模块(统计分析工具):相对简单 + +3. **明确架构演进路径** + - 是否遵循白皮书的分阶段实施? + - 是否立即引入K8s和API网关? + - 是否立即引入R语言和Python微服务? + +4. **明确文档更新策略** + - 立即更新哪些P0级文档? + - 如何整合现有文档和最新需求? + +--- + +**报告完成日期:** 2025-11-06 +**报告维护者:** 技术团队 +**下一步:** 讨论总体技术架构、文档体系构建、分步骤实施 + + + + + + + + + + + + + + + diff --git a/docs/00-项目概述/系统总体架构设计.md b/docs/00-项目概述/系统总体架构设计.md new file mode 100644 index 00000000..46437ffa --- /dev/null +++ b/docs/00-项目概述/系统总体架构设计.md @@ -0,0 +1,50 @@ +# 系统总体架构设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** 架构团队 +> **最后更新:** 2025-10-29 + +--- + +## 📋 文档说明 + +本文档描述AI科研平台的系统总体架构设计,包括: +- 整体系统架构 +- 用户端架构 +- 运营管理端架构 +- 部署架构 +- 模块化设计 +- 安全性设计 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + + + + + + + + + + + + + + diff --git a/docs/01-平台基础层/01-用户与权限中心(UAM)/README.md b/docs/01-平台基础层/01-用户与权限中心(UAM)/README.md new file mode 100644 index 00000000..8f2ea19c --- /dev/null +++ b/docs/01-平台基础层/01-用户与权限中心(UAM)/README.md @@ -0,0 +1,85 @@ +# 用户与权限中心 (UAM) + +> **模块定位:** 平台基础层核心模块 +> **优先级:** P0(最高) +> **状态:** ⏳ 设计中 + +--- + +## 📋 模块概述 + +用户与权限中心(User Access Management)是平台的核心基础模块,负责: +- 用户注册、登录、认证 +- 角色与权限管理(RBAC) +- Feature Flag 功能开关(商业模式基础) +- 多租户管理(SaaS版) + +--- + +## 🎯 核心功能 + +### 1. 用户认证 +- JWT Token认证 +- 用户注册/登录 +- 密码加密(bcrypt) +- 会话管理 + +### 2. 角色权限管理(RBAC) +- 角色定义 +- 权限定义 +- 用户-角色关联 +- 角色-权限关联 + +### 3. Feature Flag 管理 ⭐ **商业模式核心** +- 版本功能控制(专业版、高级版、旗舰版) +- 模块开关 +- 功能开关 + +### 4. 多租户管理 +- 租户隔离 +- 租户配额 + +--- + +## 📂 文档结构 + +``` +01-用户与权限中心(UAM)/ + ├── [AI对接] UAM快速上下文.md # ⏳ 待创建 + ├── 00-需求分析/ + │ └── README.md + ├── 01-设计文档/ + │ ├── 01-架构设计.md # ⏳ 待创建 + │ ├── 02-数据库设计.md # ⏳ 待创建 + │ ├── 03-API设计.md # ⏳ 待创建 + │ ├── 04-Feature-Flag设计.md # ⏳ 待创建 + │ └── README.md + └── README.md # ✅ 当前文档 +``` + +--- + +## 🔗 相关文档 + +- [平台基础层总览](../README.md) +- [系统架构分层设计](../../00-系统总体设计/01-系统架构分层设计.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + + diff --git a/docs/01-平台基础层/02-存储服务/README.md b/docs/01-平台基础层/02-存储服务/README.md new file mode 100644 index 00000000..1f5a3de3 --- /dev/null +++ b/docs/01-平台基础层/02-存储服务/README.md @@ -0,0 +1,65 @@ +# 存储服务 + +> **模块定位:** 平台基础层 +> **优先级:** P1 +> **状态:** ⏳ 待设计 + +--- + +## 📋 模块概述 + +存储服务负责统一管理平台的文件存储,支持: +- 文件上传、下载、删除 +- 对象存储(OSS/S3) +- 本地文件系统(单机版) +- 文件权限控制 + +--- + +## 🎯 核心功能 + +### 1. 文件上传 +- 支持多种文件格式 +- 文件大小限制 +- 文件类型验证 + +### 2. 对象存储 +- 云端:MinIO/阿里云OSS +- 单机版:本地文件系统 + +### 3. 文件访问控制 +- 临时访问URL(签名URL) +- 权限验证 + +--- + +## 📂 文档结构 + +``` +02-存储服务/ + ├── 00-需求分析/ + │ └── README.md + ├── 01-设计文档/ + │ └── README.md + └── README.md # ✅ 当前文档 +``` + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + + diff --git a/docs/01-平台基础层/03-通知服务/README.md b/docs/01-平台基础层/03-通知服务/README.md new file mode 100644 index 00000000..71df2677 --- /dev/null +++ b/docs/01-平台基础层/03-通知服务/README.md @@ -0,0 +1,51 @@ +# 通知服务 + +> **模块定位:** 平台基础层 +> **优先级:** P2 +> **状态:** ⏳ 待设计 + +--- + +## 📋 模块概述 + +通知服务负责平台的消息通知,支持: +- 站内消息 +- 邮件通知 +- WebSocket实时推送 + +--- + +## 🎯 核心功能 + +### 1. 站内消息 +- 消息列表 +- 已读/未读状态 +- 消息删除 + +### 2. 邮件通知 +- SMTP邮件发送 +- 邮件模板 + +### 3. WebSocket实时推送 +- 实时消息推送 +- 进度更新推送 + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + + diff --git a/docs/01-平台基础层/04-监控与日志/README.md b/docs/01-平台基础层/04-监控与日志/README.md new file mode 100644 index 00000000..8742500a --- /dev/null +++ b/docs/01-平台基础层/04-监控与日志/README.md @@ -0,0 +1,51 @@ +# 监控与日志 + +> **模块定位:** 平台基础层 +> **优先级:** P1 +> **状态:** ⏳ 待设计 + +--- + +## 📋 模块概述 + +监控与日志服务负责: +- 操作日志记录 +- 错误日志监控 +- 性能监控 +- 审计日志(合规要求) + +--- + +## 🎯 核心功能 + +### 1. 操作日志 +- 用户操作记录 +- 管理员操作记录 + +### 2. 错误日志 +- 系统错误捕获 +- 错误告警 + +### 3. 审计日志 +- 敏感操作记录 +- 合规审计 + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + + diff --git a/docs/01-平台基础层/05-系统配置/README.md b/docs/01-平台基础层/05-系统配置/README.md new file mode 100644 index 00000000..b812ae3d --- /dev/null +++ b/docs/01-平台基础层/05-系统配置/README.md @@ -0,0 +1,47 @@ +# 系统配置 + +> **模块定位:** 平台基础层 +> **优先级:** P1 +> **状态:** ⏳ 待设计 + +--- + +## 📋 模块概述 + +系统配置服务负责: +- 系统级配置管理 +- 多环境配置(开发、测试、生产) +- 动态配置更新 + +--- + +## 🎯 核心功能 + +### 1. 配置管理 +- 配置项定义 +- 配置值管理 +- 配置版本控制 + +### 2. 动态配置 +- 运行时配置更新 +- 配置热更新 + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + + diff --git a/docs/01-平台基础层/06-前端架构/01-前端总体架构设计.md b/docs/01-平台基础层/06-前端架构/01-前端总体架构设计.md new file mode 100644 index 00000000..e0026823 --- /dev/null +++ b/docs/01-平台基础层/06-前端架构/01-前端总体架构设计.md @@ -0,0 +1,577 @@ +# 平台前端总体架构设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** 前端开发团队 +> **最后更新:** 2025-10-29 + +--- + +## 📋 文档说明 + +本文档是**平台级前端架构设计**,涵盖整个AI科研平台的前端架构,包括: +- 统一的顶部导航设计 +- 模块化架构设计 +- 路由设计 +- 权限控制系统(**版本配置完全可调整**) +- 模块独立性设计(支持未来独立分拆) + +> **注意:** 本文档是平台级设计,各模块的详细架构设计请参考各模块的专属文档。 + +> **重要提示:** 本文档中涉及的版本权限分配(基础版、高级版、旗舰版的模块分配)均为**初始方案**,可以根据业务需求随时调整,无需改动代码逻辑。推荐从后端API动态获取版本配置。 + +--- + +## 🎯 设计原则 + +### 1. 模块化设计 +- 每个功能模块独立开发、独立部署 +- 模块间无依赖关系,可独立运行 +- 支持模块独立产品化(如AI智能文献独立售卖) + +### 2. 权限控制设计 +- 基于用户版本的权限控制 +- 灵活的功能模块开关机制 +- 支持未来商业模式拓展(基础版、高级版、旗舰版) + +### 3. 可扩展性设计 +- 预留新模块接入接口 +- 插件化的模块加载机制 +- 配置驱动的功能开关 + +### 4. 一致性设计 +- 统一的UI/UX规范 +- 统一的交互模式 +- 统一的状态管理 + +--- + +## 🧭 顶部导航设计 + +### 导航结构 + +``` +┌──────────────────────────────────────────────────────────────────────────────┐ +│ Logo [AI问答] [AI智能文献] [知识库] [智能数据清洗] [智能统计分析] [统计分析工具] [用户名 ▼] │ +└──────────────────────────────────────────────────────────────────────────────┘ +``` + +### 导航项详情 + +| 位置 | 中文名称 | 英文标识 | 路由路径 | 开发状态 | 权限要求(初始配置) | +|------|---------|---------|---------|---------|---------------------| +| 1 | AI问答 | `ai-qa` | `/ai-qa` | ✅ 已开发 | 基础版+ ⚠️可调整 | +| 2 | AI智能文献 | `literature-platform` | `/literature` | 🚧 待开发 | 高级版+ ⚠️可调整 | +| 3 | 知识库 | `knowledge-base` | `/knowledge-base` | ✅ 已开发 | 基础版+ ⚠️可调整 | +| 4 | 智能数据清洗 | `data-cleaning` | `/data-cleaning` | 📋 占位 | 高级版+ ⚠️可调整 | +| 5 | 智能统计分析 | `statistical-analysis` | `/intelligent-analysis` | ✅ 已开发(Java团队) | 旗舰版 ⚠️可调整 | +| 6 | 统计分析工具 | `statistical-tools` | `/statistical-tools` | ✅ 已开发(Java团队) | 旗舰版 ⚠️可调整 | +| 最右侧 | 个人中心 | `user-center` | `/user/*` | ✅ 已开发 | 所有用户 | + +> **说明:** 权限要求列中的"基础版+"、"高级版+"、"旗舰版"为**初始配置**,可根据业务需求随时调整,无需改动代码逻辑。推荐从后端API动态获取版本配置。 + +### 路由路径设计 + +```typescript +// 主路由结构 +const routes = { + // 模块路由 + '/ai-qa': 'AI问答模块', + '/literature': 'AI智能文献模块', + '/knowledge-base': '知识库模块', + '/data-cleaning': '智能数据清洗模块(占位)', + '/intelligent-analysis': '智能统计分析模块(Java团队开发,只做顶部导航集成)', + '/statistical-tools': '统计分析工具模块(Java团队开发,只做顶部导航集成)', + + // 用户相关 + '/user/profile': '个人中心 - 个人资料', + '/user/settings': '个人中心 - 设置', + '/user/history': '个人中心 - 历史记录', + '/user/subscription': '个人中心 - 订阅管理', +}; +``` + +--- + +## 🏗️ 整体架构设计 + +### 架构层次图 + +``` +┌─────────────────────────────────────────────────────────────┐ +│ 应用层 (Application) │ +│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ +│ │ AI问答 │ │AI智能文献│ │ 知识库 │ │ 其他模块 │ │ +│ │ Module │ │ Module │ │ Module │ │ Module │ │ +│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │ +└─────────────────────────────────────────────────────────────┘ + ↓ +┌─────────────────────────────────────────────────────────────┐ +│ 框架层 (Framework Layer) │ +│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ +│ │ 导航系统 │ │ 路由系统 │ │ 权限控制 │ │ +│ │ Navigation │ │ Router │ │ Permission │ │ +│ └──────────────┘ └──────────────┘ └──────────────┘ │ +│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ +│ │ 布局系统 │ │ 状态管理 │ │ 配置管理 │ │ +│ │ Layout │ │ State Mgmt │ │ Config │ │ +│ └──────────────┘ └──────────────┘ └──────────────┘ │ +└─────────────────────────────────────────────────────────────┘ + ↓ +┌─────────────────────────────────────────────────────────────┐ +│ 基础层 (Base Layer) │ +│ React + TypeScript + Ant Design + Tailwind CSS │ +└─────────────────────────────────────────────────────────────┘ +``` + +### 目录结构设计 + +``` +frontend-v2/ +├── src/ +│ ├── app/ # 应用入口 +│ │ ├── App.tsx # 根组件 +│ │ ├── main.tsx # 入口文件 +│ │ └── routes.tsx # 路由配置 +│ │ +│ ├── framework/ # 框架层(核心) +│ │ ├── navigation/ # 导航系统 +│ │ │ ├── TopNavigation.tsx # 顶部导航 +│ │ │ ├── SideNavigation.tsx # 左侧导航 +│ │ │ └── navigationConfig.ts # 导航配置 +│ │ │ +│ │ ├── routing/ # 路由系统 +│ │ │ ├── RouterConfig.tsx # 路由配置 +│ │ │ ├── RouteGuard.tsx # 路由守卫(权限) +│ │ │ └── LazyLoader.tsx # 懒加载 +│ │ │ +│ │ ├── permission/ # 权限控制 +│ │ │ ├── PermissionProvider.tsx +│ │ │ ├── usePermission.ts # 权限Hook +│ │ │ ├── permissionConfig.ts # 权限配置 +│ │ │ └── versionConfig.ts # 版本配置 +│ │ │ +│ │ ├── layout/ # 布局系统 +│ │ │ ├── MainLayout.tsx # 主布局 +│ │ │ ├── ModuleLayout.tsx # 模块布局 +│ │ │ └── EmptyLayout.tsx # 空布局 +│ │ │ +│ │ ├── config/ # 配置管理 +│ │ │ ├── moduleConfig.ts # 模块配置 +│ │ │ ├── appConfig.ts # 应用配置 +│ │ │ └── environment.ts # 环境配置 +│ │ │ +│ │ └── state/ # 全局状态 +│ │ ├── userStore.ts # 用户状态 +│ │ ├── navigationStore.ts # 导航状态 +│ │ └── permissionStore.ts # 权限状态 +│ │ +│ ├── modules/ # 功能模块(独立) +│ │ ├── ai-qa/ # AI问答模块 +│ │ │ ├── index.tsx +│ │ │ ├── routes.tsx +│ │ │ └── ... +│ │ │ +│ │ ├── literature/ # AI智能文献模块 +│ │ │ ├── index.tsx +│ │ │ ├── routes.tsx +│ │ │ └── ... +│ │ │ +│ │ ├── knowledge-base/ # 知识库模块 +│ │ │ ├── index.tsx +│ │ │ ├── routes.tsx +│ │ │ └── ... +│ │ │ +│ │ ├── data-cleaning/ # 智能数据清洗(占位) +│ │ │ └── Placeholder.tsx +│ │ │ +│ │ ├── intelligent-analysis/ # 智能统计分析 +│ │ │ └── ... +│ │ │ +│ │ └── statistical-tools/ # 统计分析工具 +│ │ └── ... +│ │ +│ ├── components/ # 通用组件 +│ │ ├── common/ # 基础组件 +│ │ ├── business/ # 业务组件 +│ │ └── hooks/ # 通用Hooks +│ │ +│ ├── api/ # API层 +│ │ ├── client.ts # API客户端 +│ │ ├── modules/ # 模块API +│ │ └── types/ # API类型 +│ │ +│ ├── utils/ # 工具函数 +│ └── types/ # 全局类型 +``` + +--- + +## 🔐 权限控制设计 + +### 用户版本定义 + +> **重要说明:** 版本权限分配是完全**可配置、可调整**的。以下配置为**初始方案**,可以根据业务需求随时修改,无需改动代码逻辑。 + +```typescript +// 用户版本类型 +type UserVersion = 'basic' | 'advanced' | 'premium'; + +// 版本配置(可配置,支持后期调整) +// 配置文件位置:src/framework/permission/versionConfig.ts +// 或者通过后端API动态获取配置 +const VERSION_CONFIG = { + basic: { + name: '基础版', + modules: ['ai-qa', 'knowledge-base'], // 初始配置:基础版包含模块 + }, + advanced: { + name: '高级版', + modules: [ + 'ai-qa', + 'knowledge-base', + 'literature-platform', + 'data-cleaning', + ], // 初始配置:高级版包含模块 + }, + premium: { + name: '旗舰版', + modules: [ + 'ai-qa', + 'knowledge-base', + 'literature-platform', + 'data-cleaning', + 'intelligent-analysis', + 'statistical-tools', + ], // 初始配置:旗舰版包含全部模块 + }, +}; + +// 说明: +// 1. 以上模块分配为初始方案,可根据实际业务需求调整 +// 2. 支持通过配置文件修改,无需改动代码 +// 3. 更推荐从后端API动态获取版本配置,便于实时调整 +``` + +### 权限控制实现 + +> **设计说明:** 权限控制采用配置驱动的方式,支持通过配置文件或后端API动态获取版本配置,便于后期灵活调整。 + +```typescript +// 权限控制Hook +export const usePermission = () => { + const userVersion = useUserStore((state) => state.version); + + // 方式1:从静态配置读取(适合开发阶段) + // const allowedModules = VERSION_CONFIG[userVersion].modules; + + // 方式2:从后端API动态获取(推荐,支持实时调整) + const versionConfig = useVersionConfig(); // 从API获取最新配置 + const allowedModules = versionConfig[userVersion]?.modules || []; + + const hasAccess = (moduleId: string): boolean => { + return allowedModules.includes(moduleId); + }; + + const getFilteredNavigation = (navigation: NavigationItem[]) => { + return navigation.filter((item) => { + // 检查用户版本是否满足模块要求 + if (!item.requiredVersion) return true; + const versionHierarchy = ['basic', 'advanced', 'premium']; + const userLevel = versionHierarchy.indexOf(userVersion); + const requiredLevel = versionHierarchy.indexOf(item.requiredVersion); + return userLevel >= requiredLevel; + }); + }; + + return { + hasAccess, + getFilteredNavigation, + userVersion, + versionConfig, // 返回当前版本配置,便于调试 + }; +}; +``` + +### 版本配置动态获取(推荐方案) + +```typescript +// src/framework/permission/useVersionConfig.ts +import { useQuery } from '@tanstack/react-query'; + +export const useVersionConfig = () => { + const { data, isLoading } = useQuery({ + queryKey: ['versionConfig'], + queryFn: async () => { + // 从后端API获取版本配置 + const response = await fetch('/api/config/version'); + return response.json(); + }, + staleTime: 5 * 60 * 1000, // 缓存5分钟 + refetchOnWindowFocus: false, + }); + + // 如果API请求失败,回退到本地配置 + return data || VERSION_CONFIG; +}; +``` + +**优势:** +- ✅ 版本配置可在后端实时调整,无需前端发版 +- ✅ 支持A/B测试不同版本配置 +- ✅ 便于运营人员灵活调整产品策略 +- ✅ 前端有本地配置作为兜底方案,保证可用性 + +### 路由守卫 + +```typescript +// RouteGuard.tsx +export const RouteGuard = ({ moduleId, children }) => { + const { hasAccess } = usePermission(); + + if (!hasAccess(moduleId)) { + return ; + } + + return children; +}; +``` + +--- + +## 🔌 模块独立性设计 + +### 模块注册机制 + +```typescript +// 模块接口定义 +interface ModuleDefinition { + id: string; // 模块唯一标识 + name: string; // 模块名称 + route: string; // 路由路径 + icon?: ReactNode; // 图标 + component: LazyComponent; // 懒加载组件 + sideNav?: SideNavConfig; // 左侧导航配置 + version?: UserVersion[]; // 支持的版本 + standalone?: boolean; // 是否支持独立运行 + apiBaseUrl?: string; // 独立运行时的API地址 +} + +// 模块配置 +const MODULES: ModuleDefinition[] = [ + { + id: 'literature-platform', + name: 'AI智能文献', + route: '/literature', + component: lazy(() => import('@/modules/literature')), + version: ['advanced', 'premium'], + standalone: true, // 支持独立运行 + apiBaseUrl: process.env.LITERATURE_API_URL, // 可配置 + }, + // ... 其他模块 +]; +``` + +### 独立部署支持 + +```typescript +// 模块加载器 +export const ModuleLoader = ({ moduleId }: { moduleId: string }) => { + const module = MODULES.find((m) => m.id === moduleId); + + if (!module) { + return ; + } + + // 检查是否独立运行模式 + const isStandalone = module.standalone && + window.location.hostname === module.apiBaseUrl; + + if (isStandalone) { + // 独立运行:不显示顶部导航,只显示模块内容 + return ; + } + + // 集成运行:显示完整导航和布局 + return ; +}; +``` + +### 配置驱动的模块加载 + +```typescript +// 环境变量配置 +// .env +REACT_APP_ENABLED_MODULES=ai-qa,knowledge-base,literature-platform +REACT_APP_STANDALONE_MODULE=literature-platform + +// 模块配置读取 +const getEnabledModules = () => { + const enabled = process.env.REACT_APP_ENABLED_MODULES?.split(',') || []; + return MODULES.filter((m) => enabled.includes(m.id)); +}; +``` + +--- + +## 📐 布局系统设计 + +### 布局层次 + +``` +MainLayout (主布局) +├── Header (顶部导航) +│ ├── Logo +│ ├── TopNavigation (导航项) +│ └── UserMenu (用户菜单) +│ +└── MainContent (主内容区) + ├── SideNavigation (左侧导航) - 可选 + └── Content (内容区域) + └── ModuleLayout (模块布局) +``` + +### 布局组件 + +```typescript +// MainLayout.tsx +export const MainLayout = () => { + return ( +
+
+
+ {/* 根据模块显示/隐藏 */} +
+ {/* 路由出口 */} +
+
+
+ ); +}; + +// ModuleLayout.tsx +export const ModuleLayout = ({ module }: { module: ModuleDefinition }) => { + return ( +
+ {module.sideNav && } +
+ +
+
+ ); +}; +``` + +--- + +## 🎨 UI/UX设计规范 + +### 顶部导航样式 + +```css +.top-navigation { + height: 64px; + background: #ffffff; + border-bottom: 1px solid #e5e7eb; + display: flex; + align-items: center; + padding: 0 24px; +} + +.nav-item { + padding: 8px 16px; + margin: 0 4px; + color: #4b5563; + font-weight: 500; + border-bottom: 2px solid transparent; + transition: all 0.2s; +} + +.nav-item:hover { + color: #0ea5e9; +} + +.nav-item.active { + color: #0ea5e9; + border-bottom-color: #0ea5e9; + font-weight: 600; +} +``` + +### 响应式设计 + +- **桌面端 (>1024px)**: 完整显示所有导航项 +- **平板端 (768-1024px)**: 显示前4个,其余折叠到"更多"菜单 +- **移动端 (<768px)**: 汉堡菜单 + 抽屉导航 + +--- + +## 📝 实施计划 + +### 第一阶段:框架搭建(Week 1) +- [x] 创建新前端项目结构 +- [ ] 实现顶部导航组件 +- [ ] 实现路由系统 +- [ ] 实现权限控制基础 +- [ ] 实现基础布局系统 + +### 第二阶段:模块集成(Week 2) +- [ ] 迁移AI问答模块 +- [ ] 迁移知识库模块 +- [ ] 实现占位模块(智能数据清洗) +- [ ] 完善权限控制 + +### 第三阶段:AI智能文献开发(Week 3+) +- [ ] 开发AI智能文献模块 +- [ ] 实现模块独立运行支持 +- [ ] 完善文档和测试 + +--- + +## 🔄 未来扩展考虑 + +### 1. 模块独立产品化 +- 支持通过环境变量配置独立运行 +- 独立的API地址配置 +- 独立的部署配置 + +### 2. 版本权限管理 +- 后端API提供用户版本信息 +- 版本配置完全可调整(无需改动代码) +- 推荐从后端API动态获取版本配置,支持实时调整模块分配 +- 前端根据版本动态显示/隐藏模块 +- 支持版本升级提示 +- 版本权限分配策略可随时根据业务需求调整 + +### 3. 新模块接入 +- 遵循模块接口规范 +- 在配置文件中注册模块 +- 自动集成到导航系统 + +--- + +## 📚 相关文档 + +- [导航结构设计](./02-导航结构设计.md) +- [路由设计](./03-路由设计.md) +- [布局设计](./04-布局设计.md) +- [权限控制设计](./05-权限控制设计.md) +- [AI智能文献模块架构设计](../AI智能文献/00-系统设计/01-模块架构设计.md) + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + + + + + + diff --git a/docs/01-平台基础层/06-前端架构/02-导航结构设计.md b/docs/01-平台基础层/06-前端架构/02-导航结构设计.md new file mode 100644 index 00000000..0df9730e --- /dev/null +++ b/docs/01-平台基础层/06-前端架构/02-导航结构设计.md @@ -0,0 +1,390 @@ +# 导航结构设计文档 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** 前端开发团队 +> **最后更新:** 2025-10-29 + +--- + +## 📋 文档说明 + +本文档详细说明AI科研平台的导航结构设计,包括顶部导航和左侧导航的设计规范。 + +> **重要提示:** 本文档中涉及的模块版本要求(`requiredVersion`)均为**初始配置**,可以根据业务需求随时调整。版本权限分配完全可配置,无需改动代码逻辑。 + +--- + +## 🧭 顶部导航设计 + +### 导航项配置 + +```typescript +// navigationConfig.ts +export interface NavigationItem { + id: string; // 唯一标识 + label: string; // 显示名称 + route: string; // 路由路径 + icon?: ReactNode; // 图标(可选) + requiredVersion?: UserVersion; // 最低版本要求(可配置,支持后期调整) + standalone?: boolean; // 是否支持独立运行 +} + +/** + * 顶部导航配置 + * + * ⚠️ 重要说明: + * - requiredVersion 字段为初始配置,可根据业务需求随时调整 + * - 推荐通过后端API动态获取版本配置,支持实时调整 + * - 修改版本要求无需改动代码逻辑,只需更新配置即可 + */ +export const TOP_NAVIGATION_ITEMS: NavigationItem[] = [ + { + id: 'ai-qa', + label: 'AI问答', + route: '/ai-qa', + requiredVersion: 'basic', // 初始配置:基础版可用(可调整) + }, + { + id: 'literature-platform', + label: 'AI智能文献', + route: '/literature', + requiredVersion: 'advanced', // 初始配置:高级版可用(可调整) + standalone: true, + }, + { + id: 'knowledge-base', + label: '知识库', + route: '/knowledge-base', + requiredVersion: 'basic', // 初始配置:基础版可用(可调整) + }, + { + id: 'data-cleaning', + label: '智能数据清洗', + route: '/data-cleaning', + requiredVersion: 'advanced', // 初始配置:高级版可用(可调整) + placeholder: true, // 占位,显示"开发中" + }, + { + id: 'statistical-analysis', + label: '智能统计分析', + route: '/intelligent-analysis', + requiredVersion: 'premium', // 初始配置:旗舰版可用(可调整) + external: true, // 由Java团队开发,只做顶部导航集成 + }, + { + id: 'statistical-tools', + label: '统计分析工具', + route: '/statistical-tools', + requiredVersion: 'premium', // 初始配置:旗舰版可用(可调整) + external: true, // 由Java团队开发,只做顶部导航集成 + }, +]; +``` + +### 顶部导航布局 + +``` +┌──────────────────────────────────────────────────────────────────────────┐ +│ [Logo] [AI问答] [AI智能文献] [知识库] [智能数据清洗] [智能统计分析] [统计分析工具] [用户名] [用户菜单▼] │ +└──────────────────────────────────────────────────────────────────────────┘ + 160px 自适应宽度 200px +``` + +### 视觉设计规范 + +#### 导航项样式 +- **正常状态**:`color: #4b5563`, `font-weight: 500` +- **悬停状态**:`color: #0ea5e9`, `background: rgba(14, 165, 233, 0.1)` +- **激活状态**:`color: #0ea5e9`, `font-weight: 600`, `border-bottom: 2px solid #0ea5e9` +- **禁用状态**(无权限):`color: #9ca3af`, `cursor: not-allowed` + +#### 间距规范 +- 导航项之间:`16px` 水平间距 +- 导航项内边距:`12px 16px` +- 整个导航栏高度:`64px` + +### 个人中心设计 + +**位置**:顶部导航最右侧 + +**显示内容**: +- 用户名(手机号脱敏显示,如:`186****8738`) +- 用户头像/图标(点击触发下拉菜单) + +**下拉菜单选项**: +``` +┌─────────────────────┐ +│ 个人中心 │ +│ 历史记录 │ +│ ──────────────── │ +│ 订阅管理 │ +│ 退出账号 │ +└─────────────────────┘ +``` + +**路由跳转**: +- 个人中心 → `/user/profile` +- 历史记录 → `/user/history` +- 订阅管理 → `/user/subscription` +- 退出账号 → 登出操作 + +--- + +## 📂 左侧导航设计 + +### 设计原则 + +1. **按需显示**:只有进入具体模块后才显示左侧导航 +2. **模块独立**:每个模块有自己独立的左侧导航配置 +3. **层级清晰**:支持一级和二级菜单 + +### AI问答模块左侧导航 + +**布局方式**:卡片式布局(不使用左侧导航) + +``` +┌─────────────────────────────────────────┐ +│ AI问答主界面 │ +│ ┌───────────────────────────────────┐ │ +│ │ 搜索框 + 提问按钮 │ │ +│ └───────────────────────────────────┘ │ +│ │ +│ 或选择一个智能体开始: │ +│ ┌────┐ ┌────┐ ┌────┐ ┌────┐ │ +│ │选题│ │PICO│ │研究│ │方法│ ... │ +│ │评价│ │梳理│ │方案│ │学 │ │ +│ └────┘ └────┘ └────┘ └────┘ │ +└─────────────────────────────────────────┘ +``` + +### AI智能文献模块左侧导航 + +```typescript +const LITERATURE_SIDE_NAV = [ + { + id: 'research-plan', + label: '研究方案生成', + route: '/literature/research-plan', + icon: '📋', + }, + { + id: 'search', + label: '智能文献检索', + route: '/literature/search', + icon: '🔍', + }, + { + id: 'management', + label: '文献管理', + route: '/literature/management', + icon: '📚', + }, + { + id: 'screening', + label: '标题摘要初筛', + route: '/literature/screening', + icon: '✅', + }, + { + id: 'full-text', + label: '全文复筛', + route: '/literature/full-text', + icon: '📄', + }, + { + id: 'extraction', + label: '全文解析与数据提取', + route: '/literature/extraction', + icon: '🔬', + }, + { + id: 'analysis', + label: '数据综合分析与报告', + route: '/literature/analysis', + icon: '📊', + }, +]; +``` + +**布局样式**: +- 宽度:`200px` +- 背景色:`#f9fafb` +- 激活项:`background: #e0e7ff`, `border-left: 3px solid #4f46e5` + +### 知识库模块左侧导航 + +```typescript +const KNOWLEDGE_BASE_SIDE_NAV = [ + { + id: 'list', + label: '知识库列表', + route: '/knowledge-base', + icon: '📚', + }, + { + id: 'create', + label: '+ 新建知识库', + route: '/knowledge-base/create', + icon: '+', + }, +]; +``` + +### 智能统计分析模块(外部模块说明) + +**说明:** 智能统计分析模块由**Java团队**开发,采用**Java后端**技术栈。 +**我们的职责:** 仅在顶部导航中集成该模块的入口,点击后跳转到Java团队开发的页面。 +**设计规范:** 不需要我们设计左侧导航,Java团队已有自己的页面布局设计。 + +**集成方式:** +- 顶部导航点击后,直接跳转到 `/intelligent-analysis` 路由 +- 该路由可能指向独立的Java应用或iframe嵌入 +- 具体集成方式需与Java团队协商确定 + +### 统计分析工具模块(外部模块说明) + +**说明:** 统计分析工具模块由**Java团队**开发,采用**Java后端**技术栈。 +**我们的职责:** 仅在顶部导航中集成该模块的入口,点击后跳转到Java团队开发的页面。 +**设计规范:** 该模块**不是左侧导航设计**,Java团队有自己的页面布局(如顶部Tab导航等)。 + +**集成方式:** +- 顶部导航点击后,直接跳转到 `/statistical-tools` 路由 +- 该路由可能指向独立的Java应用或iframe嵌入 +- 具体集成方式需与Java团队协商确定 + +--- + +## 🔄 导航交互逻辑 + +### 顶部导航切换 + +```typescript +// 点击顶部导航项 +const handleNavClick = (item: NavigationItem) => { + // 1. 检查权限 + if (!hasPermission(item.requiredVersion)) { + showUpgradePrompt(item); + return; + } + + // 2. 检查是否为占位模块 + if (item.placeholder) { + showComingSoon(item); + return; + } + + // 3. 导航到目标路由 + navigate(item.route); + + // 4. 更新激活状态 + setActiveNavItem(item.id); +}; +``` + +### 左侧导航切换 + +```typescript +// 点击左侧导航项 +const handleSideNavClick = (item: SideNavItem) => { + // 导航到目标路由(模块内部路由) + navigate(item.route); + + // 更新激活状态 + setActiveSideNavItem(item.id); +}; +``` + +### 面包屑导航(可选) + +对于深层级页面,建议添加面包屑导航: + +``` +首页 > AI智能文献 > 标题摘要初筛 > 审核工作台 +``` + +--- + +## 📱 响应式设计 + +### 桌面端 (>1024px) +- 完整显示所有顶部导航项 +- 显示完整的左侧导航 + +### 平板端 (768-1024px) +- 显示前4个顶部导航项 +- 其余导航项折叠到"更多"菜单 +- 左侧导航可折叠为抽屉式 + +### 移动端 (<768px) +- 顶部导航采用汉堡菜单(☰) +- 左侧导航改为底部Tab导航或抽屉式 + +--- + +## 🎨 样式规范 + +### CSS变量定义 + +```css +:root { + /* 导航颜色 */ + --nav-bg-color: #ffffff; + --nav-border-color: #e5e7eb; + --nav-text-color: #4b5563; + --nav-text-hover: #0ea5e9; + --nav-text-active: #0ea5e9; + --nav-active-border: #0ea5e9; + + /* 侧边栏颜色 */ + --sidebar-bg: #f9fafb; + --sidebar-active-bg: #e0e7ff; + --sidebar-active-border: #4f46e5; + --sidebar-text-color: #4338ca; + + /* 尺寸 */ + --nav-height: 64px; + --sidebar-width: 200px; + --nav-item-padding: 12px 16px; + --nav-item-spacing: 16px; +} +``` + +--- + +## 📝 实施清单 + +### 组件开发 +- [ ] `TopNavigation.tsx` - 顶部导航组件 +- [ ] `SideNavigation.tsx` - 左侧导航组件 +- [ ] `UserMenu.tsx` - 用户菜单组件 +- [ ] `NavigationGuard.tsx` - 导航权限守卫 +- [ ] `ComingSoon.tsx` - 开发中占位组件 + +### 配置文件 +- [ ] `navigationConfig.ts` - 导航配置 +- [ ] `moduleNavConfig.ts` - 模块导航配置 +- [ ] `versionConfig.ts` - 版本配置(本地配置,作为兜底) +- [ ] `useVersionConfig.ts` - 版本配置Hook(从API动态获取) + +### 文档 +- [ ] 更新本文档 +- [ ] 编写导航组件使用文档 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + + + + + + diff --git a/docs/01-平台基础层/06-前端架构/03-架构原型图.html b/docs/01-平台基础层/06-前端架构/03-架构原型图.html new file mode 100644 index 00000000..458c1943 --- /dev/null +++ b/docs/01-平台基础层/06-前端架构/03-架构原型图.html @@ -0,0 +1,306 @@ + + + + + + AI科研平台-整体架构原型 V3 + + + + + + + + +
+
+
+ +
+ 临床研究平台 +
+ + + +
+ 186****8738 +
+ + +
+
+
+
+
+ + +
+ + +
+ +

研究管理 - 首页 (占位内容)

这里将展示最近的研究项目卡片...

新建研究项目
项目A
项目B
+
+ + +
+ +

统计分析工具

统计分析 (占位内容)

这里将展示各种统计分析方法的分类和入口...

单组
两组
多组
+
+ + +
+
+
+

医学研究专属大模型 (已接入DeepSeek)

+ + +
+ +

或选择一个智能体开始:

+
+
+

选题评价

+

评估您的研究选题的创新性、价值和可行性。

+
+
+

科学问题梳理

+

将您的研究想法转化为清晰、可研究的科学问题。

+
+
+

PICO 梳理

+

辅助您定义严谨的PICO要素。

+
+
+

研究方案撰写

+

基于PICO信息,生成初步的研究方案草稿。

+
+
+

样本量计算

+

根据您的研究设计和预期效果,估算所需样本量。

+
+
+

文章润色

+

对您的论文草稿进行语言润色和风格优化。

+
+
+

文章翻译

+

提供中英文本互译功能。

+
+ +
+
+
+ + +
+
+ + + +
+
+

知识库 A (35/50篇文献)

+ +
+ + +
+ +
+ + +
+
+ +

文献列表:

+
+
+ 文献1: EMPA-REG... + +
+
+ 文献2: DECLARE-TIMI... + +
+
+ 文献3: CANVAS... + +
+

...

+
+
+
+
+ + +
+
+ + + +
+

研究方案生成 (占位内容)

+

这里将是研究方案生成的向导式界面...

+
+ (下方为示意:项目文献管理入口在左侧导航栏) + +
+
+
+
+ + +
+
+

个人中心

+ + + +
+

账户信息

+

用户名: 186****8738

+ +
+

完整的历史记录 (占位)

+

这里将按模块分类展示您所有的操作历史...

+
+
+
+ +
+ + + + + + + + + + + + + + + + + diff --git a/docs/01-平台基础层/06-前端架构/README.md b/docs/01-平台基础层/06-前端架构/README.md new file mode 100644 index 00000000..5a961548 --- /dev/null +++ b/docs/01-平台基础层/06-前端架构/README.md @@ -0,0 +1,55 @@ +# 前端架构 + +## 📋 目录 + +本目录包含平台前端的架构设计文档。 + +### 文档列表 + +- **[01-前端总体架构设计.md](./01-前端总体架构设计.md)** - 平台级前端架构总体设计 +- **[02-导航结构设计.md](./02-导航结构设计.md)** - 顶部导航和左侧导航的详细设计 +- **[03-架构原型图.html](./03-架构原型图.html)** - 交互式前端架构原型图 + +--- + +## 🎯 设计原则 + +### 1. 模块化设计 +- 每个功能模块独立开发、独立部署 +- 模块间无依赖关系,可独立运行 +- 支持模块独立产品化 + +### 2. 权限控制设计 +- 基于用户版本的权限控制 +- 灵活的功能模块开关机制 +- 版本配置可动态调整 + +### 3. 可扩展性设计 +- 预留新模块接入接口 +- 插件化的模块加载机制 +- 配置驱动的功能开关 + +--- + +## 📚 相关文档 + +- [系统架构分层设计](../../00-系统总体设计/01-系统架构分层设计.md) +- [模块化架构设计](../../00-系统总体设计/06-模块独立部署与单机版方案.md) + +--- + +**维护者:** 前端开发团队 +**最后更新:** 2025-11-07 + + + + + + + + + + + + + diff --git a/docs/01-平台基础层/README.md b/docs/01-平台基础层/README.md new file mode 100644 index 00000000..1179fa98 --- /dev/null +++ b/docs/01-平台基础层/README.md @@ -0,0 +1,78 @@ +# 平台基础层 + +> **层级定义:** 所有业务模块的基础设施 +> **核心原则:** 全局唯一、业务无关、稳定性高 + +--- + +## 📋 模块清单 + +| 模块 | 说明 | 状态 | +|------|------|------| +| **01-用户与权限中心(UAM)** | 用户认证、角色权限、Feature Flag | ⏳ 待设计 | +| **02-存储服务** | 文件上传下载、对象存储 | ⏳ 待设计 | +| **03-通知服务** | 站内消息、邮件、WebSocket | ⏳ 待设计 | +| **04-监控与日志** | 操作日志、错误监控、审计日志 | ⏳ 待设计 | +| **05-系统配置** | 系统级配置管理、动态配置 | ⏳ 待设计 | + +--- + +## 🎯 设计原则 + +### 1. 全局唯一性 +- 整个平台只有一套基础设施 +- 所有业务模块共享 + +### 2. 业务无关性 +- 不涉及具体业务逻辑 +- 提供通用能力 + +### 3. 高稳定性 +- 很少变动 +- 向后兼容 + +### 4. 高可用性 +- 支持负载均衡 +- 支持容灾备份 + +--- + +## 📚 快速导航 + +### 快速上下文 +- **[AI对接] 平台层快速上下文.md** - 2-3分钟了解平台层 + +### 核心模块 +1. [用户与权限中心(UAM)](./01-用户与权限中心(UAM)/README.md) - P0优先级 +2. [存储服务](./02-存储服务/README.md) +3. [通知服务](./03-通知服务/README.md) +4. [监控与日志](./04-监控与日志/README.md) +5. [系统配置](./05-系统配置/README.md) + +--- + +## 🔗 相关文档 + +- [系统架构分层设计](../00-系统总体设计/01-系统架构分层设计.md) +- [通用能力层](../02-通用能力层/README.md) +- [业务模块层](../03-业务模块/README.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + + diff --git a/docs/01-平台基础层/[AI对接] 平台层快速上下文.md b/docs/01-平台基础层/[AI对接] 平台层快速上下文.md new file mode 100644 index 00000000..955932be --- /dev/null +++ b/docs/01-平台基础层/[AI对接] 平台层快速上下文.md @@ -0,0 +1,135 @@ +# [AI对接] 平台层快速上下文 + +> **阅读时间:** 2-3分钟 | **Token消耗:** ~1500 tokens +> **层级:** L1 | **前置阅读:** 00-系统总体设计/[AI对接] 快速上下文.md + +--- + +## 📋 平台层定位 + +**平台基础层是所有业务模块的地基,提供通用的基础设施能力。** + +**核心原则:** +- ✅ 全局唯一(整个平台只有一套) +- ✅ 业务无关(不涉及具体业务逻辑) +- ✅ 强依赖性(所有业务模块都必须依赖) +- ✅ 高稳定性(很少变动) + +--- + +## 🎯 5个核心模块 + +### 1. 用户与权限中心(UAM)⭐ P0优先级 + +**职责:** +- 用户注册、登录、认证(JWT) +- 角色与权限管理(RBAC) +- Feature Flag功能开关 ⭐ 商业模式核心 +- 多租户管理 + +**为什么重要:** +``` +Feature Flag = 商业模式技术基础 + +专业版 → 只能用基础功能 + DeepSeek +高级版 → 更多功能 + Qwen3 +旗舰版 → 全部功能 + Claude + +通过Feature Flag控制! +``` + +**数据表(platform_schema):** +```sql +- users # 用户基础信息 +- roles # 角色定义 +- permissions # 权限定义 +- feature_flags # Feature Flag配置 +- tenants # 租户(SaaS多租户) +``` + +--- + +### 2. 存储服务 - P1 + +**职责:** +- 文件上传、下载、删除 +- 对象存储(MinIO/阿里云OSS) +- 本地文件系统(单机版) + +--- + +### 3. 通知服务 - P2 + +**职责:** +- 站内消息 +- 邮件通知 +- WebSocket实时推送 + +--- + +### 4. 监控与日志 - P1 + +**职责:** +- 操作日志记录 +- 错误日志监控 +- 审计日志(合规要求) + +**数据表:** +```sql +- admin_logs # 管理员操作日志 +- error_logs # 错误日志 +- audit_logs # 审计日志 +``` + +--- + +### 5. 系统配置 - P1 + +**职责:** +- 系统级配置管理 +- 多环境配置(开发、测试、生产) +- 动态配置更新 + +--- + +## 📊 依赖关系 + +**所有业务模块都依赖平台层:** +``` +业务模块层(AIA、ASL、PKB、DC、SSA、ST、RVW、ADMIN) + ↓ 全部依赖 +平台基础层(UAM、存储、通知、监控、配置) +``` + +--- + +## 🔗 快速导航 + +**详细设计文档:** +- [用户与权限中心](./01-用户与权限中心(UAM)/README.md) +- [存储服务](./02-存储服务/README.md) +- [通知服务](./03-通知服务/README.md) +- [监控与日志](./04-监控与日志/README.md) +- [系统配置](./05-系统配置/README.md) + +**相关文档:** +- [系统架构分层设计](../00-系统总体设计/01-系统架构分层设计.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/01-设计文档/API设计规范.md b/docs/01-设计文档/API设计规范.md deleted file mode 100644 index a8cf7111..00000000 --- a/docs/01-设计文档/API设计规范.md +++ /dev/null @@ -1,1131 +0,0 @@ -# API设计规范 - -> **版本:** v1.0 -> **创建日期:** 2025-10-10 -> **API风格:** RESTful API -> **基础URL:** `http://localhost:3001/api/v1` - ---- - -## 📋 目录 - -1. [设计原则](#设计原则) -2. [通用规范](#通用规范) -3. [认证与授权](#认证与授权) -4. [API端点设计](#api端点设计) -5. [错误处理](#错误处理) -6. [数据格式](#数据格式) - ---- - -## 设计原则 - -### API First原则 -- ✅ 先设计API,再实现功能 -- ✅ API是前后端的契约 -- ✅ API变更需要版本控制 - -### RESTful设计 -- ✅ 使用HTTP动词表示操作(GET、POST、PUT、DELETE) -- ✅ URL表示资源,不表示动作 -- ✅ 使用复数名词表示资源集合 -- ✅ 嵌套资源不超过2层 - -### 命名规范 -- ✅ URL使用小写字母和连字符(kebab-case) -- ✅ 查询参数使用驼峰命名(camelCase) -- ✅ JSON字段使用驼峰命名(camelCase) - ---- - -## 通用规范 - -### HTTP方法 - -| 方法 | 用途 | 是否幂等 | -|------|------|---------| -| GET | 获取资源 | ✅ | -| POST | 创建资源 | ❌ | -| PUT | 完整更新资源 | ✅ | -| PATCH | 部分更新资源 | ❌ | -| DELETE | 删除资源 | ✅ | - -### 状态码规范 - -| 状态码 | 含义 | 使用场景 | -|--------|------|---------| -| 200 | OK | 成功返回数据 | -| 201 | Created | 成功创建资源 | -| 204 | No Content | 成功但无返回数据(如删除) | -| 400 | Bad Request | 请求参数错误 | -| 401 | Unauthorized | 未认证 | -| 403 | Forbidden | 无权限 | -| 404 | Not Found | 资源不存在 | -| 409 | Conflict | 资源冲突(如重复创建) | -| 422 | Unprocessable Entity | 语义错误(如验证失败) | -| 429 | Too Many Requests | 请求过于频繁 | -| 500 | Internal Server Error | 服务器错误 | - -### 响应格式 - -**成功响应:** -```json -{ - "success": true, - "data": { - // 实际数据 - }, - "message": "操作成功", - "timestamp": "2025-10-10T10:00:00.000Z" -} -``` - -**错误响应:** -```json -{ - "success": false, - "error": { - "code": "VALIDATION_ERROR", - "message": "参数验证失败", - "details": [ - { - "field": "email", - "message": "邮箱格式不正确" - } - ] - }, - "timestamp": "2025-10-10T10:00:00.000Z" -} -``` - -### 分页规范 - -**请求参数:** -``` -GET /api/v1/projects?page=1&pageSize=20&sortBy=createdAt&sortOrder=desc -``` - -**响应格式:** -```json -{ - "success": true, - "data": { - "items": [...], - "pagination": { - "page": 1, - "pageSize": 20, - "total": 100, - "totalPages": 5, - "hasNext": true, - "hasPrev": false - } - } -} -``` - ---- - -## 认证与授权 - -### JWT认证 - -**登录获取Token:** -```http -POST /api/v1/auth/login -Content-Type: application/json - -{ - "email": "user@example.com", - "password": "password123" -} - -Response: -{ - "success": true, - "data": { - "accessToken": "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9...", - "refreshToken": "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9...", - "expiresIn": 604800, - "user": { - "id": "user-123", - "email": "user@example.com", - "name": "张三", - "role": "user" - } - } -} -``` - -**使用Token:** -```http -GET /api/v1/projects -Authorization: Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9... -``` - -### 权限控制 - -| 端点 | 需要认证 | 角色要求 | -|------|---------|---------| -| `/auth/login` | ❌ | 无 | -| `/auth/register` | ❌ | 无 | -| `/users/me` | ✅ | user | -| `/projects/*` | ✅ | user | -| `/admin/*` | ✅ | admin | - ---- - -## API端点设计 - -### 1. 认证模块 - -#### 1.1 用户注册 -```http -POST /api/v1/auth/register -Content-Type: application/json - -Request: -{ - "email": "user@example.com", - "password": "password123", - "name": "张三" -} - -Response: 201 Created -{ - "success": true, - "data": { - "userId": "user-123", - "email": "user@example.com", - "message": "注册成功,请登录" - } -} -``` - -#### 1.2 用户登录 -```http -POST /api/v1/auth/login -Content-Type: application/json - -Request: -{ - "email": "user@example.com", - "password": "password123" -} - -Response: 200 OK -{ - "success": true, - "data": { - "accessToken": "eyJhbG...", - "refreshToken": "eyJhbG...", - "expiresIn": 604800, - "user": { - "id": "user-123", - "email": "user@example.com", - "name": "张三", - "role": "user" - } - } -} -``` - -#### 1.3 刷新Token -```http -POST /api/v1/auth/refresh -Content-Type: application/json - -Request: -{ - "refreshToken": "eyJhbG..." -} - -Response: 200 OK -{ - "success": true, - "data": { - "accessToken": "new_token...", - "expiresIn": 604800 - } -} -``` - -#### 1.4 退出登录 -```http -POST /api/v1/auth/logout -Authorization: Bearer {token} - -Response: 204 No Content -``` - ---- - -### 2. 用户模块 - -#### 2.1 获取当前用户信息 -```http -GET /api/v1/users/me -Authorization: Bearer {token} - -Response: 200 OK -{ - "success": true, - "data": { - "id": "user-123", - "email": "user@example.com", - "name": "张三", - "role": "user", - "kbQuota": 3, - "kbUsed": 1, - "isTrial": true, - "trialEndsAt": "2025-11-10T00:00:00.000Z", - "createdAt": "2025-10-01T00:00:00.000Z" - } -} -``` - -#### 2.2 更新用户信息 -```http -PATCH /api/v1/users/me -Authorization: Bearer {token} -Content-Type: application/json - -Request: -{ - "name": "李四", - "avatarUrl": "https://..." -} - -Response: 200 OK -{ - "success": true, - "data": { - "id": "user-123", - "name": "李四", - "avatarUrl": "https://..." - } -} -``` - -#### 2.3 修改密码 -```http -POST /api/v1/users/me/change-password -Authorization: Bearer {token} -Content-Type: application/json - -Request: -{ - "oldPassword": "old123", - "newPassword": "new456" -} - -Response: 200 OK -{ - "success": true, - "message": "密码修改成功" -} -``` - ---- - -### 3. 项目管理模块 - -#### 3.1 获取项目列表 -```http -GET /api/v1/projects?page=1&pageSize=20 -Authorization: Bearer {token} - -Response: 200 OK -{ - "success": true, - "data": { - "items": [ - { - "id": "proj-123", - "name": "XX药物III期临床试验", - "description": "项目背景描述...", - "conversationCount": 5, - "createdAt": "2025-10-01T00:00:00.000Z", - "updatedAt": "2025-10-10T00:00:00.000Z" - } - ], - "pagination": { - "page": 1, - "pageSize": 20, - "total": 2, - "totalPages": 1, - "hasNext": false, - "hasPrev": false - } - } -} -``` - -#### 3.2 创建项目 -```http -POST /api/v1/projects -Authorization: Bearer {token} -Content-Type: application/json - -Request: -{ - "name": "骨质疏松研究", - "description": "探索肠道菌群与骨质疏松的关系..." -} - -Response: 201 Created -{ - "success": true, - "data": { - "id": "proj-456", - "name": "骨质疏松研究", - "description": "探索肠道菌群与骨质疏松的关系...", - "conversationCount": 0, - "createdAt": "2025-10-10T10:00:00.000Z" - } -} -``` - -#### 3.3 获取项目详情 -```http -GET /api/v1/projects/:id -Authorization: Bearer {token} - -Response: 200 OK -{ - "success": true, - "data": { - "id": "proj-123", - "name": "XX药物III期临床试验", - "description": "项目背景描述...", - "conversationCount": 5, - "createdAt": "2025-10-01T00:00:00.000Z", - "updatedAt": "2025-10-10T00:00:00.000Z" - } -} -``` - -#### 3.4 更新项目 -```http -PUT /api/v1/projects/:id -Authorization: Bearer {token} -Content-Type: application/json - -Request: -{ - "name": "XX药物III期临床试验(更新)", - "description": "更新后的项目背景..." -} - -Response: 200 OK -{ - "success": true, - "data": { - "id": "proj-123", - "name": "XX药物III期临床试验(更新)", - "description": "更新后的项目背景...", - "updatedAt": "2025-10-10T11:00:00.000Z" - } -} -``` - -#### 3.5 删除项目 -```http -DELETE /api/v1/projects/:id -Authorization: Bearer {token} - -Response: 204 No Content -``` - ---- - -### 4. 对话管理模块 - -#### 4.1 获取对话列表 -```http -GET /api/v1/conversations?projectId=proj-123&page=1&pageSize=20 -Authorization: Bearer {token} - -Query Parameters: -- projectId (可选): 筛选特定项目的对话,不传则返回所有对话 -- agentId (可选): 筛选特定智能体的对话 -- page: 页码 -- pageSize: 每页数量 - -Response: 200 OK -{ - "success": true, - "data": { - "items": [ - { - "id": "conv-123", - "title": "PICOS构建", - "agentId": "agent-picos", - "agentName": "PICOS构建智能体", - "projectId": "proj-123", - "projectName": "XX药物研究", - "modelName": "deepseek-v3", - "messageCount": 10, - "totalTokens": 5000, - "createdAt": "2025-10-10T09:00:00.000Z", - "updatedAt": "2025-10-10T10:00:00.000Z" - } - ], - "pagination": {...} - } -} -``` - -#### 4.2 创建对话 -```http -POST /api/v1/conversations -Authorization: Bearer {token} -Content-Type: application/json - -Request: -{ - "projectId": "proj-123", // 可选,全局快速问答时不传 - "agentId": "agent-picos", - "title": "PICOS构建", - "modelName": "deepseek-v3" // 可选,默认deepseek-v3 -} - -Response: 201 Created -{ - "success": true, - "data": { - "id": "conv-456", - "title": "PICOS构建", - "agentId": "agent-picos", - "projectId": "proj-123", - "modelName": "deepseek-v3", - "messageCount": 0, - "createdAt": "2025-10-10T10:00:00.000Z" - } -} -``` - -#### 4.3 获取对话详情(含消息) -```http -GET /api/v1/conversations/:id -Authorization: Bearer {token} - -Response: 200 OK -{ - "success": true, - "data": { - "id": "conv-123", - "title": "PICOS构建", - "agentId": "agent-picos", - "projectId": "proj-123", - "modelName": "deepseek-v3", - "messageCount": 2, - "messages": [ - { - "id": "msg-1", - "role": "user", - "content": "请帮我构建PICOS框架", - "createdAt": "2025-10-10T09:00:00.000Z" - }, - { - "id": "msg-2", - "role": "assistant", - "content": "好的,我们开始构建PICOS...", - "isPinned": false, - "tokens": 500, - "createdAt": "2025-10-10T09:00:05.000Z" - } - ], - "createdAt": "2025-10-10T09:00:00.000Z", - "updatedAt": "2025-10-10T09:00:05.000Z" - } -} -``` - -#### 4.4 发送消息(流式) -```http -POST /api/v1/conversations/:id/messages/stream -Authorization: Bearer {token} -Content-Type: application/json - -Request: -{ - "content": "请帮我构建PICOS框架", - "kbReferences": ["kb-123"] // 可选,引用的知识库 -} - -Response: 200 OK (Server-Sent Events) -Content-Type: text/event-stream - -data: {"type":"start","conversationId":"conv-123"} - -data: {"type":"token","content":"好"} - -data: {"type":"token","content":"的"} - -data: {"type":"token","content":","} - -data: {"type":"done","messageId":"msg-456","tokens":500} -``` - -#### 4.5 固定消息到项目背景 -```http -POST /api/v1/messages/:id/pin -Authorization: Bearer {token} - -Response: 200 OK -{ - "success": true, - "message": "已固定到项目背景" -} -``` - -#### 4.6 删除对话 -```http -DELETE /api/v1/conversations/:id -Authorization: Bearer {token} - -Response: 204 No Content -``` - ---- - -### 5. 智能体模块 - -#### 5.1 获取智能体列表 -```http -GET /api/v1/agents -Authorization: Bearer {token} - -Response: 200 OK -{ - "success": true, - "data": [ - { - "id": "agent-picos", - "name": "PICOS构建", - "description": "结构化地定义临床研究的核心要素", - "category": "研究设计", - "icon": "construction", - "ragEnabled": true, - "fileUploadEnabled": false, - "status": "active" - }, - { - "id": "agent-topic-evaluation", - "name": "选题评价", - "description": "从创新性、临床价值等维度评价研究选题", - "category": "选题阶段", - "icon": "lightbulb", - "ragEnabled": true, - "fileUploadEnabled": false, - "status": "active" - } - ] -} -``` - -#### 5.2 获取智能体详情 -```http -GET /api/v1/agents/:id -Authorization: Bearer {token} - -Response: 200 OK -{ - "success": true, - "data": { - "id": "agent-picos", - "name": "PICOS构建", - "description": "结构化地定义临床研究的核心要素", - "category": "研究设计", - "icon": "construction", - "ragEnabled": true, - "fileUploadEnabled": false, - "outputFormat": "structured", - "models": { - "deepseek-v3": { - "temperature": 0.3, - "maxTokens": 2500 - }, - "qwen3-72b": { - "temperature": 0.4, - "maxTokens": 2500 - } - }, - "status": "active" - } -} -``` - ---- - -### 6. 知识库模块 - -#### 6.1 获取知识库列表 -```http -GET /api/v1/knowledge-bases -Authorization: Bearer {token} - -Response: 200 OK -{ - "success": true, - "data": [ - { - "id": "kb-123", - "name": "骨质疏松专题", - "description": "关于骨质疏松的文献资料", - "fileCount": 15, - "totalSizeMB": 45.6, - "quota": { - "used": 15, - "limit": 50 - }, - "createdAt": "2025-10-01T00:00:00.000Z", - "updatedAt": "2025-10-10T00:00:00.000Z" - } - ], - "quota": { - "used": 1, - "limit": 3 - } -} -``` - -#### 6.2 创建知识库 -```http -POST /api/v1/knowledge-bases -Authorization: Bearer {token} -Content-Type: application/json - -Request: -{ - "name": "肺癌研究资料", - "description": "肺癌相关的临床研究文献" -} - -Response: 201 Created -{ - "success": true, - "data": { - "id": "kb-456", - "name": "肺癌研究资料", - "description": "肺癌相关的临床研究文献", - "fileCount": 0, - "difyDatasetId": "dify-dataset-xxx", - "createdAt": "2025-10-10T10:00:00.000Z" - } -} -``` - -#### 6.3 上传文档 -```http -POST /api/v1/knowledge-bases/:id/documents -Authorization: Bearer {token} -Content-Type: multipart/form-data - -Request: -- file: (binary) -- filename: "文献综述.pdf" - -Response: 201 Created -{ - "success": true, - "data": { - "id": "doc-123", - "filename": "文献综述.pdf", - "fileType": "pdf", - "fileSizeBytes": 2048000, - "status": "processing", - "progress": 0, - "uploadedAt": "2025-10-10T10:00:00.000Z" - } -} -``` - -#### 6.4 获取文档列表 -```http -GET /api/v1/knowledge-bases/:id/documents -Authorization: Bearer {token} - -Response: 200 OK -{ - "success": true, - "data": [ - { - "id": "doc-123", - "filename": "文献综述.pdf", - "fileType": "pdf", - "fileSizeMB": 2.0, - "status": "completed", - "progress": 100, - "segmentsCount": 50, - "tokensCount": 10000, - "uploadedAt": "2025-10-10T10:00:00.000Z", - "processedAt": "2025-10-10T10:02:00.000Z" - } - ] -} -``` - -#### 6.5 删除文档 -```http -DELETE /api/v1/knowledge-bases/:kbId/documents/:docId -Authorization: Bearer {token} - -Response: 204 No Content -``` - -#### 6.6 删除知识库 -```http -DELETE /api/v1/knowledge-bases/:id -Authorization: Bearer {token} - -Response: 204 No Content -``` - ---- - -### 7. 历史记录模块 - -#### 7.1 获取历史记录(跨项目) -```http -GET /api/v1/history?page=1&pageSize=20&agentId=agent-picos&startDate=2025-10-01&endDate=2025-10-10 -Authorization: Bearer {token} - -Query Parameters: -- projectId (可选): 筛选特定项目 -- agentId (可选): 筛选特定智能体 -- startDate (可选): 开始日期 -- endDate (可选): 结束日期 -- keyword (可选): 关键词搜索 - -Response: 200 OK -{ - "success": true, - "data": { - "items": [ - { - "conversationId": "conv-123", - "title": "PICOS构建", - "agentId": "agent-picos", - "agentName": "PICOS构建智能体", - "projectId": "proj-123", - "projectName": "XX药物研究", - "source": "project", // project 或 global - "messageCount": 10, - "createdAt": "2025-10-10T09:00:00.000Z", - "lastMessageAt": "2025-10-10T10:00:00.000Z" - } - ], - "pagination": {...} - } -} -``` - ---- - -### 8. 管理后台模块(简化版) - -#### 8.1 获取用户列表(管理员) -```http -GET /api/v1/admin/users?page=1&pageSize=20&status=active&keyword=zhang -Authorization: Bearer {admin_token} - -Response: 200 OK -{ - "success": true, - "data": { - "items": [ - { - "id": "user-123", - "email": "user@example.com", - "name": "张三", - "role": "user", - "status": "active", - "kbUsed": 1, - "conversationCount": 25, - "lastLoginAt": "2025-10-10T09:00:00.000Z", - "createdAt": "2025-10-01T00:00:00.000Z" - } - ], - "pagination": {...} - } -} -``` - -#### 8.2 更新用户状态(管理员) -```http -PATCH /api/v1/admin/users/:id -Authorization: Bearer {admin_token} -Content-Type: application/json - -Request: -{ - "status": "suspended" // active, inactive, suspended -} - -Response: 200 OK -{ - "success": true, - "message": "用户状态已更新" -} -``` - -#### 8.3 获取数据统计(管理员) -```http -GET /api/v1/admin/statistics -Authorization: Bearer {admin_token} - -Response: 200 OK -{ - "success": true, - "data": { - "users": { - "total": 1000, - "active": 850, - "newToday": 15, - "new7Days": 120 - }, - "conversations": { - "total": 5000, - "today": 200, - "avgPerUser": 5 - }, - "agents": { - "mostUsed": [ - { - "agentId": "agent-picos", - "name": "PICOS构建", - "count": 800 - } - ] - }, - "knowledgeBases": { - "total": 300, - "totalDocuments": 4500, - "totalSizeGB": 12.5 - } - } -} -``` - ---- - -### 9. 通用对话模块(智能问答) - -**功能**: 提供无项目、无智能体概念的纯AI对话功能,支持可选的@知识库引用 - -#### 9.1 发送消息(流式输出) -```http -POST /api/v1/chat/stream -Content-Type: application/json - -Request: -{ - "content": "你好,介绍一下自己", - "modelType": "deepseek-v3", - "knowledgeBaseIds": ["kb-uuid-1", "kb-uuid-2"], // 可选 - "conversationId": "conv-uuid" // 可选,续接已有对话 -} - -Response: 200 OK (Server-Sent Events) -Content-Type: text/event-stream - -data: {"content":"你","usage":null} - -data: {"content":"好","usage":null} - -data: {"content":"!","usage":null} - -data: {"content":"我","usage":null} - -... - -data: [DONE] -``` - -**参数说明:** -- `content` - 用户消息内容(必填) -- `modelType` - 使用的模型(必填):deepseek-v3 | qwen3-72b | gemini-pro -- `knowledgeBaseIds` - 知识库ID数组(可选) -- `conversationId` - 对话ID(可选,新对话时不传) - -**响应说明:** -- 使用SSE(Server-Sent Events)流式返回 -- 每个chunk包含:`content`(增量内容)、`usage`(token统计) -- 最后发送 `data: [DONE]` 表示完成 - ---- - -#### 9.2 获取对话列表 -```http -GET /api/v1/chat/conversations -Authorization: Bearer {token} - -Response: 200 OK -{ - "success": true, - "data": [ - { - "id": "conv-uuid", - "userId": "user-uuid", - "title": "关于骨质疏松的讨论", - "modelName": "deepseek-v3", - "createdAt": "2025-10-11T10:00:00.000Z", - "updatedAt": "2025-10-11T10:30:00.000Z" - } - ] -} -``` - -**响应说明:** -- 按 `updatedAt` 降序排序 -- 最多返回50条 -- 不包括已删除的对话(deleted_at != null) - ---- - -#### 9.3 删除对话 -```http -DELETE /api/v1/chat/conversations/:id -Authorization: Bearer {token} - -Response: 200 OK -{ - "success": true, - "message": "删除成功" -} -``` - -**说明:** -- 软删除,设置 `deleted_at` 字段 -- 级联删除所有消息 -- 不可恢复 - ---- - -### 通用对话 vs 项目对话 - -| 特性 | 通用对话(/chat) | 项目对话(/conversations) | -|------|------------------|---------------------------| -| **概念** | 无项目/智能体 | 基于项目和智能体 | -| **使用场景** | 快速提问、知识库问答 | 结构化研究流程 | -| **上下文** | 纯对话历史 | 项目背景 + 智能体角色 + 对话历史 | -| **知识库** | 可选@引用 | 可选@引用 | -| **System Prompt** | 通用AI助手 | 专业智能体角色 | -| **数据表** | general_conversations | conversations | - ---- - -## 错误处理 - -### 错误代码规范 - -| 错误代码 | 说明 | HTTP状态码 | -|---------|------|-----------| -| VALIDATION_ERROR | 参数验证失败 | 422 | -| UNAUTHORIZED | 未认证 | 401 | -| FORBIDDEN | 无权限 | 403 | -| NOT_FOUND | 资源不存在 | 404 | -| CONFLICT | 资源冲突 | 409 | -| RATE_LIMIT | 请求过于频繁 | 429 | -| QUOTA_EXCEEDED | 配额超限 | 403 | -| INTERNAL_ERROR | 服务器错误 | 500 | - -### 错误响应示例 - -```json -{ - "success": false, - "error": { - "code": "QUOTA_EXCEEDED", - "message": "知识库数量已达上限", - "details": { - "resource": "knowledge_base", - "quota": 3, - "used": 3 - } - }, - "timestamp": "2025-10-10T10:00:00.000Z" -} -``` - ---- - -## 数据格式 - -### 时间格式 -- 使用ISO 8601格式:`2025-10-10T10:00:00.000Z` -- 统一使用UTC时区 - -### 文件大小 -- 使用字节(bytes)存储 -- 前端显示时转换为MB/GB - -### ID格式 -- 使用UUID v4 -- 格式:`user-123abc...` 或 `proj-456def...` - ---- - -## 版本控制 - -### API版本 -- 当前版本:`v1` -- URL格式:`/api/v1/...` -- 向后兼容:同一主版本内保持兼容 - -### 废弃策略 -- 提前3个月通知 -- 响应头标注:`X-API-Deprecated: true` -- 提供迁移指南 - ---- - -## 性能优化 - -### 缓存策略 -- 静态数据(智能体列表):缓存1小时 -- 用户数据:不缓存或缓存5分钟 -- 使用ETag实现条件请求 - -### 限流策略 -- 普通用户:100次/分钟 -- 管理员:500次/分钟 -- 登录接口:5次/分钟 - ---- - -## 安全性 - -### HTTPS -- 生产环境强制HTTPS -- 开发环境可使用HTTP - -### CORS -- 允许的域名列表(白名单) -- 不允许通配符 `*` - -### SQL注入防护 -- 使用Prisma ORM -- 永不拼接SQL - -### XSS防护 -- 所有用户输入转义 -- Content-Type正确设置 - ---- - -## 文档维护 - -- **更新频率:** API变更时必须同步更新 -- **Review:** 每个里程碑Review一次 -- **版本记录:** 记录重大变更 - ---- - -**最后更新:** 2025-10-10 -**维护者:** 开发团队 - - - - diff --git a/docs/01-设计文档/数据库设计文档.md b/docs/01-设计文档/数据库设计文档.md deleted file mode 100644 index 1538fdbf..00000000 --- a/docs/01-设计文档/数据库设计文档.md +++ /dev/null @@ -1,893 +0,0 @@ -# 数据库设计文档 - -> **版本:** v1.0 -> **创建日期:** 2025-10-10 -> **数据库:** PostgreSQL 15+ -> **ORM:** Prisma - ---- - -## 📋 目录 - -1. [数据库概述](#数据库概述) -2. [ER图](#er图) -3. [表结构设计](#表结构设计) -4. [索引设计](#索引设计) -5. [数据约束](#数据约束) -6. [数据迁移策略](#数据迁移策略) - ---- - -## 数据库概述 - -### 设计原则 -- ✅ 遵循第三范式(3NF) -- ✅ 使用UUID作为主键 -- ✅ 所有表包含created_at和updated_at时间戳 -- ✅ 使用软删除(保留deleted_at字段,重要表) -- ✅ 外键约束使用CASCADE删除 -- ✅ 敏感字段加密存储(密码使用bcrypt) - -### 命名规范 -- 表名:复数形式,下划线分隔(如:`users`、`knowledge_bases`) -- 字段名:下划线分隔(如:`created_at`、`user_id`) -- 索引名:`idx_表名_字段名`(如:`idx_users_email`) -- 外键名:`fk_表名_关联表名`(如:`fk_projects_users`) - ---- - -## ER图 - -``` -┌─────────────┐ -│ Users │ -└──────┬──────┘ - │ - │ 1:N - ├──────────────────────┐ - │ │ - ├──────────────────┐ │ - │ │ │ - ▼ ▼ ▼ -┌─────────────┐ ┌──────────────┐ ┌──────────────────────┐ -│ Projects │ │ Knowledge │ │ General │ -│ │ │ Bases │ │ Conversations ⭐ │ -└──────┬──────┘ └──────┬───────┘ └──────┬───────────────┘ - │ │ │ - │ 1:N │ 1:N │ 1:N - ▼ ▼ ▼ -┌─────────────┐ ┌──────────────┐ ┌──────────────────────┐ -│Conversations│ │ Documents │ │ General Messages ⭐ │ -│ Projects │ │KnowledgeBases│ -└──────┬──────┘ └──────┬───────┘ - │ │ - │ 1:N │ 1:N - │ │ - ▼ ▼ -┌──────────────┐ ┌──────────────┐ -│Conversations │ │ Documents │ -└──────┬───────┘ └──────────────┘ - │ - │ 1:N - │ - ▼ -┌──────────────┐ -│ Messages │ -└──────────────┘ -``` - ---- - -## 表结构设计 - -### 1. users - 用户表 - -**用途:** 存储用户基本信息和认证信息 - -```sql -CREATE TABLE users ( - id VARCHAR(50) PRIMARY KEY DEFAULT gen_random_uuid()::VARCHAR, - email VARCHAR(255) NOT NULL UNIQUE, - password VARCHAR(255) NOT NULL, -- bcrypt加密 - name VARCHAR(100), - avatar_url TEXT, - - -- 角色和状态 - role VARCHAR(20) NOT NULL DEFAULT 'user', -- user, admin - status VARCHAR(20) NOT NULL DEFAULT 'active', -- active, inactive, suspended - - -- 配额(知识库限制) - kb_quota INTEGER DEFAULT 3, - kb_used INTEGER DEFAULT 0, - - -- 试用信息 - trial_ends_at TIMESTAMP, - is_trial BOOLEAN DEFAULT true, - - -- 时间戳 - last_login_at TIMESTAMP, - created_at TIMESTAMP DEFAULT NOW(), - updated_at TIMESTAMP DEFAULT NOW(), - - -- 索引 - CONSTRAINT check_email_format CHECK (email ~* '^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}$'), - CONSTRAINT check_kb_quota CHECK (kb_used <= kb_quota) -); - --- 索引 -CREATE INDEX idx_users_email ON users(email); -CREATE INDEX idx_users_status ON users(status); -CREATE INDEX idx_users_created_at ON users(created_at); - --- 注释 -COMMENT ON TABLE users IS '用户表'; -COMMENT ON COLUMN users.role IS '用户角色:user-普通用户, admin-管理员'; -COMMENT ON COLUMN users.status IS '账户状态:active-激活, inactive-未激活, suspended-暂停'; -``` - -**字段说明:** -| 字段 | 类型 | 说明 | 必填 | 默认值 | -|------|------|------|------|--------| -| id | VARCHAR(50) | 用户ID(UUID) | ✅ | 自动生成 | -| email | VARCHAR(255) | 邮箱(登录名) | ✅ | - | -| password | VARCHAR(255) | 密码(bcrypt) | ✅ | - | -| name | VARCHAR(100) | 用户姓名 | ❌ | NULL | -| role | VARCHAR(20) | 角色 | ✅ | 'user' | -| status | VARCHAR(20) | 状态 | ✅ | 'active' | -| kb_quota | INTEGER | 知识库配额 | ✅ | 3 | -| kb_used | INTEGER | 已使用知识库数 | ✅ | 0 | - ---- - -### 2. projects - 项目/课题表 - -**用途:** 存储用户创建的研究项目/课题 - -```sql -CREATE TABLE projects ( - id VARCHAR(50) PRIMARY KEY DEFAULT gen_random_uuid()::VARCHAR, - user_id VARCHAR(50) NOT NULL, - - -- 项目信息 - name VARCHAR(200) NOT NULL, - description TEXT NOT NULL, -- 项目背景信息(重要!用于上下文注入) - - -- 统计信息 - conversation_count INTEGER DEFAULT 0, - - -- 时间戳 - created_at TIMESTAMP DEFAULT NOW(), - updated_at TIMESTAMP DEFAULT NOW(), - - -- 外键 - CONSTRAINT fk_projects_users FOREIGN KEY (user_id) - REFERENCES users(id) ON DELETE CASCADE -); - --- 索引 -CREATE INDEX idx_projects_user_id ON projects(user_id); -CREATE INDEX idx_projects_created_at ON projects(created_at); - --- 注释 -COMMENT ON TABLE projects IS '项目/课题表'; -COMMENT ON COLUMN projects.description IS '项目背景信息,会自动注入到对话上下文中'; -``` - ---- - -### 3. conversations - 对话表 - -**用途:** 存储用户与智能体的对话会话 - -```sql -CREATE TABLE conversations ( - id VARCHAR(50) PRIMARY KEY DEFAULT gen_random_uuid()::VARCHAR, - user_id VARCHAR(50) NOT NULL, - project_id VARCHAR(50), -- 可选,全局快速问答时为NULL - agent_id VARCHAR(50) NOT NULL, -- 智能体ID(对应config/agents.yaml) - - -- 对话信息 - title VARCHAR(200) NOT NULL, - model_name VARCHAR(50) DEFAULT 'deepseek-v3', - - -- 统计信息 - message_count INTEGER DEFAULT 0, - total_tokens INTEGER DEFAULT 0, - - -- 时间戳 - created_at TIMESTAMP DEFAULT NOW(), - updated_at TIMESTAMP DEFAULT NOW(), - - -- 外键 - CONSTRAINT fk_conversations_users FOREIGN KEY (user_id) - REFERENCES users(id) ON DELETE CASCADE, - CONSTRAINT fk_conversations_projects FOREIGN KEY (project_id) - REFERENCES projects(id) ON DELETE CASCADE -); - --- 索引 -CREATE INDEX idx_conversations_user_id ON conversations(user_id); -CREATE INDEX idx_conversations_project_id ON conversations(project_id); -CREATE INDEX idx_conversations_agent_id ON conversations(agent_id); -CREATE INDEX idx_conversations_created_at ON conversations(created_at); - --- 注释 -COMMENT ON TABLE conversations IS '对话会话表'; -COMMENT ON COLUMN conversations.project_id IS '项目ID,全局快速问答时为NULL'; -COMMENT ON COLUMN conversations.agent_id IS '智能体ID,对应配置文件中的智能体'; -``` - ---- - -### 4. messages - 消息表 - -**用途:** 存储对话中的每条消息 - -```sql -CREATE TABLE messages ( - id VARCHAR(50) PRIMARY KEY DEFAULT gen_random_uuid()::VARCHAR, - conversation_id VARCHAR(50) NOT NULL, - - -- 消息内容 - role VARCHAR(20) NOT NULL, -- user, assistant - content TEXT NOT NULL, - - -- 元数据(可选) - metadata JSONB, -- 存储额外信息,如引用的知识库、模型参数等 - - -- 统计信息 - tokens INTEGER, - - -- 是否固定到项目背景 - is_pinned BOOLEAN DEFAULT false, - - -- 时间戳 - created_at TIMESTAMP DEFAULT NOW(), - - -- 外键 - CONSTRAINT fk_messages_conversations FOREIGN KEY (conversation_id) - REFERENCES conversations(id) ON DELETE CASCADE, - - -- 约束 - CONSTRAINT check_role CHECK (role IN ('user', 'assistant')) -); - --- 索引 -CREATE INDEX idx_messages_conversation_id ON messages(conversation_id); -CREATE INDEX idx_messages_created_at ON messages(created_at); -CREATE INDEX idx_messages_is_pinned ON messages(is_pinned); - --- 注释 -COMMENT ON TABLE messages IS '对话消息表'; -COMMENT ON COLUMN messages.is_pinned IS '是否固定到项目背景,用于动态更新项目描述'; -COMMENT ON COLUMN messages.metadata IS 'JSON格式,存储引用的知识库、使用的模型等'; -``` - ---- - -### 5. knowledge_bases - 知识库表 - -**用途:** 存储用户创建的个人知识库 - -```sql -CREATE TABLE knowledge_bases ( - id VARCHAR(50) PRIMARY KEY DEFAULT gen_random_uuid()::VARCHAR, - user_id VARCHAR(50) NOT NULL, - - -- 知识库信息 - name VARCHAR(100) NOT NULL, - description TEXT, - - -- Dify集成 - dify_dataset_id VARCHAR(100) NOT NULL, -- Dify中的知识库ID - - -- 统计信息 - file_count INTEGER DEFAULT 0, - total_size_bytes BIGINT DEFAULT 0, - - -- 时间戳 - created_at TIMESTAMP DEFAULT NOW(), - updated_at TIMESTAMP DEFAULT NOW(), - - -- 外键 - CONSTRAINT fk_kb_users FOREIGN KEY (user_id) - REFERENCES users(id) ON DELETE CASCADE, - - -- 约束:每个用户最多3个知识库 - CONSTRAINT check_kb_limit CHECK ( - (SELECT COUNT(*) FROM knowledge_bases WHERE user_id = knowledge_bases.user_id) <= 3 - ) -); - --- 索引 -CREATE INDEX idx_kb_user_id ON knowledge_bases(user_id); -CREATE INDEX idx_kb_dify_dataset_id ON knowledge_bases(dify_dataset_id); - --- 注释 -COMMENT ON TABLE knowledge_bases IS '知识库表,每个用户最多3个'; -COMMENT ON COLUMN knowledge_bases.dify_dataset_id IS 'Dify中对应的数据集ID'; -``` - ---- - -### 6. documents - 文档表 - -**用途:** 存储知识库中上传的文档 - -```sql -CREATE TABLE documents ( - id VARCHAR(50) PRIMARY KEY DEFAULT gen_random_uuid()::VARCHAR, - kb_id VARCHAR(50) NOT NULL, - user_id VARCHAR(50) NOT NULL, - - -- 文件信息 - filename VARCHAR(255) NOT NULL, - file_type VARCHAR(20) NOT NULL, -- pdf, docx - file_size_bytes BIGINT NOT NULL, - file_url TEXT NOT NULL, -- 对象存储URL - - -- Dify集成 - dify_document_id VARCHAR(100) NOT NULL, -- Dify中的文档ID - - -- 处理状态 - status VARCHAR(20) DEFAULT 'uploading', -- uploading, processing, completed, failed - progress INTEGER DEFAULT 0, -- 0-100 - error_message TEXT, - - -- 处理结果 - segments_count INTEGER, -- 切分的段落数 - tokens_count INTEGER, -- token数量 - - -- 时间戳 - uploaded_at TIMESTAMP DEFAULT NOW(), - processed_at TIMESTAMP, - - -- 外键 - CONSTRAINT fk_documents_kb FOREIGN KEY (kb_id) - REFERENCES knowledge_bases(id) ON DELETE CASCADE, - CONSTRAINT fk_documents_users FOREIGN KEY (user_id) - REFERENCES users(id) ON DELETE CASCADE, - - -- 约束:每个知识库最多50个文档 - CONSTRAINT check_doc_limit CHECK ( - (SELECT COUNT(*) FROM documents WHERE kb_id = documents.kb_id) <= 50 - ), - - -- 约束:状态和进度 - CONSTRAINT check_status CHECK (status IN ('uploading', 'processing', 'completed', 'failed')), - CONSTRAINT check_progress CHECK (progress >= 0 AND progress <= 100) -); - --- 索引 -CREATE INDEX idx_documents_kb_id ON documents(kb_id); -CREATE INDEX idx_documents_user_id ON documents(user_id); -CREATE INDEX idx_documents_status ON documents(status); -CREATE INDEX idx_documents_dify_document_id ON documents(dify_document_id); - --- 注释 -COMMENT ON TABLE documents IS '文档表,每个知识库最多50个文档'; -COMMENT ON COLUMN documents.status IS '处理状态:uploading-上传中, processing-处理中, completed-完成, failed-失败'; -``` - ---- - -### 7. admin_logs - 管理员操作日志表(可选) - -**用途:** 记录管理员的敏感操作 - -```sql -CREATE TABLE admin_logs ( - id SERIAL PRIMARY KEY, - admin_id VARCHAR(50) NOT NULL, - - -- 操作信息 - action VARCHAR(100) NOT NULL, -- 操作类型 - resource_type VARCHAR(50), -- 资源类型:user, conversation, etc. - resource_id VARCHAR(50), -- 资源ID - - -- 详细信息 - details JSONB, - ip_address VARCHAR(45), - user_agent TEXT, - - -- 时间戳 - created_at TIMESTAMP DEFAULT NOW(), - - -- 外键 - CONSTRAINT fk_admin_logs_users FOREIGN KEY (admin_id) - REFERENCES users(id) ON DELETE CASCADE -); - --- 索引 -CREATE INDEX idx_admin_logs_admin_id ON admin_logs(admin_id); -CREATE INDEX idx_admin_logs_created_at ON admin_logs(created_at); -CREATE INDEX idx_admin_logs_action ON admin_logs(action); - --- 注释 -COMMENT ON TABLE admin_logs IS '管理员操作日志表,用于审计'; -``` - ---- - -### 8. general_conversations - 通用对话表 - -**用途:** 存储智能问答的对话记录(无需项目和智能体) - -```sql -CREATE TABLE general_conversations ( - id VARCHAR(36) PRIMARY KEY DEFAULT uuid_generate_v4(), - user_id VARCHAR(36) NOT NULL, - - -- 对话信息 - title VARCHAR(255) NOT NULL, - model_name VARCHAR(50), -- 主要使用的模型 - - -- 时间戳 - created_at TIMESTAMP DEFAULT NOW(), - updated_at TIMESTAMP DEFAULT NOW(), - deleted_at TIMESTAMP, -- 软删除 - - -- 外键 - CONSTRAINT fk_general_conversations_users FOREIGN KEY (user_id) - REFERENCES users(id) ON DELETE CASCADE -); - --- 索引 -CREATE INDEX idx_general_conversations_user_id ON general_conversations(user_id); -CREATE INDEX idx_general_conversations_created_at ON general_conversations(created_at); -CREATE INDEX idx_general_conversations_updated_at ON general_conversations(updated_at); - --- 注释 -COMMENT ON TABLE general_conversations IS '通用对话表,用于智能问答功能'; -``` - -**字段说明:** - -| 字段 | 类型 | 说明 | 约束 | -|------|------|------|------| -| id | VARCHAR(36) | 对话ID | PRIMARY KEY, UUID | -| user_id | VARCHAR(36) | 用户ID | NOT NULL, FK → users | -| title | VARCHAR(255) | 对话标题(自动生成) | NOT NULL | -| model_name | VARCHAR(50) | 主要使用的模型 | - | -| created_at | TIMESTAMP | 创建时间 | DEFAULT NOW() | -| updated_at | TIMESTAMP | 最后更新时间 | DEFAULT NOW() | -| deleted_at | TIMESTAMP | 删除时间(软删除) | - | - ---- - -### 9. general_messages - 通用消息表 - -**用途:** 存储智能问答的消息记录 - -```sql -CREATE TABLE general_messages ( - id VARCHAR(36) PRIMARY KEY DEFAULT uuid_generate_v4(), - conversation_id VARCHAR(36) NOT NULL, - - -- 消息内容 - role VARCHAR(20) NOT NULL, -- user / assistant - content TEXT NOT NULL, - - -- AI响应信息 - model VARCHAR(50), -- 使用的具体模型 - tokens INTEGER, -- token消耗 - metadata JSONB, -- 扩展信息(如knowledgeBaseIds、usage等) - - -- 时间戳 - created_at TIMESTAMP DEFAULT NOW(), - - -- 外键 - CONSTRAINT fk_general_messages_conversations FOREIGN KEY (conversation_id) - REFERENCES general_conversations(id) ON DELETE CASCADE -); - --- 索引 -CREATE INDEX idx_general_messages_conversation_id ON general_messages(conversation_id); -CREATE INDEX idx_general_messages_created_at ON general_messages(created_at); - --- 注释 -COMMENT ON TABLE general_messages IS '通用消息表,用于智能问答功能'; -``` - -**字段说明:** - -| 字段 | 类型 | 说明 | 约束 | -|------|------|------|------| -| id | VARCHAR(36) | 消息ID | PRIMARY KEY, UUID | -| conversation_id | VARCHAR(36) | 对话ID | NOT NULL, FK → general_conversations | -| role | VARCHAR(20) | 角色(user/assistant) | NOT NULL | -| content | TEXT | 消息内容 | NOT NULL | -| model | VARCHAR(50) | 使用的模型 | - | -| tokens | INTEGER | token消耗 | - | -| metadata | JSONB | 元数据(知识库IDs、使用统计等) | - | -| created_at | TIMESTAMP | 创建时间 | DEFAULT NOW() | - -**metadata结构示例:** -```json -{ - "knowledgeBaseIds": ["kb-uuid-1", "kb-uuid-2"], - "usage": { - "promptTokens": 150, - "completionTokens": 200, - "totalTokens": 350 - } -} -``` - ---- - -## 索引设计 - -### 主要索引 - -| 表名 | 索引字段 | 类型 | 用途 | -|------|---------|------|------| -| users | email | UNIQUE | 登录查询 | -| users | status | INDEX | 按状态筛选用户 | -| projects | user_id | INDEX | 查询用户的项目 | -| conversations | user_id | INDEX | 查询用户的对话 | -| conversations | project_id | INDEX | 查询项目的对话 | -| conversations | agent_id | INDEX | 统计智能体使用情况 | -| messages | conversation_id | INDEX | 查询对话消息 | -| knowledge_bases | user_id | INDEX | 查询用户的知识库 | -| documents | kb_id | INDEX | 查询知识库的文档 | -| documents | status | INDEX | 筛选处理状态 | -| general_conversations | user_id | INDEX | 查询用户的通用对话 | -| general_conversations | created_at | INDEX | 按时间排序 | -| general_messages | conversation_id | INDEX | 查询对话消息 | - -### 复合索引(如需优化性能可添加) - -```sql --- 按时间范围查询用户的对话 -CREATE INDEX idx_conversations_user_created - ON conversations(user_id, created_at DESC); - --- 按项目查询特定智能体的对话 -CREATE INDEX idx_conversations_project_agent - ON conversations(project_id, agent_id); -``` - ---- - -## 数据约束 - -### 业务约束 - -1. **知识库数量限制** - - 每个用户最多3个知识库 - - 通过CHECK约束和应用层双重控制 - -2. **文档数量限制** - - 每个知识库最多50个文档 - - 通过CHECK约束和应用层双重控制 - -3. **邮箱格式验证** - - 使用正则表达式验证邮箱格式 - -4. **密码安全** - - 使用bcrypt加密,成本因子12 - - 密码长度至少8位(应用层验证) - -### 数据完整性 - -1. **级联删除** - - 删除用户 → 级联删除其项目、对话、知识库 - - 删除项目 → 级联删除其对话 - - 删除知识库 → 级联删除其文档 - -2. **外键约束** - - 所有外键都设置了ON DELETE CASCADE - - 保证数据一致性 - ---- - -## 数据迁移策略 - -### 初始化迁移 - -```bash -# 创建初始迁移 -npx prisma migrate dev --name init - -# 生成Prisma Client -npx prisma generate -``` - -### 迁移命名规范 - -``` -yyyymmdd_描述.sql -例如: -20251010_init.sql -20251015_add_admin_logs.sql -20251020_add_user_quotas.sql -``` - -### 生产环境迁移流程 - -1. 在开发环境测试迁移 -2. 备份生产数据库 -3. 执行迁移脚本 -4. 验证数据完整性 -5. 回滚计划(如有问题) - ---- - -## Prisma Schema - -### 完整的schema.prisma - -```prisma -generator client { - provider = "prisma-client-js" -} - -datasource db { - provider = "postgresql" - url = env("DATABASE_URL") -} - -model User { - id String @id @default(uuid()) - email String @unique - password String - name String? - avatarUrl String? @map("avatar_url") - - role String @default("user") - status String @default("active") - - kbQuota Int @default(3) @map("kb_quota") - kbUsed Int @default(0) @map("kb_used") - - trialEndsAt DateTime? @map("trial_ends_at") - isTrial Boolean @default(true) @map("is_trial") - - lastLoginAt DateTime? @map("last_login_at") - createdAt DateTime @default(now()) @map("created_at") - updatedAt DateTime @updatedAt @map("updated_at") - - projects Project[] - conversations Conversation[] - knowledgeBases KnowledgeBase[] - documents Document[] - adminLogs AdminLog[] - - @@index([email]) - @@index([status]) - @@index([createdAt]) - @@map("users") -} - -model Project { - id String @id @default(uuid()) - userId String @map("user_id") - name String - description String @db.Text - conversationCount Int @default(0) @map("conversation_count") - - createdAt DateTime @default(now()) @map("created_at") - updatedAt DateTime @updatedAt @map("updated_at") - - user User @relation(fields: [userId], references: [id], onDelete: Cascade) - conversations Conversation[] - - @@index([userId]) - @@index([createdAt]) - @@map("projects") -} - -model Conversation { - id String @id @default(uuid()) - userId String @map("user_id") - projectId String? @map("project_id") - agentId String @map("agent_id") - title String - modelName String @default("deepseek-v3") @map("model_name") - messageCount Int @default(0) @map("message_count") - totalTokens Int @default(0) @map("total_tokens") - - createdAt DateTime @default(now()) @map("created_at") - updatedAt DateTime @updatedAt @map("updated_at") - - user User @relation(fields: [userId], references: [id], onDelete: Cascade) - project Project? @relation(fields: [projectId], references: [id], onDelete: Cascade) - messages Message[] - - @@index([userId]) - @@index([projectId]) - @@index([agentId]) - @@index([createdAt]) - @@map("conversations") -} - -model Message { - id String @id @default(uuid()) - conversationId String @map("conversation_id") - role String - content String @db.Text - metadata Json? - tokens Int? - isPinned Boolean @default(false) @map("is_pinned") - - createdAt DateTime @default(now()) @map("created_at") - - conversation Conversation @relation(fields: [conversationId], references: [id], onDelete: Cascade) - - @@index([conversationId]) - @@index([createdAt]) - @@index([isPinned]) - @@map("messages") -} - -model KnowledgeBase { - id String @id @default(uuid()) - userId String @map("user_id") - name String - description String? - difyDatasetId String @map("dify_dataset_id") - fileCount Int @default(0) @map("file_count") - totalSizeBytes BigInt @default(0) @map("total_size_bytes") - - createdAt DateTime @default(now()) @map("created_at") - updatedAt DateTime @updatedAt @map("updated_at") - - user User @relation(fields: [userId], references: [id], onDelete: Cascade) - documents Document[] - - @@index([userId]) - @@index([difyDatasetId]) - @@map("knowledge_bases") -} - -model Document { - id String @id @default(uuid()) - kbId String @map("kb_id") - userId String @map("user_id") - filename String - fileType String @map("file_type") - fileSizeBytes BigInt @map("file_size_bytes") - fileUrl String @map("file_url") - difyDocumentId String @map("dify_document_id") - status String @default("uploading") - progress Int @default(0) - errorMessage String? @map("error_message") - segmentsCount Int? @map("segments_count") - tokensCount Int? @map("tokens_count") - - uploadedAt DateTime @default(now()) @map("uploaded_at") - processedAt DateTime? @map("processed_at") - - knowledgeBase KnowledgeBase @relation(fields: [kbId], references: [id], onDelete: Cascade) - user User @relation(fields: [userId], references: [id], onDelete: Cascade) - - @@index([kbId]) - @@index([userId]) - @@index([status]) - @@index([difyDocumentId]) - @@map("documents") -} - -model AdminLog { - id Int @id @default(autoincrement()) - adminId String @map("admin_id") - action String - resourceType String? @map("resource_type") - resourceId String? @map("resource_id") - details Json? - ipAddress String? @map("ip_address") - userAgent String? @map("user_agent") - - createdAt DateTime @default(now()) @map("created_at") - - admin User @relation(fields: [adminId], references: [id], onDelete: Cascade) - - @@index([adminId]) - @@index([createdAt]) - @@index([action]) - @@map("admin_logs") -} -``` - ---- - -## 数据字典 - -### 枚举值定义 - -**用户角色 (user.role)** -- `user` - 普通用户 -- `admin` - 管理员 - -**账户状态 (user.status)** -- `active` - 激活(正常使用) -- `inactive` - 未激活(注册但未验证邮箱) -- `suspended` - 暂停(违规或欠费) - -**消息角色 (message.role)** -- `user` - 用户消息 -- `assistant` - AI助手消息 - -**文档状态 (document.status)** -- `uploading` - 上传中 -- `processing` - Dify处理中 -- `completed` - 处理完成 -- `failed` - 处理失败 - -**文件类型 (document.file_type)** -- `pdf` - PDF文档 -- `docx` - Word文档 - ---- - -## 数据安全 - -### 敏感数据处理 - -1. **密码** - - 使用bcrypt加密(成本因子12) - - 不可逆加密,无法还原明文 - -2. **API Keys** - - 不存储在数据库中 - - 使用环境变量管理 - -3. **用户数据隔离** - - 所有查询必须包含user_id过滤 - - 防止越权访问 - -### 备份策略 - -1. **自动备份** - - 每日全量备份 - - 保留最近7天 - -2. **手动备份** - - 重大升级前手动备份 - - 保留3个版本 - ---- - -## 性能优化建议 - -### 查询优化 - -1. **分页查询** - - 使用 LIMIT + OFFSET - - 或使用游标分页(基于ID) - -2. **避免N+1查询** - - 使用Prisma的include和select - - 预加载关联数据 - -3. **合理使用索引** - - 频繁查询的字段建立索引 - - 定期检查索引使用情况 - -### 数据归档 - -1. **历史数据归档** - - 对话超过6个月自动归档 - - 归档数据移至单独的表 - -2. **日志清理** - - admin_logs保留3个月 - - 定期清理过期日志 - ---- - -## 版本变更记录 - -| 版本 | 日期 | 变更内容 | 作者 | -|------|------|---------|------| -| v1.0 | 2025-10-10 | 初始版本,定义所有核心表 | 开发团队 | - ---- - -**文档维护:** 数据库结构变更需同步更新本文档 -**Review频率:** 每个里程碑结束后Review一次 - - - - diff --git a/docs/02-通用能力层/01-LLM大模型网关/03-CloseAI集成指南.md b/docs/02-通用能力层/01-LLM大模型网关/03-CloseAI集成指南.md new file mode 100644 index 00000000..fdb72a41 --- /dev/null +++ b/docs/02-通用能力层/01-LLM大模型网关/03-CloseAI集成指南.md @@ -0,0 +1,524 @@ +# CloseAI集成指南 + +> **文档版本:** v1.0 +> **创建日期:** 2025-11-09 +> **用途:** 通过CloseAI代理平台访问OpenAI GPT-5和Claude-4.5 +> **适用场景:** AI智能文献双模型筛选、高质量文本生成 + +--- + +## 📋 CloseAI简介 + +### 什么是CloseAI? + +CloseAI是一个**API代理平台**,为中国用户提供稳定的OpenAI和Claude API访问服务。 + +**核心优势:** +- ✅ 国内直连,无需科学上网 +- ✅ 一个API Key同时调用OpenAI和Claude +- ✅ 兼容OpenAI SDK标准接口 +- ✅ 支持最新模型(GPT-5、Claude-4.5) + +**官网:** https://platform.openai-proxy.org + +--- + +## 🔧 配置信息 + +### 环境变量配置 + +```env +# CloseAI统一API Key +CLOSEAI_API_KEY=sk-cu0iepbXYGGx2jc7BqP6ogtSWmP6fk918qV3RUdtGC3Edlpo + +# OpenAI端点 +CLOSEAI_OPENAI_BASE_URL=https://api.openai-proxy.org/v1 + +# Claude端点 +CLOSEAI_CLAUDE_BASE_URL=https://api.openai-proxy.org/anthropic +``` + +### 支持的模型 + +| 模型 | Model ID | 说明 | 适用场景 | +|------|---------|------|---------| +| **GPT-5-Pro** | `gpt-5-pro` | 最新GPT-5 ⭐ | 文献精准筛选、复杂推理 | +| GPT-4-Turbo | `gpt-4-turbo-preview` | GPT-4高性能版 | 质量要求高的任务 | +| GPT-3.5-Turbo | `gpt-3.5-turbo` | 快速经济版 | 简单任务、成本优化 | +| **Claude-4.5-Sonnet** | `claude-sonnet-4-5-20250929` | 最新Claude ⭐ | 第三方仲裁、结构化输出 | +| Claude-3.5-Sonnet | `claude-3-5-sonnet-20241022` | Claude-3.5稳定版 | 高质量文本生成 | + +--- + +## 💻 代码集成 + +### 1. 安装依赖 + +```bash +npm install openai +``` + +### 2. 创建LLM服务类 + +**文件位置:** `backend/src/common/llm/closeai.service.ts` + +```typescript +import OpenAI from 'openai'; +import { config } from '../../config/env'; + +export class CloseAIService { + private openaiClient: OpenAI; + private claudeClient: OpenAI; + + constructor() { + // OpenAI客户端(通过CloseAI) + this.openaiClient = new OpenAI({ + apiKey: config.closeaiApiKey, + baseURL: config.closeaiOpenaiBaseUrl, + }); + + // Claude客户端(通过CloseAI) + this.claudeClient = new OpenAI({ + apiKey: config.closeaiApiKey, + baseURL: config.closeaiClaudeBaseUrl, + }); + } + + /** + * 调用GPT-5-Pro + */ + async chatWithGPT5(prompt: string, systemPrompt?: string) { + const messages: any[] = []; + + if (systemPrompt) { + messages.push({ role: 'system', content: systemPrompt }); + } + messages.push({ role: 'user', content: prompt }); + + const response = await this.openaiClient.chat.completions.create({ + model: 'gpt-5-pro', + messages, + temperature: 0.3, + max_tokens: 2000, + }); + + return { + content: response.choices[0].message.content, + usage: response.usage, + model: 'gpt-5-pro', + }; + } + + /** + * 调用Claude-4.5-Sonnet + */ + async chatWithClaude(prompt: string, systemPrompt?: string) { + const messages: any[] = []; + + if (systemPrompt) { + messages.push({ role: 'system', content: systemPrompt }); + } + messages.push({ role: 'user', content: prompt }); + + const response = await this.claudeClient.chat.completions.create({ + model: 'claude-sonnet-4-5-20250929', + messages, + temperature: 0.3, + max_tokens: 2000, + }); + + return { + content: response.choices[0].message.content, + usage: response.usage, + model: 'claude-sonnet-4-5-20250929', + }; + } + + /** + * 流式响应(GPT-5) + */ + async *streamGPT5(prompt: string, systemPrompt?: string) { + const messages: any[] = []; + + if (systemPrompt) { + messages.push({ role: 'system', content: systemPrompt }); + } + messages.push({ role: 'user', content: prompt }); + + const stream = await this.openaiClient.chat.completions.create({ + model: 'gpt-5-pro', + messages, + temperature: 0.3, + max_tokens: 2000, + stream: true, + }); + + for await (const chunk of stream) { + const content = chunk.choices[0]?.delta?.content || ''; + if (content) { + yield content; + } + } + } +} +``` + +### 3. 统一LLM服务(含4个模型) + +**文件位置:** `backend/src/common/llm/llm.service.ts` + +```typescript +import OpenAI from 'openai'; +import { config } from '../../config/env'; + +export type LLMProvider = 'deepseek' | 'gpt5' | 'claude' | 'qwen'; + +export class UnifiedLLMService { + private deepseek: OpenAI; + private gpt5: OpenAI; + private claude: OpenAI; + private qwen: OpenAI; + + constructor() { + // DeepSeek (直连) + this.deepseek = new OpenAI({ + apiKey: config.deepseekApiKey, + baseURL: config.deepseekBaseUrl, + }); + + // GPT-5 (通过CloseAI) + this.gpt5 = new OpenAI({ + apiKey: config.closeaiApiKey, + baseURL: config.closeaiOpenaiBaseUrl, + }); + + // Claude (通过CloseAI) + this.claude = new OpenAI({ + apiKey: config.closeaiApiKey, + baseURL: config.closeaiClaudeBaseUrl, + }); + + // Qwen (备用) + this.qwen = new OpenAI({ + apiKey: config.dashscopeApiKey, + baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1', + }); + } + + /** + * 统一调用接口 + */ + async chat( + provider: LLMProvider, + prompt: string, + options?: { + systemPrompt?: string; + temperature?: number; + maxTokens?: number; + } + ) { + const { systemPrompt, temperature = 0.3, maxTokens = 2000 } = options || {}; + + const messages: any[] = []; + if (systemPrompt) { + messages.push({ role: 'system', content: systemPrompt }); + } + messages.push({ role: 'user', content: prompt }); + + // 选择模型 + const modelMap = { + deepseek: { client: this.deepseek, model: 'deepseek-chat' }, + gpt5: { client: this.gpt5, model: 'gpt-5-pro' }, + claude: { client: this.claude, model: 'claude-sonnet-4-5-20250929' }, + qwen: { client: this.qwen, model: 'qwen-max' }, + }; + + const { client, model } = modelMap[provider]; + + const response = await client.chat.completions.create({ + model, + messages, + temperature, + max_tokens: maxTokens, + }); + + return { + content: response.choices[0].message.content || '', + usage: response.usage, + model, + provider, + }; + } +} +``` + +--- + +## 🎯 AI智能文献应用场景 + +### 场景1:双模型对比筛选(推荐)⭐ + +**策略:** DeepSeek(快速初筛) + GPT-5(质量复核) + +```typescript +export class LiteratureScreeningService { + private llm: UnifiedLLMService; + + constructor() { + this.llm = new UnifiedLLMService(); + } + + /** + * 双模型文献筛选 + */ + async screenLiterature(title: string, abstract: string, picoConfig: any) { + const prompt = ` +请根据以下PICO标准,判断这篇文献是否应该纳入: + +**PICO标准:** +- Population: ${picoConfig.population} +- Intervention: ${picoConfig.intervention} +- Comparison: ${picoConfig.comparison} +- Outcome: ${picoConfig.outcome} + +**文献信息:** +标题:${title} +摘要:${abstract} + +请输出JSON格式: +{ + "decision": "include/exclude/uncertain", + "reason": "判断理由", + "confidence": 0.0-1.0 +} + `; + + // 并行调用两个模型 + const [deepseekResult, gpt5Result] = await Promise.all([ + this.llm.chat('deepseek', prompt), + this.llm.chat('gpt5', prompt), + ]); + + // 解析结果 + const deepseekDecision = JSON.parse(deepseekResult.content); + const gpt5Decision = JSON.parse(gpt5Result.content); + + // 如果两个模型一致,直接采纳 + if (deepseekDecision.decision === gpt5Decision.decision) { + return { + finalDecision: deepseekDecision.decision, + consensus: 'high', + models: [deepseekDecision, gpt5Decision], + }; + } + + // 如果不一致,返回双方意见,待人工复核 + return { + finalDecision: 'uncertain', + consensus: 'low', + models: [deepseekDecision, gpt5Decision], + needManualReview: true, + }; + } +} +``` + +### 场景2:三模型共识仲裁 + +**策略:** 当两个模型冲突时,启用Claude作为第三方仲裁 + +```typescript +async screenWithArbitration(title: string, abstract: string, picoConfig: any) { + // 第一轮:双模型筛选 + const initialScreen = await this.screenLiterature(title, abstract, picoConfig); + + // 如果一致,直接返回 + if (initialScreen.consensus === 'high') { + return initialScreen; + } + + // 如果不一致,启用Claude仲裁 + console.log('双模型结果不一致,启用Claude仲裁...'); + + const claudeResult = await this.llm.chat('claude', prompt); + const claudeDecision = JSON.parse(claudeResult.content); + + // 三模型投票 + const decisions = [ + initialScreen.models[0].decision, + initialScreen.models[1].decision, + claudeDecision.decision, + ]; + + const voteCount = { + include: decisions.filter(d => d === 'include').length, + exclude: decisions.filter(d => d === 'exclude').length, + uncertain: decisions.filter(d => d === 'uncertain').length, + }; + + // 多数决 + const finalDecision = Object.keys(voteCount).reduce((a, b) => + voteCount[a] > voteCount[b] ? a : b + ); + + return { + finalDecision, + consensus: voteCount[finalDecision] >= 2 ? 'medium' : 'low', + models: [...initialScreen.models, claudeDecision], + arbitration: true, + }; +} +``` + +### 场景3:成本优化策略 + +**策略:** 只对不确定的结果使用GPT-5复核 + +```typescript +async screenWithCostOptimization(title: string, abstract: string, picoConfig: any) { + // 第一轮:用DeepSeek快速初筛(便宜) + const quickScreen = await this.llm.chat('deepseek', prompt); + const quickDecision = JSON.parse(quickScreen.content); + + // 如果结果明确(include或exclude且置信度>0.8),直接采纳 + if (quickDecision.confidence > 0.8 && quickDecision.decision !== 'uncertain') { + return { + finalDecision: quickDecision.decision, + consensus: 'high', + models: [quickDecision], + costOptimized: true, + }; + } + + // 否则,用GPT-5复核 + const detailedScreen = await this.llm.chat('gpt5', prompt); + const detailedDecision = JSON.parse(detailedScreen.content); + + return { + finalDecision: detailedDecision.decision, + consensus: 'medium', + models: [quickDecision, detailedDecision], + costOptimized: true, + }; +} +``` + +--- + +## 📊 性能和成本对比 + +### 模型性能对比 + +| 指标 | DeepSeek-V3 | GPT-5-Pro | Claude-4.5 | Qwen-Max | +|------|------------|-----------|-----------|----------| +| **准确率** | 85% | **95%** ⭐ | 93% | 82% | +| **速度** | **快** ⭐ | 中等 | 中等 | 快 | +| **成本** | **¥0.001/1K** ⭐ | ¥0.10/1K | ¥0.021/1K | ¥0.004/1K | +| **中文理解** | **优秀** ⭐ | 优秀 | 良好 | 优秀 | +| **结构化输出** | 良好 | 优秀 | **优秀** ⭐ | 良好 | + +### 筛选1000篇文献的成本估算 + +**策略A:只用DeepSeek** +- 成本:¥20-30 +- 准确率:85% +- 适用:预算有限,可接受一定误差 + +**策略B:DeepSeek + GPT-5 双模型** +- 成本:¥150-200 +- 准确率:92% +- 适用:质量要求高,预算充足 ⭐ 推荐 + +**策略C:三模型共识(20%冲突启用Claude)** +- 成本:¥180-220 +- 准确率:95% +- 适用:最高质量要求 + +**策略D:成本优化(80%用DeepSeek,20%用GPT-5)** +- 成本:¥50-80 +- 准确率:90% +- 适用:质量和成本平衡 ⭐ 性价比最高 + +--- + +## ⚠️ 注意事项 + +### 1. API Key安全 + +```typescript +// ❌ 错误:硬编码API Key +const client = new OpenAI({ + apiKey: 'sk-cu0iepbXYGGx2jc7BqP6ogtSWmP6fk918qV3RUdtGC3Edlpo', +}); + +// ✅ 正确:从环境变量读取 +const client = new OpenAI({ + apiKey: process.env.CLOSEAI_API_KEY, +}); +``` + +### 2. 错误处理 + +```typescript +async chat(provider: LLMProvider, prompt: string) { + try { + const response = await this.llm.chat(provider, prompt); + return response; + } catch (error) { + // CloseAI可能返回的错误 + if (error.status === 429) { + // 速率限制 + console.error('API调用速率超限,请稍后重试'); + } else if (error.status === 401) { + // 认证失败 + console.error('API Key无效,请检查配置'); + } else if (error.status === 500) { + // 服务端错误 + console.error('CloseAI服务异常,请稍后重试'); + } + throw error; + } +} +``` + +### 3. 请求重试 + +```typescript +async chatWithRetry(provider: LLMProvider, prompt: string, maxRetries = 3) { + for (let i = 0; i < maxRetries; i++) { + try { + return await this.llm.chat(provider, prompt); + } catch (error) { + if (i === maxRetries - 1) throw error; + + // 指数退避 + const delay = Math.pow(2, i) * 1000; + await new Promise(resolve => setTimeout(resolve, delay)); + } + } +} +``` + +--- + +## 📚 相关文档 + +- [环境配置指南](../../07-运维文档/01-环境配置指南.md#3-closeai配置代理openai和claude) +- [环境变量配置模板](../../07-运维文档/02-环境变量配置模板.md) +- [LLM网关快速上下文](./[AI对接]%20LLM网关快速上下文.md) + +--- + +**更新日志:** +- 2025-11-09: 创建文档,添加CloseAI集成指南 +- 支持GPT-5-Pro和Claude-4.5-Sonnet最新模型 + + + + + + + + + + diff --git a/docs/02-通用能力层/01-LLM大模型网关/README.md b/docs/02-通用能力层/01-LLM大模型网关/README.md new file mode 100644 index 00000000..52a647ac --- /dev/null +++ b/docs/02-通用能力层/01-LLM大模型网关/README.md @@ -0,0 +1,149 @@ +# LLM大模型网关 + +> **能力定位:** 通用能力层核心能力 +> **复用率:** 71% (5个模块依赖) +> **优先级:** P0(最高)⭐ +> **状态:** ❌ 待实现 + +--- + +## 📋 能力概述 + +LLM大模型网关是平台AI能力的核心中枢,负责: +- 统一管理所有LLM调用 +- 根据用户版本动态切换模型 +- 成本控制与限流 +- Token计数与计费 + +--- + +## 🎯 核心价值 + +### 1. 商业模式技术基础 ⭐ +``` +专业版 → DeepSeek-V3(便宜,¥1/百万tokens) +高级版 → DeepSeek + Qwen3 +旗舰版 → DeepSeek + Qwen3 + Qwen-Long + Claude +``` + +### 2. 成本控制 +- 统一监控所有LLM API调用 +- 超出配额自动限流 +- 按版本计费 + +### 3. 统一接口 +- 屏蔽不同LLM API的差异 +- 统一的调用接口 + +--- + +## 📊 依赖模块 + +**5个模块依赖(71%复用率):** +1. **AIA** - AI智能问答 +2. **ASL** - AI智能文献(双模型判断) +3. **PKB** - 个人知识库(RAG问答) +4. **DC** - 数据清洗(NER提取) +5. **RVW** - 稿件审查(AI评估) + +--- + +## 💡 核心功能 + +### 1. 模型选择 +```typescript +selectModel(userId: string, preferredModel?: string): string +// 根据用户版本和配额选择合适的模型 +``` + +### 2. 统一调用 +```typescript +chat(params: { + userId: string; + modelType?: ModelType; + messages: Message[]; + stream?: boolean; +}): Promise +``` + +### 3. 配额管理 +```typescript +checkQuota(userId: string): Promise +// 检查用户剩余配额 +``` + +### 4. Token计数 +```typescript +countTokens(text: string): number +// 使用tiktoken计算Token数 +``` + +--- + +## 📂 文档结构 + +``` +01-LLM大模型网关/ + ├── [AI对接] LLM网关快速上下文.md # ✅ 已完成 + ├── 03-CloseAI集成指南.md # ✅ 已完成 ⭐ + ├── 00-需求分析/ + │ └── README.md + ├── 01-设计文档/ + │ ├── 01-详细设计.md # ⏳ Week 5创建 + │ ├── 02-数据库设计.md # ⏳ Week 5创建 + │ ├── 03-API设计.md # ⏳ Week 5创建 + │ └── README.md + └── README.md # ✅ 当前文档 +``` + +### 快速入门文档 ⭐ + +| 文档 | 说明 | 状态 | +|------|------|------| +| **[AI对接] LLM网关快速上下文.md** | 快速了解LLM网关设计 | ✅ 已完成 | +| **03-CloseAI集成指南.md** | CloseAI(GPT-5+Claude-4.5)集成文档 ⭐ | ✅ 已完成 | + +--- + +## ⚠️ 开发计划调整 + +### 原计划:Week 2完成LLM网关 +**调整:** LLM网关完整实现推迟到Week 5 ✅ + +**理由:** +1. 现有LLM调用已经work(DeepSeek、Qwen) +2. CloseAI集成配置已完成,可直接使用 +3. ASL开发不阻塞,先用简单调用 +4. Week 5有多个模块实践后,再抽取统一网关更合理 + +### 当前可用(Week 3 ASL开发)✅ +- ✅ DeepSeek API(直连) +- ✅ GPT-5-Pro API(CloseAI代理) +- ✅ Claude-4.5 API(CloseAI代理) +- ✅ Qwen API(DashScope) +- ✅ 4个模型的基础调用代码示例 + +### Week 5完善(LLM网关统一) +- 统一调用接口 +- 版本分级(专业版/高级版/旗舰版) +- 配额管理和限流 +- Token计数和计费 +- 使用记录和监控 + +--- + +## 🔗 相关文档 + +- [通用能力层总览](../README.md) +- [系统架构分层设计](../../00-系统总体设计/01-系统架构分层设计.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + diff --git a/docs/02-通用能力层/01-LLM大模型网关/[AI对接] LLM网关快速上下文.md b/docs/02-通用能力层/01-LLM大模型网关/[AI对接] LLM网关快速上下文.md new file mode 100644 index 00000000..6ab3f769 --- /dev/null +++ b/docs/02-通用能力层/01-LLM大模型网关/[AI对接] LLM网关快速上下文.md @@ -0,0 +1,535 @@ +# [AI对接] LLM网关快速上下文 + +> **阅读时间:** 5分钟 | **Token消耗:** ~2000 tokens +> **层级:** L2 | **优先级:** P0 ⭐⭐⭐⭐⭐ +> **前置阅读:** 02-通用能力层/[AI对接] 通用能力快速上下文.md + +--- + +## 📋 能力定位 + +**LLM大模型网关是整个平台的AI调用中枢,是商业模式的技术基础。** + +**为什么是P0优先级:** +- 71%的业务模块依赖(5个模块:AIA、ASL、PKB、DC、RVW) +- ASL模块开发的**前置条件** +- 商业模式的**技术基础**(Feature Flag + 成本控制) + +**状态:** ❌ 待实现 +**建议时间:** ASL Week 1(Day 1-3)同步开发 + +--- + +## 🎯 核心功能 + +### 1. 根据用户版本选择模型 ⭐⭐⭐⭐⭐ + +**商业价值:** +``` +专业版(¥99/月)→ DeepSeek-V3(¥1/百万tokens) +高级版(¥299/月)→ DeepSeek + Qwen3-72B(¥5/百万tokens) +旗舰版(¥999/月)→ 全部模型(含Claude/GPT) +``` + +**实现方式:** +```typescript +// 查询用户Feature Flag +const userFlags = await featureFlagService.getUserFlags(userId); + +// 根据Feature Flag选择可用模型 +if (requestModel === 'claude-3.5' && !userFlags.includes('claude_access')) { + throw new Error('您的套餐不支持Claude模型,请升级到旗舰版'); +} + +// 或自动降级 +if (!userFlags.includes('claude_access')) { + model = 'deepseek-v3'; // 自动降级到DeepSeek +} +``` + +--- + +### 2. 统一调用接口 ⭐⭐⭐⭐⭐ + +**问题:** 不同LLM厂商API格式不同 +- OpenAI格式 +- Anthropic格式 +- 国产大模型格式(DeepSeek、Qwen) + +**解决方案:** 统一接口 + 适配器模式 + +```typescript +// 业务模块统一调用 +const response = await llmGateway.chat({ + userId: 'user123', + modelType: 'deepseek-v3', // 或 'qwen3', 'claude-3.5' + messages: [ + { role: 'user', content: '帮我分析这篇文献...' } + ], + stream: false +}); + +// LLM网关内部: +// 1. 检查用户权限(Feature Flag) +// 2. 检查配额 +// 3. 选择对应的适配器 +// 4. 调用API +// 5. 记录成本 +// 6. 返回统一格式 +``` + +--- + +### 3. 成本控制 ⭐⭐⭐⭐ + +**核心需求:** +- 每个用户有月度配额 +- 超出配额自动限流 +- 实时成本统计 + +**实现:** +```typescript +// 调用前检查配额 +async function checkQuota(userId: string): Promise { + const usage = await getMonthlyUsage(userId); + const quota = await getUserQuota(userId); + + if (usage.tokenCount >= quota.maxTokens) { + throw new QuotaExceededError('您的月度配额已用完,请升级套餐'); + } + + return true; +} + +// 调用后记录成本 +async function recordUsage(userId: string, usage: { + modelType: string; + tokenCount: number; + cost: number; +}) { + await db.llmUsage.create({ + userId, + modelType, + inputTokens: usage.tokenCount, + cost: usage.cost, + timestamp: new Date() + }); +} +``` + +--- + +### 4. 流式/非流式统一处理 ⭐⭐⭐ + +**场景:** +- AIA智能问答 → 需要流式输出(实时显示) +- ASL文献筛选 → 非流式(批量处理) + +**统一接口:** +```typescript +interface ChatOptions { + userId: string; + modelType: ModelType; + messages: Message[]; + stream: boolean; // 是否流式输出 + temperature?: number; + maxTokens?: number; +} + +// 流式 +const stream = await llmGateway.chat({ ...options, stream: true }); +for await (const chunk of stream) { + console.log(chunk.content); +} + +// 非流式 +const response = await llmGateway.chat({ ...options, stream: false }); +console.log(response.content); +``` + +--- + +## 🏗️ 技术架构 + +### 目录结构 +``` +backend/src/modules/llm-gateway/ + ├── controllers/ + │ └── llmController.ts # HTTP接口 + ├── services/ + │ ├── llmGatewayService.ts # 核心服务 ⭐ + │ ├── featureFlagService.ts # Feature Flag查询 + │ ├── quotaService.ts # 配额管理 + │ └── usageService.ts # 使用统计 + ├── adapters/ # 适配器模式 ⭐ + │ ├── baseAdapter.ts + │ ├── deepseekAdapter.ts + │ ├── qwenAdapter.ts + │ ├── claudeAdapter.ts + │ └── openaiAdapter.ts + ├── types/ + │ └── llm.types.ts + └── routes/ + └── llmRoutes.ts +``` + +--- + +### 核心类设计 + +#### 1. LLMGatewayService(核心) +```typescript +class LLMGatewayService { + private adapters: Map; + + async chat(options: ChatOptions): Promise { + // 1. 验证用户权限(Feature Flag) + await this.checkAccess(options.userId, options.modelType); + + // 2. 检查配额 + await quotaService.checkQuota(options.userId); + + // 3. 选择适配器 + const adapter = this.adapters.get(options.modelType); + + // 4. 调用LLM API + const response = await adapter.chat(options); + + // 5. 记录使用量 + await usageService.record({ + userId: options.userId, + modelType: options.modelType, + tokenCount: response.tokenUsage, + cost: this.calculateCost(options.modelType, response.tokenUsage) + }); + + // 6. 返回结果 + return response; + } + + private calculateCost(modelType: ModelType, tokens: number): number { + const prices = { + 'deepseek-v3': 0.000001, // ¥1/百万tokens + 'qwen3-72b': 0.000005, // ¥5/百万tokens + 'claude-3.5': 0.00003 // $15/百万tokens ≈ ¥0.0003/千tokens + }; + return tokens * prices[modelType]; + } +} +``` + +#### 2. BaseLLMAdapter(适配器基类) +```typescript +abstract class BaseLLMAdapter { + abstract chat(options: ChatOptions): Promise; + abstract chatStream(options: ChatOptions): AsyncIterator; + + protected abstract buildRequest(options: ChatOptions): any; + protected abstract parseResponse(response: any): ChatResponse; +} +``` + +#### 3. DeepSeekAdapter(实现示例) +```typescript +class DeepSeekAdapter extends BaseLLMAdapter { + private apiKey: string; + private baseUrl = 'https://api.deepseek.com/v1'; + + async chat(options: ChatOptions): Promise { + const request = this.buildRequest(options); + + const response = await fetch(`${this.baseUrl}/chat/completions`, { + method: 'POST', + headers: { + 'Authorization': `Bearer ${this.apiKey}`, + 'Content-Type': 'application/json' + }, + body: JSON.stringify(request) + }); + + const data = await response.json(); + return this.parseResponse(data); + } + + protected buildRequest(options: ChatOptions) { + return { + model: 'deepseek-chat', + messages: options.messages, + temperature: options.temperature || 0.7, + max_tokens: options.maxTokens || 4096, + stream: options.stream || false + }; + } + + protected parseResponse(response: any): ChatResponse { + return { + content: response.choices[0].message.content, + tokenUsage: response.usage.total_tokens, + finishReason: response.choices[0].finish_reason + }; + } +} +``` + +--- + +## 📊 数据库设计 + +### platform_schema.llm_usage +```sql +CREATE TABLE platform_schema.llm_usage ( + id SERIAL PRIMARY KEY, + user_id INTEGER REFERENCES platform_schema.users(id), + model_type VARCHAR(50) NOT NULL, -- 'deepseek-v3', 'qwen3', 'claude-3.5' + input_tokens INTEGER NOT NULL, + output_tokens INTEGER NOT NULL, + total_tokens INTEGER NOT NULL, + cost DECIMAL(10, 6) NOT NULL, -- 实际成本(人民币) + request_id VARCHAR(100), -- LLM API返回的request_id + module VARCHAR(50), -- 哪个模块调用的:'AIA', 'ASL', 'PKB'等 + created_at TIMESTAMP DEFAULT NOW(), + + INDEX idx_user_created (user_id, created_at), + INDEX idx_module (module) +); +``` + +### platform_schema.llm_quotas +```sql +CREATE TABLE platform_schema.llm_quotas ( + id SERIAL PRIMARY KEY, + user_id INTEGER REFERENCES platform_schema.users(id) UNIQUE, + monthly_token_limit INTEGER NOT NULL, -- 月度token配额 + monthly_cost_limit DECIMAL(10, 2), -- 月度成本上限(可选) + reset_day INTEGER DEFAULT 1, -- 每月重置日期(1-28) + created_at TIMESTAMP DEFAULT NOW(), + updated_at TIMESTAMP DEFAULT NOW() +); +``` + +--- + +## 📋 API端点 + +### 1. 聊天接口(非流式) +``` +POST /api/v1/llm/chat + +Request: +{ + "modelType": "deepseek-v3", + "messages": [ + { "role": "user", "content": "分析这篇文献..." } + ], + "temperature": 0.7, + "maxTokens": 4096 +} + +Response: +{ + "content": "根据文献内容分析...", + "tokenUsage": { + "input": 150, + "output": 500, + "total": 650 + }, + "cost": 0.00065, + "modelType": "deepseek-v3" +} +``` + +### 2. 聊天接口(流式) +``` +POST /api/v1/llm/chat/stream + +Request: 同上 + "stream": true + +Response: Server-Sent Events (SSE) +data: {"chunk": "根据", "tokenUsage": 1} +data: {"chunk": "文献", "tokenUsage": 1} +... +data: {"done": true, "totalTokens": 650, "cost": 0.00065} +``` + +### 3. 查询配额 +``` +GET /api/v1/llm/quota + +Response: +{ + "monthlyLimit": 1000000, + "used": 245000, + "remaining": 755000, + "resetDate": "2025-12-01" +} +``` + +### 4. 使用统计 +``` +GET /api/v1/llm/usage?startDate=2025-11-01&endDate=2025-11-30 + +Response: +{ + "totalTokens": 245000, + "totalCost": 1.23, + "byModel": { + "deepseek-v3": { "tokens": 200000, "cost": 0.20 }, + "qwen3-72b": { "tokens": 45000, "cost": 0.23 } + }, + "byModule": { + "AIA": 100000, + "ASL": 120000, + "PKB": 25000 + } +} +``` + +--- + +## ⚠️ 关键技术难点 + +### 1. 流式输出的实现 +**技术方案:** Server-Sent Events (SSE) + +```typescript +// 后端(Fastify) +app.post('/api/v1/llm/chat/stream', async (req, reply) => { + reply.raw.setHeader('Content-Type', 'text/event-stream'); + reply.raw.setHeader('Cache-Control', 'no-cache'); + reply.raw.setHeader('Connection', 'keep-alive'); + + const stream = await llmGateway.chatStream(req.body); + + for await (const chunk of stream) { + reply.raw.write(`data: ${JSON.stringify(chunk)}\n\n`); + } + + reply.raw.end(); +}); + +// 前端(React) +const eventSource = new EventSource('/api/v1/llm/chat/stream'); +eventSource.onmessage = (event) => { + const data = JSON.parse(event.data); + setMessages(prev => [...prev, data.chunk]); +}; +``` + +--- + +### 2. 错误处理和重试 +```typescript +async function chatWithRetry(options: ChatOptions, maxRetries = 3) { + for (let i = 0; i < maxRetries; i++) { + try { + return await llmGateway.chat(options); + } catch (error) { + if (error.code === 'RATE_LIMIT' && i < maxRetries - 1) { + await sleep(2000 * (i + 1)); // 指数退避 + continue; + } + throw error; + } + } +} +``` + +--- + +### 3. Token计数(精确计费) +**问题:** 不同模型的tokenizer不同 + +**解决方案:** +- 使用各厂商提供的API返回值(最准确) +- 备用方案:tiktoken库(OpenAI tokenizer) + +```typescript +import { encoding_for_model } from 'tiktoken'; + +function estimateTokens(text: string, model: string): number { + const encoder = encoding_for_model(model); + const tokens = encoder.encode(text); + encoder.free(); + return tokens.length; +} +``` + +--- + +## 📅 开发计划(3天) + +### Day 1:基础架构(6-8小时) +- [ ] 创建目录结构 +- [ ] 实现BaseLLMAdapter抽象类 +- [ ] 实现DeepSeekAdapter +- [ ] 数据库表创建(llm_usage, llm_quotas) +- [ ] 基础API端点(非流式) + +### Day 2:核心功能(6-8小时) +- [ ] Feature Flag集成 +- [ ] 配额检查和记录 +- [ ] 实现QwenAdapter +- [ ] 错误处理和重试机制 +- [ ] 单元测试 + +### Day 3:流式输出 + 优化(6-8小时) +- [ ] 实现流式输出(SSE) +- [ ] 前端SSE接收处理 +- [ ] 成本统计API +- [ ] 配额查询API +- [ ] 集成测试 +- [ ] 文档完善 + +--- + +## ✅ 开发检查清单 + +**开始前确认:** +- [ ] Feature Flag表已创建(platform_schema.feature_flags) +- [ ] 用户表已有version字段(professional/premium/enterprise) +- [ ] 各LLM厂商API Key已配置 +- [ ] Prisma Schema已更新 + +**开发中:** +- [ ] 每个适配器都有完整的错误处理 +- [ ] 所有LLM调用都记录到llm_usage表 +- [ ] 配额检查在每次调用前执行 +- [ ] 流式和非流式都已测试 + +**完成后:** +- [ ] ASL模块可以成功调用LLM网关 +- [ ] ADMIN可以查看用户LLM使用统计 +- [ ] 配额超限会正确拒绝请求 + +--- + +## 🔗 相关文档 + +**依赖:** +- [用户与权限中心(UAM)](../../01-平台基础层/01-用户与权限中心(UAM)/README.md) - Feature Flag +- [运营管理端](../../03-业务模块/ADMIN-运营管理端/README.md) - LLM模型管理 + +**被依赖:** +- [ASL-AI智能文献](../../03-业务模块/ASL-AI智能文献/README.md) ⭐ P0 +- [AIA-AI智能问答](../../03-业务模块/AIA-AI智能问答/README.md) +- [PKB-个人知识库](../../03-业务模块/PKB-个人知识库/README.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 +**优先级:** P0 ⭐⭐⭐⭐⭐ + + + + + + + + + + + + + + diff --git a/docs/02-通用能力层/02-文档处理引擎/README.md b/docs/02-通用能力层/02-文档处理引擎/README.md new file mode 100644 index 00000000..a1159641 --- /dev/null +++ b/docs/02-通用能力层/02-文档处理引擎/README.md @@ -0,0 +1,107 @@ +# 文档处理引擎 + +> **能力定位:** 通用能力层 +> **复用率:** 86% (6个模块依赖) +> **优先级:** P0 +> **状态:** ✅ 已实现(Python微服务) + +--- + +## 📋 能力概述 + +文档处理引擎是平台的核心基础能力,负责: +- 多格式文档文本提取(PDF、Docx、Txt、Excel) +- OCR处理 +- 表格提取 +- 语言检测 +- 质量评估 + +--- + +## 📊 依赖模块 + +**6个模块依赖(86%复用率):** +1. **ASL** - AI智能文献(文献PDF提取) +2. **PKB** - 个人知识库(知识库文档上传) +3. **DC** - 数据清洗(Excel/Docx数据导入) +4. **SSA** - 智能统计分析(数据导入) +5. **ST** - 统计分析工具(数据导入) +6. **RVW** - 稿件审查(稿件文档提取) + +--- + +## 💡 核心功能 + +### 1. PDF提取 +- **Nougat**:英文学术论文(高质量) +- **PyMuPDF**:中文PDF + 兜底方案(快速) +- **语言检测**:自动识别中英文 +- **质量评估**:提取质量评分 + +### 2. Docx提取 +- **Mammoth**:转Markdown +- **python-docx**:结构化读取 + +### 3. Txt提取 +- **多编码支持**:UTF-8、GBK等 +- **chardet**:自动检测编码 + +### 4. Excel处理 +- **openpyxl**:读取Excel +- **pandas**:数据处理 + +--- + +## 🏗️ 技术架构 + +**Python微服务(FastAPI):** +``` +extraction_service/ + ├── main.py (509行) - FastAPI主服务 + ├── services/ + │ ├── pdf_extractor.py (242行) - PDF提取总协调 + │ ├── pdf_processor.py (280行) - PyMuPDF实现 + │ ├── language_detector.py (120行) - 语言检测 + │ ├── nougat_extractor.py (242行) - Nougat实现 + │ ├── docx_extractor.py (253行) - Docx提取 + │ └── txt_extractor.py (316行) - Txt提取(多编码) + └── requirements.txt +``` + +--- + +## 📚 API端点 + +``` +POST /api/extract/pdf - PDF文本提取 +POST /api/extract/docx - Docx文本提取 +POST /api/extract/txt - Txt文本提取 +POST /api/extract/excel - Excel表格提取 +GET /health - 健康检查 +``` + +--- + +## 🔗 相关文档 + +- [通用能力层总览](../README.md) +- [Python微服务代码](../../../extraction_service/) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/02-通用能力层/03-RAG引擎/README.md b/docs/02-通用能力层/03-RAG引擎/README.md new file mode 100644 index 00000000..9df6eb5a --- /dev/null +++ b/docs/02-通用能力层/03-RAG引擎/README.md @@ -0,0 +1,102 @@ +# RAG引擎 + +> **能力定位:** 通用能力层 +> **复用率:** 43% (3个模块依赖) +> **优先级:** P1 +> **状态:** ✅ 已实现(基于Dify) + +--- + +## 📋 能力概述 + +RAG引擎负责: +- 向量化存储(Embedding) +- 语义检索(Semantic Search) +- 检索增强生成(RAG) +- Rerank重排序 + +--- + +## 📊 依赖模块 + +**3个模块依赖(43%复用率):** +1. **AIA** - AI智能问答(@知识库问答) +2. **ASL** - AI智能文献(文献内容检索) +3. **PKB** - 个人知识库(RAG问答) + +--- + +## 💡 核心功能 + +### 1. 向量化存储 +- 基于Dify平台 +- Qdrant向量数据库(Dify内置) + +### 2. 语义检索 +- Top-K检索 +- 相关度评分 +- 多知识库联合检索 + +### 3. RAG问答 +- 检索 + 生成 +- 智能引用系统(100%准确溯源) + +--- + +## 🏗️ 技术架构 + +**基于Dify平台:** +```typescript +// DifyClient封装 +interface RAGEngine { + // 创建知识库 + createDataset(name: string): Promise; + + // 上传文档 + uploadDocument(datasetId: string, file: File): Promise; + + // 语义检索 + search(datasetId: string, query: string, topK?: number): Promise; + + // RAG问答 + chatWithRAG(datasetId: string, query: string): Promise; +} +``` + +--- + +## 📈 优化成果 + +**检索参数优化:** +| 指标 | 优化前 | 优化后 | 提升 | +|------|--------|--------|------| +| 检索数量 | 3 chunks | 15 chunks | 5倍 | +| Chunk大小 | 500 tokens | 1500 tokens | 3倍 | +| 总覆盖 | 1,500 tokens | 22,500 tokens | 15倍 | +| 覆盖率 | ~5% | ~40-50% | 8-10倍 | + +--- + +## 🔗 相关文档 + +- [通用能力层总览](../README.md) +- [Dify集成文档](../../00-系统总体设计/03-数据库架构说明.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/02-通用能力层/04-数据ETL引擎/README.md b/docs/02-通用能力层/04-数据ETL引擎/README.md new file mode 100644 index 00000000..6b9b01d0 --- /dev/null +++ b/docs/02-通用能力层/04-数据ETL引擎/README.md @@ -0,0 +1,88 @@ +# 数据ETL引擎 + +> **能力定位:** 通用能力层 +> **复用率:** 29% (2个模块依赖) +> **优先级:** P2 +> **状态:** ⏳ 待实现 + +--- + +## 📋 能力概述 + +数据ETL引擎负责: +- Excel多表JOIN +- 数据清洗 +- 数据转换 +- 数据验证 + +--- + +## 📊 依赖模块 + +**2个模块依赖(29%复用率):** +1. **DC** - 数据清洗整理(核心依赖) +2. **SSA** - 智能统计分析(数据预处理) + +--- + +## 💡 核心功能 + +### 1. Excel多表处理 +- 读取多个Excel文件 +- 自动JOIN操作 +- GROUP BY聚合 + +### 2. 数据清洗 +- 缺失值处理 +- 重复值处理 +- 异常值检测 + +### 3. 数据转换 +- 类型转换 +- 格式标准化 + +--- + +## 🏗️ 技术方案 + +### 云端版(最优) +```python +# 基于Polars(性能极高) +class ETLEngine: + def read_excel(self, files: List[File]) -> List[DataFrame] + def join(self, dfs: List[DataFrame], keys: List[str]) -> DataFrame + def clean(self, df: DataFrame, rules: Dict) -> DataFrame + def export(self, df: DataFrame, format: str) -> bytes +``` + +### 单机版(兼容) +```python +# 基于SQLite(内存友好) +# 分块读取,数据库引擎处理JOIN +``` + +--- + +## 🔗 相关文档 + +- [通用能力层总览](../README.md) +- [DC模块需求](../../03-业务模块/DC-数据清洗整理/README.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/02-通用能力层/05-医学NLP引擎/README.md b/docs/02-通用能力层/05-医学NLP引擎/README.md new file mode 100644 index 00000000..f1fbd685 --- /dev/null +++ b/docs/02-通用能力层/05-医学NLP引擎/README.md @@ -0,0 +1,82 @@ +# 医学NLP引擎 + +> **能力定位:** 通用能力层 +> **复用率:** 14% (1个模块依赖) +> **优先级:** P2 +> **状态:** ⏳ 待实现 + +--- + +## 📋 能力概述 + +医学NLP引擎负责: +- 医学实体识别(NER) +- 医学术语标准化 +- 疾病/药物识别 + +--- + +## 📊 依赖模块 + +**1个模块依赖(14%复用率):** +1. **DC** - 数据清洗整理(病例数据NER提取) + +--- + +## 💡 核心功能 + +### 1. 医学实体识别 +- 疾病识别 +- 药物识别 +- 手术识别 +- TNM分期提取 + +### 2. 术语标准化 +- ICD编码 +- ATC编码 + +### 3. 关系抽取 +- 疾病-药物关系 +- 症状-疾病关系 + +--- + +## 🏗️ 技术方案 + +### 云端版(高准确率) +```python +# 基于LLM API(Claude/GPT) +# JSON Mode结构化输出 +``` + +### 单机版(隐私优先) +```python +# 基于spaCy + 医学模型 +# 100%本地运行 +``` + +--- + +## 🔗 相关文档 + +- [通用能力层总览](../README.md) +- [DC模块需求](../../03-业务模块/DC-数据清洗整理/README.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/02-通用能力层/README.md b/docs/02-通用能力层/README.md new file mode 100644 index 00000000..db306435 --- /dev/null +++ b/docs/02-通用能力层/README.md @@ -0,0 +1,95 @@ +# 通用能力层 + +> **层级定义:** 跨业务模块共享的核心技术能力 +> **核心原则:** 可复用、高内聚、独立部署 + +--- + +## 📋 能力清单 + +| 能力 | 说明 | 复用率 | 优先级 | 状态 | +|------|------|-------|--------|------| +| **01-LLM大模型网关** | 统一管理LLM调用、成本控制、模型切换 | 71% (5/7) | P0 | ⏳ 待实现 | +| **02-文档处理引擎** | PDF/Docx/Txt提取、OCR、表格提取 | 86% (6/7) | P0 | ✅ 已实现 | +| **03-RAG引擎** | 向量检索、语义搜索、RAG问答 | 43% (3/7) | P1 | ✅ 已实现 | +| **04-数据ETL引擎** | Excel JOIN、数据清洗、数据转换 | 29% (2/7) | P2 | ⏳ 待实现 | +| **05-医学NLP引擎** | 医学实体识别、术语标准化 | 14% (1/7) | P2 | ⏳ 待实现 | + +--- + +## 🎯 设计原则 + +### 1. 可复用性 +- 多个业务模块共享 +- 避免重复开发 + +### 2. 独立部署 +- 可以独立为微服务 +- 支持独立扩展 + +### 3. 高内聚 +- 每个能力职责单一 +- 接口清晰 + +### 4. 领域知识 +- 包含业务领域知识 +- 不是纯技术组件 + +--- + +## 📊 复用率分析 + +**LLM网关** - 71%复用率(最高优先级) +- AIA(AI智能问答) +- ASL(AI智能文献) +- PKB(个人知识库) +- DC(数据清洗) +- RVW(稿件审查) + +**文档处理引擎** - 86%复用率(已实现) +- ASL、PKB、DC、SSA、ST、RVW + +**RAG引擎** - 43%复用率(已实现) +- AIA、ASL、PKB + +--- + +## 📚 快速导航 + +### 快速上下文 +- **[AI对接] 通用能力快速上下文.md** - 2-3分钟了解通用能力层 + +### 核心能力 +1. [LLM大模型网关](./01-LLM大模型网关/README.md) - P0优先级 ⭐ +2. [文档处理引擎](./02-文档处理引擎/README.md) - 已实现 +3. [RAG引擎](./03-RAG引擎/README.md) - 已实现 +4. [数据ETL引擎](./04-数据ETL引擎/README.md) +5. [医学NLP引擎](./05-医学NLP引擎/README.md) + +--- + +## 🔗 相关文档 + +- [系统架构分层设计](../00-系统总体设计/01-系统架构分层设计.md) +- [平台基础层](../01-平台基础层/README.md) +- [业务模块层](../03-业务模块/README.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + + diff --git a/docs/02-通用能力层/[AI对接] 通用能力快速上下文.md b/docs/02-通用能力层/[AI对接] 通用能力快速上下文.md new file mode 100644 index 00000000..f64c22b4 --- /dev/null +++ b/docs/02-通用能力层/[AI对接] 通用能力快速上下文.md @@ -0,0 +1,180 @@ +# [AI对接] 通用能力快速上下文 + +> **阅读时间:** 2-3分钟 | **Token消耗:** ~1500 tokens +> **层级:** L1 | **前置阅读:** 00-系统总体设计/[AI对接] 快速上下文.md + +--- + +## 📋 通用能力层定位 + +**通用能力层是跨业务模块共享的核心技术能力,是业务逻辑的基础。** + +**核心原则:** +- ✅ 可复用(多个业务模块共享) +- ✅ 业务相关(包含领域知识) +- ✅ 独立部署(可以独立为微服务) +- ✅ 高内聚(每个能力职责单一) + +--- + +## 🎯 5个核心能力 + +### 1. LLM大模型网关 ⭐⭐⭐⭐⭐ **最高优先级** + +**复用率:** 71% (5个模块依赖) + +**依赖模块:** +- AIA(AI智能问答) +- ASL(AI智能文献) +- PKB(个人知识库) +- DC(数据清洗) +- RVW(稿件审查) + +**核心价值:** +``` +商业模式的技术基础! + +功能1:根据用户版本选择模型 +- 专业版 → DeepSeek(¥1/百万) +- 高级版 → DeepSeek + Qwen3 +- 旗舰版 → 全部模型 + +功能2:成本控制 +- 统一监控所有LLM调用 +- 超出配额自动限流 +- 按版本计费 + +功能3:统一调用接口 +- 屏蔽不同LLM API差异 +- 流式/非流式统一处理 +``` + +**状态:** ❌ 待实现 +**优先级:** P0(必须在ASL模块开发前完成) +**预计时间:** 3-5天 + +--- + +### 2. 文档处理引擎 ⭐⭐⭐⭐⭐ + +**复用率:** 86% (6个模块依赖) + +**核心功能:** +- PDF提取(Nougat + PyMuPDF) +- Docx提取(Mammoth) +- Txt提取(多编码) +- Excel处理 + +**状态:** ✅ 已实现(Python微服务) +**位置:** `extraction_service/` + +--- + +### 3. RAG引擎 ⭐⭐⭐⭐ + +**复用率:** 43% (3个模块依赖) + +**核心功能:** +- 向量化存储(Embedding) +- 语义检索(Semantic Search) +- RAG问答 +- 智能引用(100%准确溯源) + +**状态:** ✅ 已实现(基于Dify) + +**优化成果:** +- 检索覆盖率从5%提升到40-50%(8-10倍) + +--- + +### 4. 数据ETL引擎 ⭐⭐⭐ + +**复用率:** 29% (2个模块依赖) + +**依赖模块:** +- DC(数据清洗) +- SSA(智能统计) + +**核心功能:** +- Excel多表JOIN +- 数据清洗 +- 数据转换 + +**技术方案:** +- 云端版:Polars(性能极高) +- 单机版:SQLite(内存友好) + +**状态:** ⏳ 待实现 + +--- + +### 5. 医学NLP引擎 ⭐⭐ + +**复用率:** 14% (1个模块依赖) + +**依赖模块:** +- DC(数据清洗 - 病例NER提取) + +**核心功能:** +- 医学实体识别(疾病、药物、TNM分期) +- 医学术语标准化 + +**技术方案:** +- 云端版:LLM API(高准确率) +- 单机版:spaCy(隐私优先) + +**状态:** ⏳ 待实现 + +--- + +## 📊 优先级排序 + +| 能力 | 复用率 | 优先级 | 状态 | 原因 | +|------|--------|--------|------|------| +| **LLM网关** | 71% | P0 | ❌ | 5个模块依赖,商业模式基础 | +| **文档处理** | 86% | - | ✅ | 已实现,需要增强 | +| **RAG引擎** | 43% | - | ✅ | 已实现,需要优化 | +| **ETL引擎** | 29% | P2 | ⏳ | DC模块开发时再实现 | +| **医学NLP** | 14% | P2 | ⏳ | DC模块开发时再实现 | + +--- + +## ⚠️ 关键提醒 + +**LLM网关必须优先实现!** +- 5个模块依赖(71%) +- ASL模块开发的前置条件 +- 商业模式的技术基础 + +**预计时间:** 3-5天 +**建议:** ASL模块Week 1同步开发 + +--- + +## 🔗 快速导航 + +**详细设计文档:** +- [LLM大模型网关](./01-LLM大模型网关/README.md) ⭐ P0 +- [文档处理引擎](./02-文档处理引擎/README.md) ✅ 已实现 +- [RAG引擎](./03-RAG引擎/README.md) ✅ 已实现 +- [数据ETL引擎](./04-数据ETL引擎/README.md) +- [医学NLP引擎](./05-医学NLP引擎/README.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/03-业务模块/ADMIN-运营管理端/README.md b/docs/03-业务模块/ADMIN-运营管理端/README.md new file mode 100644 index 00000000..115ef42c --- /dev/null +++ b/docs/03-业务模块/ADMIN-运营管理端/README.md @@ -0,0 +1,101 @@ +# ADMIN - 运营管理端 + +> **模块代号:** ADMIN (Administration) +> **开发状态:** ⏳ 规划中 +> **商业价值:** ⭐⭐⭐⭐⭐ SaaS运营基础 +> **独立性:** ⭐⭐⭐⭐⭐ +> **优先级:** P1 + +--- + +## 📋 模块概述 + +运营管理端横跨所有层次,是SaaS商业模式的技术基础。 + +**核心价值:** 实现多版本管理、成本控制、功能开关 + +--- + +## 🎯 核心功能(15个模块) + +### P0(必须,阶段一) +1. **用户管理** - 用户列表、详情、激活/禁用 +2. **Feature Flag管理** ⭐ - 版本功能控制(专业版/高级版/旗舰版) +3. **LLM模型管理** ⭐ - 模型配置、成本配置、版本绑定 +4. **系统配置管理** - 全局配置、动态配置 + +### P1(重要,阶段二) +5. **智能体提示词管理** - Prompt模板管理 +6. **监控与日志** - 操作日志、错误监控 +7. **数据统计与报表** - 用户统计、使用统计 +8. **成本分析与计费** - LLM成本统计、计费管理 + +### P2(有用,阶段三) +9. **租户管理** - 私有化部署的租户管理 +10. **公告与通知管理** +11. **帮助文档管理** +12. **反馈与工单管理** +13. **系统健康检查** +14. **数据库备份与恢复** +15. **运营数据分析** + +--- + +## 📂 文档结构 + +``` +ADMIN-运营管理端/ + ├── [AI对接] ADMIN快速上下文.md # ⏳ 待创建 + ├── 00-项目概述/ + │ ├── 01-产品需求文档(PRD).md # ⏳ 待创建 + │ ├── 02-功能清单(15个模块).md # ⏳ 待创建 + │ └── 03-权限体系设计.md # ⏳ 待创建 + ├── 01-设计文档/ + │ ├── 01-技术架构设计.md # ⏳ 待创建 + │ ├── 02-数据库设计.md # ⏳ 待创建 + │ └── 05-权限体系实现.md # ⏳ 待创建 + └── README.md # ✅ 当前文档 +``` + +--- + +## 🏗️ 技术选型 + +- **前端:** React + Ant Design Pro +- **后端:** Node.js + Fastify +- **数据库:** PostgreSQL (admin_schema) + +--- + +## 🚀 实施阶段 + +- **阶段一(1-2个月):** P0功能 +- **阶段二(1-2个月):** P1功能 +- **阶段三(1-2个月):** P2功能 + +--- + +## 🌐 部署方式 + +- **独立域名:** `https://admin.yizhengxun.com` +- **独立前端应用** +- **独立后端API** + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/03-业务模块/ADMIN-运营管理端/[AI对接] ADMIN快速上下文.md b/docs/03-业务模块/ADMIN-运营管理端/[AI对接] ADMIN快速上下文.md new file mode 100644 index 00000000..124801d3 --- /dev/null +++ b/docs/03-业务模块/ADMIN-运营管理端/[AI对接] ADMIN快速上下文.md @@ -0,0 +1,504 @@ +# [AI对接] ADMIN快速上下文 + +> **阅读时间:** 5分钟 | **Token消耗:** ~2000 tokens +> **层级:** L2 | **优先级:** P1 +> **前置阅读:** 03-业务模块/[AI对接] 业务模块快速上下文.md + +--- + +## 📋 模块定位 + +**运营管理端是SaaS商业模式的运营基础,管理用户、权限、LLM模型、成本等15个功能模块。** + +**商业价值:** ⭐⭐⭐⭐⭐ SaaS运营必备 +**开发状态:** ⏳ 规划中(P1优先级) +**依赖能力:** 平台基础层(UAM、监控日志)、LLM网关 + +--- + +## 🎯 核心功能(15个模块) + +### P0优先级(4个)⭐ 最核心 + +| 模块 | 功能 | 商业价值 | +|------|------|---------| +| **用户管理** | 用户CRUD、套餐管理、禁用/启用 | 基础运营 | +| **Feature Flag管理** | 功能开关配置、版本权限控制 | 商业模式基础 | +| **LLM模型管理** | 模型配置、价格管理、可用性控制 | 成本控制 | +| **系统配置** | 全局配置、环境切换、参数管理 | 系统运维 | + +--- + +### P1优先级(8个) + +| 模块 | 功能 | 说明 | +|------|------|------| +| **Prompt管理** | 智能体Prompt模板管理 | 提高AI效果 | +| **监控与日志** | 操作日志查询、错误监控 | 运维支持 | +| **成本分析** | LLM成本统计、用户消费排行 | 成本优化 | +| **数据报表** | 用户活跃度、功能使用率 | 运营决策 | +| **业务数据管理** | 文献项目、知识库等业务数据查看 | 运营支持 | +| **审核管理** | 稿件审查任务管理(RVW模块) | 业务支持 | +| **系统监控** | 服务健康度、API响应时间 | 技术运维 | +| **备份管理** | 数据备份、恢复 | 数据安全 | + +--- + +### P2优先级(3个) + +| 模块 | 功能 | +|------|------| +| **租户管理** | SaaS多租户管理(高级功能) | +| **公告管理** | 系统公告发布 | +| **帮助文档** | 在线帮助文档管理 | + +--- + +## 🏗️ 技术架构 + +### 前端(React) +``` +src/pages/Admin/ + ├── Dashboard/ # 首页仪表盘 + ├── Users/ # 用户管理 ⭐ P0 + │ ├── UserList.tsx + │ ├── UserDetail.tsx + │ └── UserEdit.tsx + ├── FeatureFlags/ # Feature Flag管理 ⭐ P0 + │ ├── FlagList.tsx + │ └── FlagConfig.tsx + ├── LLM/ # LLM模型管理 ⭐ P0 + │ ├── ModelList.tsx + │ ├── ModelConfig.tsx + │ └── CostAnalysis.tsx + ├── Prompts/ # Prompt管理 P1 + ├── Logs/ # 日志查询 P1 + ├── Reports/ # 数据报表 P1 + └── Settings/ # 系统配置 ⭐ P0 +``` + +### 后端(Node.js) +``` +backend/src/modules/admin/ + ├── controllers/ + │ ├── userController.ts # 用户管理 ⭐ + │ ├── featureFlagController.ts # Feature Flag ⭐ + │ ├── llmController.ts # LLM模型管理 ⭐ + │ ├── promptController.ts + │ ├── logController.ts + │ └── reportController.ts + ├── services/ + │ ├── userService.ts + │ ├── featureFlagService.ts + │ ├── llmService.ts + │ └── reportService.ts + └── routes/ + └── adminRoutes.ts +``` + +### 数据库(platform_schema) +```sql +-- 已有表 +- users # 用户基础信息 +- roles # 角色 +- permissions # 权限 +- feature_flags # Feature Flag配置 +- user_feature_flags # 用户Feature Flag关联 +- llm_usage # LLM使用记录 +- llm_quotas # LLM配额 +- admin_logs # 管理员操作日志 + +-- 需要新增 +- llm_models # LLM模型配置 ⭐ P0 +- prompt_templates # Prompt模板 P1 +- system_configs # 系统配置 ⭐ P0 +- announcements # 系统公告 P2 +``` + +--- + +## 💡 核心业务流程 + +### 1. Feature Flag配置流程 ⭐⭐⭐⭐⭐ + +``` +1. ADMIN在管理端配置Feature Flag + - 功能名称:claude_access + - 描述:是否可以使用Claude模型 + - 默认值:false + ↓ +2. 为不同套餐配置不同的Feature Flag + - 专业版:只有 deepseek_access + - 高级版:deepseek_access + qwen3_access + - 旗舰版:全部模型访问权限 + ↓ +3. 用户升级套餐时,自动更新Feature Flag + ↓ +4. 业务模块(ASL、AIA等)调用LLM网关时,自动检查Feature Flag +``` + +**关键表结构:** +```sql +-- Feature Flag定义 +CREATE TABLE platform_schema.feature_flags ( + id SERIAL PRIMARY KEY, + flag_key VARCHAR(100) UNIQUE NOT NULL, -- 'claude_access' + flag_name VARCHAR(200) NOT NULL, -- 'Claude模型访问权限' + description TEXT, + default_value BOOLEAN DEFAULT FALSE, + created_at TIMESTAMP DEFAULT NOW() +); + +-- 用户Feature Flag(覆盖默认值) +CREATE TABLE platform_schema.user_feature_flags ( + id SERIAL PRIMARY KEY, + user_id INTEGER REFERENCES platform_schema.users(id), + flag_id INTEGER REFERENCES platform_schema.feature_flags(id), + value BOOLEAN NOT NULL, + created_at TIMESTAMP DEFAULT NOW(), + + UNIQUE(user_id, flag_id) +); +``` + +--- + +### 2. LLM模型管理流程 ⭐⭐⭐⭐ + +``` +1. ADMIN配置LLM模型 + - 模型名称:DeepSeek-V3 + - API Key + - 价格:¥1/百万tokens + - 是否启用 + ↓ +2. LLM网关根据配置调用模型 + ↓ +3. 记录每次调用的成本 + ↓ +4. ADMIN查看成本分析报表 + - 总成本 + - 各模型成本占比 + - 用户消费排行 +``` + +**关键表结构:** +```sql +CREATE TABLE platform_schema.llm_models ( + id SERIAL PRIMARY KEY, + model_key VARCHAR(50) UNIQUE NOT NULL, -- 'deepseek-v3' + model_name VARCHAR(100) NOT NULL, -- 'DeepSeek-V3' + provider VARCHAR(50), -- 'deepseek', 'openai', 'anthropic' + api_endpoint TEXT, + api_key_encrypted TEXT, -- 加密存储 + price_per_million_tokens DECIMAL(10, 6), -- 每百万tokens价格 + is_enabled BOOLEAN DEFAULT TRUE, + created_at TIMESTAMP DEFAULT NOW(), + updated_at TIMESTAMP DEFAULT NOW() +); +``` + +--- + +### 3. 用户管理流程 + +``` +1. ADMIN创建用户 + - 基础信息(姓名、邮箱等) + - 选择套餐(professional/premium/enterprise) + - 自动配置对应的Feature Flag + ↓ +2. ADMIN管理用户 + - 修改套餐(Feature Flag自动更新) + - 禁用/启用账号 + - 重置密码 + - 调整LLM配额 + ↓ +3. ADMIN查看用户详情 + - 基础信息 + - LLM使用统计 + - 功能使用记录 + - 文献项目、知识库等业务数据 +``` + +--- + +## 📋 核心API端点 + +### 用户管理 ⭐ P0 +``` +GET /api/v1/admin/users # 用户列表(分页、筛选) +GET /api/v1/admin/users/:id # 用户详情 +POST /api/v1/admin/users # 创建用户 +PUT /api/v1/admin/users/:id # 更新用户 +DELETE /api/v1/admin/users/:id # 删除用户 +POST /api/v1/admin/users/:id/disable # 禁用用户 +POST /api/v1/admin/users/:id/enable # 启用用户 +PUT /api/v1/admin/users/:id/plan # 修改套餐 +``` + +### Feature Flag管理 ⭐ P0 +``` +GET /api/v1/admin/feature-flags # Feature Flag列表 +POST /api/v1/admin/feature-flags # 创建Feature Flag +PUT /api/v1/admin/feature-flags/:id # 更新Feature Flag +DELETE /api/v1/admin/feature-flags/:id # 删除Feature Flag +GET /api/v1/admin/users/:id/flags # 查询用户Feature Flag +PUT /api/v1/admin/users/:id/flags # 更新用户Feature Flag +``` + +### LLM模型管理 ⭐ P0 +``` +GET /api/v1/admin/llm/models # 模型列表 +POST /api/v1/admin/llm/models # 添加模型 +PUT /api/v1/admin/llm/models/:id # 更新模型 +DELETE /api/v1/admin/llm/models/:id # 删除模型 +GET /api/v1/admin/llm/usage # LLM使用统计 +GET /api/v1/admin/llm/cost-analysis # 成本分析 +``` + +### Prompt管理 P1 +``` +GET /api/v1/admin/prompts # Prompt模板列表 +POST /api/v1/admin/prompts # 创建Prompt +PUT /api/v1/admin/prompts/:id # 更新Prompt +DELETE /api/v1/admin/prompts/:id # 删除Prompt +``` + +### 日志查询 P1 +``` +GET /api/v1/admin/logs # 日志列表(分页、筛选) +GET /api/v1/admin/logs/errors # 错误日志 +GET /api/v1/admin/logs/operations # 操作日志 +``` + +### 数据报表 P1 +``` +GET /api/v1/admin/reports/overview # 总览数据 +GET /api/v1/admin/reports/users # 用户活跃度 +GET /api/v1/admin/reports/features # 功能使用率 +GET /api/v1/admin/reports/llm # LLM使用统计 +``` + +--- + +## 📊 核心页面设计 + +### 1. 仪表盘(Dashboard) +**核心指标:** +- 总用户数 / 活跃用户数 +- 本月LLM调用次数 / 成本 +- 各模块使用率 +- 错误日志数量 + +### 2. 用户管理 +**功能:** +- 列表:搜索、筛选(套餐、状态)、排序 +- 详情:基础信息 + 使用统计 + 业务数据 +- 编辑:修改套餐、调整配额、禁用/启用 + +### 3. Feature Flag管理 ⭐ +**核心界面:** +``` +┌─────────────────────────────────────────┐ +│ Feature Flag管理 │ +├─────────────────────────────────────────┤ +│ [+ 新增Flag] │ +│ │ +│ Flag Key | 描述 | 默认值 │ +│─────────────────────────────────────────│ +│ claude_access | Claude访问 | ❌ │ +│ qwen3_access | Qwen3访问 | ❌ │ +│ deepseek_access | DeepSeek访问| ✅ │ +│─────────────────────────────────────────│ +│ │ +│ 套餐配置: │ +│ 专业版:deepseek_access │ +│ 高级版:deepseek_access, qwen3_access │ +│ 旗舰版:全部模型 │ +└─────────────────────────────────────────┘ +``` + +### 4. LLM成本分析 ⭐ +**核心图表:** +- 成本趋势图(按天) +- 模型成本占比(饼图) +- 用户消费排行(柱状图) +- 模块使用分布(饼图) + +--- + +## ⚠️ 关键技术难点 + +### 1. API Key安全存储 +**解决方案:** AES-256加密 +```typescript +import crypto from 'crypto'; + +const ENCRYPTION_KEY = process.env.ENCRYPTION_KEY; // 32字节 +const IV_LENGTH = 16; + +function encrypt(text: string): string { + const iv = crypto.randomBytes(IV_LENGTH); + const cipher = crypto.createCipheriv('aes-256-cbc', Buffer.from(ENCRYPTION_KEY), iv); + let encrypted = cipher.update(text); + encrypted = Buffer.concat([encrypted, cipher.final()]); + return iv.toString('hex') + ':' + encrypted.toString('hex'); +} + +function decrypt(text: string): string { + const parts = text.split(':'); + const iv = Buffer.from(parts[0], 'hex'); + const encrypted = Buffer.from(parts[1], 'hex'); + const decipher = crypto.createDecipheriv('aes-256-cbc', Buffer.from(ENCRYPTION_KEY), iv); + let decrypted = decipher.update(encrypted); + decrypted = Buffer.concat([decrypted, decipher.final()]); + return decrypted.toString(); +} +``` + +--- + +### 2. 权限控制 +**ADMIN角色:** +- 超级管理员:全部权限 +- 运营管理员:用户管理、报表查看 +- 技术管理员:LLM模型管理、日志查询 + +```typescript +// 权限检查中间件 +async function checkAdminPermission(req, reply, permission: string) { + const user = req.user; + + if (!user.isAdmin) { + throw new UnauthorizedError('需要管理员权限'); + } + + const hasPermission = await permissionService.check(user.id, permission); + + if (!hasPermission) { + throw new ForbiddenError('权限不足'); + } +} + +// 使用 +app.get('/api/v1/admin/users', { + preHandler: checkAdminPermission('user:read') +}, userController.list); +``` + +--- + +### 3. 数据报表性能优化 +**问题:** 大数据量查询慢 + +**解决方案:** +- Redis缓存(5分钟) +- 数据预聚合(定时任务) +- 分页查询 + +```typescript +// 缓存报表数据 +async function getOverviewReport() { + const cacheKey = 'admin:report:overview'; + + // 先查缓存 + const cached = await redis.get(cacheKey); + if (cached) return JSON.parse(cached); + + // 查询数据库 + const data = await db.query(` + SELECT + COUNT(DISTINCT user_id) as total_users, + SUM(total_tokens) as total_tokens, + SUM(cost) as total_cost + FROM platform_schema.llm_usage + WHERE created_at >= date_trunc('month', NOW()) + `); + + // 缓存5分钟 + await redis.set(cacheKey, JSON.stringify(data), 'EX', 300); + + return data; +} +``` + +--- + +## 📅 开发计划 + +### Phase 1:P0核心功能(Week 1-2) +- **用户管理**(3天) + - Day 1: 后端API(CRUD) + - Day 2: 前端列表和详情 + - Day 3: 套餐管理、禁用/启用 + +- **Feature Flag管理**(2天) + - Day 1: 后端API + 数据库 + - Day 2: 前端配置界面 + +- **LLM模型管理**(2天) + - Day 1: 后端API + 加密存储 + - Day 2: 前端配置界面 + +- **系统配置**(1天) + +### Phase 2:P1功能(Week 3-4) +- Prompt管理(2天) +- 日志查询(2天) +- 成本分析报表(3天) +- 数据报表(3天) + +### Phase 3:P2功能(Week 5) +- 租户管理 +- 公告管理 +- 帮助文档 + +--- + +## ✅ 开发检查清单 + +**开始前确认:** +- [ ] ADMIN角色和权限已配置 +- [ ] 数据库表已创建(llm_models, system_configs等) +- [ ] Redis已部署(用于报表缓存) +- [ ] ENCRYPTION_KEY环境变量已配置 + +**P0功能完成标准:** +- [ ] ADMIN可以创建/编辑/删除用户 +- [ ] ADMIN可以配置Feature Flag +- [ ] ADMIN可以配置LLM模型 +- [ ] ADMIN可以查看LLM成本统计 +- [ ] 所有敏感操作都记录到admin_logs + +--- + +## 🔗 相关文档 + +**依赖:** +- [用户与权限中心(UAM)](../../01-平台基础层/01-用户与权限中心(UAM)/README.md) +- [LLM大模型网关](../../02-通用能力层/01-LLM大模型网关/README.md) +- [监控与日志](../../01-平台基础层/04-监控与日志/README.md) + +**详细设计:** +- [运营管理端完整设计](./README.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 +**优先级:** P1 + + + + + + + + + + + + + + diff --git a/docs/03-业务模块/AIA-AI智能问答/02-技术设计/01-数据库设计.md b/docs/03-业务模块/AIA-AI智能问答/02-技术设计/01-数据库设计.md new file mode 100644 index 00000000..684786e4 --- /dev/null +++ b/docs/03-业务模块/AIA-AI智能问答/02-技术设计/01-数据库设计.md @@ -0,0 +1,527 @@ +# AIA - AI智能问答模块:数据库设计 + +> **版本:** v1.0 +> **更新时间:** 2025-11-12 +> **数据库Schema:** `aia_schema` +> **状态:** ✅ 已实施并迁移 + +--- + +## 📋 目录 + +1. [模块概述](#模块概述) +2. [Schema信息](#schema信息) +3. [数据库表设计](#数据库表设计) +4. [表关系图](#表关系图) +5. [索引设计](#索引设计) +6. [数据类型说明](#数据类型说明) +7. [变更历史](#变更历史) + +--- + +## 模块概述 + +### 功能定位 + +**AIA(AI Intelligent Assistant)- AI智能问答模块**是平台的核心对话引擎,提供: + +1. **项目管理** - 研究项目的创建和管理 +2. **智能对话** - 基于LLM的专业领域对话 +3. **通用问答** - 不绑定项目的通用AI对话 +4. **消息管理** - 对话历史记录和检索 + +### 核心业务场景 + +- 用户创建临床研究项目 +- 在项目内与AI进行专业对话 +- 使用通用对话功能快速咨询 +- 查看和管理对话历史 + +--- + +## Schema信息 + +### Schema名称 +```sql +aia_schema +``` + +### 创建语句 +```sql +CREATE SCHEMA IF NOT EXISTS aia_schema; +GRANT ALL ON SCHEMA aia_schema TO aiclinical_admin; +``` + +### 数据迁移 +- **迁移时间:** 2025-11-12 +- **源Schema:** public +- **迁移脚本:** `docs/09-架构实施/migration-scripts/003-migrate-aia.sql` +- **数据完整性:** ✅ 100%迁移成功 + +--- + +## 数据库表设计 + +### 表列表 + +| 表名 | 用途 | 行数(估计) | 状态 | +|------|------|------------|------| +| `projects` | 研究项目 | 1-100/用户 | ✅ 已部署 | +| `conversations` | 项目对话 | 10-500/项目 | ✅ 已部署 | +| `messages` | 对话消息 | 10-1000/对话 | ✅ 已部署 | +| `general_conversations` | 通用对话 | 10-100/用户 | ✅ 已部署 | +| `general_messages` | 通用对话消息 | 10-1000/对话 | ✅ 已部署 | + +**总计:** 5个表 + +--- + +### 1. projects - 研究项目表 + +**用途:** 存储用户创建的临床研究项目 + +#### 表结构 + +| 字段名 | 数据类型 | 约束 | 说明 | +|--------|---------|------|------| +| id | TEXT | PRIMARY KEY | 项目唯一标识(UUID) | +| user_id | TEXT | NOT NULL, FK | 所属用户ID | +| name | TEXT | NOT NULL | 项目名称 | +| background | TEXT | NULL | 研究背景 | +| research_type | TEXT | NULL | 研究类型(observational/experimental等) | +| created_at | TIMESTAMPTZ | NOT NULL, DEFAULT now() | 创建时间 | +| updated_at | TIMESTAMPTZ | NOT NULL | 更新时间 | +| deleted_at | TIMESTAMPTZ | NULL | 软删除时间 | + +#### Prisma Model + +```prisma +model Project { + id String @id @default(uuid()) + userId String @map("user_id") + name String + background String? + researchType String? @map("research_type") + + createdAt DateTime @default(now()) @map("created_at") + updatedAt DateTime @updatedAt @map("updated_at") + deletedAt DateTime? @map("deleted_at") + + user User @relation(fields: [userId], references: [id], onDelete: Cascade) + conversations Conversation[] + + @@index([userId]) + @@index([createdAt]) + @@index([deletedAt]) + @@map("projects") + @@schema("aia_schema") +} +``` + +#### 业务规则 + +1. **软删除机制** - 使用`deleted_at`标记删除,不物理删除 +2. **级联删除** - 删除项目时,关联的对话也被软删除 +3. **用户隔离** - 通过`user_id`实现数据隔离 + +--- + +### 2. conversations - 项目对话表 + +**用途:** 存储项目内的AI对话会话 + +#### 表结构 + +| 字段名 | 数据类型 | 约束 | 说明 | +|--------|---------|------|------| +| id | TEXT | PRIMARY KEY | 对话唯一标识(UUID) | +| user_id | TEXT | NOT NULL, FK | 所属用户ID | +| project_id | TEXT | NULL, FK | 所属项目ID(可选) | +| agent_id | TEXT | NOT NULL | 智能体ID | +| title | TEXT | NOT NULL | 对话标题 | +| model_name | TEXT | NOT NULL, DEFAULT 'deepseek-v3' | 使用的LLM模型 | +| message_count | INTEGER | NOT NULL, DEFAULT 0 | 消息数量 | +| total_tokens | INTEGER | NOT NULL, DEFAULT 0 | 累计token数 | +| metadata | JSONB | NULL | 扩展元数据 | +| created_at | TIMESTAMPTZ | NOT NULL, DEFAULT now() | 创建时间 | +| updated_at | TIMESTAMPTZ | NOT NULL | 更新时间 | +| deleted_at | TIMESTAMPTZ | NULL | 软删除时间 | + +#### Prisma Model + +```prisma +model Conversation { + id String @id @default(uuid()) + userId String @map("user_id") + projectId String? @map("project_id") + agentId String @map("agent_id") + title String + modelName String @default("deepseek-v3") @map("model_name") + messageCount Int @default(0) @map("message_count") + totalTokens Int @default(0) @map("total_tokens") + metadata Json? + + createdAt DateTime @default(now()) @map("created_at") + updatedAt DateTime @updatedAt @map("updated_at") + deletedAt DateTime? @map("deleted_at") + + user User @relation(fields: [userId], references: [id], onDelete: Cascade) + project Project? @relation(fields: [projectId], references: [id], onDelete: Cascade) + messages Message[] + + @@index([userId]) + @@index([projectId]) + @@index([agentId]) + @@index([createdAt]) + @@index([deletedAt]) + @@map("conversations") + @@schema("aia_schema") +} +``` + +#### 业务规则 + +1. **项目关联可选** - `project_id`可为空,支持项目内外对话 +2. **计数器字段** - `message_count`和`total_tokens`用于统计,需要实时更新 +3. **模型选择** - 支持多种LLM模型(deepseek-v3/gpt-5-pro/claude-4.5等) +4. **扩展元数据** - `metadata`用于存储配置参数、上下文等 + +--- + +### 3. messages - 对话消息表 + +**用途:** 存储对话中的每条消息 + +#### 表结构 + +| 字段名 | 数据类型 | 约束 | 说明 | +|--------|---------|------|------| +| id | TEXT | PRIMARY KEY | 消息唯一标识(UUID) | +| conversation_id | TEXT | NOT NULL, FK | 所属对话ID | +| role | TEXT | NOT NULL | 角色(user/assistant/system) | +| content | TEXT | NOT NULL | 消息内容 | +| model | TEXT | NULL | 使用的模型(assistant消息) | +| metadata | JSONB | NULL | 扩展元数据 | +| tokens | INTEGER | NULL | 消息token数 | +| is_pinned | BOOLEAN | NOT NULL, DEFAULT false | 是否置顶 | +| created_at | TIMESTAMPTZ | NOT NULL, DEFAULT now() | 创建时间 | + +#### Prisma Model + +```prisma +model Message { + id String @id @default(uuid()) + conversationId String @map("conversation_id") + role String + content String @db.Text + model String? + metadata Json? + tokens Int? + isPinned Boolean @default(false) @map("is_pinned") + + createdAt DateTime @default(now()) @map("created_at") + + conversation Conversation @relation(fields: [conversationId], references: [id], onDelete: Cascade) + + @@index([conversationId]) + @@index([createdAt]) + @@index([isPinned]) + @@map("messages") + @@schema("aia_schema") +} +``` + +#### 业务规则 + +1. **角色类型** - `role`固定为`user`、`assistant`或`system` +2. **只读性** - 消息一旦创建不可修改(只有`is_pinned`可修改) +3. **级联删除** - 删除对话时,消息自动删除 +4. **置顶功能** - 重要消息可通过`is_pinned`标记 + +--- + +### 4. general_conversations - 通用对话表 + +**用途:** 存储不绑定项目的通用AI对话 + +#### 表结构 + +| 字段名 | 数据类型 | 约束 | 说明 | +|--------|---------|------|------| +| id | TEXT | PRIMARY KEY | 对话唯一标识(UUID) | +| user_id | TEXT | NOT NULL, FK | 所属用户ID | +| title | TEXT | NOT NULL | 对话标题 | +| model_name | TEXT | NOT NULL, DEFAULT 'qwen-long' | 使用的LLM模型 | +| created_at | TIMESTAMPTZ | NOT NULL, DEFAULT now() | 创建时间 | +| updated_at | TIMESTAMPTZ | NOT NULL | 更新时间 | +| deleted_at | TIMESTAMPTZ | NULL | 软删除时间 | + +#### Prisma Model + +```prisma +model GeneralConversation { + id String @id @default(uuid()) + userId String @map("user_id") + title String + modelName String @default("qwen-long") @map("model_name") + + createdAt DateTime @default(now()) @map("created_at") + updatedAt DateTime @updatedAt @map("updated_at") + deletedAt DateTime? @map("deleted_at") + + user User @relation(fields: [userId], references: [id], onDelete: Cascade) + messages GeneralMessage[] + + @@index([userId]) + @@index([createdAt]) + @@index([updatedAt]) + @@map("general_conversations") + @@schema("aia_schema") +} +``` + +#### 业务规则 + +1. **轻量级对话** - 不需要项目和智能体关联 +2. **快速咨询** - 用于用户的临时问题和快速查询 +3. **独立管理** - 与项目对话分开管理 + +--- + +### 5. general_messages - 通用对话消息表 + +**用途:** 存储通用对话中的每条消息 + +#### 表结构 + +| 字段名 | 数据类型 | 约束 | 说明 | +|--------|---------|------|------| +| id | TEXT | PRIMARY KEY | 消息唯一标识(UUID) | +| conversation_id | TEXT | NOT NULL, FK | 所属对话ID | +| role | TEXT | NOT NULL | 角色(user/assistant/system) | +| content | TEXT | NOT NULL | 消息内容 | +| metadata | JSONB | NULL | 扩展元数据 | +| created_at | TIMESTAMPTZ | NOT NULL, DEFAULT now() | 创建时间 | + +#### Prisma Model + +```prisma +model GeneralMessage { + id String @id @default(uuid()) + conversationId String @map("conversation_id") + role String + content String @db.Text + metadata Json? + + createdAt DateTime @default(now()) @map("created_at") + + conversation GeneralConversation @relation(fields: [conversationId], references: [id], onDelete: Cascade) + + @@index([conversationId]) + @@index([createdAt]) + @@map("general_messages") + @@schema("aia_schema") +} +``` + +#### 业务规则 + +1. **简化设计** - 相比项目消息,去掉了token统计和置顶功能 +2. **级联删除** - 删除对话时,消息自动删除 + +--- + +## 表关系图 + +```mermaid +erDiagram + PLATFORM_USERS ||--o{ PROJECTS : "owns" + PLATFORM_USERS ||--o{ CONVERSATIONS : "owns" + PLATFORM_USERS ||--o{ GENERAL_CONVERSATIONS : "owns" + + PROJECTS ||--o{ CONVERSATIONS : "contains" + CONVERSATIONS ||--o{ MESSAGES : "contains" + GENERAL_CONVERSATIONS ||--o{ GENERAL_MESSAGES : "contains" + + PLATFORM_USERS { + text id PK + text email + text password + } + + PROJECTS { + text id PK + text user_id FK + text name + text research_type + timestamptz created_at + timestamptz deleted_at + } + + CONVERSATIONS { + text id PK + text user_id FK + text project_id FK + text agent_id + text title + text model_name + int message_count + timestamptz created_at + } + + MESSAGES { + text id PK + text conversation_id FK + text role + text content + int tokens + boolean is_pinned + timestamptz created_at + } + + GENERAL_CONVERSATIONS { + text id PK + text user_id FK + text title + text model_name + timestamptz created_at + } + + GENERAL_MESSAGES { + text id PK + text conversation_id FK + text role + text content + timestamptz created_at + } +``` + +### 跨Schema引用 + +**外键关系:** +- `projects.user_id` → `platform_schema.users.id` +- `conversations.user_id` → `platform_schema.users.id` +- `general_conversations.user_id` → `platform_schema.users.id` + +**说明:** Prisma自动处理跨Schema外键,应用代码无需关心Schema前缀 + +--- + +## 索引设计 + +### 主键索引 +所有表的`id`字段自动创建B-tree主键索引。 + +### 外键索引 + +| 表名 | 索引字段 | 用途 | +|------|---------|------| +| projects | user_id | 查询用户的所有项目 | +| conversations | user_id | 查询用户的所有对话 | +| conversations | project_id | 查询项目内的对话 | +| conversations | agent_id | 按智能体过滤对话 | +| messages | conversation_id | 查询对话的所有消息 | +| general_conversations | user_id | 查询用户的通用对话 | +| general_messages | conversation_id | 查询对话的所有消息 | + +### 时间索引 + +| 表名 | 索引字段 | 用途 | +|------|---------|------| +| projects | created_at | 按时间排序项目 | +| projects | deleted_at | 过滤已删除项目 | +| conversations | created_at | 按时间排序对话 | +| conversations | updated_at | 按更新时间排序 | +| conversations | deleted_at | 过滤已删除对话 | +| messages | created_at | 按时间排序消息 | +| general_conversations | created_at | 按时间排序对话 | +| general_conversations | updated_at | 按更新时间排序 | +| general_messages | created_at | 按时间排序消息 | + +### 功能索引 + +| 表名 | 索引字段 | 用途 | +|------|---------|------| +| messages | is_pinned | 快速查询置顶消息 | + +--- + +## 数据类型说明 + +### 主键类型:TEXT vs UUID + +**当前实现:** TEXT +```sql +id TEXT PRIMARY KEY +``` + +**UUID生成:** Prisma `@default(uuid())` +```prisma +id String @id @default(uuid()) +``` + +**说明:** +- 存储格式:字符串形式的UUID(如`"a6ce8b46-bac6-4284-a9ae-031d636086bc"`) +- 优点:与现有代码兼容,无需迁移 +- 索引性能:与原生UUID类型相当 + +### 时间类型:TIMESTAMPTZ + +**所有时间字段使用`TIMESTAMPTZ`(带时区的时间戳):** +- 自动存储UTC时间 +- 支持时区转换 +- Prisma映射为`DateTime` + +### JSONB类型 + +**用途:** 存储扩展元数据和配置 +- `conversations.metadata` +- `messages.metadata` +- `general_messages.metadata` + +**优点:** +- 灵活的数据结构 +- 支持GIN索引(按需添加) +- 支持JSONB操作符查询 + +--- + +## 变更历史 + +### v1.0 - 2025-11-12 - 初始版本 ✅ + +**变更内容:** +1. 从`public` schema迁移到`aia_schema` +2. 5个表全部迁移: + - projects + - conversations + - messages + - general_conversations + - general_messages +3. 在Prisma中添加`@@schema("aia_schema")`标签 +4. 所有数据100%完整迁移 + +**迁移脚本:** `docs/09-架构实施/migration-scripts/003-migrate-aia.sql` + +**验证状态:** ✅ 已验证,功能正常 + +--- + +## 📚 相关文档 + +- [Schema隔离架构设计](../../../09-架构实施/01-Schema隔离架构设计(10个).md) +- [Schema迁移完成报告](../../../09-架构实施/Schema迁移完成报告.md) +- [Prisma配置完成报告](../../../09-架构实施/Prisma配置完成报告.md) +- [快速功能测试报告](../../../09-架构实施/快速功能测试报告.md) + +--- + +**文档维护者:** AI助手 +**最后更新:** 2025-11-12 +**文档状态:** ✅ 已完成并验证 + + + + + + diff --git a/docs/03-业务模块/AIA-AI智能问答/README.md b/docs/03-业务模块/AIA-AI智能问答/README.md new file mode 100644 index 00000000..448dedbd --- /dev/null +++ b/docs/03-业务模块/AIA-AI智能问答/README.md @@ -0,0 +1,70 @@ +# AIA - AI智能问答 + +> **模块代号:** AIA (AI Intelligent Answer) +> **开发状态:** ✅ 已完成 +> **商业价值:** ⭐⭐⭐⭐ +> **独立性:** ⭐⭐⭐ + +--- + +## 📋 模块概述 + +AI智能问答模块提供10+个专业AI智能体,覆盖科研关键节点。 + +**核心价值:** 差异化AI能力,覆盖科研全流程 + +--- + +## 🎯 核心功能 + +### 已完成功能 +1. ✅ **12个智能体** - YAML配置框架 +2. ✅ **多轮对话** - 上下文管理、历史记录 +3. ✅ **流式输出** - SSE打字机效果 +4. ✅ **模型切换** - DeepSeek、Qwen3、Qwen-Long +5. ✅ **@知识库问答** - RAG增强 + +### 主要智能体 +- 选题评价智能体(四维度评价) +- PICO梳理智能体 +- 样本量计算智能体 +- 研究方案制定智能体 +- 文章润色与翻译智能体 + +--- + +## 📂 文档结构 + +``` +AIA-AI智能问答/ + ├── [AI对接] AIA快速上下文.md # ⏳ 待创建 + ├── 00-项目概述/ + ├── 01-设计文档/ + └── README.md # ✅ 当前文档 +``` + +--- + +## 🔗 依赖的通用能力 + +- **LLM网关** - 模型调用和切换 +- **RAG引擎** - @知识库问答 + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/01-设计文档/用户端原型图.html b/docs/03-业务模块/AIA-AI智能问答/用户端原型图.html similarity index 100% rename from docs/01-设计文档/用户端原型图.html rename to docs/03-业务模块/AIA-AI智能问答/用户端原型图.html diff --git a/docs/03-业务模块/ASL-AI智能文献/00-系统设计/01-系统架构设计.md b/docs/03-业务模块/ASL-AI智能文献/00-系统设计/01-系统架构设计.md new file mode 100644 index 00000000..eb62febf --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/00-系统设计/01-系统架构设计.md @@ -0,0 +1,99 @@ +# AI智能文献模块 - 系统架构设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 +> **最后更新:** 2025-10-29 + +--- + +## 📋 文档说明 + +本文档描述AI智能文献模块的系统架构设计,包括模块架构、技术架构、数据架构等。 + +--- + +## 🏗️ 模块架构 + +### 核心功能模块 + +``` +AI智能文献模块 +├── 1. 研究方案生成 +├── 2. 智能文献检索 +├── 3. 标题摘要初筛 ⭐ 当前优先开发 +├── 4. 全文复筛 +├── 5. 全文解析与数据提取 +└── 6. 数据综合分析与报告生成 +``` + +### 模块间关系 + +``` +研究方案生成 → 指导后续所有模块 + ↓ +智能文献检索 → 生成文献列表 + ↓ +标题摘要初筛 → 初步筛选结果 + ↓ +全文复筛 → 最终纳入列表 + ↓ +全文解析与数据提取 → 结构化数据 + ↓ +数据综合分析与报告生成 → 最终报告 +``` + +--- + +## 🔧 技术架构 + +### 前端架构 +- **框架**: React + TypeScript +- **UI库**: Ant Design + Tailwind CSS +- **状态管理**: Zustand / React Query +- **路由**: React Router + +### 后端架构 +- **框架**: Node.js + TypeScript + Fastify +- **数据库**: PostgreSQL + Prisma ORM +- **文件存储**: 本地存储 / 对象存储 +- **AI集成**: DeepSeek-V3、Qwen3-72B + +### AI服务架构 +- **双模型系统**: DS模型 + Q3模型 +- **流式输出**: Server-Sent Events (SSE) +- **批处理**: 支持批量任务处理 + +--- + +## 📊 数据架构 + +### 核心数据实体 +- **研究方案** (Research Protocol) +- **文献项目** (Literature Project) +- **文献条目** (Literature Item) +- **筛选结果** (Screening Result) +- **提取数据** (Extracted Data) + +--- + +## ⏳ 待完善内容 + +本文档内容正在完善中,后续将补充: +- 详细的架构图 +- 模块间通信机制 +- 数据流设计 +- 安全性设计 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/00-系统设计/02-模块关联关系设计.md b/docs/03-业务模块/ASL-AI智能文献/00-系统设计/02-模块关联关系设计.md new file mode 100644 index 00000000..542c66db --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/00-系统设计/02-模块关联关系设计.md @@ -0,0 +1,24 @@ +# 模块关联关系设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/00-系统设计/03-数据流设计.md b/docs/03-业务模块/ASL-AI智能文献/00-系统设计/03-数据流设计.md new file mode 100644 index 00000000..bbc6ec87 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/00-系统设计/03-数据流设计.md @@ -0,0 +1,24 @@ +# 数据流设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/00-系统设计/04-技术选型说明.md b/docs/03-业务模块/ASL-AI智能文献/00-系统设计/04-技术选型说明.md new file mode 100644 index 00000000..e35cdbb2 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/00-系统设计/04-技术选型说明.md @@ -0,0 +1,24 @@ +# 技术选型说明 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/01-需求分析/01-需求总览.md b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/01-需求总览.md new file mode 100644 index 00000000..2541ee97 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/01-需求总览.md @@ -0,0 +1,61 @@ +# 需求总览 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## 📋 文档说明 + +本文档提供AI智能文献模块的需求总览,详细需求请参考PRD文档和各子模块需求文档。 + +--- + +## 🎯 核心功能模块 + +### 1. 研究方案生成 +**功能定位**: 定义研究方案、PICO、变量清单 +**状态**: 待开发 + +### 2. 智能文献检索 +**功能定位**: PubMed检索、语义排序 +**状态**: 待开发 + +### 3. 标题摘要初筛 ⭐ +**功能定位**: 基于标题和摘要的快速筛选 +**状态**: 当前优先开发 +**详细需求**: 见 [标题摘要初筛需求详述](./02-标题摘要初筛需求详述.md) + +### 4. 全文复筛 +**功能定位**: 基于全文内容的二次筛选 +**状态**: 待开发 + +### 5. 全文解析与数据提取 +**功能定位**: 结构化数据提取 +**状态**: 待开发 + +### 6. 数据综合分析与报告生成 +**功能定位**: 证据图谱、Meta分析、报告生成 +**状态**: 待开发 + +--- + +## 📚 相关文档 + +- [PRD文档 - 产品概览](../../00-项目概述/AI智能文献PRD(1)-产品概览.md) +- [PRD文档 - 初筛与复筛](../../00-项目概述/AI智能文献PRD(2)-初筛与复筛.md) +- [PRD文档 - 提取与分析](../../00-项目概述/AI智能文献PRD(3)-提取与分析模块.md) + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/01-需求分析/02-标题摘要初筛需求详述.md b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/02-标题摘要初筛需求详述.md new file mode 100644 index 00000000..a4c9123a --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/02-标题摘要初筛需求详述.md @@ -0,0 +1,199 @@ +# 标题摘要初筛需求详述 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 +> **最后更新:** 2025-10-29 + +--- + +## 📋 文档说明 + +本文档详细描述标题摘要初筛模块的功能需求,基于PRD文档进行扩展和细化。 + +--- + +## 🎯 功能概述 + +**标题摘要初筛**是筛选流程的第一阶段,仅基于文献的标题和摘要进行快速筛选。 + +### 核心子视图 + +1. **设置与启动视图** - 配置筛选标准、导入文献、启动筛选 +2. **表格化审核工作台** - 双模型PICS判断、冲突管理、决策制定 +3. **初筛结果视图** - 统计概览、结果列表、导出功能 + +--- + +## 📝 功能需求详述 + +### 需求1: 设置与启动视图 + +#### FR-TSCR-01.1: 标准参考展示 +- **需求**: 页面顶部展示从"研究方案"继承的PICO和入排标准(只读) +- **优先级**: 高 +- **验收标准**: + - 清晰展示PICO框架内容 + - 展示纳入标准和排除标准 + - 提供"调整本次筛选标准"入口 + +#### FR-TSCR-01.2: 临时调整筛选标准 +- **需求**: 允许用户进行仅对本次筛选生效的临时修改 +- **优先级**: 高 +- **验收标准**: + - 可修改PICO和入排标准 + - 修改不影响原始研究方案 + - 在审核工作台有明确提示 + +#### FR-TSCR-01.3: 文献导入 +- **需求**: 仅支持"上传Excel文件"方式,提供模板下载 +- **优先级**: 高 +- **验收标准**: + - 支持Excel文件上传 + - 提供标准模板下载 + - 文件格式验证 + - 导入结果预览 + +#### FR-TSCR-01.4: 启动筛选 +- **需求**: 导入文献后,激活"开始AI初筛"按钮 +- **优先级**: 高 +- **验收标准**: + - 按钮状态控制 + - 点击后启动AI筛选任务 + - 显示任务进度 + +--- + +### 需求2: 表格化审核工作台视图 ⭐⭐⭐ + +#### FR-TSCR-02.1: 表格结构设计 +- **需求**: 高信息密度的表格化布局 +- **优先级**: 极高 +- **验收标准**: + - 两行表头结构(模型区域 + P/I/C/S列) + - 主行包含所有关键信息 + - 展开行显示证据短语 + - 支持展开/收起 + +#### FR-TSCR-02.2: 双模型PICS判断 +- **需求**: DS和Q3模型分别对P/I/C/S四个维度进行判断 +- **优先级**: 极高 +- **验收标准**: + - 每个维度显示判断结果(✓/✗/?) + - 展示双模型的判断结果 + - 支持查看详细判断理由 + +#### FR-TSCR-02.3: 证据短语提取 +- **需求**: 展示AI提取的关键证据短语 +- **优先级**: 极高 +- **验收标准**: + - 展开行显示DS和Q3的证据短语 + - 短语清晰标注对应的P/I/C/S维度 + - 支持点击查看原文 + +#### FR-TSCR-02.4: 原文审查模态框 +- **需求**: 点击判断图标弹出双视图审查模态框 +- **优先级**: 极高 +- **验收标准**: + - 左侧显示摘要 + - 右侧显示双模型判断详情 + - 原文自动高亮 + - 支持来源引用查看 + +--- + +### 需求3: 冲突管理 + +#### FR-TSCR-03.1: 冲突识别 +- **需求**: 自动识别两模型判断不一致的文献 +- **优先级**: 高 +- **验收标准**: + - 自动检测冲突项 + - 视觉高亮(如行背景色) + - 支持冲突项筛选 + +#### FR-TSCR-03.2: 冲突处理 +- **需求**: 允许用户对冲突项进行人工仲裁 +- **优先级**: 高 +- **验收标准**: + - 支持查看冲突详情 + - 支持选择最终决策 + - 记录决策原因 + +--- + +### 需求4: 批量操作 + +#### FR-TSCR-04.1: 批量决策 +- **需求**: 支持对非冲突项进行批量决策 +- **优先级**: 中 +- **验收标准**: + - 支持多选文献 + - 批量设置决策结果 + - 批量设置决策原因 + +--- + +### 需求5: 初筛结果视图 + +#### FR-TSCR-05.1: 统计概览 +- **需求**: 展示筛选统计信息 +- **优先级**: 高 +- **验收标准**: + - 卡片形式展示统计数字 + - 包括:总计、纳入、排除数量 + +#### FR-TSCR-05.2: PRISMA式排除总结 +- **需求**: 展示主要排除原因及数量 +- **优先级**: 高 +- **验收标准**: + - 列表展示排除原因 + - 显示对应文献数量 + - 支持点击查看详情 + +#### FR-TSCR-05.3: 结果列表 +- **需求**: Tab页切换查看纳入和排除的文献列表 +- **优先级**: 高 +- **验收标准**: + - 支持Tab切换 + - 表格展示文献信息 + - 支持筛选和搜索 + +#### FR-TSCR-05.4: 导出功能 +- **需求**: 将结果列表导出为Excel +- **优先级**: 高 +- **验收标准**: + - 支持导出为Excel格式 + - 包含完整的文献信息 + - 格式规范清晰 + +--- + +## 📊 非功能性需求 + +- **性能**: 单次筛选支持1000+文献 +- **响应时间**: 单个文献判断 < 5秒 +- **并发**: 支持多用户同时筛选 +- **可靠性**: 支持任务中断和恢复 + +--- + +## 📚 相关文档 + +- [PRD文档 - 初筛与复筛](../../00-项目概述/AI智能文献PRD(2)-初筛与复筛.md) +- [原型图](../../01-设计文档/AI智能文献-标题摘要初筛原型.html) +- [数据库设计](../02-技术设计/01-数据库设计.md) +- [API设计规范](../02-技术设计/02-API设计规范.md) + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/01-需求分析/03-全文复筛需求详述.md b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/03-全文复筛需求详述.md new file mode 100644 index 00000000..98b4ec35 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/03-全文复筛需求详述.md @@ -0,0 +1,26 @@ +# 全文复筛需求详述 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +详细需求请参考PRD文档:`../00-项目概述/AI智能文献PRD(2)-初筛与复筛.md` + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/01-需求分析/04-用户故事和验收标准.md b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/04-用户故事和验收标准.md new file mode 100644 index 00000000..9a794e21 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/04-用户故事和验收标准.md @@ -0,0 +1,24 @@ +# 用户故事和验收标准 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/01-需求分析/05-非功能性需求.md b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/05-非功能性需求.md new file mode 100644 index 00000000..4364a5b7 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/05-非功能性需求.md @@ -0,0 +1,24 @@ +# 非功能性需求 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/01-需求分析/AI智能文献PRD(1)-产品概览.md b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/AI智能文献PRD(1)-产品概览.md new file mode 100644 index 00000000..18e8a2cd --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/AI智能文献PRD(1)-产品概览.md @@ -0,0 +1,89 @@ +# **PRD V4.0 \- 第一部分:产品概述与核心流程** + +版本: 4.0 +日期: 2025-10-21 + +## **1\. 引言** + +### **1.1. 项目背景** + +当前,医学科研人员在进行系统性文献回顾、Meta分析或新药研发等工作时,面临着海量文献带来的巨大挑战。传统的文献处理流程,包括检索、筛选、数据提取和分析,是高度劳动密集型的工作,不仅耗时巨大,而且容易引入人为偏见和错误,直接影响科研结论的质量和时效性。本项目旨在开发一个基于人工智能的医学文献应用系统,通过自动化和智能化的方式赋能科研人员,将他们从繁琐的重复性工作中解放出来,聚焦于更高层次的科学洞见和创新。 + +### **1.2. 产品目标** + +* **效率提升:** 将传统需要数月完成的系统性文献回顾流程,缩短至数天或数周。 +* **质量保障:** 通过先进的AI模型和校验机制,提升文献筛选和数据提取的准确性与一致性,降低人为偏见。 +* **深度洞察:** 在精准提取的数据基础上,提供多维度的综合分析和可视化工具,帮助用户快速生成高质量的证据图谱、综合评价报告等应用。 +* **全程可溯:** 确保AI处理的每一个环节(筛选、提取、分析)都有据可查,所有结论均可追溯至原文,满足科研的严谨性要求。 + +### **1.3. 目标用户** + +* 医学科研人员(高校、研究所) +* 临床医生与医学专家 +* 制药公司及CRO(合同研究组织)的研发、医学和市场准入部门人员 +* 循证医学与卫生技术评估(HTA)机构的研究员 +* 高等院校的医学/药学专业学生及教员 + +### **1.4. 名词解释** + +* **PRD:** Product Requirement Document,产品需求文档。 +* **PICO(S):** 系统评价中用于确定文献纳入排除标准的研究要素框架,包括: + * **P (Patient/Population):** 研究对象 + * **I (Intervention):** 干预措施 + * **C (Comparison):** 对照措施 + * **O (Outcome):** 结局指标 + * **S (Study Design):** 研究设计 +* **证据图谱 (Evidence Mapping):** 一种系统性地识别、描述和分类特定健康领域现有研究证据的方法,通常以可视化的方式呈现。 +* **Meta分析:** 对相同研究问题的多个独立研究结果进行定量合并分析的统计方法。 + +## **2\. 产品概述** + +### **2.1. 产品定位** + +一个**遵循循证医学标准**、专业、高效、可信赖的AI医学科研**工具箱**。它以**研究方案**为核心,驱动从文献检索到深度分析报告生成的全流程解决方案。 + +### **2.2. 核心价值** + +* **自动化:** 自动执行文献筛选、数据提取等繁重任务。 +* **精准化:** 深度理解医学语言和PICO,保障筛选和提取的准确性。 +* **结构化:** 将非结构化的文献全文转化为结构化的数据资产。 +* **智能化:** 基于结构化数据,提供多样的下游分析应用和报告。 + +### **2.3. 功能总览图 (V4.0 更新)** + +graph TD + A\[用户管理\] \--\> B(项目管理) + B \--\> C\[1. 研究方案生成\] + C \-- "指导后续所有流程" \--\> D + + subgraph D\[研究执行流程\] + D1\[2. 智能文献检索\] + D2\[3. 标题摘要初筛\] + D3\[4. 全文复筛\] + D4\[5. 全文解析与数据提取\] + D5\[6. 数据综合分析与报告生成\] + end + + D1 \--\> D2 + D2 \--\> D3 + D3 \--\> D4 + D4 \--\> D5 + + D5 \--\> E1\[证据图谱\] + D5 \--\> E2\[Meta分析数据集\] + D5 \--\> E3\[药物综合评价报告\] + + subgraph "产出应用" + E1 + E2 + E3 + end + +### **2.4. 设计哲学:集成化与模块化** + +本产品的核心设计哲学是“**集成化与模块化并存**”。 + +* **集成化:** 六大核心功能模块(研究方案、智能检索、标题摘要初筛、全文复筛、全文提取、综合分析)无缝衔接,为用户提供一个从课题构想到报告产出的端到端、流畅连贯的系统性文献研究工作流。 +* **模块化:** 每个核心功能模块都可以作为一个独立的工具来解决特定的科研痛点。用户无需遵循完整的流程,可以根据自己的实际需求,从任意环节(如仅使用检索、或仅上传Excel进行筛选)切入,使用相应的功能模块。 + +这种设计旨在最大化产品的灵活性和适用性,服务于不同需求层次的广大科研用户。 \ No newline at end of file diff --git a/docs/03-业务模块/ASL-AI智能文献/01-需求分析/AI智能文献PRD(2)-初筛与复筛.md b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/AI智能文献PRD(2)-初筛与复筛.md new file mode 100644 index 00000000..62351dc9 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/AI智能文献PRD(2)-初筛与复筛.md @@ -0,0 +1,59 @@ +# **PRD V4.0 \- 第二部分:研究方案与筛选模块** + +版本: 4.0 +日期: 2025-10-21 + +## **3\. 功能需求详述 (续)** + +### **3.1. 研究方案生成模块 (V4.0 新增)** + +**本模块是所有研究工作的起点和“唯一事实来源”,其配置将指导后续所有模块的AI行为和界面展示。** + +| 需求ID | 需求描述 | 优先级 | +| :---- | :---- | :---- | +| **FR-PROT-01** | **结构化方案定义:** 提供一个向导式界面,引导用户(或由AI辅助)定义一个完整的循证研究方案。 | **极高** | +| **FR-PROT-02** | **PICO 与纳入/排除标准定义:** 在方案中,提供结构化表单,让用户清晰定义研究的PICO,以及详细的文本格式的纳入和排除标准。这将是后续筛选模块的“宪法”。 | **极高** | +| **FR-PROT-03** | **数据提取变量清单配置:** 在方案中,提供一个变量清单管理功能。 a) **预设清单:** 根据用户选择的研究目的(如证据图谱、Meta分析),提供通用的、标准的变量提取清单。 b) **自定义清单:** 允许用户在预设清单的基础上,自定义(增、删、改)需要提取的数据变量。此清单将作为“数据提取模块”的唯一依据。 | **极高** | +| **FR-PROT-04** | **方案锁定与版本控制:** 研究方案一旦确立并开始用于筛选后,应被锁定或进行版本控制。任何后续的修改都应被记录,以保证科研过程的透明性和严谨性。 | 高 | + +### **3.2. 智能文献检索模块** + +(原3.2模块,序号调整) + +| 需求ID | 需求描述 | 优先级 | +| :---- | :---- | :---- | +| **FR-SEARCH-01** | **关键词/主题词检索:** 提供输入框,支持用户使用标准关键词、MeSH主题词及布尔运算符(AND, OR, NOT)构建PubMed查询。 | 高 | +| **FR-SEARCH-02** | **交互式检索策略与语义排序:** 提供一个与AI对话的界面,通过多轮交流引导用户明确其核心研究问题。AI根据对话内容,帮助用户构建和优化专业的检索策略。在执行检索后,系统对返回的文献列表进行二次语义相关度分析,并按相关性从高到低进行排序,将最匹配的文献呈现在最前面。 | 高 | +| **FR-SEARCH-03** | **PubMed API集成:** 系统通过API实时连接PubMed数据库,执行检索并获取最新文献列表。 | 高 | +| **FR-SEARCH-04** | **结果展示与导入:** 以列表形式清晰展示检索结果,包括标题、作者、期刊、摘要等。用户可勾选相关文献,一键**导入到项目中进行下一步筛选**。 | 高 | + +### **3.3. 标题摘要初筛模块 (V4.0 重构 \- V7原型更新)** + +**本模块是筛选流程的第一阶段,仅基于文献的标题和摘要进行快速筛选。** 包含设置与启动、审核工作台、初筛结果三个子视图。 + +| 需求ID | 需求描述 | 优先级 | | | +| :---- | :---- | :---- | :---- | :---- | +| **FR-TSCR-01** | **设置与启动视图:** a) **标准参考:** 页面顶部展示从“研究方案”继承的PICO和入排标准(只读),并提供“ | $$调整本次筛选标准$$ | ”入口,允许用户进行**仅对本次筛选生效**的临时修改。 b) **文献导入:** 页面下方提供文献导入功能,\*\*仅支持“上传Excel文件”\*\*方式,并提供模板下载。 c) **启动筛选:** 导入文献后,激活“开始AI初筛”按钮。 | 高 | +| **FR-TSCR-02** | **表格化审核工作台视图:** 核心审核界面采用高信息密度的**表格化布局**。 a) **标准参考:** 工作台顶部提供**可折叠**的“研究方案概览”面板,展示PICO与入排标准。若应用了临时调整,需有提示。 b) **表格结构:** 每一行代表一篇文献,并支持展开显示第二行。 **表头**采用两行结构:第一行合并单元格标示模型区域,第二行在各模型下细分P/I/C/S/结论列。 **主行 (Row 1):** 包含展开/收起按钮, 文献ID (PMID), 研究ID (作者姓+年份), 文献来源 (期刊/DOI链接), DS-P(✓/✗/?), DS-I, DS-C, DS-S, DS-结论(纳入/排除), Q3-P, Q3-I, Q3-C, Q3-S, Q3-结论, 冲突状态, 最终决策(下拉选择框)。 **展开行 (Row 2):** 默认隐藏,点击按钮后展开。仅包含两列,分别显示DS 证据: (P/I/C/S对应的关键短语) 和 Q3 证据: (P/I/C/S对应的关键短语)。 c) **交互:** 点击主行中的P/I/C/S判断图标(✓/✗/?),**弹出“双视图原文审查模态框”**,左侧显示摘要,右侧显示双模型对该维度的详细判断、理由和来源引用,原文自动高亮。 | **极高** | | | +| **FR-TSCR-03** | **双模型PICS逐项判断:** 双模型(DS/Q3)需基于筛选标准,对每篇文献的P/I/C/S四个维度**分别进行判断** (✓/✗/?),提取**关键证据短语**,并给出一个总览的“纳入/排除”建议。 | **极高** | | | +| **FR-TSCR-04** | **分级与冲突管理:** 系统需自动识别并高亮(如行背景色)两模型判断不一致的文献(冲突项),允许用户优先筛选处理。 | 高 | | | +| **FR-TSCR-05** | **批量操作:** 支持对非冲突项进行批量决策。 | 中 | | | +| **FR-TSCR-06** | **初筛结果视图 (V7 新增):** 提供独立的页面展示初筛的最终结果。 a) **统计概览:** 以卡片形式展示“总计筛选文献数”、“初步纳入文献数”、“排除文献数”。 b) **PRISMA式排除总结:** 以列表形式展示主要的排除原因及其对应的文献数量(如:非RCT n=X, 非目标人群 n=Y ...)。 c) **结果列表:** 提供Tab页切换查看“初步纳入”和“排除”的文献列表。表格需包含列:文献ID, 研究ID, 文献来源, 标题, 摘要(可展开), P(内容短语), I, C, S, 结论(纳入/排除), 排除理由。 d) **导出功能:** 提供将结果列表导出为Excel的功能。 | 高 | | | + +### **3.4. 全文复筛模块 (V4.0 新增 \- V2原型更新)** + +**本模块是筛选流程的第二阶段,对第一阶段初步纳入的文献,基于全文内容进行更严格的二次筛选。** 包含设置与启动、审核工作台、复筛结果三个子视图。 + +| 需求ID | 需求描述 | 优先级 | +| :---- | :---- | :---- | +| **FR-FSCR-01** | **设置与启动视图:** a) **标准参考:** 与标题摘要阶段类似,提供标准参考区和临时调整入口。 b) **启动路径:** 支持两种启动方式:1) **流程衔接:** 自动加载从“标题摘要初筛”模块传递过来的“初步纳入”文献列表;2) **独立启动:** 若无传入数据,则显示导入选项(上传Excel, 从知识库添加)。 c) **全文获取与管理:** 以表格形式展示待复筛文献列表,包含列:文献ID, 文献标题, 获取状态 (需模拟多种状态如获取中/成功/失败)。系统自动尝试获取全文。 d) **手动上传与知识库:** 获取失败的文献提供\[上传全文\]按钮;提供\[+ 从知识库添加\]按钮入口。 e) **启动复筛:** 只有当列表内所有文献状态均为获取成功时,激活“开始全文复筛”按钮(原型中可放宽此限制以方便演示)。 | 高 | +| **FR-FSCR-02** | **基于全文的PICS判断:** 双模型(DS/Q3)需读取文献**全文**,并再次基于筛选标准,对P/I/C/S四个维度进行判断 (✓/✗/?),提取**关键证据短语**,并给出结论建议。 | **极高** | +| **FR-FSCR-03** | **表格化审核工作台视图:** **复用**与“标题摘要初筛”模块**完全一致的表格化审核工作台**组件(包括表头结构、可展开行、点击弹窗交互),确保用户体验的连贯性。区别在于AI判断的数据源是全文,弹窗中展示的是PDF全文阅读器。 | **极高** | +| **FR-FSCR-04** | **产出最终纳入列表:** 本模块审核通过的文献,将形成“最终纳入文献列表”,作为下一个“全文解析与数据提取”模块的输入。 | 高 | +| **FR-FSCR-05** | **复筛结果视图 (V2 新增):** 提供独立的页面展示复筛的最终结果。 a) **统计概览:** 展示“总计复筛文献数”、“最终纳入文献数”、“排除文献数”。 b) **PRISMA式排除总结:** 展示基于全文复筛阶段的排除原因及数量。 c) **结果列表:** 提供Tab页切换查看“最终纳入”和“排除”的文献列表。表格需包含列:文献ID, 研究ID, 文献来源, 标题, 最终决策, 决策方式, 排除理由。 d) **导出功能:** 提供将结果列表导出为Excel的功能。 | 高 | + +\<\!-- \#\#\# 3.5. 全文解析与数据提取模块 (V4.0 重构) ... (内容见第三部分文档) ... + +### **3.6. 数据综合分析与报告生成模块** + +... (内容见第三部分文档) ... \--\> \ No newline at end of file diff --git a/docs/03-业务模块/ASL-AI智能文献/01-需求分析/AI智能文献PRD(3)-提取与分析模块.md b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/AI智能文献PRD(3)-提取与分析模块.md new file mode 100644 index 00000000..e6a13103 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/01-需求分析/AI智能文献PRD(3)-提取与分析模块.md @@ -0,0 +1,51 @@ +# **PRD V4.0 \- 第三部分:提取与分析模块** + +版本: 4.0 +日期: 2025-10-21 + +## **3\. 功能需求详述 (续)** + +### **3.5. 全文解析与数据提取模块 (V4.0 重构)** + +**本模块负责对“全文复筛”阶段最终纳入的文献,根据“研究方案”中定义的变量清单,进行精准的数据提取和质量评价。** + +| 需求ID | 需求描述 | 优先级 | +| :---- | :---- | :---- | +| **FR-EXT-01** | **基于方案的批量提取:** 系统根据“研究方案”中配置的“数据提取变量清单”,对所有“最终纳入”的文献全文,启动双模型(如DS, Q3)批量数据提取。需提供任务状态监控。 | **极高** | +| **FR-EXT-02** | **表格化数据审查台:** 核心审查界面采用**表格化布局**。 a) **表格结构:** 每一**行**代表一篇文献,每一**列**代表一个在方案中定义的提取变量(包括研究特征、PICO要素、结局数据、质量评价项等)。 b) **单元格内容:** 每个单元格清晰展示模型A和模型B的提取结果,并高亮结果不一致的冲突项(“待仲裁”)。 | **极高** | +| **FR-EXT-03** | **点击查看原文 (模态框):** 用户点击任何一个需要仲裁(或需要核对)的单元格时,系统**弹出一个“双视图原文审查模态框”**。 a) **左侧:** PDF全文阅读器,自动滚动并高亮AI提取该数据点所依据的原文片段。 b) **右侧:** 聚焦展示该数据点,包含双模型结果、理由、来源引用,并提供输入框供用户确认或修正最终值。 | **极高** | +| **FR-EXT-04** | **集成式批判性评价:** 用户在“研究方案”中选择的质量/偏倚风险评估工具(如Cochrane RoB 2),其评价条目将作为普通变量**一同整合**在表格化审查台的列中,允许用户在提取数据的同时完成质量评价,并为评价结果链接原文证据。 | 高 | +| **FR-EXT-05** | **数据汇总与导出:** 提供“数据汇总”页面,将所有已审查确认的数据(包括提取的变量和质量评价结果)汇总到一个总表中,支持筛选、搜索,并提供一键导出为Excel的功能。页面应包含模型表现评估(如正确率)。 | 高 | + +### **3.6. 数据综合分析与报告生成模块** + +**本模块是一个交互式的分析平台,旨在将“全文解析与数据提取模块”产出的结构化数据,转化为富有洞见的专业分析和报告。** + +| 需求ID | 需求描述 | 优先级 | +| :---- | :---- | :---- | +| **FR-ANLS-01** | **统一数据导入:** 模块的入口是“**3.5 全文解析与数据提取模块**”产出的最终结构化数据表。系统自动加载该数据作为分析的数据源。 | 高 | + +#### **3.6.1 应用一:证据图谱生成 (Evidence Mapping)** + +| 需求ID | 需求描述 | 优先级 | +| :---- | :---- | :---- | +| **FR-ANLS-MAP-01** | **图谱框架配置向导:** 提供一个向导式界面,让用户定义图谱的“坐标轴”和视觉元素: a) **Y轴配置 (干预措施):** 允许用户对提取的“干预措施”数据进行拖拽、分组和重命名。 b) **X轴配置 (结局指标):** 允许用户对提取的“结局指标”数据进行类似的分组和重命名。 c) **气泡含义配置:** 允许用户定义气泡颜色所代表的维度,如“研究质量/偏倚风险”或“研究设计”。气泡大小固定为“研究数量”。 | 高 | +| **FR-ANLS-MAP-02** | **交互式证据图谱生成:** 基于用户配置,生成一个交互式的气泡图矩阵。 a) **可视化展示:** Y轴为干预措施,X轴为结局指标。交叉点上的气泡大小代表研究数量,颜色代表用户选择的维度。没有气泡的单元格即为“证据空白”。 b) **悬停交互:** 鼠标悬停在气泡上,显示总结信息(如:研究数量,高质量RCT数量等)。 c) **点击交互:** 点击气泡,图表下方应动态展示该气泡包含的所有研究的详细列表。 | **极高** | +| **FR-ANLS-MAP-03** | **动态筛选器:** 在图谱旁边提供一组动态筛选器,允许用户根据“发表年份”、“研究设计”、“样本量”、“国家/地区”、“**特殊人群**”等维度实时过滤数据。图谱和下方的统计数据会随之动态更新。 | 高 | +| **FR-ANLS-MAP-04** | **自动化描述性统计:** 在图谱下方,根据当前筛选的数据,自动生成描述性统计图表和文字摘要,如研究类型分布饼图、研究趋势折线图等。 | 高 | +| **FR-ANLS-MAP-05** | **一键报告生成:** 提供“生成报告”功能,进入一个**智能报告编辑器**。编辑器预载由AI生成的报告初稿(含图谱、统计图、AI文字解读、PRISMA流程、方法描述、附录等),用户可在线编辑后导出为Word或PDF。 | 高 | + +#### **3.6.2 应用二:Meta分析数据准备** + +| 需求ID | 需求描述 | 优先级 | +| :---- | :---- | :---- | +| **FR-ANLS-META-01** | **数据格式化导出:** 根据用户选择,将从“数据提取模块”获取的结局指标数据(如均值、标准差、事件数等),自动整理并导出为适配主流Meta分析软件(如RevMan, Stata)格式的数据文件。 | 中 | +| **FR-ANLS-META-02** | **森林图预览:** 对于二分类或连续性变量,提供一个基础的森林图(Forest Plot)预览功能,让用户在导出前对数据合并的趋势有一个初步的视觉判断。 | 低 | + +#### **3.6.3 应用三:药物综合评价报告** + +| 需求ID | 需求描述 | 优先级 | +| :---- | :---- | :---- | +| **FR-ANLS-DRUG-01** | **多维数据整合:** 允许用户选择多个维度(如有效性指标、安全性指标、患者报告结局等),系统自动从数据源中整合相关数据。 | 中 | +| **FR-ANLS-DRUG-02** | **模板化报告生成:** 基于预设的药物综合评价报告模板,自动将整合后的数据填充到报告的各个章节中,生成包含PICO总结表、有效性-安全性矩阵图、关键研究列表等内容的Word或PDF报告初稿。 | 中 | + diff --git a/docs/03-业务模块/ASL-AI智能文献/02-技术设计/01-数据库设计.md b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/01-数据库设计.md new file mode 100644 index 00000000..3c48e65e --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/01-数据库设计.md @@ -0,0 +1,202 @@ +# AI智能文献模块 - 数据库设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 +> **最后更新:** 2025-10-29 + +--- + +## 📋 文档说明 + +本文档描述AI智能文献模块的数据库设计,包括数据表结构、关系设计、索引设计等。 + +--- + +## 🗄️ 核心数据表 + +### 1. 文献筛选项目表 (literature_screening_projects) + +```sql +CREATE TABLE literature_screening_projects ( + id UUID PRIMARY KEY DEFAULT gen_random_uuid(), + user_id UUID NOT NULL REFERENCES users(id), + project_name VARCHAR(255) NOT NULL, + protocol_id UUID, -- 研究方案ID(未来关联) + + -- PICO标准 + pico_criteria JSONB, -- PICO结构化数据 + + -- 筛选标准 + inclusion_criteria TEXT, + exclusion_criteria TEXT, + + -- 状态 + status VARCHAR(50) DEFAULT 'draft', -- draft, screening, completed + + -- 筛选配置 + screening_config JSONB, -- 筛选配置(双模型选择等) + + created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP, + updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP +); +``` + +### 2. 文献条目表 (literature_items) + +```sql +CREATE TABLE literature_items ( + id UUID PRIMARY KEY DEFAULT gen_random_uuid(), + project_id UUID NOT NULL REFERENCES literature_screening_projects(id) ON DELETE CASCADE, + + -- 文献基本信息 + pmid VARCHAR(50), + title TEXT, + authors TEXT, + journal VARCHAR(255), + publication_year INTEGER, + doi VARCHAR(255), + abstract TEXT, + + -- 文件信息 + full_text_file_path VARCHAR(500), + full_text_status VARCHAR(50), -- not_required, pending, downloaded, uploaded, failed + + created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP, + updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP, + + UNIQUE(project_id, pmid) +); +``` + +### 3. 标题摘要初筛结果表 (title_abstract_screening_results) + +```sql +CREATE TABLE title_abstract_screening_results ( + id UUID PRIMARY KEY DEFAULT gen_random_uuid(), + project_id UUID NOT NULL REFERENCES literature_screening_projects(id) ON DELETE CASCADE, + literature_item_id UUID NOT NULL REFERENCES literature_items(id) ON DELETE CASCADE, + + -- DS模型判断 + ds_p_judgment VARCHAR(10), -- ✓, ✗, ? + ds_i_judgment VARCHAR(10), + ds_c_judgment VARCHAR(10), + ds_s_judgment VARCHAR(10), + ds_conclusion VARCHAR(20), -- include, exclude + + -- DS模型证据 + ds_p_evidence TEXT, + ds_i_evidence TEXT, + ds_c_evidence TEXT, + ds_s_evidence TEXT, + + -- Q3模型判断 + q3_p_judgment VARCHAR(10), + q3_i_judgment VARCHAR(10), + q3_c_judgment VARCHAR(10), + q3_s_judgment VARCHAR(10), + q3_conclusion VARCHAR(20), + + -- Q3模型证据 + q3_p_evidence TEXT, + q3_i_evidence TEXT, + q3_c_evidence TEXT, + q3_s_evidence TEXT, + + -- 冲突状态 + conflict_status VARCHAR(20) DEFAULT 'none', -- none, conflict, resolved + + -- 最终决策 + final_decision VARCHAR(20), -- include, exclude, pending + final_decision_by UUID REFERENCES users(id), + final_decision_at TIMESTAMP, + exclusion_reason TEXT, + + -- AI处理状态 + ai_processing_status VARCHAR(50) DEFAULT 'pending', -- pending, processing, completed, failed + ai_processed_at TIMESTAMP, + + created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP, + updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP, + + UNIQUE(project_id, literature_item_id) +); +``` + +### 4. 筛选任务表 (screening_tasks) + +```sql +CREATE TABLE screening_tasks ( + id UUID PRIMARY KEY DEFAULT gen_random_uuid(), + project_id UUID NOT NULL REFERENCES literature_screening_projects(id) ON DELETE CASCADE, + + task_type VARCHAR(50) NOT NULL, -- title_abstract, full_text + status VARCHAR(50) DEFAULT 'pending', -- pending, running, completed, failed + + total_items INTEGER, + processed_items INTEGER DEFAULT 0, + success_items INTEGER DEFAULT 0, + failed_items INTEGER DEFAULT 0, + + started_at TIMESTAMP, + completed_at TIMESTAMP, + error_message TEXT, + + created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP, + updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP +); +``` + +--- + +## 📊 数据关系图 + +``` +literature_screening_projects (1) ──< (N) literature_items +literature_screening_projects (1) ──< (N) title_abstract_screening_results +literature_items (1) ──< (1) title_abstract_screening_results +literature_screening_projects (1) ──< (N) screening_tasks +``` + +--- + +## 🔍 索引设计 + +```sql +-- 文献条目表索引 +CREATE INDEX idx_literature_items_project_id ON literature_items(project_id); +CREATE INDEX idx_literature_items_pmid ON literature_items(pmid); + +-- 筛选结果表索引 +CREATE INDEX idx_screening_results_project_id ON title_abstract_screening_results(project_id); +CREATE INDEX idx_screening_results_item_id ON title_abstract_screening_results(literature_item_id); +CREATE INDEX idx_screening_results_conflict ON title_abstract_screening_results(conflict_status); +CREATE INDEX idx_screening_results_decision ON title_abstract_screening_results(final_decision); + +-- 任务表索引 +CREATE INDEX idx_screening_tasks_project_id ON screening_tasks(project_id); +CREATE INDEX idx_screening_tasks_status ON screening_tasks(status); +``` + +--- + +## ⏳ 待完善内容 + +后续将补充: +- 全文复筛相关表结构 +- 数据提取相关表结构 +- 数据迁移方案 +- 数据字典 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/02-技术设计/02-API设计规范.md b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/02-API设计规范.md new file mode 100644 index 00000000..cdc42804 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/02-API设计规范.md @@ -0,0 +1,238 @@ +# AI智能文献模块 - API设计规范 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 +> **最后更新:** 2025-10-29 + +--- + +## 📋 文档说明 + +本文档描述AI智能文献模块的API设计规范,包括接口定义、请求响应格式、错误处理等。 + +--- + +## 🔌 API设计原则 + +1. **RESTful设计**: 遵循RESTful API设计规范 +2. **统一响应格式**: 统一的成功/错误响应结构 +3. **分页支持**: 列表接口支持分页 +4. **版本控制**: API版本化管理 +5. **认证授权**: 所有接口需要JWT认证 + +--- + +## 📡 核心API接口 + +### 1. 项目管理 + +#### 创建筛选项目 +``` +POST /api/literature/projects +Request Body: +{ + "projectName": "string", + "picoCriteria": {...}, + "inclusionCriteria": "string", + "exclusionCriteria": "string" +} +Response: +{ + "code": 200, + "data": { + "id": "uuid", + "projectName": "string", + ... + } +} +``` + +#### 获取项目列表 +``` +GET /api/literature/projects?page=1&pageSize=10 +``` + +#### 获取项目详情 +``` +GET /api/literature/projects/:projectId +``` + +#### 更新项目 +``` +PUT /api/literature/projects/:projectId +``` + +#### 删除项目 +``` +DELETE /api/literature/projects/:projectId +``` + +### 2. 文献管理 + +#### 导入文献(Excel) +``` +POST /api/literature/projects/:projectId/items/import +Content-Type: multipart/form-data +Body: file (Excel文件) +Response: +{ + "code": 200, + "data": { + "importedCount": 100, + "items": [...] + } +} +``` + +#### 获取文献列表 +``` +GET /api/literature/projects/:projectId/items?page=1&pageSize=50 +``` + +#### 获取文献详情 +``` +GET /api/literature/projects/:projectId/items/:itemId +``` + +### 3. 标题摘要初筛 + +#### 启动筛选任务 +``` +POST /api/literature/projects/:projectId/screening/start +Request Body: +{ + "screeningType": "title_abstract", + "modelConfig": { + "ds": true, + "q3": true + } +} +Response: +{ + "code": 200, + "data": { + "taskId": "uuid", + "status": "running" + } +} +``` + +#### 获取筛选结果 +``` +GET /api/literature/projects/:projectId/screening/results +Query Params: + - page: 页码 + - pageSize: 每页数量 + - conflictOnly: 只显示冲突项 + - decision: include/exclude/pending +``` + +#### 更新最终决策 +``` +PUT /api/literature/projects/:projectId/screening/results/:resultId +Request Body: +{ + "finalDecision": "include", // include/exclude + "exclusionReason": "string" // 排除时必填 +} +``` + +#### 批量更新决策 +``` +POST /api/literature/projects/:projectId/screening/results/batch-update +Request Body: +{ + "itemIds": ["uuid1", "uuid2", ...], + "finalDecision": "include", + "exclusionReason": "string" +} +``` + +### 4. 任务管理 + +#### 获取任务状态 +``` +GET /api/literature/projects/:projectId/tasks/:taskId +Response: +{ + "code": 200, + "data": { + "id": "uuid", + "status": "running", // pending/running/completed/failed + "totalItems": 100, + "processedItems": 45, + "progress": 45 + } +} +``` + +#### 任务进度流式推送(SSE) +``` +GET /api/literature/projects/:projectId/tasks/:taskId/progress +Accept: text/event-stream +``` + +--- + +## 📋 响应格式规范 + +### 成功响应 +```json +{ + "code": 200, + "message": "success", + "data": {...} +} +``` + +### 错误响应 +```json +{ + "code": 400, + "message": "错误描述", + "error": { + "code": "ERROR_CODE", + "details": "..." + } +} +``` + +### 分页响应 +```json +{ + "code": 200, + "data": { + "items": [...], + "pagination": { + "page": 1, + "pageSize": 20, + "total": 100, + "totalPages": 5 + } + } +} +``` + +--- + +## ⏳ 待完善内容 + +后续将补充: +- 完整的API文档(所有接口详细说明) +- 请求/响应示例 +- 错误码定义 +- 接口测试用例 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/02-技术设计/03-前端组件设计.md b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/03-前端组件设计.md new file mode 100644 index 00000000..2a69f49c --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/03-前端组件设计.md @@ -0,0 +1,155 @@ +# AI智能文献模块 - 前端组件设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 +> **最后更新:** 2025-10-29 + +--- + +## 📋 文档说明 + +本文档描述AI智能文献模块的前端组件设计,包括组件结构、组件接口、交互设计等。 + +--- + +## 🧩 组件架构 + +### 标题摘要初筛模块组件结构 + +``` +LiteratureScreeningModule/ +├── TitleAbstractScreening/ +│ ├── SetupView/ # 设置与启动视图 +│ │ ├── CriteriaReference.tsx # 标准参考面板 +│ │ ├── CriteriaAdjustment.tsx # 临时调整标准 +│ │ ├── LiteratureImport.tsx # 文献导入组件 +│ │ └── StartScreeningButton.tsx # 启动筛选按钮 +│ │ +│ ├── ReviewTableView/ # 表格化审核工作台 ⭐核心 +│ │ ├── ScreeningTable.tsx # 主表格组件 +│ │ ├── TableHeader.tsx # 表头(双行结构) +│ │ ├── TableRow.tsx # 表格行 +│ │ ├── ExpandableRow.tsx # 可展开行(证据展示) +│ │ ├── JudgmentCell.tsx # 判断单元格(✓/✗/?) +│ │ ├── ConflictIndicator.tsx # 冲突状态指示器 +│ │ └── DecisionSelector.tsx # 最终决策选择器 +│ │ +│ ├── EvidenceModal/ # 双视图原文审查模态框 +│ │ ├── ModalContainer.tsx # 模态框容器 +│ │ ├── AbstractView.tsx # 左侧:摘要视图 +│ │ ├── EvidenceView.tsx # 右侧:证据视图 +│ │ └── HighlightedText.tsx # 高亮文本组件 +│ │ +│ ├── ResultView/ # 结果展示视图 +│ │ ├── StatisticsCards.tsx # 统计卡片 +│ │ ├── PrismaSummary.tsx # PRISMA式排除总结 +│ │ ├── ResultTabs.tsx # 结果Tab页 +│ │ └── ResultTable.tsx # 结果表格 +│ │ +│ └── shared/ # 共享组件 +│ ├── ProtocolOverview.tsx # 研究方案概览面板 +│ ├── BatchOperation.tsx # 批量操作组件 +│ └── ExportButton.tsx # 导出按钮 +``` + +--- + +## 🎨 核心组件设计 + +### 1. ScreeningTable (表格化审核工作台) + +**组件职责**: +- 展示文献列表和筛选结果 +- 支持展开/收起查看证据 +- 支持点击判断查看详情 +- 支持批量操作 + +**Props接口**: +```typescript +interface ScreeningTableProps { + projectId: string; + items: LiteratureItem[]; + results: ScreeningResult[]; + onDecisionChange: (itemId: string, decision: string) => void; + onBatchUpdate: (itemIds: string[], decision: string) => void; +} +``` + +### 2. EvidenceModal (双视图原文审查模态框) + +**组件职责**: +- 左侧显示摘要/全文 +- 右侧显示AI判断和证据 +- 支持文本高亮 +- 支持查看引用来源 + +**Props接口**: +```typescript +interface EvidenceModalProps { + visible: boolean; + itemId: string; + dimension: 'P' | 'I' | 'C' | 'S'; + onClose: () => void; +} +``` + +### 3. ReviewTableView (审核工作台主视图) + +**组件职责**: +- 整合表格和模态框 +- 管理筛选状态 +- 处理用户交互 + +--- + +## 🔄 状态管理 + +### 使用Zustand管理筛选状态 + +```typescript +interface ScreeningStore { + currentProject: Project | null; + items: LiteratureItem[]; + results: ScreeningResult[]; + selectedItems: string[]; + loading: boolean; + + // Actions + loadProject: (projectId: string) => Promise; + updateDecision: (itemId: string, decision: string) => Promise; + batchUpdate: (itemIds: string[], decision: string) => Promise; +} +``` + +--- + +## 📱 响应式设计 + +### 表格布局适配 +- **桌面端**: 完整表格显示 +- **平板端**: 可横向滚动,关键列固定 +- **移动端**: 卡片式布局替代表格 + +--- + +## ⏳ 待完善内容 + +后续将补充: +- 详细组件接口定义 +- 组件交互流程图 +- 样式设计规范 +- 组件使用示例 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/02-技术设计/04-AI模型集成设计.md b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/04-AI模型集成设计.md new file mode 100644 index 00000000..c1a1cd4e --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/04-AI模型集成设计.md @@ -0,0 +1,24 @@ +# AI模型集成设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/02-技术设计/05-文件处理设计.md b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/05-文件处理设计.md new file mode 100644 index 00000000..1bcb07d6 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/05-文件处理设计.md @@ -0,0 +1,24 @@ +# 文件处理设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/02-技术设计/06-质量保障与可追溯策略.md b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/06-质量保障与可追溯策略.md new file mode 100644 index 00000000..200295be --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/06-质量保障与可追溯策略.md @@ -0,0 +1,949 @@ +# ASL 质量保障与可追溯策略 + +> **文档版本:** V1.0 +> **创建日期:** 2025-11-15 +> **适用模块:** AI 智能文献(ASL) +> **目标:** 分阶段提升文献筛选、数据提取的准确率、质量控制和可追溯性 + +--- + +## 📋 文档概述 + +本文档定义了 ASL 模块在 **MVP → V1.0 → V2.0** 三个阶段中,如何逐步提升: +1. **提取准确率**:从基础可用 → 高质量 → 医学级标准 +2. **质量控制**:从人工抽查 → 自动验证 → 智能仲裁 +3. **可追溯性**:从基本记录 → 完整证据链 → 审计级日志 + +### 核心设计原则 + +| 原则 | 说明 | +|------|------| +| **成本可控** | MVP 阶段优先使用 DeepSeek + Qwen3,成本敏感 | +| **质量可升级** | 可切换到 GPT-5-Pro + Claude-4.5 高端组合 | +| **分步实施** | 避免过度设计,每个阶段交付可用功能 | +| **医学场景优化** | 针对英文医学文献的特点优化策略 | + +--- + +## 🎯 三阶段路线图 + +``` +MVP (4周) V1.0 (6周) V2.0 (8周) +├─ 基础双模型验证 ├─ 智能质量控制 ├─ 医学级质量保障 +├─ JSON Schema 约束 ├─ 分段提取优化 ├─ 多模型共识仲裁 +├─ 置信度评分 ├─ 证据链完整追溯 ├─ 自动质量审计 +├─ 人工复核机制 ├─ 规则引擎验证 ├─ 提示词版本管理 +└─ 基本追溯日志 └─ Few-shot 示例库 └─ HITL 智能分流 + ↓ ↓ ↓ + 可用 高质量 医学级 +``` + +--- + +## 🚀 MVP 阶段(4 周) + +### 目标定位 + +- **准确率目标**:≥ 85% +- **成本预算**:筛选 1000 篇文献 ≤ ¥50 +- **交付标准**:基础功能可用,支持双模型对比 + +### 一、模型选择策略 + +#### 1.1 主力模型组合(成本优先) + +| 角色 | 模型 | Model ID | 用途 | 成本 | +|------|------|---------|------|------| +| **模型 A** | DeepSeek-V3 | `deepseek-chat` | 快速初筛 | ¥0.001/1K tokens | +| **模型 B** | Qwen3-72B | `qwen-max` | 交叉验证 | ¥0.004/1K tokens | + +**切换选项**(质量优先): +- **高端组合**:GPT-5-Pro (`gpt-5-pro`) + Claude-4.5-Sonnet (`claude-sonnet-4-5-20250929`) +- **成本增加**:约 3-5 倍 +- **准确率提升**:85% → 92%+ + +#### 1.2 模型调用策略 + +```typescript +// 双模型并行调用 +async function dualModelScreening( + literature: Literature, + protocol: Protocol +) { + // 并行调用两个模型 + const [resultA, resultB] = await Promise.all([ + llmService.chat('deepseek', buildPrompt(literature, protocol)), + llmService.chat('qwen', buildPrompt(literature, protocol)) + ]); + + // 解析 JSON 结果 + const decisionA = parseJSON(resultA.content); + const decisionB = parseJSON(resultB.content); + + // 一致性判断 + if (decisionA.decision === decisionB.decision) { + return { + finalDecision: decisionA.decision, + consensus: 'high', + needReview: false, + models: [decisionA, decisionB] + }; + } + + // 冲突 → 人工复核 + return { + finalDecision: 'uncertain', + consensus: 'conflict', + needReview: true, + models: [decisionA, decisionB] + }; +} +``` + +### 二、核心技术策略 + +#### 2.1 ✅ 双模型交叉验证 + +**实施方案**: +- 所有筛选任务同时调用两个模型 +- 自动对比结果,标记差异 +- 一致率作为质量指标(目标 ≥ 80%) + +**代码示例**: +```typescript +interface DualModelResult { + consensus: 'high' | 'conflict'; + finalDecision: 'include' | 'exclude' | 'uncertain'; + needReview: boolean; + models: ModelDecision[]; +} +``` + +#### 2.2 ✅ JSON Schema 约束 + +**实施方案**: +- 定义严格的输出格式 +- 使用枚举限制取值 +- 区分必填/可选字段 + +**Schema 定义**: +```json +{ + "$schema": "http://json-schema.org/draft-07/schema#", + "type": "object", + "required": ["decision", "reason", "confidence", "pico"], + "properties": { + "decision": { + "type": "string", + "enum": ["include", "exclude", "uncertain"] + }, + "reason": { + "type": "string", + "minLength": 10, + "maxLength": 500 + }, + "confidence": { + "type": "number", + "minimum": 0, + "maximum": 1 + }, + "pico": { + "type": "object", + "required": ["population", "intervention", "comparison", "outcome"], + "properties": { + "population": { + "type": "string", + "enum": ["match", "partial", "mismatch"] + }, + "intervention": { + "type": "string", + "enum": ["match", "partial", "mismatch"] + }, + "comparison": { + "type": "string", + "enum": ["match", "partial", "mismatch", "not_applicable"] + }, + "outcome": { + "type": "string", + "enum": ["match", "partial", "mismatch"] + } + } + }, + "studyDesign": { + "type": "string", + "enum": ["RCT", "cohort", "case-control", "cross-sectional", "other"] + } + } +} +``` + +**提示词模板**: +```typescript +const prompt = ` +你是一位医学文献筛选专家。请根据以下 PICO 标准判断这篇文献是否应该纳入系统评价。 + +# PICO 标准 +- Population: ${protocol.population} +- Intervention: ${protocol.intervention} +- Comparison: ${protocol.comparison} +- Outcome: ${protocol.outcome} + +# 文献信息 +标题: ${literature.title} +摘要: ${literature.abstract} + +# 输出要求 +请严格按照以下 JSON Schema 输出结果: + +${JSON.stringify(schema, null, 2)} + +注意: +1. decision 只能是 "include"、"exclude" 或 "uncertain" +2. reason 必须具体说明判断依据(10-500字) +3. confidence 为 0-1 之间的数值,表示你的判断把握 +4. pico 字段逐项评估匹配程度 +`; +``` + +#### 2.3 ✅ 置信度评分 + +**实施方案**: +- 要求模型对每个判断给出置信度(0-1) +- 置信度 < 0.7 自动标记为需人工复核 +- 记录置信度分布,优化阈值 + +**自动分流规则**: +```typescript +function autoTriage(result: DualModelResult) { + const avgConfidence = ( + result.models[0].confidence + + result.models[1].confidence + ) / 2; + + // 规则1:冲突 → 必须复核 + if (result.consensus === 'conflict') { + return { needReview: true, priority: 'high' }; + } + + // 规则2:低置信度 → 需要复核 + if (avgConfidence < 0.7) { + return { needReview: true, priority: 'medium' }; + } + + // 规则3:高置信度 + 一致 → 自动通过 + return { needReview: false, priority: 'low' }; +} +``` + +#### 2.4 ✅ 基础可追溯 + +**实施方案**: +- 保存原始提示词和模型输出 +- 记录模型版本和时间戳 +- 关联人工复核记录 + +**数据库设计**: +```prisma +model ScreeningResult { + id String @id @default(uuid()) + literatureId String + protocolId String + + // 模型A结果 + modelAName String // "deepseek-chat" + modelAOutput Json // 原始JSON输出 + modelAConfidence Float + + // 模型B结果 + modelBName String // "qwen-max" + modelBOutput Json + modelBConfidence Float + + // 最终决策 + finalDecision String // "include"/"exclude"/"uncertain" + consensus String // "high"/"conflict" + needReview Boolean + + // 人工复核 + reviewedBy String? + reviewedAt DateTime? + reviewDecision String? + reviewNotes String? + + // 可追溯信息 + promptTemplate String @db.Text // 使用的提示词模板 + createdAt DateTime @default(now()) + + @@map("asl_screening_results") +} +``` + +### 三、MVP 成本预算 + +**场景:筛选 1000 篇文献** + +| 项目 | DeepSeek | Qwen3 | 合计 | +|------|----------|-------|------| +| 输入 tokens(平均) | 800 | 800 | - | +| 输出 tokens(平均) | 200 | 200 | - | +| 单次成本 | ¥0.001 | ¥0.004 | ¥0.005 | +| **1000 篇总成本** | ¥1 | ¥4 | **¥5** | + +**冲突率 20% 人工复核**: +- 自动通过:800 篇 × ¥0.005 = ¥4 +- 人工复核:200 篇 × 2 分钟 = 6.7 小时 +- **总成本**:¥4 + 人工成本 + +### 四、MVP 验收标准 + +| 指标 | 目标 | 验证方法 | +|------|------|----------| +| 双模型一致率 | ≥ 80% | 统计报表 | +| JSON Schema 验证通过率 | ≥ 95% | 自动检查 | +| 人工复核队列占比 | ≤ 20% | 系统统计 | +| 提取结果可追溯 | 100% | 审计检查 | +| 成本控制 | ≤ ¥50/1000 篇 | 账单监控 | + +--- + +## 📈 V1.0 阶段(6 周) + +### 目标定位 + +- **准确率目标**:≥ 90% +- **成本预算**:筛选 1000 篇文献 ≤ ¥80 +- **交付标准**:高质量输出,智能质量控制 + +### 一、模型策略优化 + +#### 1.1 成本优化策略 + +**核心思路**:80% 用低成本模型,20% 高价值任务用顶级模型 + +```typescript +async function smartScreening(literature: Literature, protocol: Protocol) { + // 第一阶段:快速初筛(DeepSeek) + const quickResult = await llmService.chat('deepseek', buildPrompt(...)); + const quickDecision = parseJSON(quickResult.content); + + // 如果高置信度 + 明确结论 → 直接采纳 + if ( + quickDecision.confidence > 0.85 && + quickDecision.decision !== 'uncertain' + ) { + return { + finalDecision: quickDecision.decision, + strategy: 'cost-optimized', + models: [quickDecision] + }; + } + + // 否则 → 启用高端模型复核 + const detailedResult = await llmService.chat('gpt5', buildPrompt(...)); + return { + finalDecision: detailedResult.decision, + strategy: 'quality-assured', + models: [quickDecision, detailedResult] + }; +} +``` + +**预期成本节省**: +- 80% 任务用 DeepSeek:800 × ¥0.001 = ¥0.8 +- 20% 任务用 GPT-5:200 × ¥0.10 = ¥20 +- **总成本**:¥20.8(相比全用 GPT-5 节省 80%) + +### 二、核心技术增强 + +#### 2.1 ✅ Few-shot 示例库 + +**实施方案**: +- 人工标注 20-30 个高质量示例 +- 针对不同研究类型分类(RCT、队列、病例对照) +- 动态选择相似示例嵌入提示词 + +**示例格式**: +```json +{ + "examples": [ + { + "title": "Effect of aspirin on cardiovascular events in patients with diabetes", + "abstract": "...", + "goldStandard": { + "decision": "include", + "reason": "RCT研究,人群为糖尿病患者(匹配P),干预为阿司匹林(匹配I),对照为安慰剂(匹配C),结局为心血管事件(匹配O)", + "pico": { + "population": "match", + "intervention": "match", + "comparison": "match", + "outcome": "match" + }, + "studyDesign": "RCT" + } + } + ] +} +``` + +**提示词增强**: +```typescript +const promptWithExamples = ` +# 参考示例 + +以下是 3 个标注好的示例,帮助你理解判断标准: + +${examples.map((ex, i) => ` +## 示例 ${i + 1} +标题: ${ex.title} +摘要: ${ex.abstract} +判断: ${ex.goldStandard.decision} +理由: ${ex.goldStandard.reason} +`).join('\n')} + +# 待筛选文献 +标题: ${literature.title} +摘要: ${literature.abstract} + +请参考上述示例,输出你的判断结果(JSON格式)。 +`; +``` + +#### 2.2 ✅ 分段提取 + +**实施方案**: +- 针对全文数据提取,按章节分段处理 +- 每段独立提取,减少上下文混淆 +- 最后合并结果,交叉验证一致性 + +**分段策略**: +```typescript +async function segmentedExtraction(fullText: string, protocol: Protocol) { + // 分段 + const sections = { + methods: extractSection(fullText, 'methods'), + results: extractSection(fullText, 'results'), + tables: extractTables(fullText), + }; + + // 并行提取 + const [methodsData, resultsData, tablesData] = await Promise.all([ + extractFromMethods(sections.methods, protocol), + extractFromResults(sections.results, protocol), + extractFromTables(sections.tables, protocol), + ]); + + // 合并结果 + return mergeExtractionResults([methodsData, resultsData, tablesData]); +} +``` + +**提取示例(方法学部分)**: +```typescript +const methodsPrompt = ` +请从以下方法学部分提取研究设计信息: + +# 方法学原文 +${methodsSection} + +# 提取字段 +- 研究设计类型(RCT/cohort/case-control等) +- 样本量(干预组/对照组) +- 纳入标准 +- 排除标准 +- 随机化方法(如适用) +- 盲法(如适用) + +# 输出格式(JSON) +${methodsSchema} +`; +``` + +#### 2.3 ✅ 规则引擎验证 + +**实施方案**: +- 定义业务规则,自动检查逻辑错误 +- 数值范围验证 +- 必填字段完整性检查 + +**验证规则**: +```typescript +const validationRules = [ + { + name: '样本量合理性', + check: (data) => { + const total = data.sampleSize.intervention + data.sampleSize.control; + return total >= 10 && total <= 100000; + }, + errorMessage: '样本量超出合理范围(10-100000)' + }, + { + name: 'P值范围', + check: (data) => { + return data.pValue >= 0 && data.pValue <= 1; + }, + errorMessage: 'P值必须在0-1之间' + }, + { + name: '必填字段完整性', + check: (data) => { + const required = ['studyDesign', 'sampleSize', 'primaryOutcome']; + return required.every(field => data[field] != null); + }, + errorMessage: '缺少必填字段' + } +]; + +function validateExtraction(data: ExtractionResult): ValidationReport { + const errors = []; + for (const rule of validationRules) { + if (!rule.check(data)) { + errors.push(rule.errorMessage); + } + } + return { + isValid: errors.length === 0, + errors + }; +} +``` + +#### 2.4 ✅ 完整证据链 + +**实施方案**: +- 记录原文引用位置(页码、段落、句子) +- 保存模型完整输出(含中间推理) +- 关联所有人工修改记录 + +**数据库增强**: +```prisma +model ExtractionResult { + id String @id @default(uuid()) + + // 提取内容 + extractedData Json + + // 证据链(新增) + evidenceChain Json // { + // "sampleSize": { + // "value": 150, + // "source": { + // "page": 3, + // "paragraph": 2, + // "text": "A total of 150 patients were enrolled..." + // } + // } + // } + + // 模型信息 + modelName String + modelVersion String + promptVersion String // "v1.2.0" + rawOutput String @db.Text // 原始输出(含CoT推理) + + // 修改历史 + revisions ExtractionRevision[] + + createdAt DateTime @default(now()) + @@map("asl_extraction_results") +} + +model ExtractionRevision { + id String @id @default(uuid()) + extractionId String + + fieldName String // 修改的字段 + oldValue Json + newValue Json + reason String // 修改理由 + + revisedBy String + revisedAt DateTime @default(now()) + + extraction ExtractionResult @relation(fields: [extractionId], references: [id]) + @@map("asl_extraction_revisions") +} +``` + +### 三、V1.0 成本预算 + +**场景:筛选 1000 篇 + 提取 200 篇全文** + +| 任务 | 策略 | 成本 | +|------|------|------| +| 标题摘要筛选 | 80% DeepSeek + 20% GPT-5 | ¥21 | +| 全文数据提取 | 分段提取(GPT-5) | ¥60 | +| **总成本** | - | **¥81** | + +### 四、V1.0 验收标准 + +| 指标 | 目标 | 验证方法 | +|------|------|----------| +| 提取准确率 | ≥ 90% | 人工抽查 50 篇 | +| Few-shot 示例库 | ≥ 20 个 | 人工标注 | +| 规则引擎覆盖率 | ≥ 80% | 代码审查 | +| 证据链完整性 | 100% | 审计检查 | +| 成本控制 | ≤ ¥80/项目 | 账单监控 | + +--- + +## 🏆 V2.0 阶段(8 周) + +### 目标定位 + +- **准确率目标**:≥ 95%(医学级) +- **成本预算**:按需配置 +- **交付标准**:自动化质量审计,符合临床研究规范 + +### 一、医学级质量保障 + +#### 1.1 ✅ 三模型共识仲裁 + +**实施方案**: +- 双模型冲突时,自动启用第三方仲裁 +- 三模型投票决策 +- 记录仲裁过程 + +```typescript +async function threeModelArbitration( + literature: Literature, + protocol: Protocol +) { + // 第一轮:双模型 + const [resultA, resultB] = await Promise.all([ + llmService.chat('deepseek', buildPrompt(...)), + llmService.chat('qwen', buildPrompt(...)) + ]); + + // 如果一致,直接返回 + if (resultA.decision === resultB.decision) { + return { finalDecision: resultA.decision, arbitration: false }; + } + + // 冲突 → 启用 Claude 仲裁 + console.log('检测到冲突,启用 Claude-4.5 仲裁...'); + const resultC = await llmService.chat('claude', buildPrompt(...)); + + // 三模型投票 + const votes = [resultA.decision, resultB.decision, resultC.decision]; + const voteCount = { + include: votes.filter(v => v === 'include').length, + exclude: votes.filter(v => v === 'exclude').length, + uncertain: votes.filter(v => v === 'uncertain').length, + }; + + // 多数决 + const winner = Object.entries(voteCount) + .sort((a, b) => b[1] - a[1])[0][0]; + + return { + finalDecision: winner, + arbitration: true, + votes: { resultA, resultB, resultC }, + consensus: voteCount[winner] >= 2 ? 'strong' : 'weak' + }; +} +``` + +**成本控制**: +- 仅在冲突时启用仲裁(预计 10-15%) +- 单次仲裁额外成本:¥0.021(Claude-4.5) + +#### 1.2 ✅ HITL 智能分流 + +**实施方案**: +- 基于规则的智能优先级排序 +- 高价值/高风险任务优先人工复核 +- 低风险任务自动化处理 + +**分流规则**: +```typescript +function intelligentTriage(result: ScreeningResult): TriageDecision { + let priority = 0; + let needReview = false; + + // 规则1:三模型仍不一致 → 最高优先级 + if (result.arbitration && result.consensus === 'weak') { + priority = 100; + needReview = true; + } + // 规则2:RCT 研究 → 中等优先级 + else if (result.studyDesign === 'RCT') { + priority = 70; + needReview = result.confidence < 0.9; + } + // 规则3:关键结局指标 → 高优先级 + else if (result.outcome.includes('mortality')) { + priority = 80; + needReview = result.confidence < 0.85; + } + // 规则4:高置信度 + 一致 → 自动通过 + else if (result.confidence > 0.95 && result.consensus === 'high') { + priority = 10; + needReview = false; + } + + return { priority, needReview }; +} +``` + +#### 1.3 ✅ 提示词版本管理 + +**实施方案**: +- Git 管理提示词模板 +- 版本号标记(语义化版本) +- A/B 测试不同版本效果 + +**目录结构**: +``` +backend/prompts/asl/ +├── screening/ +│ ├── v1.0.0-basic.txt +│ ├── v1.1.0-with-examples.txt +│ └── v1.2.0-cot.txt +├── extraction/ +│ ├── v1.0.0-methods.txt +│ └── v1.1.0-methods-segmented.txt +└── changelog.md +``` + +**版本记录**: +```prisma +model PromptVersion { + id String @id @default(uuid()) + + name String // "screening-v1.2.0" + content String @db.Text + version String // "1.2.0" + changelog String // "增加 Few-shot 示例" + + // 性能指标 + accuracy Float? // 0.92 + usageCount Int @default(0) + + isActive Boolean @default(false) + createdAt DateTime @default(now()) + + @@map("asl_prompt_versions") +} +``` + +#### 1.4 ✅ 自动质量审计 + +**实施方案**: +- 定期批量抽查(10%) +- 自动生成质量报告 +- 异常检测和告警 + +**审计报表**: +```typescript +interface QualityAuditReport { + period: { start: Date; end: Date }; + totalTasks: number; + sampledTasks: number; + + metrics: { + accuracy: number; // 准确率 + interRaterAgreement: number; // 人机一致性 + falsePositiveRate: number; // 假阳性率 + falseNegativeRate: number; // 假阴性率 + }; + + modelPerformance: { + deepseek: { accuracy: number; avgConfidence: number }; + qwen: { accuracy: number; avgConfidence: number }; + gpt5: { accuracy: number; avgConfidence: number }; + }; + + issues: { + type: string; + count: number; + examples: string[]; + }[]; + + recommendations: string[]; +} +``` + +### 二、高级提示词工程 + +#### 2.1 ✅ Chain of Thought (CoT) + +**实施方案**: +- 要求模型输出推理过程 +- 分步骤判断 PICO 匹配度 +- 最后给出综合结论 + +**提示词示例**: +``` +请按照以下步骤判断这篇文献是否应该纳入: + +# Step 1: 研究设计判断 +- 识别研究类型(RCT/队列/病例对照等) +- 判断是否符合纳入标准 + +# Step 2: PICO 逐项评估 +- Population: 详细分析人群是否匹配 +- Intervention: 详细分析干预措施是否匹配 +- Comparison: 详细分析对照是否匹配 +- Outcome: 详细分析结局指标是否匹配 + +# Step 3: 综合判断 +- 汇总以上分析 +- 给出最终决策(include/exclude/uncertain) +- 评估置信度(0-1) + +# 输出格式 +{ + "reasoning": { + "studyDesign": "这是一项...", + "population": "人群匹配度分析...", + "intervention": "干预措施分析...", + "comparison": "对照分析...", + "outcome": "结局指标分析..." + }, + "decision": "include", + "confidence": 0.95, + "reason": "基于以上分析..." +} +``` + +#### 2.2 ✅ 动态示例选择 + +**实施方案**: +- 计算待筛选文献与示例库的语义相似度 +- 动态选择最相似的 3-5 个示例 +- 嵌入提示词 + +```typescript +async function selectSimilarExamples( + literature: Literature, + examplePool: Example[] +): Promise { + // 使用嵌入模型计算相似度 + const literatureEmbedding = await getEmbedding( + `${literature.title} ${literature.abstract}` + ); + + const similarities = examplePool.map(ex => ({ + example: ex, + similarity: cosineSimilarity(literatureEmbedding, ex.embedding) + })); + + // 返回最相似的 5 个 + return similarities + .sort((a, b) => b.similarity - a.similarity) + .slice(0, 5) + .map(s => s.example); +} +``` + +### 三、V2.0 成本预算 + +**场景:高质量系统评价项目(筛选 5000 篇 + 提取 300 篇)** + +| 任务 | 策略 | 成本 | +|------|------|------| +| 标题摘要筛选 | 成本优化 + 15% 仲裁 | ¥120 | +| 全文数据提取 | GPT-5 + Claude 双模型 | ¥350 | +| 质量审计 | 10% 抽查 | ¥30 | +| **总成本** | - | **¥500** | + +### 四、V2.0 验收标准 + +| 指标 | 目标 | 验证方法 | +|------|------|----------| +| 提取准确率 | ≥ 95% | 人工抽查 100 篇 | +| 人机一致性 | ≥ 90% | Cohen's Kappa | +| 假阳性率 | ≤ 5% | 统计分析 | +| 假阴性率 | ≤ 3% | 统计分析 | +| 提示词版本管理 | 100% | Git 历史 | +| 自动化审计 | 每周 1 次 | 系统报表 | + +--- + +## 📊 三阶段对比总结 + +| 维度 | MVP | V1.0 | V2.0 | +|------|-----|------|------| +| **准确率** | 85% | 90% | 95% | +| **模型组合** | DeepSeek + Qwen3 | 成本优化策略 | 三模型仲裁 | +| **质量控制** | 双模型验证 | 规则引擎 + Few-shot | HITL + 自动审计 | +| **可追溯性** | 基本日志 | 完整证据链 | 审计级记录 | +| **成本/1000 篇** | ¥5 | ¥21 | ¥24 + 仲裁 | +| **开发周期** | 4 周 | 6 周 | 8 周 | +| **适用场景** | 快速验证 | 常规项目 | 高质量发表 | + +--- + +## 🔄 实施路径 + +### 阶段 1: MVP 开发(Week 1-4) + +**Week 1**:基础架构 +- [ ] LLM 服务封装(DeepSeek + Qwen3) +- [ ] JSON Schema 定义 +- [ ] 数据库表设计 + +**Week 2**:核心功能 +- [ ] 双模型并行调用 +- [ ] 一致性判断逻辑 +- [ ] 人工复核队列 + +**Week 3**:前端开发 +- [ ] 筛选工作台 +- [ ] 冲突对比视图 +- [ ] 人工复核界面 + +**Week 4**:测试验收 +- [ ] 功能测试 +- [ ] 准确率评估 +- [ ] 成本监控 + +### 阶段 2: V1.0 增强(Week 5-10) + +**Week 5-6**:智能优化 +- [ ] 成本优化策略 +- [ ] Few-shot 示例库 +- [ ] 动态示例选择 + +**Week 7-8**:质量控制 +- [ ] 分段提取 +- [ ] 规则引擎 +- [ ] 证据链完整化 + +**Week 9-10**:测试优化 +- [ ] A/B 测试 +- [ ] 准确率提升 +- [ ] 文档完善 + +### 阶段 3: V2.0 完善(Week 11-18) + +**Week 11-13**:高级功能 +- [ ] 三模型仲裁 +- [ ] HITL 智能分流 +- [ ] 提示词版本管理 + +**Week 14-16**:质量审计 +- [ ] 自动审计系统 +- [ ] 质量报表 +- [ ] 异常检测 + +**Week 17-18**:发布准备 +- [ ] 全量测试 +- [ ] 医学专家验证 +- [ ] 文档和培训 + +--- + +## 📚 相关文档 + +- [CloseAI 集成指南](../../../02-通用能力层/01-LLM大模型网关/03-CloseAI集成指南.md) +- [AI 模型集成设计](./04-AI模型集成设计.md) +- [数据库设计](./01-数据库设计.md) +- [API 设计规范](./02-API设计规范.md) + +--- + +**更新日志**: +- 2025-11-15: 创建文档,定义 MVP/V1.0/V2.0 三阶段策略 + diff --git a/docs/03-业务模块/ASL-AI智能文献/02-技术设计/07-文献处理技术选型.md b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/07-文献处理技术选型.md new file mode 100644 index 00000000..c3f20407 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/02-技术设计/07-文献处理技术选型.md @@ -0,0 +1,1024 @@ +# ASL 文献处理技术选型 + +> **文档版本:** V1.0 +> **创建日期:** 2025-11-15 +> **适用模块:** AI 智能文献(ASL) +> **目标:** 定义初筛、全文复筛、全文提取的技术栈和实现路径 + +--- + +## 📋 文档概述 + +ASL 模块涉及三种不同的文献处理场景,每种场景有不同的技术特点和实现方案: + +| 场景 | 输入格式 | 核心技术 | 主要挑战 | +|------|---------|---------|---------| +| **标题摘要初筛** | Excel 文件 | Excel 解析 + LLM 筛选 | 批量处理效率 | +| **全文复筛** | PDF 全文 | PDF 提取 + LLM 筛选 | PDF 解析准确率 | +| **全文数据提取** | PDF 全文 | PDF 提取 + LLM 结构化提取 | 表格、公式准确提取 | + +--- + +## 🎯 技术架构总览 + +``` +┌─────────────────────────────────────────────────────────┐ +│ ASL 文献处理流程 │ +└─────────────────────────────────────────────────────────┘ + │ + ├─ 场景 1: 标题摘要初筛 + │ └─ 用户上传 Excel → 解析 → LLM 批量筛选 → 导出结果 + │ + ├─ 场景 2: 全文复筛 + │ └─ 用户上传 PDF → PDF 提取 → LLM 筛选 → 复核 + │ + └─ 场景 3: 全文数据提取 + └─ PDF → 提取 + 结构化 → LLM 提取数据 → 人工复核 + +┌─────────────────────────────────────────────────────────┐ +│ 技术栈分层架构(共享) │ +├─────────────────────────────────────────────────────────┤ +│ 前端层: React 19 + Ant Design 5 + xlsx/exceljs │ +├─────────────────────────────────────────────────────────┤ +│ 后端层: Node.js (Fastify) + TypeScript │ +├─────────────────────────────────────────────────────────┤ +│ 文档处理层: Python 微服务 (extraction_service) │ +│ ├─ PyMuPDF: 快速 PDF 提取 │ +│ ├─ Nougat: 英文科学文献高质量提取 ⭐ │ +│ └─ Language Detector: 自动语言检测 │ +├─────────────────────────────────────────────────────────┤ +│ LLM 层: DeepSeek-V3 + Qwen3 / GPT-5 + Claude-4.5 │ +├─────────────────────────────────────────────────────────┤ +│ 数据库: PostgreSQL 15 (asl_schema) │ +└─────────────────────────────────────────────────────────┘ +``` + +--- + +## 📌 场景 1: 标题摘要初筛 + +### 1.1 技术特点 + +- **输入格式**: Excel 文件 (`.xlsx` / `.xls`) +- **数据规模**: 50-500 篇文献/批次 +- **主要字段**: 标题、摘要、DOI、作者、发表年份、期刊 +- **处理重点**: 批量高效处理,无需 PDF 解析 + +### 1.2 技术选型 + +#### 前端:Excel 上传与解析 + +| 技术 | 库 | 用途 | 优势 | +|------|-----|------|------| +| **Excel 上传** | `antd Upload` | 文件上传组件 | 拖拽上传、进度条 | +| **Excel 解析** | `xlsx` / `exceljs` | 前端解析 Excel | 纯前端处理,快速预览 | +| **模板验证** | 自定义逻辑 | 校验列名和数据格式 | 提前发现格式错误 | + +**推荐方案:`xlsx` 库(SheetJS)** +- ✅ 支持 `.xlsx` 和 `.xls` 格式 +- ✅ 纯 JavaScript,前端直接解析 +- ✅ 体积小(~600KB),性能好 +- ✅ 支持大文件(1000+ 行) + +**代码示例:** +```typescript +import * as XLSX from 'xlsx'; + +function parseExcel(file: File): Promise { + return new Promise((resolve, reject) => { + const reader = new FileReader(); + + reader.onload = (e) => { + try { + const data = new Uint8Array(e.target.result as ArrayBuffer); + const workbook = XLSX.read(data, { type: 'array' }); + + // 读取第一个工作表 + const sheetName = workbook.SheetNames[0]; + const worksheet = workbook.Sheets[sheetName]; + + // 转换为 JSON + const jsonData = XLSX.utils.sheet_to_json(worksheet); + + // 映射为标准格式 + const literatures = jsonData.map((row: any) => ({ + title: row['Title'] || row['标题'], + abstract: row['Abstract'] || row['摘要'], + doi: row['DOI'], + authors: row['Authors'] || row['作者'], + year: row['Year'] || row['年份'], + journal: row['Journal'] || row['期刊'], + })); + + resolve(literatures); + } catch (error) { + reject(new Error('Excel 解析失败')); + } + }; + + reader.onerror = () => reject(new Error('文件读取失败')); + reader.readAsArrayBuffer(file); + }); +} +``` + +#### 后端:批量筛选处理 + +**处理流程:** +``` +Excel 数据 → 批量分组(10-20 篇/组)→ 并行调用 LLM → 汇总结果 +``` + +**关键技术点:** +1. **批量分组**:避免单次请求过大,10-20 篇/组最优 +2. **并行处理**:使用 `Promise.all` 并行调用 LLM +3. **进度推送**:WebSocket 实时推送处理进度 +4. **断点续传**:支持任务中断后继续 + +**代码示例:** +```typescript +async function batchScreening( + literatures: Literature[], + protocol: Protocol, + progressCallback: (progress: number) => void +) { + const batchSize = 15; + const batches = chunk(literatures, batchSize); + const results = []; + + for (let i = 0; i < batches.length; i++) { + const batch = batches[i]; + + // 并行处理当前批次 + const batchResults = await Promise.all( + batch.map(lit => dualModelScreening(lit, protocol)) + ); + + results.push(...batchResults); + + // 推送进度 + const progress = Math.round(((i + 1) / batches.length) * 100); + progressCallback(progress); + } + + return results; +} +``` + +### 1.3 数据流 + +``` +用户操作 前端处理 后端处理 LLM 处理 + │ │ │ │ + ├─ 上传 Excel │ │ │ + │ └──────────────→│ │ │ + │ ├─ 解析 Excel │ │ + │ ├─ 验证格式 │ │ + │ ├─ 显示预览 │ │ + │ │ │ │ + │ ├─ 提交筛选任务 │ │ + │ │ └───────────────→│ │ + │ │ ├─ 保存任务 │ + │ │ ├─ 分组(15 篇/组) │ + │ │ │ │ + │ │ ├─ 批次 1 │ + │ │ │ └──────────────→│ + │ │ │ ├─ DeepSeek 筛选 + │ │ │ ├─ Qwen3 筛选 + │ │ │ ├─ 对比结果 + │ │ │ ←──────────────┘ + │ │ ├─ 保存结果 │ + │ │ │ │ + │ │ ├─ 批次 2... │ + │ │ │ │ + │ │ ←───────────────┤ 返回完整结果 │ + │ ←──────────────┤ 显示结果 │ │ + └─ 人工复核 │ │ │ +``` + +--- + +## 📌 场景 2 & 3: 全文复筛与数据提取 + +### 2.1 技术特点 + +- **输入格式**: PDF 文件(英文医学文献) +- **文件特点**: + - 科学论文格式(标题、摘要、引言、方法、结果、讨论、参考文献) + - 包含复杂表格、公式、图表 + - 通常 10-30 页 +- **处理重点**: 高准确率提取,保留结构和格式 + +### 2.2 技术选型:PDF 提取 + +#### 核心方案:Nougat + PyMuPDF 顺序降级策略 ⭐ + +**现有架构**(已实现,位于 `extraction_service/`): + +```python +# 顺序降级策略 +def extract_pdf(file_path: str): + # Step 1: 检测语言 + language = detect_language(file_path) + + # Step 2: 中文 PDF → PyMuPDF(快速) + if language == 'chinese': + return extract_pdf_pymupdf(file_path) + + # Step 3: 英文 PDF → 尝试 Nougat + if check_nougat_available(): + result = extract_pdf_nougat(file_path) + + # 质量检查(阈值 0.7) + if result['quality_score'] >= 0.7: + return result # ✅ Nougat 成功 + + # Step 4: 降级到 PyMuPDF + return extract_pdf_pymupdf(file_path) +``` + +#### 技术对比 + +| 方案 | 优势 | 劣势 | 适用场景 | +|------|------|------|---------| +| **Nougat** ⭐ | • 专为科学文献设计
• 公式、表格准确率高
• 输出 Markdown 格式
• 保留文档结构 | • 速度慢(1-2 分钟/20 页)
• 需要 GPU 加速
• 内存占用大(~4GB) | 英文医学文献全文提取 | +| **PyMuPDF** | • 速度快(秒级)
• 内存占用低
• 部署简单 | • 公式、表格易丢失
• 纯文本输出
• 布局易混乱 | 中文文献、快速预览 | +| **Adobe API** | • 商业级准确率
• 云端处理 | • 需付费
• 网络依赖
• 隐私风险 | 不推荐(成本高) | +| **Tesseract OCR** | • 开源免费
• 支持多语言 | • 需要图像预处理
• 准确率不稳定 | 扫描版 PDF(备选) | + +**推荐方案:Nougat(主) + PyMuPDF(降级) ⭐** + +#### Nougat 核心优势(医学文献场景) + +``` +✅ 专为科学文献设计 + ├─ 训练数据:arXiv 论文 + 科学期刊 + ├─ 公式识别:LaTeX 格式输出 + ├─ 表格保留:Markdown 表格格式 + └─ 结构化输出:章节、段落清晰 + +✅ 输出格式:Markdown + ├─ 标题层级:# ## ### + ├─ 表格:| Header | Data | + ├─ 公式:$$ formula $$ + └─ 引用:[1] [2] [3] + +✅ 质量评估机制 + ├─ 自动质量评分(0-1) + ├─ 低质量自动降级 PyMuPDF + └─ 保证提取成功率 +``` + +#### 实现细节 + +**服务架构:** +``` +Node.js Backend (Port 3001) + │ + ├─ 调用 ExtractionClient.ts + │ └─ HTTP 请求 → Python 微服务 + │ +Python Extraction Service (Port 8000) + │ + ├─ /api/extract/pdf + │ ├─ detect_language() + │ ├─ extract_pdf_nougat() → Nougat Model + │ └─ extract_pdf_pymupdf() → PyMuPDF + │ + └─ /api/health + └─ 检查 Nougat 可用性 +``` + +**Node.js 调用代码:** +```typescript +import { extractionClient } from '@common/document/ExtractionClient'; + +async function extractLiteraturePDF(file: Buffer, filename: string) { + try { + // 方法 1: 自动选择(推荐) + const result = await extractionClient.extractPdf( + file, + filename, + 'auto' + ); + + // 方法 2: 强制使用 Nougat + // const result = await extractionClient.extractPdf(file, filename, 'nougat'); + + return { + text: result.text, + method: result.method, // "nougat" | "pymupdf" + quality: result.metadata.quality_score, + pageCount: result.metadata.page_count, + hasTables: result.metadata.has_tables, + hasFormulas: result.metadata.has_formulas + }; + } catch (error) { + console.error('PDF extraction failed:', error); + throw error; + } +} +``` + +**Python 提取代码:** +```python +# extraction_service/services/nougat_extractor.py + +def extract_pdf_nougat(file_path: str) -> Dict[str, Any]: + """ + 使用 Nougat 提取 PDF 文本 + + 命令行调用: + nougat -o --markdown --no-skipping + """ + cmd = [ + 'nougat', + file_path, + '-o', output_dir, + '--markdown', # 输出 Markdown 格式 + '--no-skipping' # 不跳过任何页面 + ] + + # 执行 Nougat(超时 5 分钟) + process = subprocess.Popen(cmd, ...) + stdout, stderr = process.communicate(timeout=300) + + # 读取输出文件(.mmd) + markdown_text = read_output_file() + + # 质量评估 + quality_score = evaluate_nougat_quality(markdown_text) + + return { + "success": True, + "method": "nougat", + "text": markdown_text, + "format": "markdown", + "metadata": { + "quality_score": quality_score, + "has_tables": detect_tables(markdown_text), + "has_formulas": detect_formulas(markdown_text) + } + } +``` + +### 2.3 文本后处理 + +**Nougat 输出优化:** +```typescript +function postProcessNougatOutput(markdown: string): ProcessedText { + return { + // 原始 Markdown + raw: markdown, + + // 章节分割 + sections: extractSections(markdown), // {abstract, methods, results, ...} + + // 表格提取 + tables: extractTables(markdown), + + // 公式提取 + formulas: extractFormulas(markdown), + + // 纯文本(去除格式) + plainText: markdownToPlainText(markdown), + + // 结构化数据(用于 LLM) + structured: { + title: extractTitle(markdown), + abstract: extractAbstract(markdown), + methodology: extractMethodology(markdown), + results: extractResults(markdown), + } + }; +} +``` + +--- + +## 📌 场景 4: 文献下载(Unpaywall API)⭐ + +### 3.1 技术背景 + +**Unpaywall** 是一个免费的开放获取(Open Access)文献 API,可以: +- ✅ 通过 DOI 查询文献是否有免费全文 +- ✅ 获取合法的 PDF 下载链接 +- ✅ 完全免费,无需付费 +- ✅ 数据库覆盖 3000+ 万篇文献 + +**官网**: https://unpaywall.org/products/api + +### 3.2 技术选型 + +#### API 调用方式 + +**基础信息:** +- **API 端点**: `https://api.unpaywall.org/v2/{doi}?email={your_email}` +- **请求方法**: GET +- **认证方式**: 无需 API Key,仅需提供邮箱 +- **速率限制**: 100,000 次/天(免费) + +**示例请求:** +```bash +curl "https://api.unpaywall.org/v2/10.1038/nature12373?email=YOUR_EMAIL" +``` + +**响应示例:** +```json +{ + "doi": "10.1038/nature12373", + "title": "The genome of the woodland strawberry", + "is_oa": true, + "oa_status": "gold", + "best_oa_location": { + "url": "https://www.nature.com/articles/nature12373.pdf", + "url_for_pdf": "https://www.nature.com/articles/nature12373.pdf", + "url_for_landing_page": "https://www.nature.com/articles/nature12373", + "license": "cc-by", + "version": "publishedVersion" + }, + "oa_locations": [...] +} +``` + +#### Node.js 实现 + +**服务封装:** +```typescript +// backend/src/common/literature/UnpaywallClient.ts + +import axios from 'axios'; +import { config } from '../../config/env'; + +export interface UnpaywallResult { + doi: string; + title: string; + isOA: boolean; // 是否开放获取 + oaStatus: string; // "gold" | "green" | "hybrid" | "bronze" | "closed" + pdfUrl: string | null; // PDF 下载链接 + landingPageUrl: string; // 文献页面链接 + license: string | null; // 许可协议 + version: string | null; // "publishedVersion" | "acceptedVersion" +} + +class UnpaywallClient { + private baseUrl = 'https://api.unpaywall.org/v2'; + private email: string; + + constructor(email: string = config.unpaywallEmail) { + this.email = email; + } + + /** + * 通过 DOI 查询文献信息 + */ + async getByDoi(doi: string): Promise { + try { + const url = `${this.baseUrl}/${doi}?email=${this.email}`; + const response = await axios.get(url, { + timeout: 10000, // 10 秒超时 + }); + + const data = response.data; + + // 获取最佳下载位置 + const bestOA = data.best_oa_location; + + return { + doi: data.doi, + title: data.title, + isOA: data.is_oa, + oaStatus: data.oa_status, + pdfUrl: bestOA?.url_for_pdf || null, + landingPageUrl: bestOA?.url_for_landing_page || data.doi_url, + license: bestOA?.license || null, + version: bestOA?.version || null, + }; + } catch (error) { + if (axios.isAxiosError(error)) { + if (error.response?.status === 404) { + throw new Error(`DOI not found: ${doi}`); + } + } + throw new Error(`Unpaywall API error: ${error.message}`); + } + } + + /** + * 批量查询(带速率限制) + */ + async getBatch(dois: string[]): Promise { + const results = []; + + for (const doi of dois) { + try { + const result = await this.getByDoi(doi); + results.push(result); + + // 速率限制:100ms/请求 + await new Promise(resolve => setTimeout(resolve, 100)); + } catch (error) { + console.error(`Failed to fetch ${doi}:`, error.message); + results.push(null); // 失败项标记为 null + } + } + + return results.filter(r => r !== null); + } + + /** + * 下载 PDF 文件 + */ + async downloadPdf(pdfUrl: string, outputPath: string): Promise { + try { + const response = await axios.get(pdfUrl, { + responseType: 'arraybuffer', + timeout: 60000, // 1 分钟超时 + }); + + const fs = require('fs'); + fs.writeFileSync(outputPath, response.data); + } catch (error) { + throw new Error(`PDF download failed: ${error.message}`); + } + } +} + +export const unpaywallClient = new UnpaywallClient(); +``` + +**环境变量配置:** +```env +# .env +UNPAYWALL_EMAIL=your-email@example.com +``` + +#### 业务集成 + +**场景 1:批量检查文献是否可下载** +```typescript +async function checkLiteratureAvailability(literatures: Literature[]) { + const dois = literatures + .map(lit => lit.doi) + .filter(doi => doi); // 过滤空 DOI + + const results = await unpaywallClient.getBatch(dois); + + return literatures.map(lit => ({ + ...lit, + downloadable: results.find(r => r.doi === lit.doi)?.isOA || false, + pdfUrl: results.find(r => r.doi === lit.doi)?.pdfUrl || null, + })); +} +``` + +**场景 2:用户点击下载全文** +```typescript +async function downloadLiteratureFullText(doi: string) { + // Step 1: 查询 Unpaywall + const unpaywallResult = await unpaywallClient.getByDoi(doi); + + if (!unpaywallResult.pdfUrl) { + throw new Error('该文献无免费全文'); + } + + // Step 2: 下载 PDF + const filename = `${doi.replace(/\//g, '_')}.pdf`; + const outputPath = `./downloads/${filename}`; + + await unpaywallClient.downloadPdf(unpaywallResult.pdfUrl, outputPath); + + // Step 3: 提取文本(调用 extraction_service) + const extractionResult = await extractionClient.extractPdf( + fs.readFileSync(outputPath), + filename, + 'auto' + ); + + return { + pdfPath: outputPath, + text: extractionResult.text, + method: extractionResult.method, + }; +} +``` + +### 3.3 前端集成 + +**批量下载按钮:** +```typescript +// 批量检查可下载性 +async function checkDownloadable(selectedRows: Literature[]) { + setLoading(true); + + const results = await api.checkLiteratureAvailability(selectedRows); + + const downloadableCount = results.filter(r => r.downloadable).length; + + message.success(`发现 ${downloadableCount} 篇可下载全文`); + setLiteratures(results); + setLoading(false); +} + +// 下载全文 +async function downloadFullText(literature: Literature) { + if (!literature.downloadable) { + message.warning('该文献无免费全文'); + return; + } + + try { + const result = await api.downloadLiteratureFullText(literature.doi); + message.success('下载成功'); + + // 打开 PDF 查看器 + openPdfViewer(result.pdfPath); + } catch (error) { + message.error(`下载失败: ${error.message}`); + } +} +``` + +--- + +## 🔍 补充技术点 + +### 4.1 您提到的技术点总结 + +| 技术点 | 状态 | 说明 | +|--------|------|------| +| ✅ Nougat 模型 | 已实现 | `extraction_service/services/nougat_extractor.py` | +| ✅ PyMuPDF | 已实现 | `extraction_service/services/pdf_extractor.py` | +| ✅ 顺序降级策略 | 已实现 | 英文→Nougat,中文→PyMuPDF | +| 🆕 Unpaywall API | 需新增 | 本文档提供实现方案 | +| ✅ Excel 解析 | 需新增 | 使用 `xlsx` 库(前端) | + +### 4.2 可能遗漏的技术点 ⭐ + +#### (1)表格提取增强 + +**问题**:Nougat 虽然保留表格结构,但 LLM 直接处理 Markdown 表格可能不准确。 + +**解决方案:Table Transformer** +```python +# 使用微软的 Table Transformer 模型 +# https://github.com/microsoft/table-transformer + +from transformers import TableTransformerForObjectDetection +import torch + +def extract_tables_enhanced(pdf_path: str): + """ + 使用 Table Transformer 精确定位表格 + """ + model = TableTransformerForObjectDetection.from_pretrained( + "microsoft/table-transformer-detection" + ) + + # 检测表格位置 + tables = model.detect_tables(pdf_path) + + # 提取每个表格 + for table in tables: + table_image = crop_table(pdf_path, table.bbox) + table_data = ocr_table(table_image) + + return structured_tables +``` + +**优先级:V2.0**(MVP 阶段 Nougat 足够) + +#### (2)引用解析与链接 + +**问题**:科学文献包含大量引用 `[1] [2] [3]`,需要解析并链接到参考文献。 + +**解决方案:GROBID** +```python +# GROBID: 开源科学文献解析工具 +# https://github.com/kermitt2/grobid + +import requests + +def parse_references(pdf_path: str): + """ + 使用 GROBID 解析参考文献 + """ + with open(pdf_path, 'rb') as f: + files = {'input': f} + response = requests.post( + 'http://localhost:8070/api/processFulltextDocument', + files=files + ) + + # 返回结构化的引用列表 + return response.json()['references'] +``` + +**优先级:V2.0**(非核心功能) + +#### (3)公式识别与渲染 + +**问题**:Nougat 输出 LaTeX 公式,前端需要渲染。 + +**解决方案:KaTeX / MathJax** +```typescript +// 前端渲染 LaTeX 公式 +import katex from 'katex'; +import 'katex/dist/katex.min.css'; + +function renderFormula(latex: string) { + return katex.renderToString(latex, { + throwOnError: false, + displayMode: true, + }); +} +``` + +**优先级:MVP**(提升用户体验) + +#### (4)PDF 预览与标注 + +**问题**:人工复核时需要查看原文,并高亮标注。 + +**解决方案:PDF.js + Annotator.js** +```typescript +// React 组件 +import { Viewer } from '@react-pdf-viewer/core'; +import '@react-pdf-viewer/core/lib/styles/index.css'; + +function PdfViewer({ pdfUrl, annotations }) { + return ( + + ); +} +``` + +**优先级:MVP**(核心功能) + +#### (5)文献去重 + +**问题**:Excel 上传可能包含重复文献(同一篇文献不同版本)。 + +**解决方案:基于 DOI 和标题的去重** +```typescript +function deduplicateLiteratures(literatures: Literature[]) { + const seen = new Set(); + + return literatures.filter(lit => { + // 优先使用 DOI + if (lit.doi) { + if (seen.has(lit.doi)) return false; + seen.add(lit.doi); + return true; + } + + // 否则使用标题(标准化后) + const normalizedTitle = normalizeTitle(lit.title); + if (seen.has(normalizedTitle)) return false; + seen.add(normalizedTitle); + return true; + }); +} + +function normalizeTitle(title: string): string { + return title + .toLowerCase() + .replace(/[^\w\s]/g, '') // 去除标点 + .replace(/\s+/g, ' ') // 规范化空格 + .trim(); +} +``` + +**优先级:MVP**(必须功能) + +#### (6)文献元数据补全 + +**问题**:Excel 上传的数据可能不完整(缺 DOI、年份等)。 + +**解决方案:Crossref API** +```typescript +// 通过标题查询 DOI +async function enrichMetadata(literature: Literature) { + if (literature.doi) return literature; // 已有 DOI + + // 调用 Crossref API + const response = await axios.get( + `https://api.crossref.org/works?query.title=${literature.title}` + ); + + const match = response.data.message.items[0]; + + return { + ...literature, + doi: match.DOI, + year: match['published-print']?.['date-parts'][0][0], + journal: match['container-title'][0], + }; +} +``` + +**优先级:V1.0**(增强功能) + +#### (7)批处理进度持久化 + +**问题**:批量筛选耗时长(1000 篇 > 10 分钟),需支持断点续传。 + +**解决方案:Redis + 任务队列** +```typescript +// 使用 Bull 队列 +import Queue from 'bull'; + +const screeningQueue = new Queue('literature-screening', { + redis: { host: 'localhost', port: 6379 } +}); + +// 添加任务 +screeningQueue.add({ + projectId: 'xxx', + literatures: [...], + protocol: {...} +}); + +// 处理任务 +screeningQueue.process(async (job) => { + const { projectId, literatures, protocol } = job.data; + + for (let i = 0; i < literatures.length; i++) { + // 处理单篇文献 + await screenLiterature(literatures[i], protocol); + + // 更新进度 + job.progress((i + 1) / literatures.length * 100); + } +}); +``` + +**优先级:V1.0**(体验优化) + +#### (8)错误处理与重试 + +**问题**:LLM 调用可能失败(网络、超时、限流)。 + +**解决方案:指数退避重试** +```typescript +async function retryWithBackoff( + fn: () => Promise, + maxRetries: number = 3 +): Promise { + for (let i = 0; i < maxRetries; i++) { + try { + return await fn(); + } catch (error) { + if (i === maxRetries - 1) throw error; + + // 指数退避:1s, 2s, 4s + const delay = Math.pow(2, i) * 1000; + await new Promise(resolve => setTimeout(resolve, delay)); + } + } +} +``` + +**优先级:MVP**(必须功能) + +--- + +## 📊 技术选型总结 + +### MVP 阶段必选技术 + +| 层级 | 技术 | 用途 | +|------|------|------| +| **前端** | `xlsx` | Excel 解析 | +| **前端** | `PDF.js` | PDF 预览 | +| **前端** | `KaTeX` | 公式渲染 | +| **后端** | `ExtractionClient` | 调用 Python 微服务 | +| **后端** | `UnpaywallClient` | 文献下载 | +| **Python** | `Nougat` | 英文 PDF 提取 | +| **Python** | `PyMuPDF` | 快速 PDF 提取 | +| **数据库** | `asl_schema` | 数据存储 | + +### V1.0 增强技术 + +| 技术 | 用途 | +|------|------| +| Crossref API | 元数据补全 | +| Bull Queue | 任务队列 | +| Redis | 进度持久化 | + +### V2.0 高级技术 + +| 技术 | 用途 | +|------|------| +| Table Transformer | 表格精确提取 | +| GROBID | 引用解析 | +| Semantic Scholar API | 学术图谱 | + +--- + +## 📁 测试数据存放建议 + +根据 ASL 模块的文件夹结构,测试数据应该放在: + +``` +AIclinicalresearch/docs/03-业务模块/ASL-AI智能文献/ +└── 05-测试文档/ + ├── 01-测试计划.md + ├── 02-标题摘要初筛测试用例.md + └── 03-测试数据/ ← 新建文件夹 + ├── README.md ← 说明文档 + ├── screening-test-data/ + │ ├── literature-list-199.xlsx ← 199 篇文献列表 + │ ├── picos-criteria.txt ← PICOS 标准 + │ └── expected-results.json ← 预期结果(金标准) + ├── pdf-samples/ + │ ├── sample-rct-01.pdf + │ ├── sample-cohort-01.pdf + │ └── README.md + └── extraction-test-data/ + └── README.md +``` + +**推荐结构:** +``` +05-测试文档/ +├── 01-测试计划.md +├── 02-标题摘要初筛测试用例.md +└── 03-测试数据/ + ├── README.md ← 重要!说明测试数据来源、版权、使用方法 + ├── screening/ + │ ├── literature-list-199.xlsx + │ ├── picos-criteria.txt + │ ├── inclusion-criteria.txt + │ ├── exclusion-criteria.txt + │ └── gold-standard.json ← 人工标注的正确答案 + └── pdf-extraction/ + ├── sample-01-high-quality.pdf + ├── sample-02-with-tables.pdf + └── sample-03-chinese.pdf +``` + +**README.md 示例:** +```markdown +# ASL 测试数据集 + +## 📋 数据说明 + +### 1. 标题摘要初筛测试数据 +- **文件**: `literature-list-199.xlsx` +- **数量**: 199 篇英文医学文献 +- **字段**: 标题、摘要、DOI、作者、年份、期刊 +- **来源**: [描述数据来源] +- **版权**: [说明版权信息] + +### 2. PICOS 标准 +- **文件**: `picos-criteria.txt` +- **内容**: Population, Intervention, Comparison, Outcome, Study Design +- **纳入标准**: 5 条 +- **排除标准**: 8 条 + +### 3. 金标准(人工标注结果) +- **文件**: `gold-standard.json` +- **标注人**: [标注专家信息] +- **标注时间**: [时间] +- **预期准确率**: ≥ 90% + +## 🎯 使用方法 + +### 运行测试 +```bash +npm run test:asl:screening +``` + +### 评估准确率 +```bash +npm run test:asl:evaluate -- --gold-standard gold-standard.json +``` + +## 📊 预期结果 +- 纳入: 45 篇 +- 排除: 132 篇 +- 不确定: 22 篇 +``` + +--- + +## 📚 相关文档 + +- [质量保障与可追溯策略](./06-质量保障与可追溯策略.md) +- [数据库设计](./01-数据库设计.md) +- [API 设计规范](./02-API设计规范.md) +- [文档提取微服务](../../../../extraction_service/README.md) + +--- + +**更新日志**: +- 2025-11-15: 创建文档,定义初筛、全文处理、文献下载技术选型 + diff --git a/docs/03-业务模块/ASL-AI智能文献/03-UI设计/01-标题摘要初筛UI设计.md b/docs/03-业务模块/ASL-AI智能文献/03-UI设计/01-标题摘要初筛UI设计.md new file mode 100644 index 00000000..653857a6 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/03-UI设计/01-标题摘要初筛UI设计.md @@ -0,0 +1,87 @@ +# 标题摘要初筛UI设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## 📋 文档说明 + +本文档描述标题摘要初筛模块的UI设计,包括页面布局、交互设计、视觉规范等。 + +--- + +## 🎨 页面视图 + +### 1. 设置与启动视图 + +**布局结构**: +- 顶部: 标准参考面板(可折叠) +- 中间: 临时调整入口(可选) +- 底部: 文献导入区域 + 启动按钮 + +**设计要点**: +- 清晰展示从研究方案继承的PICO和入排标准 +- 提供简洁的文献导入入口(Excel上传) +- 导入后激活启动按钮 + +### 2. 表格化审核工作台视图 ⭐核心 + +**表格结构**: +- **表头**: 两行结构 + - 第一行: 合并单元格标示模型区域(DS模型 | Q3模型 | 决策) + - 第二行: 各模型下细分P/I/C/S/结论列 + +- **主行**: + - 展开/收起按钮 + - 文献ID、研究ID、文献来源 + - DS-P/I/C/S/结论判断(✓/✗/?) + - Q3-P/I/C/S/结论判断 + - 冲突状态指示 + - 最终决策下拉框 + +- **展开行**: + - DS证据列: P/I/C/S对应的关键短语 + - Q3证据列: P/I/C/S对应的关键短语 + +**交互设计**: +- 点击判断图标(✓/✗/?) → 弹出双视图原文审查模态框 +- 冲突项行背景高亮显示 +- 支持批量选择和非冲突项批量决策 + +### 3. 结果展示视图 + +**布局结构**: +- 顶部: 统计卡片(总计、纳入、排除) +- 中间: PRISMA式排除总结 +- 底部: 结果列表(Tab切换:纳入/排除)+ 导出按钮 + +--- + +## 🖼️ 原型参考 + +详细原型请参考: `../../01-设计文档/AI智能文献-标题摘要初筛原型.html` + +--- + +## ⏳ 待完善内容 + +后续将补充: +- 详细的页面布局图 +- 交互流程图 +- 视觉设计规范 +- 组件样式规范 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/03-UI设计/02-全文复筛UI设计.md b/docs/03-业务模块/ASL-AI智能文献/03-UI设计/02-全文复筛UI设计.md new file mode 100644 index 00000000..53eab1ed --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/03-UI设计/02-全文复筛UI设计.md @@ -0,0 +1,24 @@ +# 全文复筛UI设计 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/03-UI设计/03-设计规范.md b/docs/03-业务模块/ASL-AI智能文献/03-UI设计/03-设计规范.md new file mode 100644 index 00000000..40f15adc --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/03-UI设计/03-设计规范.md @@ -0,0 +1,24 @@ +# UI设计规范 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/03-UI设计/AI智能文献-全文复筛.html b/docs/03-业务模块/ASL-AI智能文献/03-UI设计/AI智能文献-全文复筛.html new file mode 100644 index 00000000..b2701431 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/03-UI设计/AI智能文献-全文复筛.html @@ -0,0 +1,524 @@ + + + + + + 全文复筛原型 V2 + + + + + + + +
+ + + + +
+
+

全文复筛 / 设置与启动

+
+ +
+ +
+
+
+ + +
+

全文复筛 - 设置与启动

+
+

筛选标准 (来自研究方案)

+

PICO 标准

P: 2型糖尿病成人患者

I: SGLT2抑制剂

C: 安慰剂或其他常规降糖疗法

S: 随机对照试验 (RCT)

纳入/排除标准

  • 纳入:英文
  • 排除:病例报告, 综述
+
+ + + +
+
+

全文获取与管理 (0篇)

+ +
+
+ + + +
文献ID文献标题获取状态操作
+
+
+ + + +
+
+
+ + +
+
▼ 查看当前筛选标准

PICO 标准

P: 2型糖尿病成人患者

I: SGLT2抑制剂

C: 安慰剂或其他常规降糖疗法

S: 随机对照试验 (RCT)

纳入/排除标准

  • 纳入:英文
  • 排除:病例报告, 综述
+
+ + + + + + + + + + + + + + + + + + +
文献ID研究ID文献来源DS 判断Q3 判断冲突状态最终决策
PICS结论PICS结论
+
+
+ +
+
+ + +
+

全文复筛 - 结果

+
+
100
总计复筛
+
55
最终纳入
+
45
排除
+
+
+

排除原因统计 (模拟)

+
    +
  • 排除文献总数: n=45
  • +
  • 非随机对照研究: n=5
  • +
  • 非目标人群 (P): n=7
  • +
  • 干预/对照不符 (I/C): n=18
  • +
  • 结局指标不符 (O): n=9
  • +
  • 其他原因 (如数据不全): n=6
  • +
+
+
+
+ +
+
+ + +
+
+ + + + + + + + +
+
+
+
+
+
+
+ + + + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/03-UI设计/AI智能文献-标题摘要初筛原型.html b/docs/03-业务模块/ASL-AI智能文献/03-UI设计/AI智能文献-标题摘要初筛原型.html new file mode 100644 index 00000000..668cdf51 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/03-UI设计/AI智能文献-标题摘要初筛原型.html @@ -0,0 +1,450 @@ + + + + + + 标题摘要初筛原型 V4 + + + + + + + +
+ + + + +
+
+

标题摘要初筛 / 设置与启动

+
+ +
+ +
+ +

标题摘要初筛 - 设置与启动

筛选标准 (来自研究方案)

PICO 标准

P: 2型糖尿病成人患者

I: SGLT2抑制剂

C: 安慰剂或其他常规降糖疗法

S: 随机对照试验 (RCT)

纳入/排除标准

  • 纳入:英文
  • 排除:病例报告, 综述

导入文献

上传 Excel 文件

请按模板上传包含文献标题和摘要的列表。

下载模板

请先导入文献

+
+ + +
+ +
▼ 查看当前筛选标准

PICO 标准

P: 2型糖尿病成人患者

I: SGLT2抑制剂

C: 安慰剂或其他常规降糖疗法

S: 随机对照试验 (RCT)

纳入/排除标准

  • 纳入:英文
  • 排除:病例报告, 综述
文献ID研究ID文献来源DS 判断Q3 判断冲突状态最终决策
PICS结论PICS结论
+
+ + +
+

标题摘要初筛 - 结果

+
+
1000
总计筛选
+
120
初步纳入
+
880
排除
+
+ +
+

排除原因统计 (模拟)

+
    +
  • 排除文献总数: n=880
  • +
  • 非随机对照研究: n=250
  • +
  • 非目标人群 (P): n=180
  • +
  • 干预措施不符 (I): n=100
  • +
  • 对照措施不符 (C): n=90
  • +
  • 重复研究: n=150
  • +
  • 其他 (综述、病例报告等): n=110
  • +
+
+ +
+
+ +
+
+ + +
+
+ + + + + + + + + + + + + + + + + + + + +
文献ID研究ID文献来源标题摘要PICS结论排除理由
+
+
+
+ +
+
+
+
+
+
+ + + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/04-开发计划/01-开发里程碑.md b/docs/03-业务模块/ASL-AI智能文献/04-开发计划/01-开发里程碑.md new file mode 100644 index 00000000..da9f3974 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/04-开发计划/01-开发里程碑.md @@ -0,0 +1,72 @@ +# 开发里程碑 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 +> **最后更新:** 2025-10-29 + +--- + +## 📋 文档说明 + +本文档描述AI智能文献模块的开发里程碑规划。 + +--- + +## 🗓️ 开发阶段 + +### 阶段一:标题摘要初筛模块(当前阶段) + +**目标**: 完成标题摘要初筛核心功能 + +**时间**: 4-6周 + +**里程碑**: +- ✅ 需求分析和设计文档 +- 🔄 数据库设计和API设计 +- ⏳ 前端框架搭建 +- ⏳ 后端API开发 +- ⏳ AI模型集成 +- ⏳ 功能测试和优化 + +### 阶段二:全文复筛模块 + +**目标**: 完成全文复筛功能 + +**时间**: 4-6周 + +**状态**: 待开始 + +### 阶段三:其他模块 + +**目标**: 完成剩余功能模块 + +**时间**: 待定 + +**状态**: 规划中 + +--- + +## 📊 进度跟踪 + +| 模块 | 状态 | 进度 | 完成时间 | +|------|------|------|----------| +| 研究方案生成 | 规划中 | 0% | - | +| 智能文献检索 | 规划中 | 0% | - | +| 标题摘要初筛 | 进行中 | 20% | - | +| 全文复筛 | 待开始 | 0% | - | +| 全文解析与数据提取 | 规划中 | 0% | - | +| 数据综合分析与报告 | 规划中 | 0% | - | + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/04-开发计划/02-标题摘要初筛开发计划.md b/docs/03-业务模块/ASL-AI智能文献/04-开发计划/02-标题摘要初筛开发计划.md new file mode 100644 index 00000000..ae87b7f2 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/04-开发计划/02-标题摘要初筛开发计划.md @@ -0,0 +1,99 @@ +# 标题摘要初筛模块开发计划 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 +> **最后更新:** 2025-10-29 + +--- + +## 📋 文档说明 + +本文档详细描述标题摘要初筛模块的开发计划,包括任务分解、时间安排、技术方案等。 + +--- + +## 🎯 开发目标 + +完成标题摘要初筛模块的核心功能,包括: +1. 设置与启动视图 +2. 表格化审核工作台 +3. 结果展示视图 +4. AI双模型筛选功能 + +--- + +## 📅 开发时间规划 + +### Week 1-2: 设计阶段 +- [x] 需求分析完成 +- [ ] 数据库设计完成 +- [ ] API设计完成 +- [ ] 前端组件设计完成 + +### Week 3-4: 前端开发 +- [ ] 设置与启动视图开发 +- [ ] 表格化审核工作台开发 +- [ ] 结果展示视图开发 +- [ ] 组件集成 + +### Week 5-6: 后端开发 +- [ ] 项目管理API +- [ ] 文献管理API +- [ ] 筛选任务API +- [ ] AI模型集成 + +### Week 7-8: 集成测试与优化 +- [ ] 功能测试 +- [ ] 性能优化 +- [ ] Bug修复 +- [ ] 用户验收测试 + +--- + +## 📋 任务分解 + +### 1. 数据库设计和迁移 +- [ ] 设计数据表结构 +- [ ] 编写迁移脚本 +- [ ] 创建索引 + +### 2. API开发 +- [ ] 项目管理API +- [ ] 文献导入API +- [ ] 筛选任务API +- [ ] 筛选结果API + +### 3. 前端开发 +- [ ] 设置与启动视图 +- [ ] 表格化审核工作台 +- [ ] 结果展示视图 +- [ ] 双视图原文审查模态框 + +### 4. AI集成 +- [ ] 双模型调用封装 +- [ ] 批处理任务管理 +- [ ] 结果解析和存储 + +--- + +## ⏳ 待完善内容 + +后续将补充: +- 详细任务分解(按功能点) +- 技术方案细节 +- 风险评估 +- 依赖关系 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/04-开发计划/03-任务分解.md b/docs/03-业务模块/ASL-AI智能文献/04-开发计划/03-任务分解.md new file mode 100644 index 00000000..48858ea5 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/04-开发计划/03-任务分解.md @@ -0,0 +1,24 @@ +# 任务分解 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/05-测试文档/01-测试计划.md b/docs/03-业务模块/ASL-AI智能文献/05-测试文档/01-测试计划.md new file mode 100644 index 00000000..c8c073f7 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/05-测试文档/01-测试计划.md @@ -0,0 +1,24 @@ +# 测试计划 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/05-测试文档/02-标题摘要初筛测试用例.md b/docs/03-业务模块/ASL-AI智能文献/05-测试文档/02-标题摘要初筛测试用例.md new file mode 100644 index 00000000..bb288784 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/05-测试文档/02-标题摘要初筛测试用例.md @@ -0,0 +1,24 @@ +# 标题摘要初筛测试用例 + +> **文档版本:** v1.0 +> **创建日期:** 2025-10-29 +> **维护者:** AI智能文献开发团队 + +--- + +## ⏳ 待完善 + +本文档内容待规划完善,目前仅作为占位文档。 + +--- + +**文档版本:** v1.0 +**最后更新:** 2025-10-29 + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/README.md b/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/README.md new file mode 100644 index 00000000..6fd36705 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/README.md @@ -0,0 +1,272 @@ +# ASL 测试数据集 + +> **创建日期:** 2025-11-15 +> **维护人:** ASL 开发团队 +> **用途:** 用于测试 AI 智能文献模块的准确率和质量 + +--- + +## 📋 数据集概览 + +本目录包含用于测试 ASL 模块各项功能的测试数据集,包括: + +| 测试类型 | 文件夹 | 数据量 | 状态 | +|---------|--------|--------|------| +| **标题摘要初筛** | `screening/` | 199 篇 | ✅ 待导入 | +| **PDF 全文提取** | `pdf-extraction/` | 待补充 | ⏳ 待补充 | + +--- + +## 📁 文件夹结构 + +``` +03-测试数据/ +├── README.md ← 当前文件 +│ +├── screening/ ← 标题摘要初筛测试数据 +│ ├── literature-list-199.xlsx ← 199 篇文献列表(标题+摘要) +│ ├── picos-criteria.txt ← PICOS 标准定义 +│ ├── inclusion-criteria.txt ← 纳入标准 +│ ├── exclusion-criteria.txt ← 排除标准 +│ └── gold-standard.json ← 人工标注的正确结果(金标准) +│ +└── pdf-extraction/ ← PDF 全文提取测试数据 + ├── sample-01-rct.pdf ← RCT 研究样本 + ├── sample-02-cohort.pdf ← 队列研究样本 + ├── sample-03-with-tables.pdf ← 包含复杂表格的样本 + ├── sample-04-chinese.pdf ← 中文文献样本 + └── README.md +``` + +--- + +## 🎯 使用方法 + +### 1. 导入测试数据 + +**请按以下步骤导入您的测试数据:** + +#### (1)标题摘要初筛测试数据 + +**文件清单:** +- `literature-list-199.xlsx`:199 篇英文文献列表 +- `picos-criteria.txt`:PICOS 标准(Population, Intervention, Comparison, Outcome, Study Design) +- `gold-standard.json`:人工标注的正确结果 + +**Excel 文件格式要求:** +``` +列名(必须): +- Title(标题) +- Abstract(摘要) +- DOI(可选) +- Authors(作者,可选) +- Year(年份,可选) +- Journal(期刊,可选) + +示例: +| Title | Abstract | DOI | Authors | Year | Journal | +|--------------------------------|---------------------------|---------------|--------------|------|---------| +| Effect of aspirin on ... | Background: ... | 10.1038/... | Smith J, ... | 2020 | NEJM | +``` + +**PICOS 标准格式:** +```txt +# PICOS 标准 + +## Population(人群) +- 成年高血压患者(年龄 ≥ 18 岁) +- 无心血管疾病史 + +## Intervention(干预) +- 每日服用阿司匹林 100mg + +## Comparison(对照) +- 安慰剂或无治疗 + +## Outcome(结局) +- 主要结局:心血管事件发生率 +- 次要结局:全因死亡率 + +## Study Design(研究设计) +- 随机对照试验(RCT) +- 队列研究(Cohort Study) +``` + +**金标准格式(JSON):** +```json +{ + "metadata": { + "total": 199, + "annotatedBy": "医学专家姓名", + "annotatedDate": "2025-11-15", + "expectedAccuracy": 0.90 + }, + "results": [ + { + "id": 1, + "doi": "10.1038/nature12373", + "title": "...", + "decision": "include", + "reason": "符合 PICO 标准:人群为成年高血压患者,干预为阿司匹林...", + "confidence": 1.0 + }, + { + "id": 2, + "decision": "exclude", + "reason": "不符合纳入标准:人群为儿童患者", + "confidence": 0.95 + } + ] +} +``` + +#### (2)PDF 全文提取测试数据 + +**建议准备的样本类型:** +- RCT 研究(随机对照试验) +- 队列研究(Cohort Study) +- 包含复杂表格的文献 +- 包含数学公式的文献 +- 中文医学文献(测试语言检测) + +**样本数量建议:** 5-10 篇 + +### 2. 运行测试 + +#### (1)标题摘要初筛测试 + +```bash +# 进入后端目录 +cd AIclinicalresearch/backend + +# 运行初筛测试 +npm run test:asl:screening + +# 或者手动测试: +# 1. 启动后端服务 +npm run dev + +# 2. 通过前端上传 literature-list-199.xlsx +# 3. 配置 PICOS 标准(复制 picos-criteria.txt 内容) +# 4. 运行批量筛选 +# 5. 导出结果,与 gold-standard.json 对比 +``` + +#### (2)评估准确率 + +```bash +# 自动评估准确率(与金标准对比) +npm run test:asl:evaluate -- \ + --result ./screening-result.json \ + --gold-standard ./gold-standard.json + +# 输出示例: +# ✅ 准确率: 92.5% +# ✅ 一致率: 88.9% +# ⚠️ 假阳性率: 5.2% +# ⚠️ 假阴性率: 2.3% +``` + +### 3. 质量指标 + +| 指标 | MVP 目标 | V1.0 目标 | V2.0 目标 | +|------|---------|----------|----------| +| **准确率** | ≥ 85% | ≥ 90% | ≥ 95% | +| **一致率**(双模型) | ≥ 80% | ≥ 85% | ≥ 90% | +| **假阳性率** | ≤ 10% | ≤ 5% | ≤ 3% | +| **假阴性率** | ≤ 5% | ≤ 3% | ≤ 2% | + +--- + +## 📊 测试数据统计 + +### 标题摘要初筛数据集 + +**基本信息:** +- **总数量**: 199 篇 +- **数据来源**: [请填写数据来源] +- **领域**: 医学/临床研究 +- **语言**: 英文 +- **年份范围**: [请填写] + +**预期分布:** +``` +纳入(Include): ~45 篇(23%) +排除(Exclude): ~132 篇(66%) +不确定(Uncertain): ~22 篇(11%) +``` + +**研究类型分布(预估):** +``` +RCT: ~60 篇(30%) +队列研究: ~50 篇(25%) +病例对照: ~30 篇(15%) +横断面研究: ~30 篇(15%) +其他: ~29 篇(15%) +``` + +### PDF 全文提取数据集 + +**待补充** + +--- + +## ⚠️ 数据使用注意事项 + +### 1. 版权声明 + +- 本测试数据集仅用于 ASL 模块开发和测试 +- 不得用于商业用途 +- 不得公开分发或传播 +- 请遵守原文献的版权许可 + +### 2. 数据隐私 + +- 确保测试数据不包含敏感信息 +- 如包含患者数据,必须已脱敏处理 +- 遵守 GDPR、HIPAA 等数据保护法规 + +### 3. 质量要求 + +- **金标准必须由医学专家标注** +- 标注人需具备相关领域专业知识 +- 标注过程需有质量控制机制 +- 建议双人独立标注,冲突需第三方仲裁 + +--- + +## 🔄 数据更新记录 + +| 日期 | 更新内容 | 更新人 | +|------|---------|--------| +| 2025-11-15 | 创建测试数据目录结构 | ASL 团队 | +| 待更新 | 导入 199 篇文献测试数据 | - | +| 待更新 | 添加 PDF 样本数据 | - | + +--- + +## 📞 联系方式 + +如有问题,请联系: +- **项目负责人**: [姓名] +- **邮箱**: [邮箱] +- **文档维护**: [文档路径] + +--- + +## 📚 相关文档 + +- [标题摘要初筛测试用例](../02-标题摘要初筛测试用例.md) +- [测试计划](../01-测试计划.md) +- [文献处理技术选型](../../02-技术设计/07-文献处理技术选型.md) +- [质量保障与可追溯策略](../../02-技术设计/06-质量保障与可追溯策略.md) + +--- + +**下一步行动:** +1. ✅ 创建测试数据目录结构 +2. ⏳ 导入您的 199 篇文献测试数据(`literature-list-199.xlsx`) +3. ⏳ 创建 PICOS 标准文件(`picos-criteria.txt`) +4. ⏳ 准备金标准标注(`gold-standard.json`) +5. ⏳ 补充 PDF 样本数据 + diff --git a/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/pdf-extraction/.gitkeep b/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/pdf-extraction/.gitkeep new file mode 100644 index 00000000..e69de29b diff --git a/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/screening/.gitkeep b/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/screening/.gitkeep new file mode 100644 index 00000000..e69de29b diff --git a/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/screening/Test Cases.xlsx b/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/screening/Test Cases.xlsx new file mode 100644 index 00000000..ca1eb042 Binary files /dev/null and b/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/screening/Test Cases.xlsx differ diff --git a/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/screening/测试案例的PICOS、纳入标准、排除标准.txt b/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/screening/测试案例的PICOS、纳入标准、排除标准.txt new file mode 100644 index 00000000..eef65d1d --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/05-测试文档/03-测试数据/screening/测试案例的PICOS、纳入标准、排除标准.txt @@ -0,0 +1,77 @@ +测试案例的PICOS、纳入标准、排除标准 + +一、PICOS: + +Patients with non-cardioembolic ischemic stroke (NCIS) 非心源性缺血性卒中、亚洲人群 +亚组人群: +均在非心源性卒中范畴内找: +1. NIHSS评分亚组卒中人群(mild/moderate stroke); +2. 不同TOAST分型(different TOAST subtypes,excluding cardioembolic stroke); +3. 高危TIA人群(high-risk TIA population); +4. 新发卒中/复发性/进展性卒中患者(new-onset stroke/recurrent /progressive stroke patients) +5 颅内动脉粥样硬化性狭窄/大动脉粥样硬化患者(ICAS/LAA) +6. 不同疾病特征人群: +(1)合并冠心病(CAD)患者/外周动脉疾病PAD +(2)合并中重度肾功能不全透析患者(patients with moderate-severe renal insufficiency on dialysis); +(3)合并糖尿病患者(patients with diabetes mellitus); +(4)老年或脆弱患者(elderly/fragile patients); +(5)氯吡格雷抵抗人群(clopidogrel-resistant population); +(6)Breakthrough stroke +(7)特殊情况如卵圆孔未闭(PFO),颈动脉夹层(cervical artery dissection,)合并肿瘤(cancer) + +Intervention/Comparator: +抗血小板治疗药物:阿司匹林,氯吡格雷,奥扎格雷,贝前列素,西洛他唑,替罗非班,替格瑞洛,吲哚布芬,沙格雷酯,氯吡格雷阿司匹林,双嘧达莫等。 +抗凝药物:阿加曲班,asundexian,milvexian,华法林、低分子肝素、肝素等。 +溶栓药物:链激酶、尿激酶、阿替普酶、替奈普酶等。 + +Outcome +疗效安全性:Progressive stroke卒中的进展or神经功能恶化,Recurrent ischemic stroke 卒中的复发,Disability,Death,NIHSS评分变化,VTE,efficacy/effective/effectiveness/疗效/有效性,痴呆、认知功能减退、疲乏、抑郁;safety/安全性。 + +Time +检索时间:近五年(2020年之后)至今文献 + +Study design +系统评价(SR)、随机对照试验(RCT)、真实世界研究(RWE)、观察性研究(OBS) + + +二、 纳入标准: +非心源性缺血性卒中、亚洲患者 +Patients post-Ischemic Stroke (IS) a that are on Secondary Stroke Prevention (SSP) treatment +Patients post-IS a that are not on SSP treatment (if captured within a study where the focus is on patients that +are on SSP treatment) + +干预和对照 +抗血小板治疗药物:阿司匹林,氯吡格雷,奥扎格雷,贝前列素,西洛他唑,替罗非班, +替格瑞洛,吲哚布芬,沙格雷酯,氯吡格雷阿司匹林,双嘧达莫等。 +抗凝药物:阿加曲班,asundexian,milvexian,华法林、低分子肝素、肝素等。 +溶栓药物:链激酶、尿激酶、阿替普酶、替奈普酶等。 + +结局: +疗效安全性:Progressive stroke卒中的进展or神经功能恶化,Recurrent ischemic stroke 卒中的复发, +Disability,Death,NIHSS评分变化,VTE,efficacy/effective/effectiveness/疗效/有效性,痴呆、 +认知功能减退、疲乏、抑郁;safety/安全性。 + +研究类型 +系统评价(SR)、随机对照试验(RCT)、真实世界研究(RWE)、观察性研究(OBS) + +研究时间 +近五年(2020年之后)的文献 + + - 包含“secondary prevention” + - 包含“prevention of recurrence” + - 包含“for stroke prevention” + - 包含涉及抗血小板或抗凝药物 + - 涉及抗血小板或抗凝药物 +如果出现了抗血小板或抗凝药物,并且没有出现任何排除关键词(急性期相关术语),则纳入。 + + +三、 排除标准: +1. 心源性卒中患者、非亚洲 +2. Patients post any other stroke +3. Patients on antiplatelet therapy for Acute Coronary Syndrome (ACS) without previously identified stroke +4. Patients who have Atrial Fibrillation (AF) +5. Mixed populations (when the population includes patients that are not post IS) +6. 病例报告等 +7. 非中英文文献 + 8. 包含急性期治疗关键词(如acute, thrombolysis, thrombectomy等),没有出现抗血小板或抗凝药物,也没有出现二级预防关键词。 + diff --git a/docs/03-业务模块/ASL-AI智能文献/README.md b/docs/03-业务模块/ASL-AI智能文献/README.md new file mode 100644 index 00000000..00db22e9 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/README.md @@ -0,0 +1,82 @@ +# ASL - AI智能文献 + +> **模块代号:** ASL (AI Smart Literature) +> **开发状态:** ⏳ 下一步开发(Week 2-4) +> **商业价值:** ⭐⭐⭐⭐⭐ 可独立售卖 +> **独立性:** ⭐⭐⭐⭐⭐ +> **优先级:** P0 + +--- + +## 📋 模块概述 + +AI智能文献筛选系统,帮助研究者快速筛选和分析文献。 + +**核心价值:** 核心差异化功能,可独立售卖 + +--- + +## 🎯 核心功能(6个模块) + +1. ✅ **标题摘要初筛** - 双模型AI判断 +2. ✅ **全文复筛** - PDF全文分析 +3. ⏳ **全文解析与数据提取** +4. ⏳ **数据分析与报告生成** +5. ⏳ **系统评价与Meta分析** +6. ⏳ **文献管理** + +**本周重点:** 标题摘要初筛 + 全文复筛 + +--- + +## 📂 文档结构 + +``` +ASL-AI智能文献/ + ├── [AI对接] ASL快速上下文.md # ⏳ 待创建 + ├── 00-项目概述/ + │ ├── 01-产品需求文档(PRD).md # ⏳ 待合并(3个PRD) + │ └── ... + ├── 01-设计文档/ + │ ├── 02-数据库设计.md + │ ├── 03-API设计.md + │ └── 07-UI设计/ + │ ├── 标题摘要初筛原型.html + │ └── 全文复筛原型.html + └── README.md # ✅ 当前文档 +``` + +--- + +## 🔗 依赖的通用能力 + +- **LLM网关** - 双模型AI判断 +- **文档处理引擎** - PDF全文提取 +- **RAG引擎** - 文献内容检索 + +--- + +## 🎯 商业模式 + +**目标客户:** 系统评价研究者、循证医学中心 +**售卖方式:** 独立产品 +**定价策略:** 按项目数或按月订阅 + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/03-业务模块/ASL-AI智能文献/[AI对接] ASL快速上下文.md b/docs/03-业务模块/ASL-AI智能文献/[AI对接] ASL快速上下文.md new file mode 100644 index 00000000..970e08b1 --- /dev/null +++ b/docs/03-业务模块/ASL-AI智能文献/[AI对接] ASL快速上下文.md @@ -0,0 +1,321 @@ +# [AI对接] ASL快速上下文 + +> **阅读时间:** 3-5分钟 | **Token消耗:** ~2000 tokens +> **层级:** L2 | **前置阅读:** 00-系统总体设计/[AI对接] 快速上下文.md + +--- + +## 📋 模块定位 + +**AI智能文献筛选系统**,帮助研究者快速筛选和分析大量文献,提高系统评价效率。 + +**商业价值:** ⭐⭐⭐⭐⭐ 可独立售卖 +**开发状态:** ⏳ 即将开发(Week 2-4) +**依赖能力:** LLM网关(P0)、文档处理引擎、RAG引擎 + +--- + +## 🎯 核心功能(6个模块) + +1. ✅ **标题摘要初筛** - 双模型AI判断 → Week 2-3重点 +2. ✅ **全文复筛** - PDF全文分析 → Week 3-4重点 +3. ⏳ 全文解析与数据提取 +4. ⏳ 数据分析与报告生成 +5. ⏳ 系统评价与Meta分析 +6. ⏳ 文献管理 + +**本次开发重点:** 标题摘要初筛 + 全文复筛 + +--- + +## 🏗️ 技术架构一览 + +### 前端(React) +``` +src/pages/Literature/ + ├── ProjectManagement/ # 文献项目管理 + ├── TitleScreening/ # 标题摘要初筛 ⭐ + ├── FullTextScreening/ # 全文复筛 ⭐ + ├── DataExtraction/ # 数据提取 + └── Management/ # 文献管理 +``` + +### 后端(Node.js) +``` +backend/src/modules/asl/ + ├── controllers/ + │ ├── projectController.ts # 项目管理 + │ ├── screeningController.ts # 筛选控制 ⭐ + │ └── extractionController.ts # 数据提取 + ├── services/ + │ ├── screeningService.ts # 筛选业务逻辑 ⭐ + │ └── extractionService.ts + └── routes/ + └── literatureRoutes.ts +``` + +### 数据库(asl_schema) +```sql +CREATE SCHEMA asl_schema; + +核心表: +- literature_projects # 文献项目 +- literature_items # 文献条目(CSV导入) +- pico_configs # PICO(S)纳入排除标准配置 +- screening_results # 筛选结果(INCLUDE/EXCLUDE/UNCERTAIN) +- screening_history # 筛选历史(可回溯) +- extraction_tasks # 提取任务 +- extraction_results # 提取结果 +``` + +--- + +## 💡 核心业务流程 + +### 标题摘要初筛流程 ⭐ + +``` +1. 用户上传CSV文件(包含:标题、摘要、作者等) + ↓ +2. 配置PICO(S)纳入/排除标准 + - P: Population(研究对象) + - I: Intervention(干预措施) + - C: Comparison(对照) + - O: Outcome(结局指标) + - S: Study Design(研究类型) + ↓ +3. AI双模型判断(DeepSeek + Qwen3) + - 每篇文献独立判断 + - 两个模型投票 + - 固定3并发处理 + ↓ +4. 返回结果:INCLUDE / EXCLUDE / UNCERTAIN + - INCLUDE: 两个模型都认为应纳入 + - EXCLUDE: 两个模型都认为应排除 + - UNCERTAIN: 两个模型意见不一致,需人工复核 + ↓ +5. 导出Excel(双Sheet设计) + - Sheet1: 通过的文献(INCLUDE) + - Sheet2: 未通过的文献(EXCLUDE + UNCERTAIN) +``` + +### AI判断逻辑(关键!) +```typescript +// 双模型投票机制 +if (deepseekResult === "INCLUDE" && qwen3Result === "INCLUDE") { + finalResult = "INCLUDE"; +} else if (deepseekResult === "EXCLUDE" && qwen3Result === "EXCLUDE") { + finalResult = "EXCLUDE"; +} else { + // 意见不一致 + finalResult = "UNCERTAIN"; // 标记为需要人工复核 +} +``` + +--- + +## 📚 已有设计文档 + +### PRD文档(完整!) +- `00-项目概述/AI智能文献PRD(1)-产品概览.md` +- `00-项目概述/AI智能文献PRD(2)-初筛与复筛.md` +- `00-项目概述/AI智能文献PRD(3)-提取与分析模块.md` + +**内容:** 完整的功能需求、用户故事、验收标准 + +### 技术设计(完整!) +- `01-设计文档/02-数据库设计.md` - 完整表结构 +- `01-设计文档/03-API设计.md` - 所有API端点 +- `01-设计文档/04-前端组件设计.md` - 组件树 +- `01-设计文档/05-AI模型集成设计.md` - 双模型投票逻辑 + +### UI原型(完整!) +- `01-设计文档/07-UI设计/标题摘要初筛原型.html` ⭐ +- `01-设计文档/07-UI设计/全文复筛原型.html` ⭐ + +--- + +## 🔗 依赖的通用能力 + +### 1. LLM网关(❌ 待实现,P0)⭐ **必须先实现** + +**为什么ASL需要LLM网关:** +- 标题摘要初筛需要调用2个LLM模型 +- 全文复筛需要调用1个LLM模型 +- 需要成本控制和配额管理 + +**接口需求:** +```typescript +// ASL模块需要的接口 +interface LLMGateway { + // 单次调用(非流式) + chat(params: { + userId: string; + modelType: 'deepseek-v3' | 'qwen3'; + messages: Message[]; + }): Promise<{ + content: string; + tokenUsage: number; + }>; + + // 检查配额 + checkQuota(userId: string): Promise; +} +``` + +**实施建议:** Week 2 Day 1-3 同步开发LLM网关 + +--- + +### 2. 文档处理引擎(✅ 已实现) + +**ASL使用场景:** +- 全文复筛:PDF全文提取 + +**已有接口:** +```typescript +// extraction_service已提供 +POST /api/extract/pdf +``` + +--- + +### 3. RAG引擎(✅ 已实现,可选) + +**ASL使用场景(可选):** +- 文献内容检索 +- 文献相似度分析 + +--- + +## 📋 API端点清单 + +### 项目管理 +``` +POST /api/v1/literature/projects # 创建文献项目 +GET /api/v1/literature/projects # 获取项目列表 +GET /api/v1/literature/projects/:id # 获取项目详情 +PUT /api/v1/literature/projects/:id # 更新项目 +DELETE /api/v1/literature/projects/:id # 删除项目 +``` + +### 标题摘要初筛 ⭐ +``` +POST /api/v1/literature/projects/:id/items/import # 导入CSV +POST /api/v1/literature/projects/:id/pico # 配置PICO +POST /api/v1/literature/projects/:id/screening/title # 执行初筛 +GET /api/v1/literature/projects/:id/screening/status # 查询进度 +GET /api/v1/literature/projects/:id/screening/results # 获取结果 +POST /api/v1/literature/projects/:id/screening/export # 导出Excel +``` + +### 全文复筛 +``` +POST /api/v1/literature/projects/:id/screening/fulltext # 执行全文筛选 +``` + +--- + +## 📅 开发计划 + +### Week 2(11月11-15日) +- **Day 1-2:** 项目管理基础CRUD +- **Day 3-4:** 标题摘要初筛后端(含LLM网关) +- **Day 5:** 标题摘要初筛前端 + +### Week 3(11月18-22日) +- **Day 1-2:** 全文复筛后端 +- **Day 3-4:** 全文复筛前端 +- **Day 5:** 测试和优化 + +### Week 4(11月25-29日) +- **Day 1-2:** 数据提取功能 +- **Day 3-5:** 整体测试和文档完善 + +--- + +## ⚠️ 关键技术难点 + +### 1. AI判断准确率 +**解决方案:** +- 双模型投票机制 +- 优化PICO提示词 +- 提供人工复核入口(UNCERTAIN项) + +### 2. 大批量处理 +**解决方案:** +- 固定3并发(p-queue) +- 实时进度显示 +- 失败重试机制 + +### 3. CSV解析 +**解决方案:** +- 使用papaparse库 +- 支持多种编码(UTF-8、GBK) +- 容错处理 + +### 4. PDF全文提取 +**解决方案:** +- 调用extraction_service +- 降级策略:Nougat → PyMuPDF + +--- + +## ✅ 快速开发检查清单 + +**开始开发前确认:** +- [ ] LLM网关是否已实现?(如未实现,Week 2 Day 1-3同步开发) +- [ ] 数据库Schema是否已创建?(asl_schema) +- [ ] Prisma Schema是否已更新? +- [ ] API路由是否已注册? +- [ ] 前端路由是否已配置? + +**常见问题:** + +**Q: LLM调用超时怎么办?** +A: 设置timeout=60s,添加重试机制(最多3次) + +**Q: CSV解析失败怎么办?** +A: 检查编码格式,提供明确的错误提示,支持重新上传 + +**Q: 两个模型都返回UNCERTAIN怎么办?** +A: 标记为UNCERTAIN,提示用户需要人工复核 + +**Q: PDF提取失败怎么办?** +A: 降级策略:Nougat → PyMuPDF → 提示用户手动处理 + +--- + +## 📖 更多详细信息 + +**需要完整PRD:** +→ `00-项目概述/AI智能文献PRD(1-3).md`(3个文档) + +**需要数据库详情:** +→ AI智能文献目录下的 `02-技术设计/01-数据库设计.md` + +**需要API详情:** +→ AI智能文献目录下的 `02-技术设计/02-API设计规范.md` + +**需要UI设计:** +→ `01-设计文档/AI智能文献-标题摘要初筛原型.html` +→ `01-设计文档/AI智能文献-全文复筛.html` + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/03-业务模块/DC-数据清洗整理/README.md b/docs/03-业务模块/DC-数据清洗整理/README.md new file mode 100644 index 00000000..8b28d412 --- /dev/null +++ b/docs/03-业务模块/DC-数据清洗整理/README.md @@ -0,0 +1,98 @@ +# DC - 数据清洗整理 + +> **模块代号:** DC (Data Cleaning) +> **开发状态:** ⏳ 规划中 +> **商业价值:** ⭐⭐⭐⭐⭐ 可独立售卖 +> **独立性:** ⭐⭐⭐⭐⭐ +> **优先级:** P1 + +--- + +## 📋 模块概述 + +数据清洗整理模块提供专业工具,处理医院导出的海量(百万行级)、多表格的Excel数据。 + +**核心价值:** 核心差异化功能,解决医学科研痛点 + +--- + +## 🎯 核心功能 + +### 1. 表格ETL(重点) +- 多张Excel表格导入 +- 按"患者ID"和"时间"自动JOIN +- 重组为干净的分析宽表 + +### 2. 文本提取(NER)(重点) +- 从病理报告提取结构化字段 +- 从住院小结提取关键信息 +- TNM分期自动识别 + +### 3. 数据质量报告 +- 缺失值统计 +- 异常值检测 +- 数据质量评分 + +### 4. 导出标准化数据 +- Excel导出 +- SPSS格式 +- R语言格式 + +--- + +## 📂 文档结构 + +``` +DC-数据清洗整理/ + ├── [AI对接] DC快速上下文.md # ⏳ 待创建 + ├── 00-项目概述/ + │ └── 01-产品需求文档(PRD).md # ⏳ 待创建 + ├── 01-设计文档/ + │ ├── 01-ETL引擎设计.md # ⏳ 待创建 + │ └── 02-医学NLP设计.md # ⏳ 待创建 + └── README.md # ✅ 当前文档 +``` + +--- + +## 🔗 依赖的通用能力 + +- **LLM网关** - 医学NER提取(云端版) +- **文档处理引擎** - Excel/Docx读取 +- **ETL引擎** - 数据清洗和转换 +- **医学NLP引擎** - 实体识别(单机版) + +--- + +## 🎯 商业模式 + +**目标客户:** 临床科室、数据管理员 +**售卖方式:** 独立产品 +**定价策略:** 按项目数或一次性License + +--- + +## ⚠️ 技术难点 + +1. **大数据处理** - 百万行数据的内存管理 +2. **隐私保护** - 单机版必须100%本地化 +3. **NER准确率** - 医学术语复杂 + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/03-业务模块/PKB-个人知识库/02-技术设计/01-数据库设计.md b/docs/03-业务模块/PKB-个人知识库/02-技术设计/01-数据库设计.md new file mode 100644 index 00000000..255e5ed1 --- /dev/null +++ b/docs/03-业务模块/PKB-个人知识库/02-技术设计/01-数据库设计.md @@ -0,0 +1,596 @@ +# PKB - 个人知识库模块:数据库设计 + +> **版本:** v1.0 +> **更新时间:** 2025-11-12 +> **数据库Schema:** `pkb_schema` +> **状态:** ✅ 已实施并迁移 + +--- + +## 📋 目录 + +1. [模块概述](#模块概述) +2. [Schema信息](#schema信息) +3. [数据库表设计](#数据库表设计) +4. [表关系图](#表关系图) +5. [索引设计](#索引设计) +6. [Phase 3功能说明](#phase-3功能说明) +7. [变更历史](#变更历史) + +--- + +## 模块概述 + +### 功能定位 + +**PKB(Personal Knowledge Base)- 个人知识库模块**提供文献管理和智能问答能力,核心功能: + +1. **知识库管理** - 创建和管理个人知识库 +2. **文档上传** - 支持PDF/Word/TXT等格式文档 +3. **智能问答** - 基于知识库的RAG(检索增强生成)对话 +4. **批处理任务** - 批量处理文献提取(Phase 3) +5. **任务模板** - 预定义的批处理任务模板(Phase 3) + +### 核心业务场景 + +- 用户创建知识库(如"CLL相关知识库") +- 上传PDF文献到知识库 +- 自动提取文本并向量化 +- 基于知识库进行智能问答 +- 批量提取文献中的结构化信息 + +### 与Dify平台集成 + +PKB模块深度集成Dify平台: +- 每个知识库对应一个Dify Dataset +- 每个文档对应一个Dify Document +- 使用Dify的向量检索和RAG能力 + +--- + +## Schema信息 + +### Schema名称 +```sql +pkb_schema +``` + +### 创建语句 +```sql +CREATE SCHEMA IF NOT EXISTS pkb_schema; +GRANT ALL ON SCHEMA pkb_schema TO aiclinical_admin; +``` + +### 数据迁移 +- **迁移时间:** 2025-11-12 +- **源Schema:** public +- **迁移脚本:** `docs/09-架构实施/migration-scripts/004-migrate-pkb.sql` +- **数据完整性:** ✅ 100%迁移成功 + +--- + +## 数据库表设计 + +### 表列表 + +| 表名 | 用途 | 行数(估计) | 状态 | +|------|------|------------|------| +| `knowledge_bases` | 知识库 | 5-50/用户 | ✅ 已部署 | +| `documents` | 文档 | 10-1000/知识库 | ✅ 已部署 | +| `batch_tasks` | 批处理任务 | 1-100/知识库 | ✅ Phase 3 | +| `batch_results` | 批处理结果 | N条/任务 | ✅ Phase 3 | +| `task_templates` | 任务模板 | 10-50/用户 | ✅ Phase 3(预留) | + +**总计:** 5个表(2个核心表 + 3个Phase 3表) + +--- + +### 1. knowledge_bases - 知识库表 + +**用途:** 存储用户创建的个人知识库 + +#### 表结构 + +| 字段名 | 数据类型 | 约束 | 说明 | +|--------|---------|------|------| +| id | TEXT | PRIMARY KEY | 知识库唯一标识(UUID) | +| user_id | TEXT | NOT NULL, FK | 所属用户ID | +| name | TEXT | NOT NULL | 知识库名称 | +| description | TEXT | NULL | 知识库描述 | +| dify_dataset_id | TEXT | NOT NULL, UNIQUE | Dify平台的Dataset ID | +| file_count | INTEGER | NOT NULL, DEFAULT 0 | 文件数量 | +| total_size_bytes | BIGINT | NOT NULL, DEFAULT 0 | 总文件大小(字节) | +| created_at | TIMESTAMPTZ | NOT NULL, DEFAULT now() | 创建时间 | +| updated_at | TIMESTAMPTZ | NOT NULL | 更新时间 | + +#### Prisma Model + +```prisma +model KnowledgeBase { + id String @id @default(uuid()) + userId String @map("user_id") + name String + description String? + difyDatasetId String @map("dify_dataset_id") + fileCount Int @default(0) @map("file_count") + totalSizeBytes BigInt @default(0) @map("total_size_bytes") + + createdAt DateTime @default(now()) @map("created_at") + updatedAt DateTime @updatedAt @map("updated_at") + + user User @relation(fields: [userId], references: [id], onDelete: Cascade) + documents Document[] + batchTasks BatchTask[] + + @@index([userId]) + @@index([difyDatasetId]) + @@map("knowledge_bases") + @@schema("pkb_schema") +} +``` + +#### 业务规则 + +1. **Dify绑定** - 每个知识库对应唯一的Dify Dataset +2. **统计字段** - `file_count`和`total_size_bytes`需实时更新 +3. **用户隔离** - 通过`user_id`实现数据隔离 +4. **级联删除** - 删除知识库时,文档和任务也被删除 + +--- + +### 2. documents - 文档表 + +**用途:** 存储知识库中的文档信息 + +#### 表结构 + +| 字段名 | 数据类型 | 约束 | 说明 | +|--------|---------|------|------| +| id | TEXT | PRIMARY KEY | 文档唯一标识(UUID) | +| kb_id | TEXT | NOT NULL, FK | 所属知识库ID | +| user_id | TEXT | NOT NULL, FK | 所属用户ID | +| filename | TEXT | NOT NULL | 文件名 | +| file_type | TEXT | NOT NULL | 文件类型(pdf/doc/txt等) | +| file_size_bytes | BIGINT | NOT NULL | 文件大小(字节) | +| file_url | TEXT | NOT NULL | 文件存储URL | +| dify_document_id | TEXT | NOT NULL | Dify平台的Document ID | +| status | TEXT | NOT NULL, DEFAULT 'uploading' | 状态(uploading/processing/completed/failed) | +| progress | INTEGER | NOT NULL, DEFAULT 0 | 处理进度(0-100) | +| error_message | TEXT | NULL | 错误信息 | +| segments_count | INTEGER | NULL | 切片数量 | +| tokens_count | INTEGER | NULL | Token数量 | +| extraction_method | TEXT | NULL | 提取方法(auto/ocr/parse) | +| **Phase 2字段** | | | **全文阅读功能** | +| full_text | TEXT | NULL | 完整文本内容 | +| full_text_length | INTEGER | NULL | 文本长度 | +| metadata | JSONB | NULL | 元数据(作者、标题、摘要等) | +| created_at | TIMESTAMPTZ | NOT NULL, DEFAULT now() | 创建时间 | +| updated_at | TIMESTAMPTZ | NOT NULL | 更新时间 | + +#### Prisma Model + +```prisma +model Document { + id String @id @default(uuid()) + kbId String @map("kb_id") + userId String @map("user_id") + filename String + fileType String @map("file_type") + fileSizeBytes BigInt @map("file_size_bytes") + fileUrl String @map("file_url") + difyDocumentId String @map("dify_document_id") + status String @default("uploading") + progress Int @default(0) + errorMessage String? @map("error_message") + segmentsCount Int? @map("segments_count") + tokensCount Int? @map("tokens_count") + extractionMethod String? @map("extraction_method") + + // Phase 2: 全文阅读功能 + fullText String? @map("full_text") @db.Text + fullTextLength Int? @map("full_text_length") + metadata Json? + + createdAt DateTime @default(now()) @map("created_at") + updatedAt DateTime @updatedAt @map("updated_at") + + knowledgeBase KnowledgeBase @relation(fields: [kbId], references: [id], onDelete: Cascade) + user User @relation(fields: [userId], references: [id], onDelete: Cascade) + batchResults BatchResult[] + + @@index([kbId]) + @@index([userId]) + @@index([status]) + @@index([difyDocumentId]) + @@index([extractionMethod]) + @@map("documents") + @@schema("pkb_schema") +} +``` + +#### 业务规则 + +1. **状态机** - `status`字段管理文档处理流程 + - `uploading` → `processing` → `completed` + - 失败时转为`failed` +2. **Dify同步** - 每个文档对应Dify中的一个Document +3. **提取方法** - 支持自动识别、OCR、解析三种方式 +4. **Phase 2扩展** - `full_text`字段用于全文阅读和深度分析 + +--- + +### 3. batch_tasks - 批处理任务表 (Phase 3) + +**用途:** 批量处理文献,提取结构化信息 + +#### 表结构 + +| 字段名 | 数据类型 | 约束 | 说明 | +|--------|---------|------|------| +| id | TEXT | PRIMARY KEY | 任务唯一标识(UUID) | +| user_id | TEXT | NOT NULL, FK | 所属用户ID | +| kb_id | TEXT | NOT NULL, FK | 所属知识库ID | +| task_name | TEXT | NOT NULL | 任务名称 | +| task_type | TEXT | NOT NULL | 任务类型(extract_info/summarize等) | +| prompt_template | TEXT | NOT NULL | Prompt模板 | +| model_name | TEXT | NOT NULL, DEFAULT 'gpt-4' | 使用的LLM模型 | +| status | TEXT | NOT NULL, DEFAULT 'pending' | 状态(pending/running/completed/failed) | +| total_documents | INTEGER | NOT NULL, DEFAULT 0 | 总文档数 | +| processed_count | INTEGER | NOT NULL, DEFAULT 0 | 已处理数 | +| success_count | INTEGER | NOT NULL, DEFAULT 0 | 成功数 | +| failed_count | INTEGER | NOT NULL, DEFAULT 0 | 失败数 | +| error_message | TEXT | NULL | 错误信息 | +| created_at | TIMESTAMPTZ | NOT NULL, DEFAULT now() | 创建时间 | +| updated_at | TIMESTAMPTZ | NOT NULL | 更新时间 | + +#### Prisma Model + +```prisma +model BatchTask { + id String @id @default(uuid()) + userId String @map("user_id") + kbId String @map("kb_id") + taskName String @map("task_name") + taskType String @map("task_type") + promptTemplate String @map("prompt_template") @db.Text + modelName String @default("gpt-4") @map("model_name") + status String @default("pending") + totalDocuments Int @default(0) @map("total_documents") + processedCount Int @default(0) @map("processed_count") + successCount Int @default(0) @map("success_count") + failedCount Int @default(0) @map("failed_count") + errorMessage String? @map("error_message") @db.Text + + user User @relation(fields: [userId], references: [id], onDelete: Cascade) + knowledgeBase KnowledgeBase @relation(fields: [kbId], references: [id], onDelete: Cascade) + results BatchResult[] + + createdAt DateTime @default(now()) @map("created_at") + updatedAt DateTime @updatedAt @map("updated_at") + + @@index([userId]) + @@index([kbId]) + @@index([status]) + @@index([createdAt]) + @@map("batch_tasks") + @@schema("pkb_schema") +} +``` + +#### 业务规则 + +1. **任务类型** - 支持多种批处理类型 + - `extract_info` - 提取结构化信息 + - `summarize` - 批量摘要 + - `classify` - 文献分类 +2. **状态机** - `status`管理任务执行状态 +3. **进度跟踪** - 实时更新计数器字段 +4. **模型选择** - 支持多种LLM模型 + +--- + +### 4. batch_results - 批处理结果表 (Phase 3) + +**用途:** 存储批处理任务的每篇文献结果 + +#### 表结构 + +| 字段名 | 数据类型 | 约束 | 说明 | +|--------|---------|------|------| +| id | TEXT | PRIMARY KEY | 结果唯一标识(UUID) | +| task_id | TEXT | NOT NULL, FK | 所属任务ID | +| document_id | TEXT | NOT NULL, FK | 所属文档ID | +| status | TEXT | NOT NULL, DEFAULT 'pending' | 状态(pending/processing/completed/failed) | +| result_data | JSONB | NULL | 提取的结构化数据 | +| raw_output | TEXT | NULL | LLM原始输出 | +| tokens_used | INTEGER | NULL | 使用的Token数 | +| error_message | TEXT | NULL | 错误信息 | +| created_at | TIMESTAMPTZ | NOT NULL, DEFAULT now() | 创建时间 | + +#### Prisma Model + +```prisma +model BatchResult { + id String @id @default(uuid()) + taskId String @map("task_id") + documentId String @map("document_id") + status String @default("pending") + resultData Json? @map("result_data") + rawOutput String? @map("raw_output") @db.Text + tokensUsed Int? @map("tokens_used") + errorMessage String? @map("error_message") @db.Text + + task BatchTask @relation(fields: [taskId], references: [id], onDelete: Cascade) + document Document @relation(fields: [documentId], references: [id], onDelete: Cascade) + + createdAt DateTime @default(now()) @map("created_at") + + @@index([taskId]) + @@index([documentId]) + @@index([status]) + @@map("batch_results") + @@schema("pkb_schema") +} +``` + +#### 业务规则 + +1. **结果存储** - `result_data`存储JSON格式的结构化数据 +2. **原始输出** - `raw_output`保留LLM原始输出,便于调试 +3. **Token统计** - 记录每篇文献的Token消耗 + +--- + +### 5. task_templates - 任务模板表 (Phase 3, 暂不实现) + +**用途:** 存储预定义的批处理任务模板 + +#### 表结构 + +| 字段名 | 数据类型 | 约束 | 说明 | +|--------|---------|------|------| +| id | TEXT | PRIMARY KEY | 模板唯一标识(UUID) | +| user_id | TEXT | NOT NULL, FK | 所属用户ID | +| template_name | TEXT | NOT NULL | 模板名称 | +| task_type | TEXT | NOT NULL | 任务类型 | +| prompt_template | TEXT | NOT NULL | Prompt模板 | +| output_fields | JSONB | NOT NULL, DEFAULT '{}' | 输出字段定义 | +| model_name | TEXT | NOT NULL, DEFAULT 'gpt-4' | 默认模型 | +| created_at | TIMESTAMPTZ | NOT NULL, DEFAULT now() | 创建时间 | +| updated_at | TIMESTAMPTZ | NOT NULL | 更新时间 | + +#### Prisma Model + +```prisma +model TaskTemplate { + id String @id @default(uuid()) + userId String @map("user_id") + templateName String @map("template_name") + taskType String @map("task_type") + promptTemplate String @map("prompt_template") @db.Text + outputFields Json @default("{}") @map("output_fields") + modelName String @default("gpt-4") @map("model_name") + + user User @relation(fields: [userId], references: [id], onDelete: Cascade) + + createdAt DateTime @default(now()) @map("created_at") + updatedAt DateTime @updatedAt @map("updated_at") + + @@index([userId]) + @@map("task_templates") + @@schema("pkb_schema") +} +``` + +#### 业务规则 + +1. **模板复用** - 用户可保存常用的任务配置 +2. **字段定义** - `output_fields`定义期望的输出结构 +3. **暂不实现** - Phase 3预留,后续开发 + +--- + +## 表关系图 + +```mermaid +erDiagram + PLATFORM_USERS ||--o{ KNOWLEDGE_BASES : "owns" + PLATFORM_USERS ||--o{ DOCUMENTS : "uploads" + PLATFORM_USERS ||--o{ BATCH_TASKS : "creates" + PLATFORM_USERS ||--o{ TASK_TEMPLATES : "defines" + + KNOWLEDGE_BASES ||--o{ DOCUMENTS : "contains" + KNOWLEDGE_BASES ||--o{ BATCH_TASKS : "processes" + + BATCH_TASKS ||--o{ BATCH_RESULTS : "generates" + DOCUMENTS ||--o{ BATCH_RESULTS : "analyzed_by" + + PLATFORM_USERS { + text id PK + text email + text password + } + + KNOWLEDGE_BASES { + text id PK + text user_id FK + text name + text dify_dataset_id + int file_count + bigint total_size_bytes + } + + DOCUMENTS { + text id PK + text kb_id FK + text user_id FK + text filename + text file_type + text dify_document_id + text status + text full_text + jsonb metadata + } + + BATCH_TASKS { + text id PK + text user_id FK + text kb_id FK + text task_name + text task_type + text status + int total_documents + int processed_count + } + + BATCH_RESULTS { + text id PK + text task_id FK + text document_id FK + text status + jsonb result_data + text raw_output + } + + TASK_TEMPLATES { + text id PK + text user_id FK + text template_name + text task_type + jsonb output_fields + } +``` + +### 跨Schema引用 + +**外键关系:** +- `knowledge_bases.user_id` → `platform_schema.users.id` +- `documents.user_id` → `platform_schema.users.id` +- `batch_tasks.user_id` → `platform_schema.users.id` +- `task_templates.user_id` → `platform_schema.users.id` + +**说明:** Prisma自动处理跨Schema外键,应用代码无需关心Schema前缀 + +--- + +## 索引设计 + +### 主键索引 +所有表的`id`字段自动创建B-tree主键索引。 + +### 外键索引 + +| 表名 | 索引字段 | 用途 | +|------|---------|------| +| knowledge_bases | user_id | 查询用户的所有知识库 | +| knowledge_bases | dify_dataset_id | Dify数据同步 | +| documents | kb_id | 查询知识库的所有文档 | +| documents | user_id | 查询用户的所有文档 | +| documents | status | 过滤文档状态 | +| documents | dify_document_id | Dify数据同步 | +| documents | extraction_method | 按提取方法过滤 | +| batch_tasks | user_id | 查询用户的任务 | +| batch_tasks | kb_id | 查询知识库的任务 | +| batch_tasks | status | 过滤任务状态 | +| batch_results | task_id | 查询任务的所有结果 | +| batch_results | document_id | 查询文档的处理结果 | +| batch_results | status | 过滤结果状态 | +| task_templates | user_id | 查询用户的模板 | + +### 时间索引 + +| 表名 | 索引字段 | 用途 | +|------|---------|------| +| batch_tasks | created_at | 按时间排序任务 | + +--- + +## Phase 3功能说明 + +### 批处理工作流程 + +```mermaid +sequenceDiagram + participant User + participant API + participant BatchTask + participant Document + participant LLM + participant BatchResult + + User->>API: 创建批处理任务 + API->>BatchTask: 创建任务记录 + API->>Document: 查询知识库文档列表 + + loop 每篇文档 + BatchTask->>Document: 读取文档全文 + BatchTask->>LLM: 调用LLM提取信息 + LLM-->>BatchTask: 返回结构化数据 + BatchTask->>BatchResult: 保存结果 + BatchTask->>BatchTask: 更新进度 + end + + BatchTask->>API: 任务完成 + API-->>User: 返回结果汇总 +``` + +### 批处理任务类型示例 + +1. **信息提取** (`extract_info`) + - 提取研究方法、样本量、P值等 + - 输出JSON格式的结构化数据 + +2. **文献摘要** (`summarize`) + - 批量生成文献摘要 + - 统一格式和长度 + +3. **文献分类** (`classify`) + - 根据研究类型分类 + - 标签化管理 + +--- + +## 变更历史 + +### v1.0 - 2025-11-12 - 初始版本 ✅ + +**变更内容:** +1. 从`public` schema迁移到`pkb_schema` +2. 5个表全部迁移: + - knowledge_bases + - documents + - batch_tasks + - batch_results + - task_templates +3. 在Prisma中添加`@@schema("pkb_schema")`标签 +4. 所有数据100%完整迁移 + +**迁移脚本:** `docs/09-架构实施/migration-scripts/004-migrate-pkb.sql` + +**验证状态:** ✅ 已验证,功能正常 + +**特殊处理:** +- `batch_results.rawOutput` → `raw_output`(列名映射修正) +- `task_templates.outputFields` → `output_fields`(列名映射修正) + +--- + +## 📚 相关文档 + +- [Schema隔离架构设计](../../../09-架构实施/01-Schema隔离架构设计(10个).md) +- [Schema迁移完成报告](../../../09-架构实施/Schema迁移完成报告.md) +- [Prisma配置完成报告](../../../09-架构实施/Prisma配置完成报告.md) +- [快速功能测试报告](../../../09-架构实施/快速功能测试报告.md) +- [AIA数据库设计文档](../../AIA-AI智能问答/02-技术设计/01-数据库设计.md) + +--- + +**文档维护者:** AI助手 +**最后更新:** 2025-11-12 +**文档状态:** ✅ 已完成并验证 + + + + + + diff --git a/docs/03-业务模块/PKB-个人知识库/README.md b/docs/03-业务模块/PKB-个人知识库/README.md new file mode 100644 index 00000000..bcb73a48 --- /dev/null +++ b/docs/03-业务模块/PKB-个人知识库/README.md @@ -0,0 +1,62 @@ +# PKB - 个人知识库 + +> **模块代号:** PKB (Personal Knowledge Base) +> **开发状态:** ✅ 已完成 +> **商业价值:** ⭐⭐⭐ +> **独立性:** ⭐⭐⭐ + +--- + +## 📋 模块概述 + +个人知识库允许用户创建私人文献库,并基于库内文献进行AI问答(RAG)。 + +--- + +## 🎯 核心功能 + +### 已完成功能 +1. ✅ **知识库CRUD** - 创建、查看、编辑、删除 +2. ✅ **文档上传** - PDF、Word、TXT、Markdown +3. ✅ **RAG问答** - 基于知识库内容问答 +4. ✅ **@知识库引用** - 智能引用系统(100%准确溯源) +5. ✅ **配额管理** - 每用户3个知识库,每库50个文档 + +--- + +## 📂 文档结构 + +``` +PKB-个人知识库/ + ├── [AI对接] PKB快速上下文.md # ⏳ 待创建 + ├── 00-项目概述/ + ├── 01-设计文档/ + └── README.md # ✅ 当前文档 +``` + +--- + +## 🔗 依赖的通用能力 + +- **LLM网关** - RAG问答 +- **文档处理引擎** - 文档文本提取 +- **RAG引擎** - 向量检索 + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/03-业务模块/README.md b/docs/03-业务模块/README.md new file mode 100644 index 00000000..26b422d2 --- /dev/null +++ b/docs/03-业务模块/README.md @@ -0,0 +1,119 @@ +# 业务模块层 + +> **层级定位:** 面向用户的产品功能 +> **核心原则:** 独立部署、独立销售、低耦合、高内聚 + +--- + +## 📋 模块清单 + +| 模块 | 名称 | 商业价值 | 独立性 | 状态 | 优先级 | +|------|------|---------|-------|------|--------| +| **AIA** | AI智能问答 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ✅ 已完成 | - | +| **ASL** | AI智能文献 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⏳ 下一步 | P0 | +| **PKB** | 个人知识库 | ⭐⭐⭐ | ⭐⭐⭐ | ✅ 已完成 | - | +| **DC** | 数据清洗整理 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⏳ 规划中 | P1 | +| **SSA** | 智能统计分析 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⏳ 规划中 | P2 | +| **ST** | 统计分析工具 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⏳ 规划中 | P2 | +| **RVW** | 稿件审查系统 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⚡ 独立系统 | P1 | +| **ADMIN** | 运营管理端 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⏳ 规划中 | P1 | + +--- + +## 🎯 设计原则 + +### 1. 独立部署 +- 每个模块可以单独部署 +- 支持Docker打包 +- 支持Electron单机版 + +### 2. 独立销售 +- 每个模块可以单独售卖 +- 完整的文档和部署指南 +- 独立的定价策略 + +### 3. 低耦合 +- 模块间不直接依赖 +- 通过通用能力层交互 + +### 4. 高内聚 +- 模块内功能完整 +- 业务逻辑闭环 + +--- + +## 📊 模块分类 + +### 核心差异化模块(可独立销售) +1. **ASL** - AI智能文献 ⭐⭐⭐⭐⭐ + - 目标客户:系统评价研究者、循证医学中心 + - 商业模式:独立售卖 + +2. **DC** - 数据清洗整理 ⭐⭐⭐⭐⭐ + - 目标客户:临床科室、数据管理员 + - 商业模式:独立售卖 + +3. **RVW** - 稿件审查系统 ⭐⭐⭐⭐⭐ + - 目标客户:期刊编辑部、出版社 + - 商业模式:按期刊订阅 + +### 协同模块(组合销售) +4. **SSA** + **ST** - 统计分析套件 + - 协同效应强 + - 组合售卖 + +### 基础模块(平台功能) +5. **AIA** + **PKB** - AI助手套件 + - 平台标配功能 + +### 管理模块 +6. **ADMIN** - 运营管理端 + - SaaS运营必备 + +--- + +## 📚 快速导航 + +### 快速上下文 +- **[AI对接] 业务模块快速上下文.md** - 2-3分钟了解业务模块层 + +### 核心模块(按优先级) +1. [ASL-AI智能文献](./ASL-AI智能文献/README.md) - P0,下一步开发 +2. [DC-数据清洗整理](./DC-数据清洗整理/README.md) - P1,核心竞争力 +3. [RVW-稿件审查系统](./RVW-稿件审查系统/README.md) - P1,独立系统 +4. [ADMIN-运营管理端](./ADMIN-运营管理端/README.md) - P1,商业基础 + +### 已完成模块 +5. [AIA-AI智能问答](./AIA-AI智能问答/README.md) - 已完成 +6. [PKB-个人知识库](./PKB-个人知识库/README.md) - 已完成 + +### 规划中模块 +7. [SSA-智能统计分析](./SSA-智能统计分析/README.md) - P2 +8. [ST-统计分析工具](./ST-统计分析工具/README.md) - P2 + +--- + +## 🔗 相关文档 + +- [系统架构分层设计](../00-系统总体设计/01-系统架构分层设计.md) +- [平台基础层](../01-平台基础层/README.md) +- [通用能力层](../02-通用能力层/README.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/03-业务模块/RVW-稿件审查系统/README.md b/docs/03-业务模块/RVW-稿件审查系统/README.md new file mode 100644 index 00000000..1fe62a1b --- /dev/null +++ b/docs/03-业务模块/RVW-稿件审查系统/README.md @@ -0,0 +1,95 @@ +# RVW - 稿件审查系统 + +> **模块代号:** RVW (Review) +> **开发状态:** ⚡ 核心功能已完成,待扩展 +> **商业价值:** ⭐⭐⭐⭐⭐ 可独立售卖 +> **独立性:** ⭐⭐⭐⭐⭐ 极高 +> **优先级:** P1 + +--- + +## 📋 模块概述 + +稿件审查系统提供AI辅助的稿件智能审查功能。 + +**核心价值:** 完全独立的产品,可独立售卖给期刊编辑部 + +--- + +## 🎯 核心功能 + +### 已完成功能 +1. ✅ **文档上传** - Word稿件上传 +2. ✅ **文本提取** - 调用文档处理引擎 +3. ✅ **稿约规范性评估** - 11项评估(editorial_review) +4. ✅ **方法学评估** - 3部分评估(methodology_review) +5. ✅ **综合评分** - 双维度评分 +6. ✅ **PDF导出** - 评估报告导出 + +### 未来扩展 +- ⏳ 审稿人管理 +- ⏳ 审稿流程管理 +- ⏳ 多轮审稿 +- ⏳ 审稿意见模板 +- ⏳ 期刊库管理 + +--- + +## 📂 文档结构 + +``` +RVW-稿件审查系统/ + ├── [AI对接] RVW快速上下文.md # ⏳ 待创建 + ├── 00-项目概述/ + │ ├── 01-产品需求文档(PRD).md # ⏳ 待创建 + │ ├── 02-独立系统规划.md # ⏳ 待创建 + │ └── 03-商业模式设计.md # ⏳ 待创建 + ├── 01-设计文档/ + ├── 02-业务规则/ + │ ├── 01-方法学评估标准.md # ⏳ 待迁移 + │ └── 02-稿约规范性评估标准.md # ⏳ 待迁移 + └── README.md # ✅ 当前文档 +``` + +--- + +## 🔗 依赖的通用能力 + +- **LLM网关** - AI评估 +- **文档处理引擎** - 稿件文本提取 + +--- + +## 🎯 商业模式 + +**目标客户:** 期刊编辑部、出版社、学会 +**售卖方式:** 完全独立产品 +**定价策略:** 按期刊订阅 或 按稿件数量计费 + +--- + +## ⭐ 为什么适合独立? + +1. ✅ **用户群独立** - 期刊编辑部 vs 临床医生(完全不同) +2. ✅ **业务逻辑独立** - 与其他模块无关联 +3. ✅ **部署场景独立** - 期刊编辑部有自己的部署需求 +4. ✅ **商业模式独立** - 可以按期刊订阅 + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/03-业务模块/RVW-稿件审查系统/稿件方法学评估标准.txt b/docs/03-业务模块/RVW-稿件审查系统/稿件方法学评估标准.txt new file mode 100644 index 00000000..89914416 --- /dev/null +++ b/docs/03-业务模块/RVW-稿件审查系统/稿件方法学评估标准.txt @@ -0,0 +1,31 @@ +稿件方法学评估 + +第一部分:科研设计评估 + +1. 类型交代不清楚 +2.缺少研究对象介绍 +3. 研究对象介绍不完整 +4. 对照设计不合理且无解释说明 +5.影响、干预因素及观察指标交代不清楚 +6.研究效应及评价指标不正确 +7.研究设计要素描述欠完整、欠准确 (随机、对照、盲法、重复等) +8.缺少质控措施介绍 +9. 其他, + + +第二部分:统计学方法描述评估 + +1. 描述不完整(软件、版本、资料类型、表达方式、相应统计方法、检验水准等) +2. 描述与实际不一致 +3. 资料的表达与描述不正确 +4. 未调整混杂因素 +5. 其他 + +第三部分:统计分析评估 + +1. 主要研究结果统计方法使用不正确 +2. 次要研究结果统计方法使用不正确 +3. 统计结果描述不规范 +4. 主要统计结果错误 +5. 次要统计结果错误 +6. 其他 \ No newline at end of file diff --git a/docs/03-业务模块/RVW-稿件审查系统/稿约规范性评估标准.txt b/docs/03-业务模块/RVW-稿件审查系统/稿约规范性评估标准.txt new file mode 100644 index 00000000..09746bbc --- /dev/null +++ b/docs/03-业务模块/RVW-稿件审查系统/稿约规范性评估标准.txt @@ -0,0 +1,26 @@ +稿约规范性评估: + +1.文稿科学性与实用性评估:论点明确,资料可靠,数据准确,层次清楚,文字精练,用字规范, 文稿附图量不限,提倡多附图像清晰的图。临床病例分析可以图像为主,并贯穿文字说明和评析,视频 为30~40 min 。 当报告是以人为研究对象的试验时,作者应说明其遵循的程序是否符合负责人体实验的委 员会(单位性、地区性或国家性)所制定的伦理学标准并得到该委员会的批准,是否取得受试对象的知 情同意。论著性文章5000字以内,综述、讲座、论坛可视情况而定,病例报告一般不超过2000字。 + +2.文题评估:力求简明,且能反映出文章的主题。中文文题一般不超过20个汉字,英文文题一般不宜超 过10个实词。 + +3.作者格式评估:作者姓名在文题下依次排列,在投稿后不应再做更动;作者单位按照邮政编码、所在省市 县、单位全称、具体科室的顺序列于文题页左下方。作者应是:(1)参与选题和设计,或参与资料的分 析和解释者;(2)起草或修改论文中主要观点或其他主要内容者;(3)能对编辑部的修改意见进行核修, 在学术方面进行答辩,并最终同意该文发表者。以上3条均须具备。作者中如有外籍作者应征得本人同 意,并附证明信。 + +4.摘要评估:论著性文章需附中、英文摘要,300~500字(词)为宜。摘要必须包括目的、方法、结果 (列出主要数据)、结论4个部分,各部分冠以相应的标题。英文摘要应包括文题、文中所有作者姓名(汉 语拼音)、单位名称、所在城市及邮政编码,其后加列国名;作者不属同一单位时,在姓名右上角加注不 同的阿拉伯数字序号1,2,3, ……并在其工作单位名称之前(英文)或之后(中文)加注与作者姓名序 号相同的数字。 + +5.关键词评估:论著需分别在中、英文摘要后标引2~5个中、英文关键词。尽量使用美国国立医学图书馆 编辑的最新版《Index Medicus》中《医学主题词表(MeSH)》 内所列的词。如果无相应的词,可按下列 方法处理:(1)可选用直接相关的几个主题词进行组配;(2)可根据树状结构表选用最直接的上位主题 词;(3)必要时可采用习用的自由词并列于最后。关键词中的缩写词应按MeSH表还原为全称,如“Hb- sAg” 应标引为“乙型肝炎表面抗原”。关键词之间用“;”分隔,每个英文关键词首字母大写。 + +6.医学名词和药物名称评估:医学名词以1989年及其以后由全国自然科学名词审定委员会审定并公布、 科学出版社出版的《医学名词》和相关学科的名词为准,尚未公布者以人民卫生出版社所编《英汉医学 词汇》为准。中文药物名称应使用化学工业出版社1995年出版的《中华人民共和国药典》或卫生部药典 委员会编写的《中国药品通用名称》中的名称,英文药物名称则采用国际非专利药名,不用商品名。 + +7.缩略语评估:文中尽量少用。必须使用时于首次出现处先列出其全称,然后括号注出中文缩略语或英 文全称及其缩略语,后两者间用“,”分开。 + +8.计量单位评估:执行国务院1984年2月颁布的《中华人民共和国法定计量单位》,并以单位符号表示, 具体使用参照中华医学会杂志社编写的《法定计量单位在医学上的应用(第3版)》 一书。首次出现不常 用法定计量单位时在括号内注明与旧制单位的换算关系。量的符号一律用斜体字母,如吸光度的符号 为A。 + +9.图片格式评估:每3张图单独占1页,集中附于文后,分别按其在正文中出现的先后次序连续编码。每张图 片均应有必要的图题及说明性文字置于图的下方,并在注释中标明图中使用的全部非公知公用的缩写; 图中箭头标注应有文字说明。大体标本图片在图内应有尺度标记,病理照片要求注明特殊染色方法和高、 中、低倍数。图片要求有良好的清晰度和对比度,采用JPG 格式,分辨率不低于300像素/英寸,并应经 过剪切后充分显示关键部分。说明文字应简短,不应超过50个字,所有的图在文中相应部分应提及。 + +10.动态图像评估:分别按其在正文中出现的先后次序连续编码,文中应标记为“动态图×”,每个文件 名均应与文中的名称相符,如“动态图×”。视频资料要求图像和声音清晰稳定,剪接顺畅,保持可能获 得的最高清晰度模式,视频文件采用AVI 格式。 + +11.参考文献评估:按GB/T 7714-2015《信息与文献参考文献著录规则》采用顺序编码制著录,依照其在 文中出现的先后顺序用阿拉伯数字加方括号于右上角标出。不要引用摘要作为参考文献。参考文献中的 作者,1~3名全部列出,3名以上只列前3名,后加“,等”或其他与之相应的外文文字。外文期刊名称 用缩写,以《Index Medicus》中的格式为准;中文期刊用全名。每条参考文献题名项后均须标注文献类 型及著录起止页。将参考文献按引用先后顺序(用阿拉伯数字标出)排列于文末。举例说明如下: +举例1:左明良,尹立雪,李春梅,等.超声评价不同心脏起搏位点对犬血流动力学的影响[J/CD]. 中华医学 超声杂志(电子版),2005,3(4):200-204. +举例2:周永昌,郭万学.超声医学[M].3 版.北京:科学技术文献出版,2002:808-810,824-825. +举例3:叶欣,费兴波,何申戌.高强度聚焦超声治疗肿瘤[J]. 国外医学 ·肿瘤学分册,2004,31(1):38-40. diff --git a/docs/03-业务模块/SSA-智能统计分析/README.md b/docs/03-业务模块/SSA-智能统计分析/README.md new file mode 100644 index 00000000..88fef9d8 --- /dev/null +++ b/docs/03-业务模块/SSA-智能统计分析/README.md @@ -0,0 +1,84 @@ +# SSA - 智能统计分析 + +> **模块代号:** SSA (Smart Statistical Analysis) +> **开发状态:** ⏳ 规划中 +> **商业价值:** ⭐⭐⭐⭐⭐ 刚需 +> **独立性:** ⭐⭐⭐⭐ +> **优先级:** P2 + +--- + +## 📋 模块概述 + +智能统计分析模块提供3条核心分析路径,实现从数据上传到报告导出的完整流程。 + +--- + +## 🎯 核心功能(3条路径) + +### 1. 队列研究分析 +- 基线特征分析 +- 生存分析(Kaplan-Meier) +- Cox回归 + +### 2. 预测模型构建 +- 变量筛选 +- 模型构建(Logistic回归、随机森林) +- 模型验证(ROC曲线) + +### 3. RCT研究分析 +- 随机化检查 +- 疗效分析 +- 亚组分析 + +--- + +## 📂 文档结构 + +``` +SSA-智能统计分析/ + ├── [AI对接] SSA快速上下文.md # ⏳ 待创建 + ├── 00-项目概述/ + │ └── 01-产品需求文档(PRD).md # ⏳ 待创建 + └── README.md # ✅ 当前文档 +``` + +--- + +## 🔗 依赖的通用能力 + +- **文档处理引擎** - 数据导入 +- **ETL引擎** - 数据预处理 + +--- + +## 🏗️ 技术栈 + +- **R语言** - 统计分析核心 +- **Plumber** - R暴露为API +- **Node.js** - 粘合层 + +--- + +## 🎯 商业模式 + +**与ST模块协同售卖** + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/03-业务模块/ST-统计分析工具/README.md b/docs/03-业务模块/ST-统计分析工具/README.md new file mode 100644 index 00000000..c551c646 --- /dev/null +++ b/docs/03-业务模块/ST-统计分析工具/README.md @@ -0,0 +1,82 @@ +# ST - 统计分析工具 + +> **模块代号:** ST (Statistical Tools) +> **开发状态:** ⏳ 规划中 +> **商业价值:** ⭐⭐⭐⭐ 高频 +> **独立性:** ⭐⭐⭐⭐ +> **优先级:** P2 + +--- + +## 📋 模块概述 + +统计分析工具提供100+种轻量化统计工具,满足即时、小型的分析需求。 + +--- + +## 🎯 核心功能 + +### 工具分类 + +**描述性统计:** +- 均值、中位数、标准差 +- 频数分布 +- 交叉表 + +**推断性统计:** +- t检验 +- 卡方检验 +- 方差分析(ANOVA) + +**相关与回归:** +- 相关分析 +- 线性回归 +- Logistic回归 + +**高级分析:** +- ROC曲线 +- 生存分析 +- Meta分析 + +--- + +## 📂 文档结构 + +``` +ST-统计分析工具/ + ├── [AI对接] ST快速上下文.md # ⏳ 待创建 + ├── 00-项目概述/ + │ └── 02-工具清单(100+).md # ⏳ 待创建 + └── README.md # ✅ 当前文档 +``` + +--- + +## 🔗 依赖的通用能力 + +- **文档处理引擎** - 数据导入 + +--- + +## 🎯 商业模式 + +**与SSA模块协同售卖** + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/03-业务模块/[AI对接] 业务模块快速上下文.md b/docs/03-业务模块/[AI对接] 业务模块快速上下文.md new file mode 100644 index 00000000..3fdb76e7 --- /dev/null +++ b/docs/03-业务模块/[AI对接] 业务模块快速上下文.md @@ -0,0 +1,173 @@ +# [AI对接] 业务模块快速上下文 + +> **阅读时间:** 2-3分钟 | **Token消耗:** ~1500 tokens +> **层级:** L1 | **前置阅读:** 00-系统总体设计/[AI对接] 快速上下文.md + +--- + +## 📋 业务模块层定位 + +**业务模块层是面向用户的产品功能,每个模块都是独立的产品单元。** + +**核心原则:** +- ✅ 独立部署(可以单独打包部署) +- ✅ 独立销售(可以单独售卖) +- ✅ 低耦合(模块间不直接依赖) +- ✅ 高内聚(模块内功能完整) + +--- + +## 🎯 8个业务模块 + +### 核心差异化模块(可独立售卖) + +#### 1. ASL - AI智能文献 ⭐⭐⭐⭐⭐ P0 + +**状态:** ⏳ 下一步开发(Week 2-4) + +**核心功能:** +- 标题摘要初筛(双模型AI判断) +- 全文复筛(PDF全文分析) +- 数据提取与分析 +- 系统评价与Meta分析 + +**商业价值:** 可独立售卖给系统评价研究者 +**独立性:** ⭐⭐⭐⭐⭐(极高) + +**依赖:** LLM网关、文档处理、RAG引擎 + +**快速上下文:** → `ASL-AI智能文献/[AI对接] ASL快速上下文.md` + +--- + +#### 2. DC - 数据清洗整理 ⭐⭐⭐⭐⭐ P1 + +**状态:** ⏳ 规划中 + +**核心功能:** +- 多表Excel自动JOIN(百万行级) +- 医学NER提取(病理报告、住院小结) +- 数据质量报告 + +**商业价值:** 可独立售卖给临床科室 +**独立性:** ⭐⭐⭐⭐⭐(极高) + +**技术难点:** 大数据处理、隐私保护、NER准确率 + +--- + +#### 3. RVW - 稿件审查系统 ⭐⭐⭐⭐⭐ P1 + +**状态:** ⚡ 核心功能已完成 + +**核心功能:** +- 稿约规范性评估(11项) +- 方法学评估(3部分) +- PDF报告导出 + +**商业价值:** 可独立售卖给期刊编辑部 +**独立性:** ⭐⭐⭐⭐⭐(极高,用户群完全不同) + +--- + +### 协同模块 + +#### 4. SSA - 智能统计分析 ⭐⭐⭐⭐⭐ P2 + +**核心功能:** +- 队列研究分析 +- 预测模型构建 +- RCT研究分析 + +**技术栈:** Node.js + R语言 + +--- + +#### 5. ST - 统计分析工具 ⭐⭐⭐⭐ P2 + +**核心功能:** 100+种轻量化统计工具 + +**协同:** 与SSA模块组合售卖 + +--- + +### 基础模块 + +#### 6. AIA - AI智能问答 ⭐⭐⭐⭐ 已完成 + +**核心功能:** +- 12个智能体(选题评价、PICO梳理等) +- 多轮对话、流式输出 +- @知识库问答 + +**状态:** ✅ 已完成 + +--- + +#### 7. PKB - 个人知识库 ⭐⭐⭐ 已完成 + +**核心功能:** +- 知识库CRUD +- 文档上传(PDF/Word/TXT) +- RAG问答、智能引用 + +**状态:** ✅ 已完成 + +--- + +### 管理模块 + +#### 8. ADMIN - 运营管理端 ⭐⭐⭐⭐⭐ P1 + +**核心功能(15个模块):** +- P0:用户管理、Feature Flag管理、LLM模型管理、系统配置 +- P1:Prompt管理、监控日志、成本分析、数据报表 +- P2:租户管理、公告管理、帮助文档等 + +**商业价值:** SaaS运营基础 + +--- + +## 📊 模块独立性分析 + +| 模块 | 独立性 | 商业价值 | 可独立销售 | +|------|-------|---------|-----------| +| **RVW** | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ 是(期刊) | +| **ASL** | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ 是(研究者) | +| **DC** | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ 是(科室) | +| **ADMIN** | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ 是(SaaS) | +| **SSA+ST** | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⚠️ 组合售卖 | +| **AIA+PKB** | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⚠️ 平台功能 | + +--- + +## 🔗 快速导航 + +**各模块详细文档:** +1. [ASL-AI智能文献](./ASL-AI智能文献/README.md) - P0,下一步开发 +2. [DC-数据清洗整理](./DC-数据清洗整理/README.md) - P1,核心竞争力 +3. [RVW-稿件审查系统](./RVW-稿件审查系统/README.md) - P1,独立系统 +4. [ADMIN-运营管理端](./ADMIN-运营管理端/README.md) - P1,商业基础 +5. [AIA-AI智能问答](./AIA-AI智能问答/README.md) - 已完成 +6. [PKB-个人知识库](./PKB-个人知识库/README.md) - 已完成 +7. [SSA-智能统计分析](./SSA-智能统计分析/README.md) - P2 +8. [ST-统计分析工具](./ST-统计分析工具/README.md) - P2 + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 + + + + + + + + + + + + + + diff --git a/docs/04-开发规范/01-数据库设计规范.md b/docs/04-开发规范/01-数据库设计规范.md new file mode 100644 index 00000000..817499eb --- /dev/null +++ b/docs/04-开发规范/01-数据库设计规范.md @@ -0,0 +1,497 @@ +# 数据库设计规范 + +> **版本:** v2.0 +> **最后更新:** 2025-11-06 +> **数据库:** PostgreSQL 15+ +> **ORM:** Prisma +> **适用范围:** 平台层 + 能力层 + 业务模块层 + +--- + +## 📋 核心原则 + +本规范是所有模块数据库设计的基础规范,必须严格遵守。 + +**设计原则:** +- ✅ 遵循第三范式(3NF) +- ✅ 使用SERIAL作为主键(整数自增,性能更好) +- ✅ 所有表包含created_at和updated_at时间戳 +- ✅ 重要表使用软删除(保留deleted_at字段) +- ✅ 外键约束使用ON DELETE CASCADE +- ✅ 敏感字段加密存储(密码使用bcrypt) + +--- + +## 🏗️ Schema隔离策略 ⭐ 最重要 + +### 为什么需要Schema隔离 + +**核心原因:** +1. ✅ **模块独立性**:每个业务模块有独立的Schema +2. ✅ **支持独立部署**:可以单独导出某个模块的数据 +3. ✅ **支持独立销售**:可以单独交付某个模块 +4. ✅ **权限隔离**:可以为不同Schema设置不同权限 +5. ✅ **避免命名冲突**:不同模块可以有相同的表名 + +### Schema命名规范 + +``` +platform_schema # 平台基础层(全局共享) +aia_schema # AI智能问答 +asl_schema # AI智能文献 +pkb_schema # 个人知识库 +dc_schema # 数据清洗整理 +ssa_schema # 智能统计分析 +st_schema # 统计分析工具 +rvw_schema # 稿件审查系统 +``` + +### Schema创建 + +```sql +-- 创建Schema +CREATE SCHEMA IF NOT EXISTS platform_schema; +CREATE SCHEMA IF NOT EXISTS asl_schema; +CREATE SCHEMA IF NOT EXISTS aia_schema; +-- ...其他Schema +``` + +### 跨Schema依赖规则 ⭐ 必须遵守 + +**允许的依赖:** +```sql +-- ✅ 允许:业务模块引用platform_schema +CREATE TABLE asl_schema.literature_projects ( + id SERIAL PRIMARY KEY, + user_id INTEGER REFERENCES platform_schema.users(id) ON DELETE CASCADE, + ... +); + +-- ✅ 允许:通用能力引用platform_schema +CREATE TABLE platform_schema.llm_usage ( + id SERIAL PRIMARY KEY, + user_id INTEGER REFERENCES platform_schema.users(id) ON DELETE CASCADE, + ... +); +``` + +**禁止的依赖:** +```sql +-- ❌ 禁止:业务模块之间互相引用 +CREATE TABLE ssa_schema.analysis_projects ( + id SERIAL PRIMARY KEY, + -- 错误!不能引用其他业务模块 + literature_project_id INTEGER REFERENCES asl_schema.literature_projects(id) +); + +-- ❌ 禁止:platform_schema反向依赖业务模块 +CREATE TABLE platform_schema.users ( + id SERIAL PRIMARY KEY, + -- 错误!platform_schema不能依赖业务模块 + current_project_id INTEGER REFERENCES asl_schema.literature_projects(id) +); +``` + +**正确做法:** +``` +跨模块数据关联在应用层处理,不在数据库层! + +方式1:通过user_id关联 +- 两个模块都引用platform_schema.users +- 在应用层通过user_id查询两个模块的数据 +- 在应用层组装数据 + +方式2:存储业务ID字符串 +- 在表中存储其他模块的业务ID(VARCHAR) +- 不建立外键关系 +- 在应用层验证ID的有效性 +``` + +--- + +## 📝 命名规范 + +### 表命名 + +**规则:** +- 小写字母 +- 下划线分隔 +- 复数形式 +- Schema前缀(查询时使用) + +**示例:** +```sql +-- ✅ 正确 +CREATE TABLE asl_schema.literature_projects (...); +CREATE TABLE platform_schema.users (...); +CREATE TABLE pkb_schema.knowledge_bases (...); + +-- ❌ 错误 +CREATE TABLE ASLSchema.LiteratureProject (...); -- 驼峰 +CREATE TABLE asl_schema.project (...); -- 单数 +CREATE TABLE literature-projects (...); -- 使用连字符 +``` + +### 字段命名 + +**规则:** +- 小写字母 +- 下划线分隔 +- 语义清晰 + +**示例:** +```sql +-- ✅ 正确 +user_id +created_at +project_name +is_active + +-- ❌ 错误 +userId -- 驼峰 +createdat -- 没有下划线 +prjName -- 缩写不清晰 +``` + +### 索引命名 + +**规则:** `idx_表名_字段名` + +**示例:** +```sql +-- ✅ 正确 +CREATE INDEX idx_users_email ON platform_schema.users(email); +CREATE INDEX idx_projects_user_id ON asl_schema.literature_projects(user_id); +CREATE INDEX idx_projects_user_status ON asl_schema.literature_projects(user_id, status); + +-- ❌ 错误 +CREATE INDEX user_email_idx ... -- 顺序错误 +CREATE INDEX index_on_email ... -- 名称不清晰 +``` + +### 外键命名 + +**规则:** `fk_表名_关联表名` + +**示例:** +```sql +-- ✅ 正确 +CONSTRAINT fk_projects_users + FOREIGN KEY (user_id) REFERENCES platform_schema.users(id); + +CONSTRAINT fk_items_projects + FOREIGN KEY (project_id) REFERENCES asl_schema.literature_projects(id); + +-- ❌ 错误 +CONSTRAINT user_fk ... -- 名称不清晰 +CONSTRAINT foreign_key_users ... -- 太长 +``` + +--- + +## 📊 通用字段 ⭐ 必须包含 + +### 所有表必须包含 + +```sql +CREATE TABLE xxx_schema.table_name ( + -- 主键(必须) + id SERIAL PRIMARY KEY, + + -- 业务字段 + ... + + -- 时间戳(必须) + created_at TIMESTAMP DEFAULT NOW() NOT NULL, + updated_at TIMESTAMP DEFAULT NOW() NOT NULL +); +``` + +### 重要表应包含(软删除) + +```sql +CREATE TABLE xxx_schema.important_table ( + id SERIAL PRIMARY KEY, + + -- 业务字段 + ... + + -- 软删除字段(可选,重要表建议添加) + deleted_at TIMESTAMP, + + -- 时间戳(必须) + created_at TIMESTAMP DEFAULT NOW() NOT NULL, + updated_at TIMESTAMP DEFAULT NOW() NOT NULL +); + +-- 查询时过滤已删除数据 +SELECT * FROM xxx_schema.important_table WHERE deleted_at IS NULL; +``` + +### 用户关联表必须包含 + +```sql +CREATE TABLE xxx_schema.user_related_table ( + id SERIAL PRIMARY KEY, + + -- 用户外键(必须) + user_id INTEGER REFERENCES platform_schema.users(id) ON DELETE CASCADE NOT NULL, + + -- 业务字段 + ... + + -- 时间戳(必须) + created_at TIMESTAMP DEFAULT NOW() NOT NULL, + updated_at TIMESTAMP DEFAULT NOW() NOT NULL +); +``` + +--- + +## 🔍 索引设计规范 + +### 必须添加索引的字段 + +**1. 主键** +```sql +-- 自动创建,无需手动添加 +id SERIAL PRIMARY KEY +``` + +**2. 外键字段** +```sql +-- 必须添加,提高JOIN性能 +CREATE INDEX idx_projects_user_id ON asl_schema.literature_projects(user_id); +``` + +**3. 常用查询字段** +```sql +-- status(状态字段,常用于WHERE) +CREATE INDEX idx_projects_status ON asl_schema.literature_projects(status); + +-- created_at(时间字段,常用于排序) +CREATE INDEX idx_projects_created_at ON asl_schema.literature_projects(created_at DESC); +``` + +**4. 唯一约束字段** +```sql +-- email等唯一字段 +CREATE UNIQUE INDEX idx_users_email ON platform_schema.users(email); +``` + +### 复合索引 + +**规则:** +- 高频组合查询使用复合索引 +- 最常查询的字段放在前面 +- 复合索引最多3个字段 + +**示例:** +```sql +-- ✅ 正确:user_id + status 组合查询 +CREATE INDEX idx_projects_user_status + ON asl_schema.literature_projects(user_id, status); + +-- 可以优化以下查询: +-- WHERE user_id = ? AND status = ? +-- WHERE user_id = ? (只用前缀) + +-- ❌ 错误:字段过多 +CREATE INDEX idx_projects_complex + ON asl_schema.literature_projects(user_id, status, created_at, updated_at); +``` + +--- + +## 🔗 外键约束规范 + +### ON DELETE策略 + +**规则:** +```sql +-- 用户删除时,级联删除关联数据 +FOREIGN KEY (user_id) + REFERENCES platform_schema.users(id) + ON DELETE CASCADE; + +-- 父记录删除时,级联删除子记录 +FOREIGN KEY (project_id) + REFERENCES asl_schema.literature_projects(id) + ON DELETE CASCADE; + +-- 特殊情况:不能删除 +FOREIGN KEY (parent_id) + REFERENCES xxx_schema.parent_table(id) + ON DELETE RESTRICT; -- 有子记录时禁止删除 +``` + +### 外键索引 + +**规则:** 所有外键必须添加索引 + +```sql +-- 创建外键 +ALTER TABLE asl_schema.literature_items + ADD CONSTRAINT fk_items_projects + FOREIGN KEY (project_id) REFERENCES asl_schema.literature_projects(id) + ON DELETE CASCADE; + +-- 必须添加索引 +CREATE INDEX idx_items_project_id ON asl_schema.literature_items(project_id); +``` + +--- + +## ⚡ 性能优化规范 + +### 大表分区(可选) + +**适用场景:** 年增长 > 100万记录 + +```sql +-- 按月分区(如llm_usage表) +CREATE TABLE platform_schema.llm_usage ( + id SERIAL, + user_id INTEGER NOT NULL, + created_at TIMESTAMP NOT NULL, + ... +) PARTITION BY RANGE (created_at); + +-- 创建分区 +CREATE TABLE platform_schema.llm_usage_2025_11 + PARTITION OF platform_schema.llm_usage + FOR VALUES FROM ('2025-11-01') TO ('2025-12-01'); +``` + +### 数据归档策略 + +```sql +-- 历史数据归档(如1年前的日志) +CREATE TABLE platform_schema.admin_logs_archive ( + LIKE platform_schema.admin_logs INCLUDING ALL +); + +-- 定期归档 +INSERT INTO platform_schema.admin_logs_archive +SELECT * FROM platform_schema.admin_logs +WHERE created_at < NOW() - INTERVAL '1 year'; + +DELETE FROM platform_schema.admin_logs +WHERE created_at < NOW() - INTERVAL '1 year'; +``` + +--- + +## 🔒 安全规范 + +### 敏感字段加密 + +```sql +-- 密码字段 +password VARCHAR(255) NOT NULL -- 使用bcrypt加密,存储哈希值 + +-- API Key字段 +api_key_encrypted TEXT NOT NULL -- 使用AES-256加密 + +-- 个人敏感信息 +phone_encrypted VARCHAR(255) -- 手机号加密 +id_card_encrypted VARCHAR(255) -- 身份证号加密 +``` + +### 数据脱敏 + +```sql +-- 日志中不记录敏感字段 +-- 开发/测试环境使用脱敏数据 +UPDATE platform_schema.users +SET + email = CONCAT('user', id, '@example.com'), + phone = '138****0000' +WHERE environment = 'development'; +``` + +--- + +## 📋 数据类型选择 + +### 常用字段类型 + +| 用途 | 推荐类型 | 说明 | +|------|---------|------| +| 主键 | SERIAL | 整数自增 | +| 外键 | INTEGER | 与主键类型一致 | +| 短文本 | VARCHAR(N) | N<500,如姓名、标题 | +| 长文本 | TEXT | 无长度限制,如描述、内容 | +| 布尔值 | BOOLEAN | true/false | +| 日期时间 | TIMESTAMP | 精确到毫秒 | +| 金额 | DECIMAL(10,2) | 避免精度问题 | +| JSON | JSONB | 支持索引,性能更好 | + +### 字段长度建议 + +```sql +-- 短文本 +name VARCHAR(100) -- 姓名 +title VARCHAR(200) -- 标题 +email VARCHAR(255) -- 邮箱 +phone VARCHAR(20) -- 手机号 + +-- 状态枚举 +status VARCHAR(20) -- active, inactive, deleted +role VARCHAR(20) -- user, admin + +-- 长文本 +description TEXT -- 描述 +content TEXT -- 内容 +``` + +--- + +## ✅ 检查清单 + +**设计新表时必须检查:** +- [ ] 表名符合命名规范(小写+下划线+复数) +- [ ] 使用正确的Schema(platform/aia/asl/pkb等) +- [ ] 包含id主键(SERIAL PRIMARY KEY) +- [ ] 包含created_at和updated_at时间戳 +- [ ] 用户关联表包含user_id外键 +- [ ] 所有外键都有ON DELETE策略 +- [ ] 所有外键都添加了索引 +- [ ] 常用查询字段添加了索引 +- [ ] 外键约束符合跨Schema依赖规则 +- [ ] 敏感字段已加密存储 + +--- + +## 🔗 相关文档 + +**总览:** +- [数据库全局视图](./03-数据库全局视图.md) ⭐ 查看所有Schema和表 + +**模板:** +- [数据库设计模板](../_templates/数据库设计-模板.md) + +**各模块设计:** +- [平台基础层](../01-平台基础层/README.md) +- [通用能力层](../02-通用能力层/README.md) +- [业务模块层](../03-业务模块/README.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 +**版本:** v2.0 + + + + + + + + + + + + + + diff --git a/docs/04-开发规范/02-API设计规范.md b/docs/04-开发规范/02-API设计规范.md new file mode 100644 index 00000000..3417d9c5 --- /dev/null +++ b/docs/04-开发规范/02-API设计规范.md @@ -0,0 +1,527 @@ +# API设计规范 + +> **版本:** v2.0 +> **最后更新:** 2025-11-06 +> **API风格:** RESTful API +> **基础URL:** `http://localhost:3001/api/v1` +> **适用范围:** 平台层 + 能力层 + 业务模块层 + +--- + +## 📋 设计原则 + +### API First原则 +- ✅ 先设计API,再实现功能 +- ✅ API是前后端的契约 +- ✅ API变更需要版本控制 +- ✅ 所有API都要有文档 + +### RESTful设计 +- ✅ 使用HTTP动词表示操作(GET、POST、PUT、DELETE) +- ✅ URL表示资源,不表示动作 +- ✅ 使用复数名词表示资源集合 +- ✅ 嵌套资源不超过2层 +- ✅ 使用HTTP状态码表示结果 + +### 命名规范 +- ✅ URL使用小写字母和连字符(kebab-case) +- ✅ 查询参数使用驼峰命名(camelCase) +- ✅ JSON字段使用驼峰命名(camelCase) + +--- + +## 🎯 URL设计规范 + +### 路径格式 + +``` +/api/v{version}/{module}/{resource}/{id?}/{action?} + +示例: +/api/v1/literature/projects # 获取文献项目列表 +/api/v1/literature/projects/123 # 获取ID=123的项目 +/api/v1/literature/projects/123/export # 导出项目(动作) +``` + +### 模块前缀 + +| 模块 | 路由前缀 | 示例 | +|------|---------|------| +| 认证 | `/auth` | `/api/v1/auth/login` | +| 用户 | `/users` | `/api/v1/users/me` | +| AI问答 | `/chat` | `/api/v1/chat/conversations` | +| 智能体 | `/agents` | `/api/v1/agents` | +| AI文献 | `/literature` | `/api/v1/literature/projects` | +| 知识库 | `/knowledge-bases` | `/api/v1/knowledge-bases` | +| 数据清洗 | `/data-cleaning` | `/api/v1/data-cleaning/projects` | +| 统计分析 | `/analysis` | `/api/v1/analysis/projects` | +| 统计工具 | `/tools` | `/api/v1/tools` | +| 稿件审查 | `/review` | `/api/v1/review/tasks` | +| LLM网关 | `/llm` | `/api/v1/llm/chat` | +| 管理端 | `/admin` | `/api/v1/admin/users` | + +### 资源命名 + +**✅ 正确示例:** +``` +GET /api/v1/literature/projects # 获取列表 +GET /api/v1/literature/projects/:id # 获取详情 +POST /api/v1/literature/projects # 创建 +PUT /api/v1/literature/projects/:id # 更新 +DELETE /api/v1/literature/projects/:id # 删除 + +GET /api/v1/literature/projects/:id/items # 获取项目下的文献 +POST /api/v1/literature/projects/:id/items/import # 导入文献 +POST /api/v1/literature/projects/:id/screening/execute # 执行筛选 +``` + +**❌ 错误示例:** +``` +POST /api/v1/literature/getProjects # 使用动词 +POST /api/v1/literature/createProject # 使用动词 +GET /api/v1/literature/project # 单数形式 +GET /api/v1/literatureProjectList # 驼峰命名 +``` + +--- + +## 🔧 HTTP方法规范 + +### 方法使用 + +| 方法 | 用途 | 是否幂等 | 是否安全 | +|------|------|---------|---------| +| **GET** | 获取资源 | ✅ | ✅ | +| **POST** | 创建资源 | ❌ | ❌ | +| **PUT** | 完整更新资源 | ✅ | ❌ | +| **PATCH** | 部分更新资源 | ❌ | ❌ | +| **DELETE** | 删除资源 | ✅ | ❌ | + +### 方法示例 + +```http +# 获取资源列表 +GET /api/v1/literature/projects + +# 获取单个资源 +GET /api/v1/literature/projects/123 + +# 创建资源 +POST /api/v1/literature/projects +Content-Type: application/json +{ "name": "新项目", "description": "..." } + +# 完整更新资源(所有字段) +PUT /api/v1/literature/projects/123 +Content-Type: application/json +{ "name": "更新", "description": "..." } + +# 部分更新资源(部分字段) +PATCH /api/v1/literature/projects/123 +Content-Type: application/json +{ "name": "只更新名称" } + +# 删除资源 +DELETE /api/v1/literature/projects/123 +``` + +--- + +## 📊 状态码规范 + +### 标准状态码 + +| 状态码 | 含义 | 使用场景 | +|--------|------|---------| +| **200** | OK | 成功返回数据 | +| **201** | Created | 成功创建资源 | +| **204** | No Content | 成功但无返回数据(如删除) | +| **400** | Bad Request | 请求参数错误 | +| **401** | Unauthorized | 未认证(没有Token或Token过期) | +| **403** | Forbidden | 无权限(已认证但权限不足) | +| **404** | Not Found | 资源不存在 | +| **409** | Conflict | 资源冲突(如重复创建) | +| **422** | Unprocessable Entity | 语义错误(如验证失败) | +| **429** | Too Many Requests | 请求过于频繁(限流) | +| **500** | Internal Server Error | 服务器错误 | + +### 状态码使用示例 + +```typescript +// 200 OK - 成功获取数据 +res.status(200).json({ success: true, data: projects }); + +// 201 Created - 成功创建资源 +res.status(201).json({ success: true, data: newProject }); + +// 204 No Content - 成功删除(无内容返回) +res.status(204).send(); + +// 400 Bad Request - 参数错误 +res.status(400).json({ + success: false, + error: { code: 'INVALID_PARAMS', message: '参数错误' } +}); + +// 401 Unauthorized - 未认证 +res.status(401).json({ + success: false, + error: { code: 'UNAUTHORIZED', message: '请先登录' } +}); + +// 403 Forbidden - 无权限 +res.status(403).json({ + success: false, + error: { code: 'FORBIDDEN', message: '无权访问' } +}); + +// 404 Not Found - 资源不存在 +res.status(404).json({ + success: false, + error: { code: 'NOT_FOUND', message: '资源不存在' } +}); + +// 422 Unprocessable Entity - 验证失败 +res.status(422).json({ + success: false, + error: { + code: 'VALIDATION_ERROR', + message: '参数验证失败', + details: [...] + } +}); +``` + +--- + +## 📝 响应格式规范 + +### 统一响应格式 ⭐ 必须遵守 + +**成功响应:** +```json +{ + "success": true, + "data": { + // 实际数据 + }, + "message": "操作成功" +} +``` + +**错误响应:** +```json +{ + "success": false, + "error": { + "code": "ERROR_CODE", + "message": "错误信息", + "details": [...] // 可选,详细错误信息 + } +} +``` + +### 列表数据响应 + +```json +{ + "success": true, + "data": { + "items": [ + { "id": 1, "name": "项目1" }, + { "id": 2, "name": "项目2" } + ], + "pagination": { + "page": 1, + "pageSize": 10, + "total": 100, + "totalPages": 10, + "hasNext": true, + "hasPrev": false + } + }, + "message": "获取成功" +} +``` + +### 验证错误响应 + +```json +{ + "success": false, + "error": { + "code": "VALIDATION_ERROR", + "message": "参数验证失败", + "details": [ + { + "field": "email", + "message": "邮箱格式不正确" + }, + { + "field": "password", + "message": "密码长度必须大于6位" + } + ] + } +} +``` + +--- + +## 🔑 认证与授权规范 + +### JWT认证 + +**1. 登录获取Token** +```http +POST /api/v1/auth/login +Content-Type: application/json + +{ + "email": "user@example.com", + "password": "password123" +} + +# Response +{ + "success": true, + "data": { + "accessToken": "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9...", + "refreshToken": "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9...", + "expiresIn": 604800, // 7天(秒) + "user": { + "id": 123, + "email": "user@example.com", + "name": "张三", + "role": "user" + } + } +} +``` + +**2. 使用Token访问API** +```http +GET /api/v1/literature/projects +Authorization: Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9... +``` + +**3. Token过期处理** +```http +# Token过期,返回401 +{ + "success": false, + "error": { + "code": "TOKEN_EXPIRED", + "message": "Token已过期,请重新登录" + } +} + +# 使用refreshToken刷新 +POST /api/v1/auth/refresh +Content-Type: application/json + +{ + "refreshToken": "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9..." +} +``` + +### 权限控制 + +| 端点类型 | 需要认证 | 角色要求 | +|---------|---------|---------| +| 公开端点 | ❌ | 无 | +| 用户端点 | ✅ | user | +| 管理端点 | ✅ | admin | + +**示例:** +```typescript +// 公开端点(无需认证) +POST /api/v1/auth/login +POST /api/v1/auth/register + +// 用户端点(需要认证,user角色) +GET /api/v1/literature/projects +POST /api/v1/literature/projects + +// 管理端点(需要认证,admin角色) +GET /api/v1/admin/users +POST /api/v1/admin/users/:id/disable +``` + +--- + +## 📄 分页规范 + +### 请求参数 + +``` +GET /api/v1/literature/projects?page=1&pageSize=20&sortBy=createdAt&sortOrder=desc + +Query参数: +- page: 页码(默认1) +- pageSize: 每页数量(默认10,最大100) +- sortBy: 排序字段(默认createdAt) +- sortOrder: 排序方向(asc/desc,默认desc) +``` + +### 响应格式 + +```json +{ + "success": true, + "data": { + "items": [...], + "pagination": { + "page": 1, + "pageSize": 20, + "total": 100, + "totalPages": 5, + "hasNext": true, + "hasPrev": false + } + } +} +``` + +--- + +## 🔍 筛选与搜索规范 + +### 筛选参数 + +``` +GET /api/v1/literature/projects?status=active&keyword=骨质疏松 + +Query参数: +- status: 状态筛选(active/inactive) +- keyword: 关键词搜索(搜索name和description字段) +- userId: 用户ID筛选(管理端) +- startDate/endDate: 日期范围筛选 +``` + +### 搜索响应 + +```json +{ + "success": true, + "data": { + "items": [...], + "pagination": {...}, + "filters": { + "status": "active", + "keyword": "骨质疏松" + } + } +} +``` + +--- + +## ⚠️ 错误码设计 + +### 标准错误码 + +| 错误码 | HTTP状态 | 说明 | +|--------|---------|------| +| `VALIDATION_ERROR` | 422 | 参数验证失败 | +| `UNAUTHORIZED` | 401 | 未认证 | +| `TOKEN_EXPIRED` | 401 | Token过期 | +| `FORBIDDEN` | 403 | 无权限 | +| `NOT_FOUND` | 404 | 资源不存在 | +| `ALREADY_EXISTS` | 409 | 资源已存在 | +| `QUOTA_EXCEEDED` | 429 | 配额超限 | +| `INTERNAL_ERROR` | 500 | 服务器错误 | + +### 业务错误码 + +```typescript +// 模块特定错误码(前缀区分) +ASL_IMPORT_FAILED // AI文献:导入失败 +ASL_SCREENING_IN_PROGRESS // AI文献:筛选进行中 +PKB_QUOTA_EXCEEDED // 知识库:配额超限 +LLM_QUOTA_EXCEEDED // LLM:配额超限 +``` + +--- + +## 🚀 性能优化规范 + +### 1. 分页必须 + +``` +所有列表接口必须支持分页: +- 默认pageSize=10 +- 最大pageSize=100 +- 禁止一次性返回全部数据 +``` + +### 2. 字段过滤 + +``` +GET /api/v1/users/me?fields=id,name,email + +只返回需要的字段,减少数据传输 +``` + +### 3. 缓存策略 + +```http +# 设置缓存头 +Cache-Control: public, max-age=300 + +# 使用ETag +ETag: "33a64df551425fcc55e4d42a148795d9f25f89d4" +If-None-Match: "33a64df551425fcc55e4d42a148795d9f25f89d4" +# 返回304 Not Modified +``` + +--- + +## ✅ 检查清单 + +**设计新API时必须检查:** +- [ ] URL符合RESTful规范(使用名词+复数) +- [ ] 使用正确的HTTP方法(GET/POST/PUT/DELETE) +- [ ] 使用正确的HTTP状态码 +- [ ] 响应格式符合统一规范(success + data/error) +- [ ] 需要认证的接口检查JWT Token +- [ ] 需要权限的接口检查用户角色 +- [ ] 列表接口支持分页 +- [ ] 列表接口支持排序 +- [ ] 错误响应包含明确的错误码和错误信息 +- [ ] 所有API都有文档说明 + +--- + +## 🔗 相关文档 + +**总览:** +- [API路由总览](./04-API路由总览.md) ⭐ 查看所有API端点 + +**模板:** +- [API设计模板](../_templates/API设计-模板.md) + +**各模块设计:** +- [平台基础层](../01-平台基础层/README.md) +- [通用能力层](../02-通用能力层/README.md) +- [业务模块层](../03-业务模块/README.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 +**版本:** v2.0 + + + + + + + + + + + + + + diff --git a/docs/04-开发规范/03-数据库全局视图.md b/docs/04-开发规范/03-数据库全局视图.md new file mode 100644 index 00000000..883e346f --- /dev/null +++ b/docs/04-开发规范/03-数据库全局视图.md @@ -0,0 +1,349 @@ +# 数据库全局视图 + +> **目的:** 提供所有Schema和表的快速索引,便于查找和理解全局数据架构 +> **详细设计:** 请查看各模块的 `01-数据库设计.md` +> **数据库:** PostgreSQL 15+ +> **最后更新:** 2025-11-06 + +--- + +## 📊 Schema划分策略 + +### Schema隔离原则 ⭐ + +**为什么需要Schema隔离:** +1. ✅ **模块独立性**:每个业务模块有独立的Schema +2. ✅ **支持独立部署**:可以单独导出某个模块的数据 +3. ✅ **权限隔离**:可以为不同Schema设置不同权限 +4. ✅ **避免命名冲突**:不同模块可以有相同的表名 + +**Schema命名规范:** +``` +platform_schema # 平台基础层(全局共享) +aia_schema # AI智能问答 +asl_schema # AI智能文献 +pkb_schema # 个人知识库 +dc_schema # 数据清洗整理 +ssa_schema # 智能统计分析 +st_schema # 统计分析工具 +rvw_schema # 稿件审查系统 +admin_schema # 运营管理端(可选,可合并到platform_schema) +``` + +--- + +## 📋 Schema一览表 + +| Schema | 说明 | 表数量 | 状态 | 详细设计 | +|--------|------|--------|------|---------| +| **platform_schema** | 平台基础层 | ~15个 | ✅ 使用中 | [查看](#platform_schema-平台基础层) | +| **aia_schema** | AI智能问答 | ~8个 | ✅ 使用中 | [查看](#aia_schema-ai智能问答) | +| **pkb_schema** | 个人知识库 | ~5个 | ✅ 使用中 | [查看](#pkb_schema-个人知识库) | +| **rvw_schema** | 稿件审查系统 | ~6个 | ✅ 使用中 | [查看](#rvw_schema-稿件审查系统) | +| **asl_schema** | AI智能文献 | ~10个 | ⏳ 设计中 | [ASL/01-数据库设计](../03-业务模块/ASL-AI智能文献/01-数据库设计.md) | +| **dc_schema** | 数据清洗整理 | ~8个 | ⏳ 规划中 | 待设计 | +| **ssa_schema** | 智能统计分析 | ~10个 | ⏳ 规划中 | 待设计 | +| **st_schema** | 统计分析工具 | ~5个 | ⏳ 规划中 | 待设计 | + +**总表数:** ~70个(预估) + +--- + +## 🔍 platform_schema(平台基础层) + +**职责:** 存储全局共享的平台数据,所有业务模块都依赖 + +**详细设计:** [UAM/01-数据库设计](../01-平台基础层/01-用户与权限中心(UAM)/01-数据库设计.md) + +### 核心表(用户与权限) + +| 表名 | 说明 | 记录数预估 | 详细设计 | +|------|------|-----------|---------| +| **users** | 用户基础信息 | 10万/年 | [UAM/01-数据库设计](../01-平台基础层/01-用户与权限中心(UAM)/01-数据库设计.md) | +| **roles** | 角色定义 | <100 | 同上 | +| **permissions** | 权限定义 | <500 | 同上 | +| **user_roles** | 用户-角色关联 | 10万/年 | 同上 | +| **feature_flags** | Feature Flag配置 ⭐ | <100 | 同上 | +| **user_feature_flags** | 用户-Feature Flag关联 ⭐ | 10万/年 | 同上 | + +### LLM相关表 + +| 表名 | 说明 | 记录数预估 | 详细设计 | +|------|------|-----------|---------| +| **llm_models** | LLM模型配置 | <20 | [LLM网关/01-数据库设计](../02-通用能力层/01-LLM大模型网关/01-数据库设计.md) | +| **llm_usage** | LLM使用记录 ⭐ | 1000万/年 | 同上 | +| **llm_quotas** | LLM配额管理 | 10万/年 | 同上 | + +### 监控与日志 + +| 表名 | 说明 | 记录数预估 | 详细设计 | +|------|------|-----------|---------| +| **admin_logs** | 管理员操作日志 | 10万/年 | [监控与日志/01-数据库设计](../01-平台基础层/04-监控与日志/01-数据库设计.md) | +| **error_logs** | 错误日志 | 100万/年 | 同上 | +| **audit_logs** | 审计日志 | 100万/年 | 同上 | + +### 系统配置 + +| 表名 | 说明 | 记录数预估 | 详细设计 | +|------|------|-----------|---------| +| **system_configs** | 系统配置 | <100 | [系统配置/01-数据库设计](../01-平台基础层/05-系统配置/01-数据库设计.md) | +| **prompt_templates** | Prompt模板 | <500 | 同上 | +| **announcements** | 系统公告 | <1000 | 同上 | + +--- + +## 🤖 aia_schema(AI智能问答) + +**职责:** 存储AI智能问答相关数据(12个智能体、对话历史) + +**状态:** ✅ 已实现 +**详细设计:** [AIA/01-数据库设计](../03-业务模块/AIA-AI智能问答/01-数据库设计.md)(待创建) + +### 核心表 + +| 表名 | 说明 | 记录数预估 | +|------|------|-----------| +| **conversations** | 对话会话 | 100万/年 | +| **messages** | 对话消息 | 1000万/年 | +| **agents** | 智能体配置 | <20 | +| **conversation_contexts** | 对话上下文 | 100万/年 | + +--- + +## 📚 pkb_schema(个人知识库) + +**职责:** 存储个人知识库、文档、RAG问答相关数据 + +**状态:** ✅ 已实现 +**详细设计:** [PKB/01-数据库设计](../03-业务模块/PKB-个人知识库/01-数据库设计.md)(待创建) + +### 核心表 + +| 表名 | 说明 | 记录数预估 | +|------|------|-----------| +| **knowledge_bases** | 知识库 | 30万/年 | +| **documents** | 文档 | 300万/年 | +| **document_chunks** | 文档分块(向量化) | 3000万/年 | +| **kb_conversations** | 知识库对话 | 100万/年 | +| **kb_messages** | 知识库对话消息 | 1000万/年 | + +--- + +## 📄 rvw_schema(稿件审查系统) + +**职责:** 存储稿件审查、评估报告相关数据 + +**状态:** ✅ 已实现(独立系统) +**详细设计:** [RVW/01-数据库设计](../03-业务模块/RVW-稿件审查系统/01-数据库设计.md)(待创建) + +### 核心表 + +| 表名 | 说明 | 记录数预估 | +|------|------|-----------| +| **review_tasks** | 审查任务 | 10万/年 | +| **manuscripts** | 稿件信息 | 10万/年 | +| **review_results** | 审查结果 | 10万/年 | +| **methodology_assessments** | 方法学评估 | 10万/年 | +| **guideline_assessments** | 稿约规范性评估 | 10万/年 | + +--- + +## 📖 asl_schema(AI智能文献) + +**职责:** 存储文献筛选、提取、分析相关数据 + +**状态:** ⏳ 设计中(P0优先级) +**详细设计:** [ASL/01-数据库设计](../03-业务模块/ASL-AI智能文献/01-数据库设计.md) + +### 核心表(预览) + +| 表名 | 说明 | 记录数预估 | +|------|------|-----------| +| **literature_projects** | 文献项目 | 10万/年 | +| **literature_items** | 文献条目 | 1000万/年 | +| **pico_configs** | PICO纳入排除标准 | 10万/年 | +| **screening_results** | 筛选结果 | 1000万/年 | +| **screening_history** | 筛选历史(可回溯) | 1000万/年 | +| **extraction_tasks** | 提取任务 | 100万/年 | +| **extraction_results** | 提取结果 | 100万/年 | + +--- + +## 🧹 dc_schema(数据清洗整理) + +**职责:** 存储数据清洗任务、ETL配置、NER结果 + +**状态:** ⏳ 规划中(P1优先级) +**详细设计:** 待设计 + +### 核心表(预览) + +| 表名 | 说明 | 记录数预估 | +|------|------|-----------| +| **cleaning_projects** | 清洗项目 | 10万/年 | +| **data_sources** | 数据源 | 100万/年 | +| **etl_configs** | ETL配置 | 10万/年 | +| **ner_tasks** | NER任务 | 100万/年 | +| **ner_results** | NER结果 | 1000万/年 | + +--- + +## 🔗 跨Schema依赖关系 + +### 依赖规则 ⭐ 重要 + +**允许的依赖:** +``` +✅ 业务模块 → platform_schema(允许外键) +✅ 通用能力 → platform_schema(允许外键) +❌ 业务模块之间(禁止直接依赖) +❌ platform_schema → 业务模块(反向依赖) +``` + +### 依赖关系图 + +``` +platform_schema.users (1) + ↓ (N) 所有业务模块都依赖用户表 + ├── aia_schema.conversations + ├── asl_schema.literature_projects + ├── pkb_schema.knowledge_bases + ├── dc_schema.cleaning_projects + ├── ssa_schema.analysis_projects + ├── st_schema.tool_usage + └── rvw_schema.review_tasks + +platform_schema.llm_usage (独立) + - 记录所有模块的LLM调用 + - 通过module字段区分:'AIA', 'ASL', 'PKB'等 +``` + +### 外键示例 + +```sql +-- ✅ 允许:业务模块引用platform_schema +CREATE TABLE asl_schema.literature_projects ( + id SERIAL PRIMARY KEY, + user_id INTEGER REFERENCES platform_schema.users(id) ON DELETE CASCADE +); + +-- ❌ 禁止:业务模块之间互相引用 +CREATE TABLE ssa_schema.analysis_projects ( + id SERIAL PRIMARY KEY, + -- 错误:不能引用其他业务模块 + literature_project_id INTEGER REFERENCES asl_schema.literature_projects(id) +); + +-- ✅ 正确做法:通过user_id关联 +-- 在应用层处理跨模块关联,不在数据库层 +``` + +--- + +## 📊 数据量统计(预估) + +### 按Schema统计 + +| Schema | 表数量 | 年增长记录数 | 存储预估(5年) | +|--------|--------|------------|---------------| +| platform_schema | 15 | 1000万 | 50GB | +| aia_schema | 8 | 1100万 | 30GB | +| pkb_schema | 5 | 3300万 | 200GB(向量) | +| rvw_schema | 6 | 50万 | 5GB | +| asl_schema | 10 | 2100万 | 50GB | +| dc_schema | 8 | 1100万 | 100GB | +| ssa_schema | 10 | 500万 | 50GB | +| st_schema | 5 | 100万 | 10GB | +| **总计** | **~70** | **~4000万/年** | **~500GB(5年)** | + +### 大表监控(年增长>100万) + +| 表名 | Schema | 年增长 | 索引策略 | +|------|--------|--------|---------| +| llm_usage | platform | 1000万 | 按月分区 | +| messages | aia | 1000万 | 按created_at索引 | +| document_chunks | pkb | 3000万 | 向量索引 | +| literature_items | asl | 1000万 | 按project_id索引 | +| screening_results | asl | 1000万 | 复合索引 | + +--- + +## 🔍 快速查找指南 + +### 场景1:我要开发某个模块 +1. 在上面的表格中找到对应的Schema +2. 点击"详细设计"链接 +3. 查看该模块的完整表结构 + +### 场景2:我要查看某个表的结构 +1. 先确定表属于哪个Schema(根据功能判断) +2. 转到对应模块的数据库设计文档 +3. 搜索表名 + +### 场景3:我要设计跨模块功能 +1. 查看本文档的"跨Schema依赖关系" +2. 遵循依赖规则 +3. 在应用层处理跨模块关联,不在数据库层 + +### 场景4:我要查看全局数据架构 +1. 阅读本文档(快速了解所有Schema) +2. 查看[架构设计全景图](../00-系统总体设计/08-架构设计全景图.md) + +--- + +## ⚠️ 重要提醒 + +### Schema隔离的注意事项 + +**✅ 正确做法:** +- 业务模块只引用 `platform_schema.users` +- 跨模块数据关联在应用层处理 +- 使用 `user_id + 业务ID` 的方式 + +**❌ 错误做法:** +- 业务模块之间直接外键关联 +- 在 `platform_schema` 中存储业务数据 +- 不同模块使用相同的表名(虽然Schema隔离了,但容易混淆) + +### 性能优化建议 + +1. **大表必须分页查询**(如 `llm_usage`、`messages`) +2. **热点字段必须加索引**(如 `user_id`、`created_at`) +3. **考虑表分区**(按月/按年,如 `llm_usage`) +4. **定期归档历史数据**(如1年前的日志) + +--- + +## 🔗 相关文档 + +**规范:** +- [数据库设计规范](./01-数据库设计规范.md) ⭐ 必读 +- [数据库架构说明](../00-系统总体设计/03-数据库架构说明.md) + +**模块设计:** +- [平台基础层](../01-平台基础层/README.md) +- [通用能力层](../02-通用能力层/README.md) +- [业务模块层](../03-业务模块/README.md) + +**模板:** +- [数据库设计模板](../_templates/数据库设计-模板.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 +**版本:** v1.0 + + + + + + + + + + + + + + diff --git a/docs/04-开发规范/04-API路由总览.md b/docs/04-开发规范/04-API路由总览.md new file mode 100644 index 00000000..2890f946 --- /dev/null +++ b/docs/04-开发规范/04-API路由总览.md @@ -0,0 +1,393 @@ +# API路由总览 + +> **目的:** 提供所有API端点的快速索引,便于查找和避免路由冲突 +> **详细设计:** 请查看各模块的 `02-API设计.md` +> **基础URL:** `http://localhost:3001/api/v1` +> **最后更新:** 2025-11-06 + +--- + +## 📋 路由命名规范 + +### 路径格式 +``` +/api/v{version}/{module}/{resource}/{id?}/{action?} + +示例: +/api/v1/literature/projects # 获取文献项目列表 +/api/v1/literature/projects/123 # 获取ID=123的项目 +/api/v1/literature/projects/123/export # 导出项目 +``` + +### 模块名称规范 + +| 模块代码 | 路由前缀 | 说明 | +|---------|---------|------| +| 平台基础层 | `/auth`, `/users`, `/admin` | 认证、用户、管理 | +| LLM网关 | `/llm` | LLM调用 | +| AIA | `/chat`, `/agents` | AI智能问答 | +| ASL | `/literature` | AI智能文献 | +| PKB | `/knowledge-bases`, `/kb` | 个人知识库 | +| DC | `/data-cleaning` | 数据清洗 | +| SSA | `/analysis` | 智能统计分析 | +| ST | `/tools` | 统计工具 | +| RVW | `/review` | 稿件审查 | +| ADMIN | `/admin` | 运营管理端 | + +--- + +## 🔐 认证与用户管理(/api/v1/auth, /api/v1/users) + +**状态:** ✅ 已实现 +**详细设计:** [UAM/02-API设计](../01-平台基础层/01-用户与权限中心(UAM)/02-API设计.md)(待创建) + +### 认证相关 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/auth/register` | POST | 用户注册 | ❌ | +| `/api/v1/auth/login` | POST | 用户登录 | ❌ | +| `/api/v1/auth/logout` | POST | 用户登出 | ✅ | +| `/api/v1/auth/refresh` | POST | 刷新Token | ✅ | +| `/api/v1/auth/profile` | GET | 获取当前用户信息 | ✅ | +| `/api/v1/auth/profile` | PUT | 更新当前用户信息 | ✅ | + +### 用户管理 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/users` | GET | 用户列表(分页) | ✅ ADMIN | +| `/api/v1/users/:id` | GET | 用户详情 | ✅ ADMIN | +| `/api/v1/users/:id` | PUT | 更新用户 | ✅ ADMIN | +| `/api/v1/users/:id` | DELETE | 删除用户 | ✅ ADMIN | + +--- + +## 🤖 LLM大模型网关(/api/v1/llm) + +**状态:** ❌ 待实现(P0优先级) +**详细设计:** [LLM网关/02-API设计](../02-通用能力层/01-LLM大模型网关/02-API设计.md) + +### LLM调用 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/llm/chat` | POST | LLM对话(非流式) | ✅ | +| `/api/v1/llm/chat/stream` | POST | LLM对话(流式SSE) | ✅ | +| `/api/v1/llm/quota` | GET | 查询当前用户配额 | ✅ | +| `/api/v1/llm/usage` | GET | 查询使用统计 | ✅ | +| `/api/v1/llm/models` | GET | 获取可用模型列表 | ✅ | + +--- + +## 💬 AI智能问答(/api/v1/chat, /api/v1/agents) + +**状态:** ✅ 已实现 +**详细设计:** [AIA/02-API设计](../03-业务模块/AIA-AI智能问答/02-API设计.md)(待创建) + +### 对话管理 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/chat/conversations` | GET | 对话列表 | ✅ | +| `/api/v1/chat/conversations` | POST | 创建对话 | ✅ | +| `/api/v1/chat/conversations/:id` | GET | 对话详情 | ✅ | +| `/api/v1/chat/conversations/:id` | DELETE | 删除对话 | ✅ | +| `/api/v1/chat/conversations/:id/messages` | GET | 对话消息列表 | ✅ | +| `/api/v1/chat/conversations/:id/messages` | POST | 发送消息 | ✅ | + +### 智能体管理 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/agents` | GET | 智能体列表(12个) | ✅ | +| `/api/v1/agents/:id` | GET | 智能体详情 | ✅ | + +--- + +## 📖 AI智能文献(/api/v1/literature) + +**状态:** ⏳ 设计中(P0优先级) +**详细设计:** [ASL/02-API设计](../03-业务模块/ASL-AI智能文献/02-API设计.md) + +### 项目管理 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/literature/projects` | GET | 文献项目列表 | ✅ | +| `/api/v1/literature/projects` | POST | 创建文献项目 | ✅ | +| `/api/v1/literature/projects/:id` | GET | 项目详情 | ✅ | +| `/api/v1/literature/projects/:id` | PUT | 更新项目 | ✅ | +| `/api/v1/literature/projects/:id` | DELETE | 删除项目 | ✅ | + +### 文献筛选(标题摘要初筛)⭐ + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/literature/projects/:id/items/import` | POST | 导入CSV文件 | ✅ | +| `/api/v1/literature/projects/:id/pico` | POST | 配置PICO标准 | ✅ | +| `/api/v1/literature/projects/:id/pico` | GET | 获取PICO配置 | ✅ | +| `/api/v1/literature/projects/:id/screening/title` | POST | 执行标题摘要初筛 | ✅ | +| `/api/v1/literature/projects/:id/screening/status` | GET | 查询筛选进度 | ✅ | +| `/api/v1/literature/projects/:id/screening/results` | GET | 获取筛选结果 | ✅ | +| `/api/v1/literature/projects/:id/screening/export` | POST | 导出Excel | ✅ | + +### 文献筛选(全文复筛) + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/literature/projects/:id/screening/fulltext` | POST | 执行全文筛选 | ✅ | +| `/api/v1/literature/projects/:id/screening/fulltext/status` | GET | 查询进度 | ✅ | + +--- + +## 📚 个人知识库(/api/v1/knowledge-bases) + +**状态:** ✅ 已实现 +**详细设计:** [PKB/02-API设计](../03-业务模块/PKB-个人知识库/02-API设计.md)(待创建) + +### 知识库管理 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/knowledge-bases` | GET | 知识库列表 | ✅ | +| `/api/v1/knowledge-bases` | POST | 创建知识库 | ✅ | +| `/api/v1/knowledge-bases/:id` | GET | 知识库详情 | ✅ | +| `/api/v1/knowledge-bases/:id` | PUT | 更新知识库 | ✅ | +| `/api/v1/knowledge-bases/:id` | DELETE | 删除知识库 | ✅ | + +### 文档管理 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/knowledge-bases/:id/documents` | GET | 文档列表 | ✅ | +| `/api/v1/knowledge-bases/:id/documents` | POST | 上传文档 | ✅ | +| `/api/v1/knowledge-bases/:id/documents/:docId` | GET | 文档详情 | ✅ | +| `/api/v1/knowledge-bases/:id/documents/:docId` | DELETE | 删除文档 | ✅ | + +### RAG问答 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/knowledge-bases/:id/chat` | POST | 知识库问答 | ✅ | +| `/api/v1/knowledge-bases/:id/search` | GET | 语义检索 | ✅ | + +--- + +## 🧹 数据清洗整理(/api/v1/data-cleaning) + +**状态:** ⏳ 规划中(P1优先级) +**详细设计:** 待设计 + +### 清洗项目 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/data-cleaning/projects` | GET | 清洗项目列表 | ✅ | +| `/api/v1/data-cleaning/projects` | POST | 创建清洗项目 | ✅ | +| `/api/v1/data-cleaning/projects/:id` | GET | 项目详情 | ✅ | + +### ETL配置 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/data-cleaning/projects/:id/etl` | POST | 配置ETL规则 | ✅ | +| `/api/v1/data-cleaning/projects/:id/execute` | POST | 执行清洗任务 | ✅ | + +--- + +## 📊 智能统计分析(/api/v1/analysis) + +**状态:** ⏳ 规划中(P2优先级) +**详细设计:** 待设计 + +### 分析项目 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/analysis/projects` | GET | 分析项目列表 | ✅ | +| `/api/v1/analysis/projects` | POST | 创建分析项目 | ✅ | +| `/api/v1/analysis/projects/:id/execute` | POST | 执行分析 | ✅ | + +--- + +## 🔧 统计分析工具(/api/v1/tools) + +**状态:** ⏳ 规划中(P2优先级) +**详细设计:** 待设计 + +### 工具调用 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/tools` | GET | 工具列表(100+) | ✅ | +| `/api/v1/tools/:id` | GET | 工具详情 | ✅ | +| `/api/v1/tools/:id/execute` | POST | 执行工具 | ✅ | + +--- + +## 📄 稿件审查系统(/api/v1/review) + +**状态:** ✅ 已实现(独立系统) +**详细设计:** [RVW/02-API设计](../03-业务模块/RVW-稿件审查系统/02-API设计.md)(待创建) + +### 审查任务 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/review/tasks` | GET | 审查任务列表 | ✅ | +| `/api/v1/review/tasks` | POST | 创建审查任务 | ✅ | +| `/api/v1/review/tasks/:id` | GET | 任务详情 | ✅ | +| `/api/v1/review/tasks/:id/execute` | POST | 执行审查 | ✅ | +| `/api/v1/review/tasks/:id/report` | GET | 生成报告(PDF) | ✅ | + +--- + +## 🛠️ 运营管理端(/api/v1/admin) + +**状态:** ⏳ 规划中(P1优先级) +**详细设计:** [ADMIN/02-API设计](../03-业务模块/ADMIN-运营管理端/02-API设计.md) + +### 用户管理 ⭐ + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/admin/users` | GET | 用户列表 | ✅ ADMIN | +| `/api/v1/admin/users/:id` | GET | 用户详情 | ✅ ADMIN | +| `/api/v1/admin/users/:id` | PUT | 更新用户 | ✅ ADMIN | +| `/api/v1/admin/users/:id/plan` | PUT | 修改套餐 | ✅ ADMIN | +| `/api/v1/admin/users/:id/disable` | POST | 禁用用户 | ✅ ADMIN | + +### Feature Flag管理 ⭐ + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/admin/feature-flags` | GET | Flag列表 | ✅ ADMIN | +| `/api/v1/admin/feature-flags` | POST | 创建Flag | ✅ ADMIN | +| `/api/v1/admin/feature-flags/:id` | PUT | 更新Flag | ✅ ADMIN | +| `/api/v1/admin/users/:id/flags` | GET | 用户Flag | ✅ ADMIN | +| `/api/v1/admin/users/:id/flags` | PUT | 更新用户Flag | ✅ ADMIN | + +### LLM模型管理 ⭐ + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/admin/llm/models` | GET | 模型列表 | ✅ ADMIN | +| `/api/v1/admin/llm/models` | POST | 添加模型 | ✅ ADMIN | +| `/api/v1/admin/llm/models/:id` | PUT | 更新模型 | ✅ ADMIN | +| `/api/v1/admin/llm/usage` | GET | LLM使用统计 | ✅ ADMIN | +| `/api/v1/admin/llm/cost-analysis` | GET | 成本分析 | ✅ ADMIN | + +### Prompt管理 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/admin/prompts` | GET | Prompt列表 | ✅ ADMIN | +| `/api/v1/admin/prompts` | POST | 创建Prompt | ✅ ADMIN | +| `/api/v1/admin/prompts/:id` | PUT | 更新Prompt | ✅ ADMIN | + +### 日志查询 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/admin/logs` | GET | 日志列表 | ✅ ADMIN | +| `/api/v1/admin/logs/errors` | GET | 错误日志 | ✅ ADMIN | +| `/api/v1/admin/logs/operations` | GET | 操作日志 | ✅ ADMIN | + +### 数据报表 + +| 端点 | 方法 | 说明 | 认证 | +|------|------|------|------| +| `/api/v1/admin/reports/overview` | GET | 总览数据 | ✅ ADMIN | +| `/api/v1/admin/reports/users` | GET | 用户活跃度 | ✅ ADMIN | +| `/api/v1/admin/reports/features` | GET | 功能使用率 | ✅ ADMIN | +| `/api/v1/admin/reports/llm` | GET | LLM统计 | ✅ ADMIN | + +--- + +## 📊 路由统计 + +### 按模块统计 + +| 模块 | 端点数量 | 状态 | +|------|---------|------| +| 认证与用户 | 10 | ✅ 已实现 | +| LLM网关 | 5 | ❌ 待实现 | +| AI智能问答 | 8 | ✅ 已实现 | +| AI智能文献 | 15 | ⏳ 设计中 | +| 个人知识库 | 10 | ✅ 已实现 | +| 数据清洗 | 5 | ⏳ 规划中 | +| 智能统计分析 | 3 | ⏳ 规划中 | +| 统计工具 | 3 | ⏳ 规划中 | +| 稿件审查 | 5 | ✅ 已实现 | +| 运营管理端 | 20 | ⏳ 规划中 | +| **总计** | **~85** | - | + +--- + +## ⚠️ 路由冲突检查 + +### 潜在冲突 + +**❌ 避免冲突:** +``` +# 错误:模块名称冲突 +/api/v1/admin/users # 管理端的用户管理 +/api/v1/users # 平台层的用户管理 + +# 正确:明确区分 +/api/v1/auth/profile # 当前用户信息 +/api/v1/admin/users # 管理端用户CRUD +``` + +--- + +## 🔍 快速查找指南 + +### 场景1:查找某个模块的所有API +1. 在上面的表格中找到对应模块 +2. 点击"详细设计"链接 +3. 查看该模块的完整API文档 + +### 场景2:设计新API端点 +1. 查看本文档,确保路由不冲突 +2. 参考[API设计规范](./02-API设计规范.md) +3. 使用[API设计模板](../_templates/API设计-模板.md) + +### 场景3:查看全局API架构 +1. 阅读本文档(快速了解所有端点) +2. 查看[架构设计全景图](../00-系统总体设计/08-架构设计全景图.md) + +--- + +## 🔗 相关文档 + +**规范:** +- [API设计规范](./02-API设计规范.md) ⭐ 必读 +- [认证与授权规范](./02-API设计规范.md#认证与授权) + +**模板:** +- [API设计模板](../_templates/API设计-模板.md) + +**数据库:** +- [数据库全局视图](./03-数据库全局视图.md) + +--- + +**最后更新:** 2025-11-06 +**维护人:** 技术架构师 +**版本:** v1.0 + + + + + + + + + + + + + + diff --git a/docs/02-开发规范/代码规范.md b/docs/04-开发规范/05-代码规范.md similarity index 99% rename from docs/02-开发规范/代码规范.md rename to docs/04-开发规范/05-代码规范.md index 731ded89..3ed0f574 100644 --- a/docs/02-开发规范/代码规范.md +++ b/docs/04-开发规范/05-代码规范.md @@ -815,3 +815,13 @@ module.exports = { + + + + + + + + + + diff --git a/docs/04-开发规范/README.md b/docs/04-开发规范/README.md new file mode 100644 index 00000000..63550b7f --- /dev/null +++ b/docs/04-开发规范/README.md @@ -0,0 +1,228 @@ +# 04-开发规范 + +> **目标:** 统一团队开发规范,提高代码质量和协作效率 +> **适用范围:** 平台层 + 能力层 + 业务模块层 +> **强制等级:** ⭐⭐⭐⭐⭐ 必须遵守 + +--- + +## 📋 规范文档列表 + +### 1. 数据库设计规范 ⭐⭐⭐⭐⭐ +**文件:** `01-数据库设计规范.md` ⏳ 待创建(从 `01-设计文档/数据库设计文档.md` 提取) + +**核心内容:** +- Schema隔离策略(platform_schema、asl_schema等) +- 表命名规范(小写+下划线) +- 字段命名规范 +- 索引设计规范 +- 外键约束规范 +- 通用字段(created_at、updated_at等) + +**快速参考:** [数据库全局视图](./03-数据库全局视图.md) ⭐ 已创建 + +--- + +### 2. API设计规范 ⭐⭐⭐⭐⭐ +**文件:** `02-API设计规范.md` ⏳ 待创建(从 `01-设计文档/API设计规范.md` 提取) + +**核心内容:** +- RESTful API设计原则 +- URL命名规范(`/api/v1/模块/资源`) +- HTTP方法使用规范 +- 请求/响应格式规范 +- 错误码设计 +- 认证和权限 + +**快速参考:** [API路由总览](./04-API路由总览.md) ⭐ 已创建 + +--- + +### 3. 数据库全局视图 ⭐⭐⭐⭐⭐ ✅ 新增 +**文件:** `03-数据库全局视图.md` + +**用途:** 提供所有Schema和表的快速索引 + +**核心内容:** +- Schema划分策略(8个Schema) +- 所有表的总览和跳转链接 +- 跨Schema依赖关系 +- 数据量预估 + +**使用场景:** +- 查看全局数据架构 +- 快速定位某个表属于哪个Schema +- 了解跨模块数据关系 + +--- + +### 4. API路由总览 ⭐⭐⭐⭐⭐ ✅ 新增 +**文件:** `04-API路由总览.md` + +**用途:** 提供所有API端点的快速索引 + +**核心内容:** +- 路由命名规范 +- 所有模块的API端点总览 +- 路由冲突检查 +- 端点统计(~85个) + +**使用场景:** +- 查看全局API架构 +- 避免路由冲突 +- 快速查找某个功能的API端点 + +--- + +### 5. 代码规范 ⭐⭐⭐⭐ +**文件:** `05-代码规范.md` → 重命名自 `代码规范.md`(已存在,818行) + +**核心内容:** +- TypeScript编码规范 +- React组件规范 +- 文件和目录命名 +- 代码注释规范 +- 错误处理规范 +- 日志记录规范 + +**已有内容,包含:** +- ESLint配置 +- Prettier配置 +- 详细的编码规范 + +--- + +### 6. Git提交规范 ⭐⭐⭐⭐ +**文件:** `06-Git提交规范.md` ⏳ 待创建 + +**核心内容:** +- Commit Message格式 +- 分支管理策略 +- PR/MR规范 +- 代码审查流程 + +**Commit Message格式:** +``` +(): + + + +