Files
AIclinicalresearch/docs/00-系统总体设计/00-系统当前状态与开发指南.md
HaHafeng 691dc2bc98 docs(deploy): Update deployment documentation for Node.js backend
Summary:
- Created Node.js backend Docker image build guide
- Updated deployment progress overview with backend status
- Updated system status documentation

Backend build achievements:
- Fixed 200+ TypeScript compilation errors (200+ to 0)
- Completed Prisma reverse sync (32 models from RDS)
- Manually added 30+ Prisma relation fields
- Successfully built Docker image (838MB)
- Pushed image to ACR (v1.0 + latest tags)

Documentation updates:
- Added 10-Node.js后端-Docker镜像构建手册.md
- Updated 00-部署进度总览.md with backend deployment status
- Updated 00-系统当前状态与开发指南.md with latest progress
- Fixed date format (2024 -> 2025)

Next steps:
- Deploy Node.js backend to SAE
- Configure environment variables
- Test end-to-end functionality

Status: Backend Docker image ready for SAE deployment
2025-12-25 08:21:21 +08:00

791 lines
32 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# AIclinicalresearch 系统当前状态与开发指南
> **文档版本:** v2.2
> **创建日期:** 2025-11-28
> **维护者:** 开发团队
> **最后更新:** 2025-12-24
> **重大进展:** 🚀 **后端核心服务镜像构建完成** - Node.js后端镜像已推送ACR修复200+TS错误补全30+Prisma关系
> **文档目的:** 快速了解系统当前状态为新AI助手提供上下文
---
## 📋 快速导航
**🎯 如果您是新的AI助手**,请优先阅读:
1. **本文档**5分钟 - 了解系统当前状态
2. [前后端模块化架构设计-V2.md](./前后端模块化架构设计-V2.md)15分钟 - 了解技术架构
3. [[AI对接] 快速上下文.md](./%5BAI对接%5D%20快速上下文.md)10分钟 - 快速上手指南
---
## 🎯 项目概述
### 项目名称
**壹证循科技 - AI临床研究平台**
### 核心定位
一个覆盖临床科研全生命周期、AI驱动的一站式智能科研平台
### 目标用户
- **主要用户**:临床医生、研究人员(三甲医院)
- **次要用户**:医院科研管理科室、信息中心
- **商业模式**云端SaaS + 私有化部署 + 单机版
---
## 📊 业务模块概览7大核心功能
| 模块代号 | 模块名称 | 核心功能 | 商业价值 | 当前状态 | 优先级 |
|---------|---------|---------|---------|---------|--------|
| **AIA** | AI智能问答 | 10+专业智能体选题评价、PICO梳理等 | ⭐⭐⭐⭐ | ✅ 已完成 | P1 |
| **PKB** | 个人知识库 | RAG问答、私人文献库 | ⭐⭐⭐ | ✅ 已完成 | P1 |
| **ASL** | AI智能文献 | 文献筛选、Meta分析、证据图谱 | ⭐⭐⭐⭐⭐ | 🚧 **正在开发** | **P0** |
| **DC** | 数据清洗整理 | ETL + 医学NER百万行级数据 | ⭐⭐⭐⭐⭐ | ✅ **Tool B完成 + Tool C 99%(异步架构+性能优化-99%+多指标转换+7大功能** | **P0** |
| **SSA** | 智能统计分析 | 队列/预测模型/RCT分析 | ⭐⭐⭐⭐⭐ | 📋 规划中 | P2 |
| **ST** | 统计分析工具 | 100+轻量化统计工具 | ⭐⭐⭐⭐ | 📋 规划中 | P2 |
| **RVW** | 稿件审查系统 | 方法学评估、审稿流程 | ⭐⭐⭐⭐ | 📋 规划中 | P3 |
---
## 🏗️ 技术架构(三层设计)
### 架构总览
```
┌─────────────────────────────────────────────────────────┐
│ 业务模块层 (Product Layer) │
│ AIA | PKB | ASL | DC | SSA | ST | RVW │
│ ✅ ✅ 🚧 🚧 📋 📋 📋 │
└─────────────────────────────────────────────────────────┘
↓ 依赖
┌─────────────────────────────────────────────────────────┐
│ 通用能力层 (Capability Layer) │
│ 后端LLM网关 | 文档处理 | RAG引擎 | ETL引擎 | 医学NLP │
│ ✅ ✅ ✅ 🚧 📋 │
│ 前端Chat组件Ant Design X✅ 🎉 新增! │
└─────────────────────────────────────────────────────────┘
↓ 依赖
┌─────────────────────────────────────────────────────────┐
│ 平台基础层 (Platform Layer) │
│ 🏆 **Postgres-Only架构**(新) │
│ ├── 统一缓存platform_schema.app_cache ✅ │
│ ├── 统一队列platform_schema.job (pg-boss) ✅ │
│ ├── 任务管理job.data 统一存储 ✅ │
│ └── 断点续传CheckpointService 通用化 ✅ │
│ │
│ 存储 | 日志 | 缓存 | 任务 | 健康检查 | 监控 | 连接池 │
│ ✅ ✅ ✅ ✅ ✅ ✅ ✅ │
└─────────────────────────────────────────────────────────┘
```
### 技术栈
**前端**
- React 19 + TypeScript 5 + Vite 7
- **Ant Design 6.0** + **Ant Design X 2.1** ✨ 新增!
- TailwindCSS 3 + React Query v5 + React Router DOM v7
- 架构frontend-v2模块化顶部导航
- **通用能力层**shared/components/Chat基于 Ant Design X
**后端**
- Fastify v4 (Node.js 22)
- Prisma 6 (10个Schema隔离)
- LLMDeepSeek-V3, Qwen-Max, GPT-5-Pro, Claude-4.5
- 架构增量演进legacy + common + modules
**数据库**
- PostgreSQL 15 Docker: postgres:15-alpine
- 10个Schema隔离platform/aia/pkb/asl/dc/ssa/st/rvw/admin/common
**云原生部署**
- 阿里云 SAE (Serverless 应用引擎) ✅ 已部署Python微服务
- 阿里云 ACR (容器镜像服务) ✅ 已推送3个镜像Frontend、Backend、Python
- 阿里云 RDS (PostgreSQL 15) ✅ 已迁移数据
- RDS PostgreSQL 15 + OSS (对象存储) + NAT网关
- ACR (容器镜像服务 - 个人版免费)
- **部署状态**:🚀 **进行中**PostgreSQL✅、Python微服务✅、前端镜像✅、Node.js后端⏳
---
## 🚀 当前开发状态2025-12-24
### ✅ 已完成模块
#### 1. 平台基础层 🏆 **Postgres-Only 架构完成!**2025-12-13
**核心架构Platform-Only 模式**
-**统一缓存**`PostgresCacheAdapter``platform_schema.app_cache`
-**统一队列**`PgBossQueue``platform_schema.job` (pg-boss)
-**任务管理**:所有任务信息存储在 `job.data` (JSONB)
-**断点续传**`CheckpointService` 通用化(操作 job.data
-**智能阈值**小任务直接处理大任务队列处理THRESHOLD=50
**原有能力:**
- ✅ 存储服务LocalAdapter ↔ OSSAdapter
- ✅ 日志系统Winston + 结构化JSON
- ✅ 健康检查Liveness + Readiness
- ✅ 监控指标(数据库连接/内存/API
- ✅ 数据库连接池Serverless优化
**测试覆盖:**
- ✅ 单元测试8个全部通过
- ✅ 集成测试2个全部通过
- ✅ 架构验证Platform-Only 验证通过
**技术债务:**
- ⚠️ Phase 8 全面测试断点续传压力测试、1000篇文献完整流程
- ⚠️ Phase 9 SAE 部署验证
#### 2. AIA模块 - AI智能问答已完成
- ✅ 10个专业智能体
- ✅ 流式对话 + 非流式对话
- ✅ 知识库模式RAG检索
- ✅ 批处理模式
- **状态**:生产就绪
#### 3. PKB模块 - 个人知识库(已完成)
- ✅ 知识库CRUD
- ✅ 文档上传PDF/Word/TXT/MD
- ✅ RAG问答
- ✅ 批处理任务
- **状态**:生产就绪
### 🚧 正在开发模块
#### 4. ASL模块 - AI智能文献 🏆 **Postgres-Only 架构改造完成!**
**开发进度**
-**标题摘要初筛MVP**:完整流程(设置→启动→审核→结果→导出)
-**全文复筛后端**LLM服务、数据库、批处理、API
-**🏆 Postgres-Only 架构改造**智能阈值、任务拆分、断点续传Phase 6完成
- 🚧 **全文复筛前端UI**4个核心页面待开发
**核心功能**
- 双模型并行筛选DeepSeek-V3 + Qwen-Max
- PICOS标准判断
- 12字段结构化提取全文复筛
- 医学逻辑验证 + 证据链验证
- Excel批量导出
**🚀 Postgres-Only 架构亮点**
-**智能双模式**<50篇直接处理≥50篇队列处理
-**任务拆分**1000篇 → 20个批次每批50篇
-**断点续传**支持2-24小时长任务实例重启可恢复
-**Platform层统一**:任务管理信息存储在 `job.data`,不在业务表中
-**零额外成本**:使用 pg-boss无需 Redis
-**高可靠性**自动重试3次6小时过期保护
**技术实现**
- `screeningService.ts`:智能阈值判断,推送批次任务
- `screeningWorker.ts`:批次处理,断点续传
- `CheckpointService`:操作 job.data所有模块通用
**详细文档**[ASL模块当前状态](../03-业务模块/ASL-AI智能文献/00-模块当前状态与开发指南.md)
#### 5. DC模块 - 数据清洗整理 🏆 **Tool C MVP + Postgres-Only 架构改造完成!**
**开发进度**
-**Tool B后端**100%完成1,658行代码
- 4个核心服务HealthCheck、Template、DualModel、Conflict
- 1个控制器6个API端点
- 路由集成(/api/v1/dc/tool-b
- Prisma Schema4个表
- 100%云原生(复用平台能力)
-**🏆 Postgres-Only 架构改造**智能阈值、任务拆分、断点续传Phase 7完成
-**Tool B前端**0%有V4原型设计未实现
-**Tool C数据编辑器****MVP + NA处理 + Pivot优化 + UX重大改进完成** ✅
- ✅ Python微服务~1800行- Day 1 + NA处理优化 + 全量数据处理
- ✅ Node.js后端~3500行- Day 2-3, Day 5-8增强 + 全量返回
- ✅ 前端界面(~4000行- Day 4-8, 筛选/行号/滚动条/全量加载
- ✅ 通用 Chat 组件(~968行- Day 5
- ✅ 7个功能按钮筛选、映射、分箱、条件、删NA、计算、Pivot
- ✅ NA处理优化4个功能支持空值处理
- ✅ Pivot优化保留未选列+原始列顺序)
- ✅ 计算列方案B安全列名映射支持特殊字符 + 全角字符转换)
-**UX重大改进**Day 8
- 列头筛选Excel风格Community版本中文本地化
- 行号列(固定左侧,灰色背景)
- 滚动条修复修改MainLayout整个页面无滚动条
- 全量数据不再限制50行筛选精确
- 删除预览提示条
- **总计:~13068行** | **完成度98%**
-**Tool A**:未开发
-**Portal**已完成Tool B + Tool C 入口)
**核心功能Tool C2025-12-10最新**
- 7个功能按钮高级筛选、数值映射、生成分类变量、条件生成列、删除缺失值、计算列、Pivot转换
- NA处理支持数值映射保持/映射/删除)、分箱(保持/标记/分配)、条件(为空/不为空)
- Pivot优化保留未选择的列、保持原始列顺序
- 计算列方案B安全列名映射支持中文括号等特殊字符 + 全角字符自动转换
- **UX重大改进**
- 列头筛选Excel风格Community版本中文本地化显示值计数
- 行号列(固定左侧,灰色背景,#列头
- 滚动条修复修改MainLayout整个页面无滚动条只有表格内部滚动
- 全量数据不再限制50行筛选精确所有操作全量返回
**核心功能Tool B**
- 双模型并发提取DeepSeek-V3 + Qwen-Max
- 自动冲突检测(字段级对比)
- Excel健康检查空值率、Token估算、拦截策略
- 预设模板系统(肺癌、糖尿病、高血压)
**🚀 Postgres-Only 架构亮点**
-**智能双模式**<50条直接处理≥50条队列处理
-**任务拆分**1000条 → 20个批次每批50条
-**断点续传**:支持长时间提取任务,实例重启可恢复
-**Platform层统一**:与 ASL 共用 CheckpointService
-**零额外成本**:使用 pg-boss无需 Redis
**技术实现**
- `ExtractionController.ts`:智能阈值判断,推送批次任务
- `extractionWorker.ts`:批次处理,断点续传
- `CheckpointService`:操作 job.data所有模块通用
**技术亮点**
- ✅ Excel内存处理零落盘云原生
- ✅ 双模型交叉验证减少AI幻觉
- ✅ 3层JSON解析容错机制
- ✅ 复用LLMFactory、storage、cache、jobQueue
- ✅ 预写Python函数架构稳定、安全、高性能
- ✅ 安全列名映射(支持特殊字符列名)
**待开发功能**
- ⏳ 缺失值填补(均值/中位数/众数/固定值)
- ⏳ 多重插补MICE- 高优先级
**详细文档**[DC模块当前状态](../03-业务模块/DC-数据清洗整理/00-模块当前状态与开发指南.md)
---
## 🚀 阿里云生产环境部署状态2025-12-24
### ✅ 已完成部署
#### 1. 基础设施层
-**VPC网络**`vpc-2ze055cptkew9c38w4r06`172.17.0.0/16
-**NAT网关**`ngw-2zeec9ulzgw7ywvx1pst6`公网IP: 182.92.176.14
-**安全组**`sg-2zedk6fi8sgmmcwdu7tu`
-**交换机**2个可用区F + 可用区A
-**SAE命名空间**`cn-beijing:test-airesearch`
#### 2. 数据存储层
-**RDS PostgreSQL 15**
- 实例ID: `pgm-2zex1m2y3r23hdn5`
- 规格: 2核4GB
- 内网地址: `pgm-2zex1m2y3r23hdn5.pg.rds.aliyuncs.com:5432`
- 数据库: `ai_clinical_research`
- **数据迁移**: ✅ 完成90MB SQL文件约12秒导入
- **Schema验证**: ✅ 11个Schema全部迁移成功
- **数据验证**: ✅ 用户3条、项目2条、文献1204条
- **部署时间**: 2025-12-24
-**OSS对象存储**
- Bucket: `ai-clinical-research`
- 存储类型: 标准存储(同城冗余)
- 内网域名: `ai-clinical-research.oss-cn-beijing-internal.aliyuncs.com`
- RAM用户: `oss-bucket-put-object@1991407246109125.onaliyun.com`
- AccessKey: 已配置(不公开)
#### 3. 容器镜像服务ACR
-**命名空间**: `ai-clinical`
-**Registry**: `crpi-cd5ij4pjt65mweeo.cn-beijing.personal.cr.aliyuncs.com`
-**已推送镜像**:
- **前端Nginx**: `ai-clinical_frontend-nginx:v1.0`约50MB
- 构建时间: 2025-12-24
- 基础镜像: `nginx:alpine`
- 功能: React SPA + Nginx反向代理 + 动态环境变量
- 配置文件: `frontend-v2/Dockerfile`, `nginx.conf`, `.dockerignore`
- **Python微服务**: `python-extraction:v1.0`1.12GB
- 构建时间: 2025-12-24
- 基础镜像: `python:3-slim`
- 功能: PDF提取PyMuPDF+ 数据清洗pandas/numpy/polars
- 特性: 移除Nougat减小1.5GB、使用阿里云Debian源
- 配置文件: `extraction_service/Dockerfile`, `requirements-prod.txt`, `.dockerignore`
- **Node.js后端**: `backend-service:v1.0`838MB压缩后~186MB✨ 新增!
- 构建时间: 2025-12-24约5分钟
- 基础镜像: `node:alpine`
- 构建策略: 改进版方案B本地编译+Docker打包
- 技术突破: 修复200+TypeScript错误、手动补全30+Prisma关系字段
- 架构特性: Postgres-Onlypg-boss队列+PostgreSQL缓存
- 配置文件: `backend/Dockerfile`, `backend/.dockerignore`, `backend/prisma/schema.prisma`
### 🚧 进行中
#### 4. SAE应用部署
-**Python微服务**: 已成功部署到SAE轻量版
- 应用名称: `python-extraction-test`
- 规格: 1核2GB
- 内网地址: `http://172.17.173.66:8000`
- 状态: 运行中 ✅
-**Node.js后端**: 镜像已推送待部署到SAE
- 目标规格: 1核2GB测试环境
- 端口: 8000
- 健康检查: `/api/health`
-**Node.js后端**: Docker镜像待构建
- 目标规格: 2核4GB
- 端口: 3001
- 依赖: RDS PostgreSQL
-**前端Nginx**: 镜像已推送待部署到SAE
- 目标规格: 1核2GB
- 端口: 80
- 需配置: 后端API内网地址
### 📋 待完成
- [ ] Python微服务部署到SAE
- [ ] Node.js后端Docker镜像构建
- [ ] Node.js后端部署到SAE
- [ ] 前端Nginx部署到SAE
- [ ] 配置服务间内网通信
- [ ] 全链路验证测试
- [ ] Dify AI服务部署可选
### 📊 部署文档
**部署进度总览**
- [00-部署进度总览.md](../05-部署文档/00-部署进度总览.md) - 🎯 **一站式部署状态查看**
**操作手册**
- [07-前端Nginx-SAE部署操作手册.md](../05-部署文档/07-前端Nginx-SAE部署操作手册.md)
- [08-PostgreSQL数据库部署操作手册.md](../05-部署文档/08-PostgreSQL数据库部署操作手册.md)
- Python微服务SAE部署操作手册待创建
**技术指南**
- [01-快速部署SOP-零基础版.md](../05-部署文档/01-快速部署SOP-零基础版.md) - 完整部署流程
- [04-Python微服务-SAE容器部署指南.md](../05-部署文档/04-Python微服务-SAE容器部署指南.md)
- [06-前端Nginx-SAE容器部署指南.md](../05-部署文档/06-前端Nginx-SAE容器部署指南.md)
### 🎯 部署关键成就
1. **PostgreSQL数据迁移**
- 采用`pg_dump`全量导出/导入方案
- 11个Schema完整迁移
- 数据一致性验证通过
- 安全加固(外网访问已关闭)
2. **前端Nginx镜像优化**
- 解决Docker Hub网络问题使用通用标签
- 修复30个TypeScript编译错误
- 多阶段构建优化
- 健康检查通过
3. **Python微服务镜像优化**
- 移除Nougat OCR减小1.5GB
- 使用阿里云Debian镜像源解决apt-get网络问题
- 保留数据清洗功能pandas/numpy/polars
- 运行时依赖优化libgl1、libglib2.0
4. **镜像配置文件Git管理**
- Dockerfile: ✅ 已提交Git构建蓝图
- .dockerignore: ✅ 已提交Git优化构建
- 依赖文件: ✅ 已提交Git可复现
- 敏感信息: ❌ 禁止提交(.env等
### 💰 当前运行成本估算
| 服务 | 规格 | 月成本 | 状态 |
|------|------|-------|------|
| RDS PostgreSQL | 2核4GB | ¥260 | ✅ 运行中 |
| OSS存储 | 10GB | ¥2 | ✅ 运行中 |
| NAT网关 | 小型 | ¥60 | ✅ 运行中 |
| EIP流量 | 5Mbps | ¥40 | ✅ 运行中 |
| ACR镜像仓库 | 个人版 | ¥0免费 | ✅ 运行中 |
| SAE - Python | 1核2GB×1 | ¥60 | ⏳ 待部署 |
| SAE - Node.js | 2核4GB×1 | ¥120 | ⏳ 待部署 |
| SAE - Frontend | 1核2GB×1 | ¥60 | ⏳ 待部署 |
| **总计** | - | **¥602/月** | 部署中 |
---
## 📁 项目结构概览
```
AIclinicalresearch/
├── frontend-v2/ # 🌐 前端React 19 + TS
│ └── src/
│ ├── framework/ # 框架层(布局、路由、权限)
│ ├── modules/ # 业务模块
│ │ ├── asl/ # ✅ AI智能文献
│ │ ├── aia/ # ✅ AI智能问答
│ │ ├── pkb/ # ✅ 个人知识库
│ │ ├── dc/ # ✅ 数据清洗Tool C 完成)
│ │ └── ...
│ └── shared/ # 共享组件和工具
│ └── components/ # ✨ 通用能力层
│ └── Chat/ # ✅ Chat 通用组件Ant Design X
├── backend/ # ⚙️ 后端Fastify + Prisma
│ └── src/
│ ├── common/ # ⭐ 平台基础设施(云原生)
│ │ ├── storage/ # 存储抽象层
│ │ ├── logging/ # 日志系统
│ │ ├── cache/ # 缓存服务
│ │ ├── jobs/ # 异步任务
│ │ └── ...
│ ├── legacy/ # 🔸 现有业务代码(稳定)
│ └── modules/ # 🌟 新架构模块
│ ├── asl/ # ✅ AI智能文献
│ └── dc/ # 🚧 数据清洗(开发中)
├── docs/ # 📚 文档体系
│ ├── 00-系统总体设计/ # 架构设计
│ ├── 01-平台基础层/ # 平台能力
│ ├── 02-通用能力层/ # LLM、RAG等
│ ├── 03-业务模块/ # 各模块文档
│ ├── 04-开发规范/ # 云原生规范等
│ └── 08-项目管理/ # 计划和进度
└── prisma/
└── schema.prisma # 10个Schema定义
```
---
## 🎯 核心设计原则
### 1. 云原生架构 ☁️
- **无状态应用**:不依赖本地文件系统
- **存储抽象层**:适配器模式,零代码环境切换
- **异步任务**避免Serverless超时30秒
- **数据库连接池**:防止连接数耗尽
- **详细规范**[云原生开发规范](../04-开发规范/08-云原生开发规范.md) ⭐ **必读**
### 2. 模块化与独立部署 🔧
- **前后端分离**:每个模块前后端完全独立
- **Schema隔离**数据库层面模块隔离10个Schema
- **路由独立**每个模块有独立的API路由前缀
- **支持独立销售**:任何模块都可独立打包
### 3. 商业模式灵活性 💰
- **4种部署形态**云端SaaS、私有化部署、单机版、混合部署
- **多版本支持**:专业版/高级版/旗舰版Feature Flag控制
- **AI成本可控**动态切换LLM模型
- **模块化售卖**:任何模块都可独立销售
### 4. 渐进式演进 📈
- **新旧并存**Frontend-v2+ Frontend旧保留
- **增量改造**Legacy模块保持稳定新模块标准化
- **Just-in-time**:聚焦当前,架构预留,避免过度设计
---
## 📅 开发时间线
| 时间 | 阶段 | 主要成果 |
|------|------|---------|
| **2025-11-12** | Week 1 | ✅ 数据库Schema隔离10个Schema |
| **2025-11-13~14** | Week 2 | ✅ 前端模块化架构 + 后端分层 |
| **2025-11-17** | Week 2+ | ✅ 平台基础设施8个核心模块 |
| **2025-11-18~21** | Week 3~4 | ✅ ASL标题摘要初筛MVP |
| **2025-11-22~23** | ASL Day 2-5 | ✅ ASL全文复筛后端完成 |
| **2025-11-26~27** | DC Day 2-3 | ✅ DC工具B健康检查+模板管理 |
| **2025-11-28** | DC Day 4-8 | ✅ DC Tool C MVP + UX重大改进完成 |
| **2025-12-13** | 架构优化 | ✅ Postgres-Only架构改造完成 |
| **2025-12-24 上午** | **部署启动** 🚀 | ✅ PostgreSQL数据迁移 + 前端/Python镜像推送ACR |
| **2025-12-24 下午** | **后端镜像构建** 🎉 | ✅ Node.js后端镜像构建成功修复200+TS错误 |
| **当前** | 部署进行中 | 🚧 SAE应用部署Python已完成Node.js待部署 |
---
## 🎯 下一步计划
### 🔥 最高优先级(当前)- 部署到生产环境
1.**Python微服务部署到SAE** - 已完成
- ✅ 创建SAE应用轻量版
- ✅ 配置环境变量OSS、数据库
- ✅ 健康检查验证
- ✅ 获取内网地址:`http://172.17.173.66:8000`
2.**Node.js后端Docker镜像构建** - 已完成
- ✅ Prisma反向同步32个模型
- ✅ 手动补全Prisma关系字段30+个)
- ✅ 修复TypeScript编译错误200+ → 0
- ✅ 创建Dockerfile改进版方案B
- ✅ 构建并推送到ACR838MB镜像
3.**Node.js后端部署到SAE** - 待执行
- [ ] 创建SAE应用1核2GB测试环境
- [ ] 配置ACR镜像拉取认证
- [ ] 配置环境变量数据库、Python服务、OSS、LLM API
- [ ] 健康检查验证
- [ ] 获取内网地址
3. **Node.js后端部署到SAE**
- 创建SAE应用2核4GB
- 配置环境变量DATABASE_URL、OSS等
- 配置Python微服务内网地址
- 健康检查验证
4. **前端Nginx部署到SAE**
- 创建SAE应用1核2GB
- 配置后端API内网地址
- 公网域名绑定
- SSL证书配置
5. **全链路验证测试**
- 前端→Node.js后端→Python微服务→RDS
- ASL文献筛选完整流程
- DC数据清洗完整流程
- 性能和稳定性测试
### 短期1-2周- 功能完善
6. **ASL全文复筛前端**Day 6-8
- 4个核心页面设置、进度、工作台、结果
- PDF上传和预览功能
- 双模型判断对比UI
- 实时进度监控
7. **DC工具B前端开发**
- 健康检查界面
- 模板管理界面
- 批量提取界面
- 冲突解决界面
### 中期1-2月- 模块完善
8. DC模块完整实现工具A、Portal优化
9. ASL模块优化Prompt优化、并发处理
10. 监控和告警系统配置
11. CI/CD流程建立
### 长期3月+- 新模块开发
12. SSA模块智能统计分析
13. ST模块统计分析工具
14. RVW模块稿件审查系统
---
## 📚 重要文档索引
### 🎯 必读文档新AI助手
1. ⭐⭐⭐ **本文档** - 系统当前状态
2. ⭐⭐⭐ [前后端模块化架构设计-V2.md](./前后端模块化架构设计-V2.md) - 架构总纲
3. ⭐⭐⭐ [云原生开发规范.md](../04-开发规范/08-云原生开发规范.md) - 开发规范(必读)
4. ⭐⭐ [01-系统架构分层设计.md](./01-系统架构分层设计.md) - 三层架构详解
5. ⭐⭐ [09-总体需求文档(PRD).md](./09-总体需求文档\(PRD\).md) - 产品需求
### 🚀 当前开发相关
- [ASL模块当前状态](../03-业务模块/ASL-AI智能文献/00-模块当前状态与开发指南.md)
- [DC模块README](../03-业务模块/DC-数据清洗整理/README.md)
- [DC Day3完成总结](../03-业务模块/DC-数据清洗整理/06-开发记录/Day3完成总结.md)
### 🚀 部署文档(新增)
- ⭐ [00-部署进度总览.md](../05-部署文档/00-部署进度总览.md) - **一站式部署状态查看**
- [01-快速部署SOP-零基础版.md](../05-部署文档/01-快速部署SOP-零基础版.md) - 完整部署流程
- [07-前端Nginx-SAE部署操作手册.md](../05-部署文档/07-前端Nginx-SAE部署操作手册.md)
- [08-PostgreSQL数据库部署操作手册.md](../05-部署文档/08-PostgreSQL数据库部署操作手册.md)
### 🏗️ 架构设计
- [平台基础设施规划](../09-架构实施/04-平台基础设施规划.md)
- [云原生部署架构指南](../09-架构实施/03-云原生部署架构指南.md)
- [数据库设计规范](../04-开发规范/01-数据库设计规范.md)
---
## 🔧 开发环境
### 环境要求
```
Node.js: v22.18.0+
PostgreSQL: 15+当前使用15.14
npm: 10+
```
### 快速启动
**后端**
```bash
cd backend
npm install
npx prisma generate
npm run dev # http://localhost:3001
```
**前端**
```bash
cd frontend-v2
npm install
npm run dev # http://localhost:3000
```
### 环境变量配置
参考:[环境配置指南](../07-运维文档/01-环境配置指南.md)
---
## ⚠️ 重要注意事项
### 对新AI助手
1.**优先阅读云原生开发规范**:所有代码必须遵守
2.**使用平台基础设施**:不要重复实现存储、日志、缓存等
3.**遵循Schema隔离**每个模块的表必须在对应的Schema中
4.**查看最新开发记录**:了解当前开发状态和已知问题
### 常见陷阱
1.**不要在业务模块中自己实现存储**:使用 `import { storage } from '@/common/storage'`
2.**不要硬编码配置**:使用环境变量
3.**不要依赖本地文件系统**使用OSS或内存处理
4.**不要创建新的Prisma实例**:使用全局 `prisma` 实例
---
## 📊 项目统计
### 代码量
- **前端**:约 15,000 行TypeScript + TSX
- **后端**:约 20,000 行TypeScript
- **文档**:约 50,000 行Markdown
- **总计**:约 85,000 行
### 模块完成度
-**已完成**AIA100%、PKB100%、平台基础层100%
- 🚧 **开发中**ASL80%、DCTool C 98%Tool B后端100%Tool B前端0%
- 📋 **未开始**SSA、ST、RVW
### 部署完成度
-**基础设施**VPC100%、NAT网关100%、安全组100%
-**数据存储**RDS PostgreSQL100%、OSS100%
-**容器镜像**前端Nginx100%、Python微服务100%、Node.js后端100%)✨ 新增!
-**SAE应用**Python微服务100%已运行、Node.js后端镜像已推送待部署、前端Nginx待部署
- 📋 **验证测试**:全链路测试(待进行)
### 测试覆盖率
- **平台基础层**100%8/8模块全部通过
- **AIA模块**:手动测试通过
- **PKB模块**:手动测试通过
- **ASL模块**部分自动化测试31个REST Client测试用例
- **DC模块**:开发中
---
## 🏆 Postgres-Only 架构2025-12-13 重大创新)
### 核心理念
**Platform-Only 模式**:所有平台级功能(缓存、队列、任务管理)统一在 Platform 层实现,业务层只关注业务逻辑。
### 架构演进
```
改造前:
业务层 (分散)
├── ASL: 任务管理字段 (6个)
└── DC: 任务管理字段 (6个)
❌ 代码重复
❌ 维护困难
改造后Platform-Only
平台层 (统一)
├── platform_schema.job.data (pg-boss)
│ └── 所有任务管理信息
└── CheckpointService (通用)
└── 操作 job.data所有模块复用
业务层 (简洁)
├── ASL: 只存储业务信息
└── DC: 只存储业务信息
✅ 无重复
✅ 易维护
✅ 符合3层架构
```
### 核心组件
| 组件 | 位置 | 功能 | 通用性 |
|------|------|------|--------|
| **PostgresCacheAdapter** | `common/cache/` | Postgres 缓存 | ✅ 所有模块 |
| **PgBossQueue** | `common/jobs/` | pg-boss 队列封装 | ✅ 所有模块 |
| **CheckpointService** | `common/jobs/` | 操作 job.data | ✅ 所有模块 |
| **任务拆分工具** | `common/jobs/utils.ts` | 智能拆分批次 | ✅ 所有模块 |
### 智能双模式处理
```typescript
const QUEUE_THRESHOLD = 50;
if (items.length >= 50) {
// 队列模式:可靠性优先
- 50/
- 10
- 3
- 24
} else {
// 直接模式:性能优先
- <1分钟
- 无队列延迟
- 适合小任务
}
```
### 技术亮点
1. **Platform-Only 模式**(首创)
- 利用 pg-boss 的 `job.data` 字段统一管理
- 业务表保持简洁,只存储业务信息
- CheckpointService 真正做到平台级通用
2. **智能阈值判断**
- 根据数据量自动选择处理模式
- 性能与可靠性的完美平衡
- 用户体验优化
3. **零额外成本**
- 不引入 Redis年省¥8400
- 使用已有 Postgres 实现缓存和队列
- 适合小团队快速迭代
4. **企业级可靠性**
- 断点续传:任务中断后可恢复
- 自动重试失败任务重试3次
- 并发处理:支持多实例并行
- 长任务支持可运行24小时
### 适用模块
- ✅ ASL 筛选服务(已改造)
- ✅ DC 提取服务(已改造)
- 📋 SSA 统计分析(未来)
- 📋 RVW 文献综述(未来)
### 详细文档
- [Postgres-Only 改造实施计划](../07-运维文档/09-Postgres-Only改造实施计划(完整版).md)
- [Postgres-Only 全能架构解决方案](../07-运维文档/08-Postgres-Only 全能架构解决方案.md)
- [工作总结2025-12-13](../08-项目管理/03-每周计划/2025-12-13-Postgres-Only架构改造完成.md)
---
## 🌟 技术亮点
1.**Platform-Only 架构**:统一任务管理,零代码重复 🏆 **新!**
2.**智能双模式处理**:小任务快速响应,大任务可靠执行 🏆 **新!**
3.**适配器模式**:存储/缓存/日志支持本地↔云端零代码切换
4.**10个Schema一次性完成**:架构一次到位
5.**Prisma自动路由**Schema迁移后代码无需修改
6.**4个LLM集成**DeepSeek、Qwen、GPT、Claude
7.**增量演进**:新旧并存,降低风险
8.**云原生就绪**为SAE部署做好准备
---
## 📞 联系方式
- **项目负责人**:技术架构师
- **文档维护**:开发团队
- **问题反馈**GitHub Issues
---
**文档版本**v2.1
**最后更新**2025-12-24
**下次更新**SAE应用部署完成 或 全链路验证测试完成
---
**🎉 祝新的AI助手工作顺利所有信息已梳理完毕可以无缝衔接**