- System architecture and design documentation - Business module docs (ASL/AIA/PKB/RVW/DC/SSA/ST) - ASL module complete design (quality assurance, tech selection) - Platform layer and common capabilities docs - Development standards and API specifications - Deployment and operations guides - Project management and milestone tracking - Architecture implementation reports - Documentation templates and guides
181 lines
3.7 KiB
Markdown
181 lines
3.7 KiB
Markdown
# [AI对接] 通用能力快速上下文
|
||
|
||
> **阅读时间:** 2-3分钟 | **Token消耗:** ~1500 tokens
|
||
> **层级:** L1 | **前置阅读:** 00-系统总体设计/[AI对接] 快速上下文.md
|
||
|
||
---
|
||
|
||
## 📋 通用能力层定位
|
||
|
||
**通用能力层是跨业务模块共享的核心技术能力,是业务逻辑的基础。**
|
||
|
||
**核心原则:**
|
||
- ✅ 可复用(多个业务模块共享)
|
||
- ✅ 业务相关(包含领域知识)
|
||
- ✅ 独立部署(可以独立为微服务)
|
||
- ✅ 高内聚(每个能力职责单一)
|
||
|
||
---
|
||
|
||
## 🎯 5个核心能力
|
||
|
||
### 1. LLM大模型网关 ⭐⭐⭐⭐⭐ **最高优先级**
|
||
|
||
**复用率:** 71% (5个模块依赖)
|
||
|
||
**依赖模块:**
|
||
- AIA(AI智能问答)
|
||
- ASL(AI智能文献)
|
||
- PKB(个人知识库)
|
||
- DC(数据清洗)
|
||
- RVW(稿件审查)
|
||
|
||
**核心价值:**
|
||
```
|
||
商业模式的技术基础!
|
||
|
||
功能1:根据用户版本选择模型
|
||
- 专业版 → DeepSeek(¥1/百万)
|
||
- 高级版 → DeepSeek + Qwen3
|
||
- 旗舰版 → 全部模型
|
||
|
||
功能2:成本控制
|
||
- 统一监控所有LLM调用
|
||
- 超出配额自动限流
|
||
- 按版本计费
|
||
|
||
功能3:统一调用接口
|
||
- 屏蔽不同LLM API差异
|
||
- 流式/非流式统一处理
|
||
```
|
||
|
||
**状态:** ❌ 待实现
|
||
**优先级:** P0(必须在ASL模块开发前完成)
|
||
**预计时间:** 3-5天
|
||
|
||
---
|
||
|
||
### 2. 文档处理引擎 ⭐⭐⭐⭐⭐
|
||
|
||
**复用率:** 86% (6个模块依赖)
|
||
|
||
**核心功能:**
|
||
- PDF提取(Nougat + PyMuPDF)
|
||
- Docx提取(Mammoth)
|
||
- Txt提取(多编码)
|
||
- Excel处理
|
||
|
||
**状态:** ✅ 已实现(Python微服务)
|
||
**位置:** `extraction_service/`
|
||
|
||
---
|
||
|
||
### 3. RAG引擎 ⭐⭐⭐⭐
|
||
|
||
**复用率:** 43% (3个模块依赖)
|
||
|
||
**核心功能:**
|
||
- 向量化存储(Embedding)
|
||
- 语义检索(Semantic Search)
|
||
- RAG问答
|
||
- 智能引用(100%准确溯源)
|
||
|
||
**状态:** ✅ 已实现(基于Dify)
|
||
|
||
**优化成果:**
|
||
- 检索覆盖率从5%提升到40-50%(8-10倍)
|
||
|
||
---
|
||
|
||
### 4. 数据ETL引擎 ⭐⭐⭐
|
||
|
||
**复用率:** 29% (2个模块依赖)
|
||
|
||
**依赖模块:**
|
||
- DC(数据清洗)
|
||
- SSA(智能统计)
|
||
|
||
**核心功能:**
|
||
- Excel多表JOIN
|
||
- 数据清洗
|
||
- 数据转换
|
||
|
||
**技术方案:**
|
||
- 云端版:Polars(性能极高)
|
||
- 单机版:SQLite(内存友好)
|
||
|
||
**状态:** ⏳ 待实现
|
||
|
||
---
|
||
|
||
### 5. 医学NLP引擎 ⭐⭐
|
||
|
||
**复用率:** 14% (1个模块依赖)
|
||
|
||
**依赖模块:**
|
||
- DC(数据清洗 - 病例NER提取)
|
||
|
||
**核心功能:**
|
||
- 医学实体识别(疾病、药物、TNM分期)
|
||
- 医学术语标准化
|
||
|
||
**技术方案:**
|
||
- 云端版:LLM API(高准确率)
|
||
- 单机版:spaCy(隐私优先)
|
||
|
||
**状态:** ⏳ 待实现
|
||
|
||
---
|
||
|
||
## 📊 优先级排序
|
||
|
||
| 能力 | 复用率 | 优先级 | 状态 | 原因 |
|
||
|------|--------|--------|------|------|
|
||
| **LLM网关** | 71% | P0 | ❌ | 5个模块依赖,商业模式基础 |
|
||
| **文档处理** | 86% | - | ✅ | 已实现,需要增强 |
|
||
| **RAG引擎** | 43% | - | ✅ | 已实现,需要优化 |
|
||
| **ETL引擎** | 29% | P2 | ⏳ | DC模块开发时再实现 |
|
||
| **医学NLP** | 14% | P2 | ⏳ | DC模块开发时再实现 |
|
||
|
||
---
|
||
|
||
## ⚠️ 关键提醒
|
||
|
||
**LLM网关必须优先实现!**
|
||
- 5个模块依赖(71%)
|
||
- ASL模块开发的前置条件
|
||
- 商业模式的技术基础
|
||
|
||
**预计时间:** 3-5天
|
||
**建议:** ASL模块Week 1同步开发
|
||
|
||
---
|
||
|
||
## 🔗 快速导航
|
||
|
||
**详细设计文档:**
|
||
- [LLM大模型网关](./01-LLM大模型网关/README.md) ⭐ P0
|
||
- [文档处理引擎](./02-文档处理引擎/README.md) ✅ 已实现
|
||
- [RAG引擎](./03-RAG引擎/README.md) ✅ 已实现
|
||
- [数据ETL引擎](./04-数据ETL引擎/README.md)
|
||
- [医学NLP引擎](./05-医学NLP引擎/README.md)
|
||
|
||
---
|
||
|
||
**最后更新:** 2025-11-06
|
||
**维护人:** 技术架构师
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|