# [AI对接] 通用能力快速上下文 > **阅读时间:** 2-3分钟 | **Token消耗:** ~1500 tokens > **层级:** L1 | **前置阅读:** 00-系统总体设计/[AI对接] 快速上下文.md --- ## 📋 通用能力层定位 **通用能力层是跨业务模块共享的核心技术能力,是业务逻辑的基础。** **核心原则:** - ✅ 可复用(多个业务模块共享) - ✅ 业务相关(包含领域知识) - ✅ 独立部署(可以独立为微服务) - ✅ 高内聚(每个能力职责单一) --- ## 🎯 5个核心能力 ### 1. LLM大模型网关 ⭐⭐⭐⭐⭐ **最高优先级** **复用率:** 71% (5个模块依赖) **依赖模块:** - AIA(AI智能问答) - ASL(AI智能文献) - PKB(个人知识库) - DC(数据清洗) - RVW(稿件审查) **核心价值:** ``` 商业模式的技术基础! 功能1:根据用户版本选择模型 - 专业版 → DeepSeek(¥1/百万) - 高级版 → DeepSeek + Qwen3 - 旗舰版 → 全部模型 功能2:成本控制 - 统一监控所有LLM调用 - 超出配额自动限流 - 按版本计费 功能3:统一调用接口 - 屏蔽不同LLM API差异 - 流式/非流式统一处理 ``` **状态:** ❌ 待实现 **优先级:** P0(必须在ASL模块开发前完成) **预计时间:** 3-5天 --- ### 2. 文档处理引擎 ⭐⭐⭐⭐⭐ **复用率:** 86% (6个模块依赖) **核心功能:** - PDF提取(Nougat + PyMuPDF) - Docx提取(Mammoth) - Txt提取(多编码) - Excel处理 **状态:** ✅ 已实现(Python微服务) **位置:** `extraction_service/` --- ### 3. RAG引擎 ⭐⭐⭐⭐ **复用率:** 43% (3个模块依赖) **核心功能:** - 向量化存储(Embedding) - 语义检索(Semantic Search) - RAG问答 - 智能引用(100%准确溯源) **状态:** ✅ 已实现(基于Dify) **优化成果:** - 检索覆盖率从5%提升到40-50%(8-10倍) --- ### 4. 数据ETL引擎 ⭐⭐⭐ **复用率:** 29% (2个模块依赖) **依赖模块:** - DC(数据清洗) - SSA(智能统计) **核心功能:** - Excel多表JOIN - 数据清洗 - 数据转换 **技术方案:** - 云端版:Polars(性能极高) - 单机版:SQLite(内存友好) **状态:** ⏳ 待实现 --- ### 5. 医学NLP引擎 ⭐⭐ **复用率:** 14% (1个模块依赖) **依赖模块:** - DC(数据清洗 - 病例NER提取) **核心功能:** - 医学实体识别(疾病、药物、TNM分期) - 医学术语标准化 **技术方案:** - 云端版:LLM API(高准确率) - 单机版:spaCy(隐私优先) **状态:** ⏳ 待实现 --- ## 📊 优先级排序 | 能力 | 复用率 | 优先级 | 状态 | 原因 | |------|--------|--------|------|------| | **LLM网关** | 71% | P0 | ❌ | 5个模块依赖,商业模式基础 | | **文档处理** | 86% | - | ✅ | 已实现,需要增强 | | **RAG引擎** | 43% | - | ✅ | 已实现,需要优化 | | **ETL引擎** | 29% | P2 | ⏳ | DC模块开发时再实现 | | **医学NLP** | 14% | P2 | ⏳ | DC模块开发时再实现 | --- ## ⚠️ 关键提醒 **LLM网关必须优先实现!** - 5个模块依赖(71%) - ASL模块开发的前置条件 - 商业模式的技术基础 **预计时间:** 3-5天 **建议:** ASL模块Week 1同步开发 --- ## 🔗 快速导航 **详细设计文档:** - [LLM大模型网关](./01-LLM大模型网关/README.md) ⭐ P0 - [文档处理引擎](./02-文档处理引擎/README.md) ✅ 已实现 - [RAG引擎](./03-RAG引擎/README.md) ✅ 已实现 - [数据ETL引擎](./04-数据ETL引擎/README.md) - [医学NLP引擎](./05-医学NLP引擎/README.md) --- **最后更新:** 2025-11-06 **维护人:** 技术架构师