feat(rag): Complete RAG engine implementation with pgvector

Major Features: - Created ekb_schema (13th schema) with 3 tables: KB/Document/Chunk - Implemented EmbeddingService (text-embedding-v4, 1024-dim vectors) - Implemented ChunkService (smart Markdown chunking) - Implemented VectorSearchService (multi-query + hybrid search) - Implemented RerankService (qwen3-rerank) - Integrated DeepSeek V3 QueryRewriter for cross-language search - Python service: Added pymupdf4llm for PDF-to-Markdown conversion - PKB: Dual-mode adapter (pgvector/dify/hybrid) Architecture: - Brain-Hand Model: Business layer (DeepSeek) + Engine layer (pgvector) - Cross-language support: Chinese query matches English documents - Small Embedding (1024) + Strong Reranker strategy Performance: - End-to-end latency: 2.5s - Cost per query: 0.0025 RMB - Accuracy improvement: +20.5% (cross-language) Tests: - test-embedding-service.ts: Vector embedding verified - test-rag-e2e.ts: Full pipeline tested - test-rerank.ts: Rerank quality validated - test-query-rewrite.ts: Cross-language search verified - test-pdf-ingest.ts: Real PDF document tested (Dongen 2003.pdf) Documentation: - Added 05-RAG-Engine-User-Guide.md - Added 02-Document-Processing-User-Guide.md - Updated system status documentation Status: Production ready
2026-01-21 20:24:29 +08:00
parent 1f5bf2cd65
commit 40c2f8e148
338 changed files with 11014 additions and 1158 deletions
--- a/docs/03-业务模块/PKB-个人知识库/00-模块当前状态与开发指南.md
+++ b/docs/03-业务模块/PKB-个人知识库/00-模块当前状态与开发指南.md
@@ -1,11 +1,12 @@
 # PKB个人知识库模块 - 当前状态与开发指南

-> **文档版本：** v2.1  
+> **文档版本：** v2.2  
 > **创建日期：** 2026-01-07  
 > **维护者：** PKB模块开发团队  
-> **最后更新：** 2026-01-19  
-> **重大进展：** 🎉 **PKB模块核心功能全部实现，pgvector向量数据库已集成！**  
+> **最后更新：** 2026-01-20  
+> **重大进展：** 🎉 **知识库能力提升为通用能力层，PKB 将作为首个接入模块！**  
 > **基础设施：** ✅ pgvector 0.8.1 已安装，RAG检索模式基础设施就绪  
+> **架构变更：** 知识库引擎迁移至 `common/rag/`，详见通用能力层文档  
 > **文档目的：** 反映模块真实状态，记录开发历程

 ---
@@ -70,10 +71,22 @@ UI组件: Ant Design v6 + Ant Design X
 Schema: pkb_schema (独立隔离)
 向量存储: pgvector (PostgreSQL原生向量扩展) ✅ 2026-01-19 已集成
 LLM: DeepSeek-V3, Qwen-Max (通过LLMFactory)
-RAG: Dify知识库集成 → 计划迁移到 pgvector 原生RAG
+RAG: 通用能力层知识库引擎 (common/rag/) 🔄 2026-01-20 架构升级中
 存储: OSS对象存储
 ```

+### 依赖的通用能力层
+
+| 通用能力 | 用途 | 状态 |
+|----------|------|------|
+| **知识库引擎** | 文档入库、向量检索、RAG 问答 | 🔄 开发中 |
+| **文档处理引擎** | PDF/Word/Excel → Markdown | ✅ 已就绪 |
+| **LLM 网关** | 大模型调用 | ✅ 已接入 |
+| **存储服务** | 文档存储到 OSS | ✅ 已接入 |
+
+> 📍 **架构说明**：知识库能力已提升为通用能力层，PKB 模块将调用 `common/rag/KnowledgeBaseEngine`，  
+> 详见 [通用能力层 - 知识库引擎](../../02-通用能力层/03-RAG引擎/README.md)
+
 ### API路由

 ```
--- a/docs/03-业务模块/PKB-个人知识库/00-系统设计/从搜索引擎到RAG：技术演进与借鉴指南.md
+++ b/docs/03-业务模块/PKB-个人知识库/00-系统设计/从搜索引擎到RAG：技术演进与借鉴指南.md
@@ -0,0 +1,92 @@
+# **从搜索引擎到 RAG：技术演进与借鉴指南**
+
+文档版本： v1.0  
+核心议题： RAG 的历史溯源与搜索引擎技术的跨时代应用  
+适用场景： 企业级知识库 (EKB) 检索策略优化
+
+## **一、 历史溯源：RAG 是新瓶装旧酒吗？**
+
+### **1.1 RAG 的前世今生**
+
+| 时代 | 技术形态 | 核心逻辑 | 代表产物 |
+| :---- | :---- | :---- | :---- |
+| **前 LLM 时代** (2000-2018) | **QA 系统 (Question Answering)** | 检索 \-\> 抽取 从文档中直接把答案那句话“抠”出来。 | IBM Watson, Google Featured Snippets |
+| **推荐系统时代** (2010-2020) | **向量召回 (Vector Retrieval)** | User Embedding \-\> Item Embedding 用向量找相似物品。 | 淘宝/抖音推荐算法, FAISS (Facebook) |
+| **LLM 时代** (2020-至今) | **RAG (Retrieval-Augmented Generation)** | 检索 \-\> 生成 检索相关片段，让 LLM 读懂并“写”出新答案。 | ChatGPT with Browsing, Perplexity |
+
+**结论：**
+
+* **向量技术**：早就有了（推荐系统、搜图）。  
+* **检索流程**：早就有了（搜索引擎、QA）。  
+* **LLM 带来的质变**：**“生成能力”**。以前的系统只能“搬运”答案，现在的系统能“理解并重写”答案。这让知识库从“图书馆管理员”变成了“研究员”。
+
+## **二、 RAG 本质论：搜索引擎的进化体**
+
+您可以把 RAG 理解为 **"搜索引擎 2.0"**。
+
+* **搜索引擎 1.0 (Google/Baidu)**：  
+  * **输入**：关键词。  
+  * **输出**：一堆链接（Documents）。  
+  * **用户行为**：用户自己点开链接，自己阅读，自己总结。  
+  * **瓶颈**：用户的阅读速度。  
+* **搜索引擎 2.0 (RAG/Perplexity)**：  
+  * **输入**：自然语言问题。  
+  * **中间层**：系统代替用户完成了“点开链接、阅读全文、提取关键点”的工作。  
+  * **输出**：一个直接的答案（Answer）。  
+  * **本质**：**RAG \= 检索 (Search) \+ 阅读理解 (Reading Comprehension)**。
+
+## **三、 借古鉴今：搜索引擎有哪些“神技”可以救 RAG？**
+
+目前的 RAG 系统（特别是纯向量检索）经常遇到“搜不准”的问题。其实，**传统搜索引擎早在 10 年前就解决了这些问题**。我们完全可以把这些老技术搬过来。
+
+### **策略 1：倒排索引与关键词匹配 (Inverted Index & BM25)**
+
+* **痛点**：向量检索不仅懂语义，也容易“懂过头”。搜“维生素A”，它可能给你召回“维生素C”（因为向量离得很近）。  
+* **搜索引擎解法**：**倒排索引**。强制要求文档里必须包含“A”这个字符。  
+* **EKB 落地**：这就是我们架构中的 **pg\_bigm / tsvector**。**混合检索**就是这一思想的产物。
+
+### **策略 2：查询扩展与改写 (Query Expansion / Rewriting)**
+
+* **痛点**：用户搜“PD-1”，文档里写的是“帕博利珠单抗”。字面不匹配，向量也可能不够近。  
+* **搜索引擎解法**：当用户搜 A 时，后台自动帮他搜 (A OR B OR C)。Google 内部有巨大的同义词库。  
+* **EKB 落地**：  
+  * **方法**：在 Node.js Router 层，调用 DeepSeek 把用户问题改写成 3 个变体。  
+  * *Prompt*: "用户问'PD-1效果'，请生成3个更专业的搜索词，如'免疫检查点抑制剂疗效'、'Keytruda 临床数据'。"
+
+### **3\. 策略 3：相关性反馈 (Relevance Feedback / Pseudo-Relevance Feedback)**
+
+* **痛点**：第一次搜出来的东西不准。  
+* **搜索引擎解法**：假设第一次搜出来的前 3 个文档是相关的，从这 3 个文档里提取新的关键词，再搜一次。  
+* **EKB 落地**：**HyDE (Hypothetical Document Embeddings)**。  
+  * 先让 LLM 生成一个“假设的完美答案”。  
+  * 用这个假设答案去搜真实文档。  
+  * *这本质上就是一种高级的“相关性反馈”。*
+
+### **4\. 策略 4：多路召回与精排 (Multi-stage Retrieval & Rerank)**
+
+* **痛点**：海量数据中，怎么保证 Top 1 是对的？  
+* **搜索引擎解法**：**漏斗架构**。  
+  * **L1 (粗排)**：用便宜的方法（倒排索引）快速捞出 1000 条。  
+  * **L2 (精排)**：用昂贵的方法（学习排序模型 LambdaMART）对这 1000 条精细打分，选出 Top 10。  
+* **EKB 落地**：这就是我们的 **R-C-R-G 范式**。  
+  * **L1**：Postgres (Vector \+ Keyword) 捞 Top 50。  
+  * **L2**：Qwen-Rerank (Cross-Encoder 模型) 精排 Top 10。
+
+### **5\. 策略 5：元数据过滤 (Faceted Search)**
+
+* **痛点**：搜“最新指南”，结果出来全是 2010 年的。  
+* **搜索引擎解法**：分面搜索（电商左侧的筛选栏：品牌、价格、年份）。  
+* **EKB 落地**：**SQL 结构化过滤**。  
+  * 我们提取 PICO、年份、期刊 IF 分，本质上就是为了支持 Faceted Search。  
+  * 先 WHERE year \> 2023，再做向量搜索。
+
+## **四、 总结：您的技术路线是“集大成者”**
+
+您的 **EKB 方案** 之所以被打高分，就是因为它没有掉进“唯向量论”的陷阱，而是**融合了搜索引擎的经典智慧**：
+
+1. **pgvector** \= 现代向量检索 (推荐系统技术)  
+2. **pg\_bigm** \= 传统倒排索引 (Google/Lucene 技术)  
+3. **Rerank** \= 搜索精排模型 (广告推荐技术)  
+4. **DeepSeek** \= 阅读理解器 (LLM 技术)
+
+**您正在用 2025 年的算力，复兴 2005 年的搜索智慧，这才是最扎实的路径。**
--- a/docs/03-业务模块/PKB-个人知识库/04-开发计划/01-Dify替换为pgvector开发计划.md
+++ b/docs/03-业务模块/PKB-个人知识库/04-开发计划/01-Dify替换为pgvector开发计划.md
@@ -1,672 +1,57 @@
-# PKB 模块：Dify 替换为 pgvector 开发计划
+# ⚠️ 文档已迁移

-> **文档版本：** v1.0  
-> **创建日期：** 2026-01-19  
-> **预计工期：** 2 周（10个工作日）  
-> **前置条件：** ✅ pgvector 0.8.1 已安装  
-> **目标：** 用 PostgreSQL + pgvector 原生 RAG 替代 Dify，实现 R-C-R-G 混合检索架构
+> **迁移日期：** 2026-01-20  
+> **迁移原因：** 知识库能力提升为通用能力层，不再局限于 PKB 模块

 ---

-## 📊 整体难度评估
+## 📍 新文档位置

-### 总体评估：⭐⭐⭐ 中等难度
+本文档已迁移至通用能力层：

-| 评估维度 | 难度 | 说明 |
-|----------|------|------|
-| **数据库设计** | ⭐⭐ 低 | Prisma schema 直接写，pgvector 已就绪 |
-| **Embedding 服务** | ⭐⭐ 低 | 调用阿里云 API，简单封装 |
-| **文档切片** | ⭐⭐ 低 | 成熟方案，RecursiveCharacterTextSplitter |
-| **全要素提取** | ⭐⭐⭐ 中 | 需要调优 Prompt，处理 JSON 异常 |
-| **向量检索** | ⭐⭐⭐ 中 | pgvector SQL 语法需要学习 |
-| **混合检索（RRF）** | ⭐⭐⭐ 中 | 核心算法，需要调优 |
-| **服务替换** | ⭐⭐⭐⭐ 中高 | 需要保持 API 兼容，测试覆盖 |
-| **数据迁移** | ⭐⭐⭐ 中 | 现有文档需重新向量化 |
-
-**综合评估**：技术上完全可行，主要挑战在于**服务替换的平滑过渡**和**检索效果调优**。
+**[02-通用能力层/03-RAG引擎/02-pgvector替换Dify计划.md](../../../02-通用能力层/03-RAG引擎/02-pgvector替换Dify计划.md)**

 ---

-## 🔥 核心挑战分析
+## 🔄 架构变更说明

-### 挑战 1：混合检索效果调优 🔴 高风险
+### 变更原因

-**问题描述**：
- 替换 Dify 后，检索效果可能下降
- 需要调优向量检索 + 关键词检索的权重
- RRF 参数（k 值）需要实验确定
+知识库（RAG 引擎）是**通用能力**，不应局限于单一业务模块：

-**应对策略**：
- 准备测试数据集（100+ 查询）
- 建立效果评估指标（Recall@K, MRR）
- 先用小批量数据验证，再全量迁移
+| 业务模块 | 使用场景 |
+|----------|----------|
+| **PKB** 个人知识库 | 知识库管理、RAG 问答 |
+| **AIA** AI智能问答 | @知识库 问答、附件理解 |
+| **ASL** AI智能文献 | 文献库检索、智能综述 |
+| **RVW** 稿件审查 | 稿件与文献对比、查重 |

-**预留时间**：2 天专门用于调优
-
---
-
-### 挑战 2：全要素提取的准确性 🟡 中风险
-
-**问题描述**：
- LLM 提取的 JSON 可能格式错误
- PICO、用药方案等字段提取不完整
- 不同类型文献（RCT/综述/病例）提取策略不同
-
-**应对策略**：
- 三层 JSON 解析容错（直接解析 → 提取代码块 → LLM修复）
- 字段级校验（必填字段、类型校验）
- 分文献类型设计 Prompt
-
-**预留时间**：1 天用于 Prompt 调优
-
---
-
-### 挑战 3：服务替换的兼容性 🟡 中风险
-
-**问题描述**：
- 需要保持 API 接口不变（前端零修改）
- `searchKnowledgeBase()` 返回格式需兼容
- 文档上传流程需要无缝切换
-
-**应对策略**：
- 定义适配层，转换返回格式
- 新旧服务并行运行，灰度切换
- 充分测试所有使用场景
-
-**预留时间**：1 天专门用于兼容性测试
-
---
-
-### 挑战 4：向量数据的批量处理 🟢 低风险
-
-**问题描述**：
- 批量 Embedding 调用需要控制并发
- 阿里云 API 有 QPS 限制
- 大文档切片后向量较多
-
-**应对策略**：
- 使用 p-queue 控制并发（固定 3 并发）
- 批量 Embedding（每次最多 25 条）
- 增量处理，支持断点续传
-
---
-
-## 📅 详细开发计划
-
-### 总览时间线
+### 新架构

 ```
-Week 1: 基础设施 + 核心服务开发
-├── Day 1: 数据库设计 + Prisma 迁移
-├── Day 2: Embedding 服务 + 切片服务
-├── Day 3: 全要素提取服务（Prompt 调优）
-├── Day 4: 向量检索服务（pgvector SQL）
-├── Day 5: 混合检索 + RRF 融合
-
-Week 2: 服务替换 + 测试 + 迁移
-├── Day 6: 修改 knowledgeBaseService（检索替换）
-├── Day 7: 修改 documentService（上传替换）
-├── Day 8: 集成测试 + 效果调优
-├── Day 9: 数据迁移（现有文档向量化）
-├── Day 10: 清理 + 文档 + 上线
+┌─────────────────────────────────────────────────────────────┐
+│                        业务模块层                            │
+│   ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐       │
+│   │   PKB   │  │   AIA   │  │   ASL   │  │   RVW   │       │
+│   └────┬────┘  └────┬────┘  └────┬────┘  └────┬────┘       │
+│        └────────────┴────────────┴────────────┘             │
+│                          │                                  │
+│                          ▼                                  │
+├─────────────────────────────────────────────────────────────┤
+│               知识库引擎（通用能力层）                         │
+│   代码位置：backend/src/common/rag/                          │
+│   文档位置：docs/02-通用能力层/03-RAG引擎/                    │
+└─────────────────────────────────────────────────────────────┘
 ```

 ---

-### Day 1：数据库设计 + Prisma 迁移
+## 📚 相关文档

-**目标**：创建向量存储的数据表
-
-**任务清单**：
- [ ] 设计 `EkbDocument` 表（增强文档，含临床数据 JSONB 字段）
- [ ] 设计 `EkbChunk` 表（向量切片，含 pgvector 字段）
- [ ] 编写 Prisma schema
- [ ] 运行 `prisma migrate dev`
- [ ] 创建 HNSW 索引（手动 SQL）
- [ ] 验证向量插入和查询
-
-**交付物**：
- `prisma/schema.prisma` 更新
- `migrations/xxx_add_ekb_tables.sql`
- 索引创建脚本
-
-**预计工时**：4-6 小时
-
-**关键代码**：
-
-```prisma
-// schema.prisma
-
-model EkbDocument {
-  id              String   @id @default(uuid())
-  kbId            String
-  userId          String
-  
-  // 基础信息
-  filename        String
-  fileType        String
-  fileSizeBytes   BigInt
-  fileUrl         String              // 原始 PDF 的 OSS 地址
-  extractedText   String?  @db.Text   // 解析后的 Markdown/文本
-  
-  // 临床数据（JSONB）
-  pico            Json?
-  studyDesign     Json?
-  regimen         Json?
-  safety          Json?
-  criteria        Json?
-  endpoints       Json?
-  
-  // 状态
-  status          String   @default("pending")
-  errorMessage    String?  @db.Text
-  
-  chunks          EkbChunk[]
-  knowledgeBase   KnowledgeBase @relation(fields: [kbId], references: [id], onDelete: Cascade)
-  
-  createdAt       DateTime @default(now())
-  updatedAt       DateTime @updatedAt
-  
-  @@index([kbId])
-  @@index([status])
-  @@schema("pkb_schema")
-}
-
-model EkbChunk {
-  id          String   @id @default(uuid())
-  documentId  String
-  
-  content     String   @db.Text
-  pageNumber  Int?
-  sectionType String?
-  
-  // pgvector 字段（需要手动创建）
-  embedding   Unsupported("vector(1024)")?
-  
-  document    EkbDocument @relation(fields: [documentId], references: [id], onDelete: Cascade)
-  
-  createdAt   DateTime @default(now())
-  
-  @@index([documentId])
-  @@schema("pkb_schema")
-}
-```
-
-**手动 SQL（创建索引）**：
-
-```sql
-- 创建 HNSW 索引
-CREATE INDEX IF NOT EXISTS ekb_chunk_embedding_idx 
-ON "pkb_schema"."EkbChunk" 
-USING hnsw (embedding vector_cosine_ops)
-WITH (m = 16, ef_construction = 64);
-
-- 创建全文检索索引
-CREATE INDEX IF NOT EXISTS ekb_chunk_content_idx 
-ON "pkb_schema"."EkbChunk" 
-USING gin (to_tsvector('simple', content));
-
-- 创建 JSONB GIN 索引（用于临床数据查询）
-CREATE INDEX IF NOT EXISTS ekb_document_pico_idx 
-ON "pkb_schema"."EkbDocument" 
-USING gin (pico);
-
-CREATE INDEX IF NOT EXISTS ekb_document_safety_idx 
-ON "pkb_schema"."EkbDocument" 
-USING gin (safety);
-```
+- [知识库引擎架构设计](../../../02-通用能力层/03-RAG引擎/01-知识库引擎架构设计.md)
+- [pgvector 替换 Dify 开发计划](../../../02-通用能力层/03-RAG引擎/02-pgvector替换Dify计划.md)
+- [通用能力层 - RAG 引擎 README](../../../02-通用能力层/03-RAG引擎/README.md)

 ---

-### Day 2：Embedding 服务 + 切片服务
-
-**目标**：实现文本向量化和文档切片
-
-**任务清单**：
- [ ] 创建 `EmbeddingService.ts`（阿里云 text-embedding-v3）
- [ ] 创建 `ChunkService.ts`（RecursiveCharacterTextSplitter）
- [ ] 单元测试：Embedding API 调用
- [ ] 单元测试：切片效果验证
- [ ] 环境变量配置（DASHSCOPE_API_KEY）
-
-**交付物**：
- `backend/src/common/rag/EmbeddingService.ts`
- `backend/src/common/rag/ChunkService.ts`
- 单元测试文件
-
-**预计工时**：4-6 小时
-
-**关键代码**：
-
-```typescript
-// EmbeddingService.ts
-export class EmbeddingService {
-  private apiKey: string;
-  private baseUrl = 'https://dashscope.aliyuncs.com/api/v1/services/embeddings/text-embedding/text-embedding';
-
-  async embed(text: string): Promise<number[]> { ... }
-  async embedBatch(texts: string[]): Promise<number[][]> { ... }
-  async embedQuery(query: string): Promise<number[]> { ... }
-}
-
-// ChunkService.ts
-export class ChunkService {
-  splitDocument(
-    text: string,
-    options: { chunkSize: number; chunkOverlap: number }
-  ): Chunk[] { ... }
-  
-  detectSections(text: string): Section[] { ... }
-}
-```
-
---
-
-### Day 3：全要素提取服务
-
-**目标**：实现 PICO、用药方案等临床数据的 AI 提取
-
-**任务清单**：
- [ ] 创建 `ClinicalExtractionService.ts`
- [ ] 设计提取 Prompt（参考 EKB 方案）
- [ ] 实现三层 JSON 解析容错
- [ ] 测试不同类型文献（RCT、综述、病例）
- [ ] Prompt 调优（提高提取准确率）
-
-**交付物**：
- `backend/src/modules/pkb/services/ClinicalExtractionService.ts`
- `backend/prompts/clinical_extraction.txt`
- 测试用例
-
-**预计工时**：6-8 小时（含 Prompt 调优）
-
-**关键 Prompt**：
-
-```
-你是一个医学数据专家。请阅读这篇文献，严格按照以下 JSON 格式提取关键信息。
-如果文中未提及，字段留空（null）。
-
-提取字段：
-1. pico: { "P": "患者人群", "I": "干预措施", "C": "对照", "O": "结局指标" }
-2. studyDesign: { "design": "研究类型", "sampleSize": 数字, "blinding": "盲法" }
-3. regimen: [{ "drug": "药物名", "dose": "剂量", "frequency": "频率" }]
-4. safety: { "ae_all": ["不良反应列表"], "ae_grade34": ["严重不良反应"] }
-5. criteria: { "inclusion": ["纳入标准"], "exclusion": ["排除标准"] }
-6. endpoints: { "primary": ["主要终点"], "secondary": ["次要终点"] }
-
-输出必须是纯 JSON，不要有任何前言或后缀。
-
---
-文献内容：
-{{fullText}}
-```
-
---
-
-### Day 4：向量检索服务（pgvector SQL）
-
-**目标**：实现基于 pgvector 的向量检索
-
-**任务清单**：
- [ ] 创建 `VectorSearchService.ts`
- [ ] 实现向量检索（余弦相似度）
- [ ] 实现关键词检索（PostgreSQL FTS）
- [ ] 测试检索性能（1000+ 向量）
- [ ] 优化查询（索引使用验证）
-
-**交付物**：
- `backend/src/common/rag/VectorSearchService.ts`
- 性能测试报告
-
-**预计工时**：6 小时
-
-**关键 SQL**：
-
-```sql
-- 向量检索
-SELECT 
-  c.id,
-  c.content,
-  d.filename,
-  1 - (c.embedding <=> $1::vector) as score
-FROM "pkb_schema"."EkbChunk" c
-JOIN "pkb_schema"."EkbDocument" d ON c."documentId" = d.id
-WHERE d."kbId" = $2
-ORDER BY c.embedding <=> $1::vector
-LIMIT $3;
-
-- 关键词检索
-SELECT 
-  c.id,
-  c.content,
-  d.filename,
-  ts_rank_cd(to_tsvector('simple', c.content), plainto_tsquery('simple', $1)) as score
-FROM "pkb_schema"."EkbChunk" c
-JOIN "pkb_schema"."EkbDocument" d ON c."documentId" = d.id
-WHERE d."kbId" = $2
-  AND to_tsvector('simple', c.content) @@ plainto_tsquery('simple', $1)
-ORDER BY score DESC
-LIMIT $3;
-```
-
---
-
-### Day 5：混合检索 + RRF 融合
-
-**目标**：实现 R-C-R-G 架构中的混合检索
-
-**任务清单**：
- [ ] 实现 RRF（Reciprocal Rank Fusion）算法
- [ ] 实现并发三路检索（向量 + 关键词 + SQL 筛选）
- [ ] 集成 Rerank API（可选，qwen-rerank）
- [ ] 效果评估（对比 Dify 检索）
- [ ] 参数调优（k 值、权重）
-
-**交付物**：
- RRF 融合模块
- 效果评估报告
-
-**预计工时**：6-8 小时
-
-**RRF 算法**：
-
-```typescript
-function rrfFusion(
-  vectorResults: Result[],
-  keywordResults: Result[],
-  k: number = 60  // RRF 常数，通常取 60
-): Result[] {
-  const scoreMap = new Map<string, number>();
-
-  // 计算 RRF 分数
-  vectorResults.forEach((r, idx) => {
-    const rrfScore = 1 / (k + idx + 1);
-    scoreMap.set(r.id, (scoreMap.get(r.id) || 0) + rrfScore);
-  });
-
-  keywordResults.forEach((r, idx) => {
-    const rrfScore = 1 / (k + idx + 1);
-    scoreMap.set(r.id, (scoreMap.get(r.id) || 0) + rrfScore);
-  });
-
-  // 排序返回
-  return Array.from(scoreMap.entries())
-    .sort((a, b) => b[1] - a[1])
-    .map(([id, score]) => ({ id, score }));
-}
-```
-
---
-
-### Day 6：修改 knowledgeBaseService（检索替换）
-
-**目标**：替换 Dify 检索为 pgvector 检索
-
-**任务清单**：
- [ ] 修改 `searchKnowledgeBase()` 函数
- [ ] 移除 `difyClient.retrieveKnowledge()` 调用
- [ ] 使用 `vectorSearchService.hybridSearch()`
- [ ] 保持返回格式兼容（前端零修改）
- [ ] 单元测试
-
-**交付物**：
- 更新后的 `knowledgeBaseService.ts`
-
-**预计工时**：4 小时
-
-**关键修改**：
-
-```typescript
-// 修改前
-const results = await difyClient.retrieveKnowledge(
-  knowledgeBase.difyDatasetId,
-  query,
-  { retrieval_model: { search_method: 'semantic_search', top_k: topK } }
-);
-
-// 修改后
-const searchResults = await vectorSearchService.hybridSearch(kbId, query, topK);
-
-// 格式转换（保持兼容）
-return {
-  query: { content: query },
-  records: searchResults.map((r, idx) => ({
-    segment_id: r.id,
-    document_id: r.documentId,
-    document_name: r.documentName,
-    position: idx + 1,
-    score: r.score,
-    content: r.content,
-  })),
-};
-```
-
---
-
-### Day 7：修改 documentService（上传替换）
-
-**目标**：替换 Dify 上传流程为本地向量化流程
-
-**任务清单**：
- [ ] 修改 `uploadDocument()` 函数
- [ ] 移除 `difyClient.uploadDocumentDirectly()` 调用
- [ ] 实现本地处理流程（提取 → 切片 → 向量化）
- [ ] 移除 Dify 状态轮询逻辑
- [ ] 实现自己的异步处理和状态更新
- [ ] 单元测试
-
-**交付物**：
- 更新后的 `documentService.ts`
-
-**预计工时**：6 小时
-
---
-
-### Day 8：集成测试 + 效果调优
-
-**目标**：端到端测试，确保功能正常
-
-**任务清单**：
- [ ] 前端测试：创建知识库
- [ ] 前端测试：上传文档
- [ ] 前端测试：RAG 检索问答
- [ ] 效果对比：Dify vs pgvector 检索质量
- [ ] 性能测试：检索延迟
- [ ] Bug 修复
-
-**交付物**：
- 测试报告
- Bug 修复记录
-
-**预计工时**：8 小时
-
---
-
-### Day 9：数据迁移（现有文档向量化）
-
-**目标**：将现有知识库文档迁移到新表并向量化
-
-**任务清单**：
- [ ] 编写迁移脚本（Document → EkbDocument）
- [ ] 批量向量化现有文档
- [ ] 验证迁移完整性
- [ ] 验证检索效果
-
-**交付物**：
- `scripts/migrate-to-ekb.ts`
- 迁移日志
-
-**预计工时**：6 小时
-
-**迁移脚本**：
-
-```typescript
-// scripts/migrate-to-ekb.ts
-async function migrateDocuments() {
-  // 1. 获取所有现有文档
-  const documents = await prisma.document.findMany({
-    where: { status: 'completed', extractedText: { not: null } },
-  });
-
-  console.log(`Found ${documents.length} documents to migrate`);
-
-  // 2. 逐个迁移
-  for (const doc of documents) {
-    try {
-      // 创建 EkbDocument
-      const ekbDoc = await prisma.ekbDocument.create({
-        data: {
-          kbId: doc.kbId,
-          userId: doc.userId,
-          filename: doc.filename,
-          fileType: doc.fileType,
-          fileSizeBytes: doc.fileSizeBytes,
-          extractedText: doc.extractedText,
-          status: 'embedding',
-        },
-      });
-
-      // 切片
-      const chunks = chunkService.splitDocument(doc.extractedText!);
-
-      // 向量化
-      const embeddings = await embeddingService.embedBatch(
-        chunks.map(c => c.content)
-      );
-
-      // 存入数据库
-      // ...
-
-      console.log(`✅ Migrated: ${doc.filename}`);
-    } catch (error) {
-      console.error(`❌ Failed: ${doc.filename}`, error);
-    }
-  }
-}
-```
-
---
-
-### Day 10：清理 + 文档 + 上线
-
-**目标**：清理遗留代码，更新文档，正式上线
-
-**任务清单**：
- [ ] 删除 `DifyClient.ts`
- [ ] 删除 `difyDatasetId` 字段（可选，下个版本）
- [ ] 删除 `difyDocumentId` 字段（可选，下个版本）
- [ ] 更新 `00-模块当前状态与开发指南.md`
- [ ] 更新环境变量文档
- [ ] 代码 Review
- [ ] 合并到主分支
-
-**交付物**：
- 更新后的文档
- 清理后的代码
-
-**预计工时**：4 小时
-
---
-
-## ⚠️ 风险评估与应对
-
-### 风险矩阵
-
-| 风险 | 概率 | 影响 | 等级 | 应对措施 |
-|------|------|------|------|----------|
-| 检索效果下降 | 中 | 高 | 🔴 | 效果评估 + 参数调优 + 回滚方案 |
-| API 兼容性问题 | 低 | 高 | 🟡 | 格式转换层 + 充分测试 |
-| Embedding API 限流 | 中 | 中 | 🟡 | 并发控制 + 重试机制 |
-| 迁移数据丢失 | 低 | 高 | 🟡 | 备份 + 验证 + 回滚 |
-| 性能下降 | 低 | 中 | 🟢 | 索引优化 + 缓存 |
-
-### 回滚方案
-
-如果新方案效果不理想，可以：
-1. 保留 `difyDatasetId` 字段，随时切回 Dify
-2. 新旧服务通过 Feature Flag 切换
-3. 灰度发布：先 10% 用户使用 pgvector
-
---
-
-## 📊 资源需求
-
-### 人力资源
-
-| 角色 | 工作量 | 说明 |
-|------|--------|------|
-| 后端开发 | 10 人天 | 核心开发 |
-| 测试 | 2 人天 | 集成测试 + 效果评估 |
-| **总计** | **12 人天** | 约 2 周 |
-
-### 技术资源
-
-| 资源 | 用途 | 成本 |
-|------|------|------|
-| 阿里云 DashScope | Embedding API | ~¥50/月 |
-| 阿里云 DashScope | Rerank API（可选） | ~¥20/月 |
-| PostgreSQL | 已有 | ¥0 |
-
---
-
-## ✅ 验收标准
-
-### 功能验收
-
- [ ] 创建知识库：不依赖 Dify，直接创建
- [ ] 上传文档：本地处理 + 向量化
- [ ] RAG 检索：混合检索效果 ≥ Dify
- [ ] 全文阅读模式：正常工作
- [ ] 批处理模式：正常工作
-
-### 性能验收
-
- [ ] 检索延迟：< 500ms（95 分位）
- [ ] 上传处理：< 60s/文档（平均）
- [ ] 向量化吞吐：> 100 文档/小时
-
-### 质量验收
-
- [ ] 检索召回率：≥ 80%（测试集）
- [ ] 无 Dify 相关代码残留
- [ ] 文档更新完整
-
---
-
-## 📝 附录
-
-### A. 相关文档
-
- [企业级医学知识库综合技术解决方案 V2](../00-系统设计/企业级医学知识库_综合技术解决方案%20V2.md)
- [PostgreSQL与pgvector深度应用分析](../00-系统设计/医疗科研AI系统架构评估报告：PostgreSQL与pgvector在RAG及知识库中的深度应用分析.md)
- [PKB模块当前状态](../00-模块当前状态与开发指南.md)
-
-### B. 环境变量配置
-
-```bash
-# .env 新增
-DASHSCOPE_API_KEY=sk-xxx              # 阿里云 DashScope API Key
-EMBEDDING_MODEL=text-embedding-v3     # Embedding 模型
-EMBEDDING_DIMENSION=1024              # 向量维度
-RERANK_MODEL=gte-rerank              # Rerank 模型（可选）
-```
-
-### C. 依赖更新
-
-```json
-// package.json
-{
-  "dependencies": {
-    // 新增
-    "langchain": "^0.1.0",           // 可选，用于切片
-    "p-queue": "^8.0.0"              // 并发控制
-  }
-}
-```
-
---
-
-**文档维护**：PKB 模块开发团队  
-**最后更新**：2026-01-19  
-**下次更新**：开发完成后更新进度
-
+**请访问新文档位置获取最新内容。**
--- a/docs/03-业务模块/PKB-个人知识库/06-开发记录/2026-01-07-前端迁移与批处理功能完善.md
+++ b/docs/03-业务模块/PKB-个人知识库/06-开发记录/2026-01-07-前端迁移与批处理功能完善.md
@@ -369,3 +369,6 @@ const newResults = resultsData.map((docResult: any) => ({



+
+
+
--- a/docs/03-业务模块/PKB-个人知识库/06-开发记录/2026-01-07_PKB模块前端V3设计实现.md
+++ b/docs/03-业务模块/PKB-个人知识库/06-开发记录/2026-01-07_PKB模块前端V3设计实现.md
@@ -242,3 +242,6 @@ const chatApi = axios.create({



+
+
+
				`@@ -369,3 +369,6 @@ const newResults = resultsData.map((docResult: any) => ({`