feat(pkb): Integrate pgvector and create Dify replacement plan

Summary:
- Migrate PostgreSQL to pgvector/pgvector:pg15 Docker image
- Successfully install and verify pgvector 0.8.1 extension
- Create comprehensive Dify-to-pgvector migration plan
- Update PKB module documentation with pgvector status
- Update system documentation with pgvector integration

Key changes:
- docker-compose.yml: Switch to pgvector/pgvector:pg15 image
- Add EkbDocument and EkbChunk data model design
- Design R-C-R-G hybrid retrieval architecture
- Add clinical data JSONB fields (pico, studyDesign, regimen, safety, criteria, endpoints)
- Create detailed 10-day implementation roadmap

Documentation updates:
- PKB module status: pgvector RAG infrastructure ready
- System status: pgvector 0.8.1 integrated
- New: Dify replacement development plan (01-Dify替换为pgvector开发计划.md)
- New: Enterprise medical knowledge base solution V2

Tested: PostgreSQL with pgvector verified, frontend and backend functionality confirmed
This commit is contained in:
2026-01-20 00:00:58 +08:00
parent 1ece9a4ae8
commit dfc0fe0b9a
289 changed files with 1897 additions and 41 deletions

View File

@@ -1,10 +1,11 @@
# PKB个人知识库模块 - 当前状态与开发指南
> **文档版本:** v2.0
> **文档版本:** v2.1
> **创建日期:** 2026-01-07
> **维护者:** PKB模块开发团队
> **最后更新:** 2026-01-07
> **重大进展:** 🎉 **PKB模块核心功能全部实现具备生产可用性**
> **最后更新:** 2026-01-19
> **重大进展:** 🎉 **PKB模块核心功能全部实现pgvector向量数据库已集成**
> **基础设施:** ✅ pgvector 0.8.1 已安装RAG检索模式基础设施就绪
> **文档目的:** 反映模块真实状态,记录开发历程
---
@@ -65,10 +66,11 @@ UI组件: Ant Design v6 + Ant Design X
```
框架: Fastify v4 (Node.js 22)
数据库: PostgreSQL 15 + Prisma 6
数据库: PostgreSQL 15 + Prisma 6 + pgvector 0.8.1
Schema: pkb_schema (独立隔离)
向量存储: pgvector (PostgreSQL原生向量扩展) ✅ 2026-01-19 已集成
LLM: DeepSeek-V3, Qwen-Max (通过LLMFactory)
RAG: Dify知识库集成
RAG: Dify知识库集成 → 计划迁移到 pgvector 原生RAG
存储: OSS对象存储
```
@@ -210,30 +212,41 @@ frontend-v2/src/modules/pkb/
**当前状态**:🔧 API执行待调试
### 4. RAG检索模式待开发
### 4. RAG检索模式基础设施就绪
**功能说明**
- 基于向量检索
- 精准定位相关段落
- 适合快速查找
**当前状态**❌ 后端待实现
**当前状态**🟡 基础设施已就绪pgvector 0.8.1 已安装),后端业务逻辑待实现
**技术基础**2026-01-19 完成):
- ✅ pgvector 扩展已安装(版本 0.8.1
- ✅ 支持 HNSW 和 IVFFlat 索引
- ✅ 与阿里云 RDS pgvector 0.8.0 兼容
- ⏳ 向量表设计待实现
- ⏳ Embedding 服务集成待实现
- ⏳ 相似度检索 API 待实现
---
## ⚠️ 已知问题
### 1. RAG检索模式未实现 🟡 中优先级
### 1. RAG检索模式业务逻辑未实现 🟡 中优先级
**问题描述**
- RAG检索模式暂未实现
- pgvector 基础设施已就绪2026-01-19
- RAG检索业务逻辑待实现
- 当前优先全文阅读和逐篇精读模式
**影响**:工作模式选择有限
**解决方案**
- v2.1版本实现RAG检索
- 集成Dify知识库检索能力
- v2.1版本实现RAG检索基于pgvector不再依赖Dify
- 设计向量表结构pkb_schema.document_embeddings
- 集成 Embedding 服务OpenAI/智谱)
- 实现相似度检索 API
### 2. 批处理模板有限 🟢 低优先级
@@ -265,8 +278,11 @@ frontend-v2/src/modules/pkb/
### v2.1 版本(短期)
1. **RAG检索模式** 🟡
- 实现基于Dify的知识库检索
1. **RAG检索模式** 🟡 (基础设施已就绪 ✅)
- ✅ pgvector 0.8.1 已安装
- 设计向量表结构pkb_schema.document_embeddings
- 集成 Embedding 服务(文本向量化)
- 实现相似度检索 API
- 添加工作模式选择器
- 测试检索准确度
@@ -394,7 +410,32 @@ frontend-v2/src/modules/pkb/
---
**最后更新:** 2026-01-07
---
## 📝 更新日志
### 2026-01-19 pgvector 向量数据库集成
**重大变更**
- ✅ **pgvector 0.8.1 安装成功**Docker 环境已迁移到 `pgvector/pgvector:pg15` 镜像
- ✅ **兼容性验证**:与阿里云 RDS pgvector 0.8.0 完全兼容
- ✅ **功能验证**:前后端服务重启后功能正常
- ✅ **数据完整性**用户数据、知识库数据、pg-boss 队列函数全部正常
**技术细节**
- 镜像:`pgvector/pgvector:pg15`
- 扩展版本0.8.1
- 支持索引类型HNSW、IVFFlat
- 向量维度:最高支持 16000 维
**下一步**
- 设计 `pkb_schema.document_embeddings` 表
- 集成 Embedding 服务
- 实现 RAG 检索 API
---
**最后更新:** 2026-01-19
**文档维护:** PKB模块开发团队
**联系方式:** 项目Issues