docs(asl): Complete Tool 3 extraction workbench V2.0 development plan (v1.5)

ASL Tool 3 Development Plan:
- Architecture blueprint v1.5 (6 rounds of architecture review, 13 red lines)
- M1/M2/M3 sprint checklists (Skeleton Pipeline / HITL Workbench / Dynamic Template Engine)
- Code patterns cookbook (9 chapters: Fan-out, Prompt engineering, ACL, SSE dual-track, etc.)
- Key patterns: Fan-out with Last Child Wins, Optimistic Locking, teamConcurrency throttling
- PKB ACL integration (anti-corruption layer), MinerU Cache-Aside, NOTIFY/LISTEN cross-pod SSE
- Data consistency snapshot for long-running extraction tasks

Platform capability:
- Add distributed Fan-out task pattern development guide (7 patterns + 10 anti-patterns)
- Add system-level async architecture risk analysis blueprint
- Add PDF table extraction engine design and usage guide (MinerU integration)
- Add table extraction source code (TableExtractionManager + MinerU engine)

Documentation updates:
- Update ASL module status with Tool 3 V2.0 plan readiness
- Update system status document (v6.2) with latest milestones
- Add V2.0 product requirements, prototypes, and data dictionary specs
- Add architecture review documents (4 rounds of review feedback)
- Add test PDF files for extraction validation

Co-authored-by: Cursor <cursoragent@cursor.com>
This commit is contained in:
2026-02-23 22:49:16 +08:00
parent 8f06d4f929
commit dc6b292308
42 changed files with 16615 additions and 41 deletions

View File

@@ -1,10 +1,11 @@
# AI智能文献模块 - 当前状态与开发指南
> **文档版本:** v2.0
> **文档版本:** v2.1
> **创建日期:** 2025-11-21
> **维护者:** AI智能文献开发团队
> **最后更新:** 2026-02-23 🆕 **Deep Research V2.0 核心功能开发完成SSE 实时流 + 瀑布流 UI + 中文数据源 + Word 导出**
> **最后更新:** 2026-02-23 🆕 **工具 3 全文智能提取工作台 V2.0 开发计划完成v1.56 轮架构审查)**
> **重大进展:**
> - 🆕 2026-02-23工具 3 V2.0 开发计划 v1.5 完成Fan-out 架构 + HITL + 动态模板 + 13 条研发红线 + 5 份文档体系
> - 🆕 2026-02-23V2.0 核心功能完成SSE 流式架构 + 段落化思考日志 + 引用链接可见化
> - 🆕 2026-02-22V2.0 前后端联调完成!瀑布流 UI + Markdown 渲染 + Word 导出 + 中文数据源测试
> - 🆕 2026-02-22V2.0 开发计划确认 + Unifuncs API 网站覆盖测试完成
@@ -31,13 +32,15 @@
AI智能文献模块是一个基于大语言模型LLM的文献筛选系统用于帮助研究人员根据PICOS标准自动筛选文献。
### 当前状态
- **开发阶段**:🎉 V2.0 Deep Research 核心功能开发完成
- **开发阶段**:🎉 V2.0 Deep Research 核心功能完成 + 🆕 工具 3 开发计划就绪
- **已完成功能**
- ✅ 标题摘要初筛Title & Abstract Screening- 完整流程
- ✅ 全文复筛后端Day 2-5- LLM服务 + API + Excel导出
-**智能文献检索DeepSearchV1.x MVP** - unifuncs API 集成
-**Unifuncs API 网站覆盖测试** - 18 站点实测9 个一级可用
-**🎉 Deep Research V2.0 核心功能** — SSE 流式架构 + 瀑布流 UI + HITL + Word 导出
- **开发计划就绪(待编码)**
- 📋 **🆕 工具 3 全文智能提取工作台 V2.0** — 开发计划 v1.5 完成6 轮架构审查13 条研发红线M1/M2/M3 三阶段,预计 22 天)
- **V2.0 已完成**
-**SSE 流式架构**:从 create_task/query_task 轮询改为 OpenAI Compatible SSE 流,实时推送 AI 思考过程
-**LLM 需求扩写**DeepSeek-V3 将粗略输入扩写为结构化检索指令书PICOS + MeSH
@@ -124,6 +127,49 @@ frontend-v2/src/modules/asl/
**通用能力指南**`docs/02-通用能力层/04-DeepResearch引擎/01-Unifuncs DeepSearch API 使用指南.md`
### 🆕 工具 3 全文智能提取工作台 V2.02026-02-23 开发计划完成,待编码)
**功能定位:** 批量读取 PDF 全文 → 动态模板驱动 AI 结构化提取 → 人工 HITL 审核 → Excel 导出。是 ASL 证据整合 V2.0 三大工具中最复杂的一个。
**开发计划状态:** ✅ v1.5 定稿(经 6 轮架构审查 + 多轮漏洞修复)
**核心架构决策:**
| 决策 | 方案 |
|------|------|
| 异步任务 | pg-boss Fan-outManager → N × Child非单体 Worker |
| 并发控制 | `teamConcurrency` 三级限流Child:10, MinerU:2, LLM:5 |
| 幂等性 | Prisma `updateMany` 乐观锁(非 Read-then-Write |
| 任务终止 | Last Child Wins最后一个 Child 翻转父任务状态) |
| PDF 文件来源 | 对接 PKB 个人知识库ACL 防腐层,非自建上传) |
| 表格提取 | MinerU Cloud APIVLM 模型) + OSS Clean Data 缓存 |
| 全文提取 | 直接复用 PKB `extractedText`pymupdf4llm 产物) |
| SSE 跨 Pod | PostgreSQL NOTIFY/LISTEN不引入 Redis |
| Prompt 安全 | BEGIN/END 隔离 + XML 标签上下文污染防护 |
| 数据一致性 | Manager 快照 PKB 元数据到 `AslExtractionResult` |
**文档体系5 份):**
| 文档 | 说明 |
|------|------|
| `08-工具3-全文智能提取工作台V2.0开发计划.md` | 架构总纲v1.5~1314 行) |
| `08a-工具3-M1-骨架管线冲刺清单.md` | M1 SprintWeek 15-6 天) |
| `08b-工具3-M2-HITL工作台冲刺清单.md` | M2 SprintWeek 2-38-9 天) |
| `08c-工具3-M3-动态模板引擎冲刺清单.md` | M3 SprintWeek 45-6 天) |
| `08d-工具3-代码模式与技术规范.md` | 代码 Cookbook9 章,~819 行) |
**里程碑规划:**
| 里程碑 | 核心交付 | 时间 |
|--------|---------|------|
| M1 骨架管线 | Fan-out 全链路 + PKB ACL + 纯文本盲提 + 极简前端 | Week 1 |
| M2 HITL 工作台 | MinerU + 审核抽屉 + SSE 日志 + NOTIFY/LISTEN + Excel | Week 2-3 |
| M3 动态模板引擎 | 自定义字段 + Prompt 注入防护 + E2E 测试 | Week 4 |
**13 条研发红线**:详见架构总纲文档尾注。
**通用能力沉淀**`docs/02-通用能力层/分布式Fan-out任务模式开发指南.md`
### 智能文献检索 DeepSearch V1.x2026-01-18 MVP完成
**功能概述:**