docs(asl): Complete Tool 3 extraction workbench V2.0 development plan (v1.5)
ASL Tool 3 Development Plan: - Architecture blueprint v1.5 (6 rounds of architecture review, 13 red lines) - M1/M2/M3 sprint checklists (Skeleton Pipeline / HITL Workbench / Dynamic Template Engine) - Code patterns cookbook (9 chapters: Fan-out, Prompt engineering, ACL, SSE dual-track, etc.) - Key patterns: Fan-out with Last Child Wins, Optimistic Locking, teamConcurrency throttling - PKB ACL integration (anti-corruption layer), MinerU Cache-Aside, NOTIFY/LISTEN cross-pod SSE - Data consistency snapshot for long-running extraction tasks Platform capability: - Add distributed Fan-out task pattern development guide (7 patterns + 10 anti-patterns) - Add system-level async architecture risk analysis blueprint - Add PDF table extraction engine design and usage guide (MinerU integration) - Add table extraction source code (TableExtractionManager + MinerU engine) Documentation updates: - Update ASL module status with Tool 3 V2.0 plan readiness - Update system status document (v6.2) with latest milestones - Add V2.0 product requirements, prototypes, and data dictionary specs - Add architecture review documents (4 rounds of review feedback) - Add test PDF files for extraction validation Co-authored-by: Cursor <cursoragent@cursor.com>
This commit is contained in:
@@ -1,10 +1,11 @@
|
||||
# AI智能文献模块 - 当前状态与开发指南
|
||||
|
||||
> **文档版本:** v2.0
|
||||
> **文档版本:** v2.1
|
||||
> **创建日期:** 2025-11-21
|
||||
> **维护者:** AI智能文献开发团队
|
||||
> **最后更新:** 2026-02-23 🆕 **Deep Research V2.0 核心功能开发完成!SSE 实时流 + 瀑布流 UI + 中文数据源 + Word 导出**
|
||||
> **最后更新:** 2026-02-23 🆕 **工具 3 全文智能提取工作台 V2.0 开发计划完成(v1.5,6 轮架构审查)**
|
||||
> **重大进展:**
|
||||
> - 🆕 2026-02-23:工具 3 V2.0 开发计划 v1.5 完成!Fan-out 架构 + HITL + 动态模板 + 13 条研发红线 + 5 份文档体系
|
||||
> - 🆕 2026-02-23:V2.0 核心功能完成!SSE 流式架构 + 段落化思考日志 + 引用链接可见化
|
||||
> - 🆕 2026-02-22:V2.0 前后端联调完成!瀑布流 UI + Markdown 渲染 + Word 导出 + 中文数据源测试
|
||||
> - 🆕 2026-02-22:V2.0 开发计划确认 + Unifuncs API 网站覆盖测试完成
|
||||
@@ -31,13 +32,15 @@
|
||||
AI智能文献模块是一个基于大语言模型(LLM)的文献筛选系统,用于帮助研究人员根据PICOS标准自动筛选文献。
|
||||
|
||||
### 当前状态
|
||||
- **开发阶段**:🎉 V2.0 Deep Research 核心功能开发完成
|
||||
- **开发阶段**:🎉 V2.0 Deep Research 核心功能完成 + 🆕 工具 3 开发计划就绪
|
||||
- **已完成功能**:
|
||||
- ✅ 标题摘要初筛(Title & Abstract Screening)- 完整流程
|
||||
- ✅ 全文复筛后端(Day 2-5)- LLM服务 + API + Excel导出
|
||||
- ✅ **智能文献检索(DeepSearch)V1.x MVP** - unifuncs API 集成
|
||||
- ✅ **Unifuncs API 网站覆盖测试** - 18 站点实测,9 个一级可用
|
||||
- ✅ **🎉 Deep Research V2.0 核心功能** — SSE 流式架构 + 瀑布流 UI + HITL + Word 导出
|
||||
- **开发计划就绪(待编码)**:
|
||||
- 📋 **🆕 工具 3 全文智能提取工作台 V2.0** — 开发计划 v1.5 完成(6 轮架构审查,13 条研发红线,M1/M2/M3 三阶段,预计 22 天)
|
||||
- **V2.0 已完成**:
|
||||
- ✅ **SSE 流式架构**:从 create_task/query_task 轮询改为 OpenAI Compatible SSE 流,实时推送 AI 思考过程
|
||||
- ✅ **LLM 需求扩写**:DeepSeek-V3 将粗略输入扩写为结构化检索指令书(PICOS + MeSH)
|
||||
@@ -124,6 +127,49 @@ frontend-v2/src/modules/asl/
|
||||
|
||||
**通用能力指南**:`docs/02-通用能力层/04-DeepResearch引擎/01-Unifuncs DeepSearch API 使用指南.md`
|
||||
|
||||
### 🆕 工具 3 全文智能提取工作台 V2.0(2026-02-23 开发计划完成,待编码)
|
||||
|
||||
**功能定位:** 批量读取 PDF 全文 → 动态模板驱动 AI 结构化提取 → 人工 HITL 审核 → Excel 导出。是 ASL 证据整合 V2.0 三大工具中最复杂的一个。
|
||||
|
||||
**开发计划状态:** ✅ v1.5 定稿(经 6 轮架构审查 + 多轮漏洞修复)
|
||||
|
||||
**核心架构决策:**
|
||||
|
||||
| 决策 | 方案 |
|
||||
|------|------|
|
||||
| 异步任务 | pg-boss Fan-out(Manager → N × Child),非单体 Worker |
|
||||
| 并发控制 | `teamConcurrency` 三级限流(Child:10, MinerU:2, LLM:5) |
|
||||
| 幂等性 | Prisma `updateMany` 乐观锁(非 Read-then-Write) |
|
||||
| 任务终止 | Last Child Wins(最后一个 Child 翻转父任务状态) |
|
||||
| PDF 文件来源 | 对接 PKB 个人知识库(ACL 防腐层,非自建上传) |
|
||||
| 表格提取 | MinerU Cloud API(VLM 模型) + OSS Clean Data 缓存 |
|
||||
| 全文提取 | 直接复用 PKB `extractedText`(pymupdf4llm 产物) |
|
||||
| SSE 跨 Pod | PostgreSQL NOTIFY/LISTEN(不引入 Redis) |
|
||||
| Prompt 安全 | BEGIN/END 隔离 + XML 标签上下文污染防护 |
|
||||
| 数据一致性 | Manager 快照 PKB 元数据到 `AslExtractionResult` |
|
||||
|
||||
**文档体系(5 份):**
|
||||
|
||||
| 文档 | 说明 |
|
||||
|------|------|
|
||||
| `08-工具3-全文智能提取工作台V2.0开发计划.md` | 架构总纲(v1.5,~1314 行) |
|
||||
| `08a-工具3-M1-骨架管线冲刺清单.md` | M1 Sprint(Week 1,5-6 天) |
|
||||
| `08b-工具3-M2-HITL工作台冲刺清单.md` | M2 Sprint(Week 2-3,8-9 天) |
|
||||
| `08c-工具3-M3-动态模板引擎冲刺清单.md` | M3 Sprint(Week 4,5-6 天) |
|
||||
| `08d-工具3-代码模式与技术规范.md` | 代码 Cookbook(9 章,~819 行) |
|
||||
|
||||
**里程碑规划:**
|
||||
|
||||
| 里程碑 | 核心交付 | 时间 |
|
||||
|--------|---------|------|
|
||||
| M1 骨架管线 | Fan-out 全链路 + PKB ACL + 纯文本盲提 + 极简前端 | Week 1 |
|
||||
| M2 HITL 工作台 | MinerU + 审核抽屉 + SSE 日志 + NOTIFY/LISTEN + Excel | Week 2-3 |
|
||||
| M3 动态模板引擎 | 自定义字段 + Prompt 注入防护 + E2E 测试 | Week 4 |
|
||||
|
||||
**13 条研发红线**:详见架构总纲文档尾注。
|
||||
|
||||
**通用能力沉淀**:`docs/02-通用能力层/分布式Fan-out任务模式开发指南.md`
|
||||
|
||||
### 智能文献检索 DeepSearch V1.x(2026-01-18 MVP完成)
|
||||
|
||||
**功能概述:**
|
||||
|
||||
Reference in New Issue
Block a user