feat(dc/tool-c): Add missing value imputation feature with 6 methods and MICE
Major features: 1. Missing value imputation (6 simple methods + MICE): - Mean/Median/Mode/Constant imputation - Forward fill (ffill) and Backward fill (bfill) for time series - MICE multivariate imputation (in progress, shape issue to fix) 2. Auto precision detection: - Automatically match decimal places of original data - Prevent false precision (e.g. 13.57 instead of 13.566716417910449) 3. Categorical variable detection: - Auto-detect and skip categorical columns in MICE - Show warnings for unsuitable columns - Suggest mode imputation for categorical data 4. UI improvements: - Rename button: "Delete Missing" to "Missing Value Handling" - Remove standalone "Dedup" and "MICE" buttons - 3-tab dialog: Delete / Fill / Advanced Fill - Display column statistics and recommended methods - Extended warning messages (8 seconds for skipped columns) 5. Bug fixes: - Fix sessionService.updateSessionData -> saveProcessedData - Fix OperationResult interface (add message and stats) - Fix Toolbar button labels and removal Modified files: Python: operations/fillna.py (new, 556 lines), main.py (3 new endpoints) Backend: QuickActionService.ts, QuickActionController.ts, routes/index.ts Frontend: MissingValueDialog.tsx (new, 437 lines), Toolbar.tsx, index.tsx Tests: test_fillna_operations.py (774 lines), test scripts and docs Docs: 5 documentation files updated Known issues: - MICE imputation has DataFrame shape mismatch issue (under debugging) - Workaround: Use 6 simple imputation methods first Status: Development complete, MICE debugging in progress Lines added: ~2000 lines across 3 tiers
This commit is contained in:
@@ -1,10 +1,10 @@
|
||||
# AIclinicalresearch 系统当前状态与开发指南
|
||||
|
||||
> **文档版本:** v1.6
|
||||
> **文档版本:** v1.7
|
||||
> **创建日期:** 2025-11-28
|
||||
> **维护者:** 开发团队
|
||||
> **最后更新:** 2025-12-08
|
||||
> **重大进展:** ✨ DC模块Tool C功能按钮Phase 1-2完成(7个功能上线)
|
||||
> **最后更新:** 2025-12-10
|
||||
> **重大进展:** ✨ DC模块Tool C功能按钮Phase 1-2完成 + NA处理优化 + Pivot列顺序优化
|
||||
> **文档目的:** 快速了解系统当前状态,为新AI助手提供上下文
|
||||
|
||||
---
|
||||
@@ -40,7 +40,7 @@
|
||||
| **AIA** | AI智能问答 | 10+专业智能体(选题评价、PICO梳理等) | ⭐⭐⭐⭐ | ✅ 已完成 | P1 |
|
||||
| **PKB** | 个人知识库 | RAG问答、私人文献库 | ⭐⭐⭐ | ✅ 已完成 | P1 |
|
||||
| **ASL** | AI智能文献 | 文献筛选、Meta分析、证据图谱 | ⭐⭐⭐⭐⭐ | 🚧 **正在开发** | **P0** |
|
||||
| **DC** | 数据清洗整理 | ETL + 医学NER(百万行级数据) | ⭐⭐⭐⭐⭐ | ✅ **Tool B完成 + Tool C MVP + 7个功能按钮完成** | **P0** |
|
||||
| **DC** | 数据清洗整理 | ETL + 医学NER(百万行级数据) | ⭐⭐⭐⭐⭐ | ✅ **Tool B完成 + Tool C 97%(7个功能+NA处理+Pivot优化+缺失值填补)** | **P0** |
|
||||
| **SSA** | 智能统计分析 | 队列/预测模型/RCT分析 | ⭐⭐⭐⭐⭐ | 📋 规划中 | P2 |
|
||||
| **ST** | 统计分析工具 | 100+轻量化统计工具 | ⭐⭐⭐⭐ | 📋 规划中 | P2 |
|
||||
| **RVW** | 稿件审查系统 | 方法学评估、审稿流程 | ⭐⭐⭐⭐ | 📋 规划中 | P3 |
|
||||
@@ -96,7 +96,7 @@
|
||||
|
||||
---
|
||||
|
||||
## 🚀 当前开发状态(2025-12-03)
|
||||
## 🚀 当前开发状态(2025-12-10)
|
||||
|
||||
### ✅ 已完成模块
|
||||
|
||||
@@ -147,7 +147,7 @@
|
||||
|
||||
**详细文档**:[ASL模块当前状态](../03-业务模块/ASL-AI智能文献/00-模块当前状态与开发指南.md)
|
||||
|
||||
#### 5. DC模块 - 数据清洗整理 ✅ **Tool C MVP 完成!**
|
||||
#### 5. DC模块 - 数据清洗整理 ✅ **Tool C MVP + NA处理 + Pivot优化完成!**
|
||||
|
||||
**开发进度**:
|
||||
- ✅ **Tool B后端**:100%完成(1,658行代码)
|
||||
@@ -158,18 +158,27 @@
|
||||
- 100%云原生(复用平台能力)
|
||||
- ❌ **Tool B前端**:0%(有V4原型设计,未实现)
|
||||
|
||||
- ✅ **Tool C(数据编辑器)**:**MVP 完成** ✅
|
||||
- ✅ Python微服务(~430行)- Day 1
|
||||
- ✅ Node.js后端(~2720行)- Day 2-3
|
||||
- ✅ 前端界面(~1300行)- Day 4-5
|
||||
- ✅ **Tool C(数据编辑器)**:**MVP + NA处理 + Pivot优化完成** ✅
|
||||
- ✅ Python微服务(~1800行)- Day 1 + NA处理优化
|
||||
- ✅ Node.js后端(~3500行)- Day 2-3, Day 5-8增强
|
||||
- ✅ 前端界面(~4000行)- Day 4-8
|
||||
- ✅ 通用 Chat 组件(~968行)- Day 5
|
||||
- ✅ 端到端测试通过
|
||||
- ✅ UI 优化完成
|
||||
- **总计:~5418行**
|
||||
- ✅ 7个功能按钮(筛选、映射、分箱、条件、删NA、计算、Pivot)
|
||||
- ✅ NA处理优化(4个功能支持空值处理)
|
||||
- ✅ Pivot优化(保留未选列+原始列顺序)
|
||||
- ✅ 计算列方案B(安全列名映射,支持特殊字符)
|
||||
- ✅ UX优化(tooltip、滚动条、预览提示)
|
||||
- **总计:~13068行**
|
||||
|
||||
- ❌ **Tool A**:未开发
|
||||
- ✅ **Portal**:已完成(Tool B + Tool C 入口)
|
||||
|
||||
**核心功能(Tool C,2025-12-10最新)**:
|
||||
- 7个功能按钮:高级筛选、数值映射、生成分类变量、条件生成列、删除缺失值、计算列、Pivot转换
|
||||
- NA处理支持:数值映射(保持/映射/删除)、分箱(保持/标记/分配)、条件(为空/不为空)
|
||||
- Pivot优化:保留未选择的列、保持原始列顺序
|
||||
- 计算列方案B:安全列名映射,支持中文括号等特殊字符
|
||||
|
||||
**核心功能(Tool B)**:
|
||||
- 双模型并发提取(DeepSeek-V3 + Qwen-Max)
|
||||
- 自动冲突检测(字段级对比)
|
||||
@@ -181,11 +190,12 @@
|
||||
- ✅ 双模型交叉验证(减少AI幻觉)
|
||||
- ✅ 3层JSON解析(容错机制)
|
||||
- ✅ 复用LLMFactory、storage、cache、jobQueue
|
||||
- ✅ 预写Python函数架构(稳定、安全、高性能)
|
||||
- ✅ 安全列名映射(支持特殊字符列名)
|
||||
|
||||
**当前问题**:
|
||||
- 🔴 数据库表未确认存在(测试前必须执行db push)
|
||||
- 🔴 前端完全未开发(预计2-3天工作量)
|
||||
- 🟡 后端未经真实API测试
|
||||
**待开发功能**:
|
||||
- ⏳ 缺失值填补(均值/中位数/众数/固定值)
|
||||
- ⏳ 多重插补(MICE)- 高优先级
|
||||
|
||||
**详细文档**:[DC模块当前状态](../03-业务模块/DC-数据清洗整理/00-模块当前状态与开发指南.md)
|
||||
|
||||
@@ -381,7 +391,7 @@ npm run dev # http://localhost:3000
|
||||
|
||||
### 模块完成度
|
||||
- ✅ **已完成**:AIA(100%)、PKB(100%)、平台基础层(100%)
|
||||
- 🚧 **开发中**:ASL(80%)、DC(30%)
|
||||
- 🚧 **开发中**:ASL(80%)、DC(Tool C 95%,Tool B后端100%,Tool B前端0%)
|
||||
- 📋 **未开始**:SSA、ST、RVW
|
||||
|
||||
### 测试覆盖率
|
||||
@@ -412,9 +422,9 @@ npm run dev # http://localhost:3000
|
||||
|
||||
---
|
||||
|
||||
**文档版本**:v1.0
|
||||
**最后更新**:2025-11-28
|
||||
**下次更新**:ASL全文复筛前端完成 或 DC工具B完成
|
||||
**文档版本**:v1.7
|
||||
**最后更新**:2025-12-10
|
||||
**下次更新**:Tool C缺失值填补功能完成 或 MICE多重插补完成
|
||||
|
||||
---
|
||||
|
||||
|
||||
Reference in New Issue
Block a user