Files
AIclinicalresearch/docs/02-通用能力层/04-数据ETL引擎/README.md
HaHafeng 88cc049fb3 feat(asl): Complete Day 5 - Fulltext Screening Backend API Development
- Implement 5 core API endpoints (create task, get progress, get results, update decision, export Excel)
- Add FulltextScreeningController with Zod validation (652 lines)
- Implement ExcelExporter service with 4-sheet report generation (352 lines)
- Register routes under /api/v1/asl/fulltext-screening
- Create 31 REST Client test cases
- Add automated integration test script
- Fix PDF extraction fallback mechanism in LLM12FieldsService
- Update API design documentation to v3.0
- Update development plan to v1.2
- Create Day 5 development record
- Clean up temporary test files
2025-11-23 10:52:07 +08:00

1.4 KiB
Raw Blame History

数据ETL引擎

能力定位: 通用能力层
复用率: 29% (2个模块依赖)
优先级: P2
状态: 待实现


📋 能力概述

数据ETL引擎负责

  • Excel多表JOIN
  • 数据清洗
  • 数据转换
  • 数据验证

📊 依赖模块

2个模块依赖29%复用率):

  1. DC - 数据清洗整理(核心依赖)
  2. SSA - 智能统计分析(数据预处理)

💡 核心功能

1. Excel多表处理

  • 读取多个Excel文件
  • 自动JOIN操作
  • GROUP BY聚合

2. 数据清洗

  • 缺失值处理
  • 重复值处理
  • 异常值检测

3. 数据转换

  • 类型转换
  • 格式标准化

🏗️ 技术方案

云端版(最优)

# 基于Polars性能极高
class ETLEngine:
    def read_excel(self, files: List[File]) -> List[DataFrame]
    def join(self, dfs: List[DataFrame], keys: List[str]) -> DataFrame
    def clean(self, df: DataFrame, rules: Dict) -> DataFrame
    def export(self, df: DataFrame, format: str) -> bytes

单机版(兼容)

# 基于SQLite内存友好
# 分块读取数据库引擎处理JOIN

🔗 相关文档


最后更新: 2025-11-06
维护人: 技术架构师