AIclinicalresearch/docs/02-通用能力层/04-数据ETL引擎/README.md

# 数据ETL引擎

> **能力定位：** 通用能力层
> **复用率：** 29% (2个模块依赖)
> **优先级：** P2
> **状态：** ⏳ 待实现

---

## 📋 能力概述

数据ETL引擎负责：
- Excel多表JOIN
- 数据清洗
- 数据转换
- 数据验证

---

## 📊 依赖模块

**2个模块依赖（29%复用率）：**
1. **DC** - 数据清洗整理（核心依赖）
2. **SSA** - 智能统计分析（数据预处理）

---

## 💡 核心功能

### 1. Excel多表处理
- 读取多个Excel文件
- 自动JOIN操作
- GROUP BY聚合

### 2. 数据清洗
- 缺失值处理
- 重复值处理
- 异常值检测

### 3. 数据转换
- 类型转换
- 格式标准化

---

## 🏗️ 技术方案

### 云端版（最优）
```python
# 基于Polars（性能极高）
class ETLEngine:
    def read_excel(self, files: List[File]) -> List[DataFrame]
    def join(self, dfs: List[DataFrame], keys: List[str]) -> DataFrame
    def clean(self, df: DataFrame, rules: Dict) -> DataFrame
    def export(self, df: DataFrame, format: str) -> bytes
```

### 单机版（兼容）
```python
# 基于SQLite（内存友好）
# 分块读取，数据库引擎处理JOIN
```

---

## 🔗 相关文档

- [通用能力层总览](../README.md)
- [DC模块需求](../../03-业务模块/DC-数据清洗整理/README.md)

---

**最后更新：** 2025-11-06
**维护人：** 技术架构师