AIclinicalresearch/extraction_service/requirements-prod.txt

# ========================================
# 生产环境依赖 (2026-01-26 更新)
# 移除 Nougat，使用 pymupdf4llm 替代
# ========================================

# Web框架
fastapi==0.104.1
uvicorn[standard]==0.24.0
python-multipart==0.0.6

# 数据处理 (DC工具必需)
pandas>=2.0.0
numpy>=1.24.0
polars>=0.19.0

# PDF处理 - 使用 pymupdf4llm（替代 nougat，更轻量）
PyMuPDF>=1.24.0             # PDF 核心库（代码中 import fitz 使用）
pymupdf4llm>=0.0.17         # PDF → Markdown
pdfplumber==0.10.3          # 备用 PDF 处理

# Word处理
mammoth==1.6.0              # Docx → Markdown
python-docx==1.1.0          # Docx 读取
pypandoc>=1.13              # Markdown → Docx (需要系统安装 pandoc)

# Excel/CSV处理
openpyxl>=3.1.2             # Excel 读取
tabulate>=0.9.0             # DataFrame → Markdown

# PPT处理
python-pptx>=0.6.23         # PPT 读取

# 语言检测
langdetect==1.0.9

# 编码检测
chardet==5.2.0

# 工具
python-dotenv==1.0.0
pydantic>=2.10.0

# 日志
loguru==0.7.2

# 测试工具
requests==2.31.0

# ========================================
# 注意：生产环境已移除以下重量级依赖
# - nougat-ocr==0.1.17 (约1.5GB)
# - albumentations==1.3.1 (Nougat依赖)
#
# 已使用 pymupdf4llm 替代，功能相似但更轻量
# ========================================