# ======================================== # 生产环境依赖 (2026-01-26 更新) # 移除 Nougat,使用 pymupdf4llm 替代 # ======================================== # Web框架 fastapi==0.104.1 uvicorn[standard]==0.24.0 python-multipart==0.0.6 # 数据处理 (DC工具必需) pandas>=2.0.0 numpy>=1.24.0 polars>=0.19.0 # PDF处理 - 使用 pymupdf4llm(替代 nougat,更轻量) PyMuPDF>=1.24.0 # PDF 核心库(代码中 import fitz 使用) pymupdf4llm>=0.0.17 # PDF → Markdown pdfplumber==0.10.3 # 备用 PDF 处理 # Word处理 mammoth==1.6.0 # Docx → Markdown python-docx==1.1.0 # Docx 读取 pypandoc>=1.13 # Markdown → Docx (需要系统安装 pandoc) # Excel/CSV处理 openpyxl>=3.1.2 # Excel 读取 tabulate>=0.9.0 # DataFrame → Markdown # PPT处理 python-pptx>=0.6.23 # PPT 读取 # 语言检测 langdetect==1.0.9 # 编码检测 chardet==5.2.0 # 工具 python-dotenv==1.0.0 pydantic>=2.10.0 # 日志 loguru==0.7.2 # 测试工具 requests==2.31.0 # ======================================== # 注意:生产环境已移除以下重量级依赖 # - nougat-ocr==0.1.17 (约1.5GB) # - albumentations==1.3.1 (Nougat依赖) # # 已使用 pymupdf4llm 替代,功能相似但更轻量 # ========================================