feat: add extraction_service (PDF/Docx/Txt) and update .gitignore to exclude venv

This commit is contained in:
AI Clinical Dev Team
2025-11-16 15:32:44 +08:00
parent 2a4f59b08b
commit 39eb62ee79
18 changed files with 2706 additions and 0 deletions

View File

@@ -0,0 +1,31 @@
# FastAPI核心依赖
fastapi==0.104.1
uvicorn[standard]==0.24.0
python-multipart==0.0.6
# PDF处理
PyMuPDF>=1.24.0 # 使用更新版本有预编译wheel
pdfplumber==0.10.3
nougat-ocr==0.1.17 # 学术PDF高质量提取英文
albumentations==1.3.1 # Nougat兼容版本不要升级到2.x
# Docx处理Day 3需要
mammoth==1.6.0
python-docx==1.1.0
# 语言检测Day 2需要
langdetect==1.0.9
# 编码检测Day 3需要
chardet==5.2.0
# 工具
python-dotenv==1.0.0
pydantic>=2.10.0 # 使用更新版本有预编译wheel
# 日志
loguru==0.7.2
# 测试工具
requests==2.31.0