feat: add extraction_service (PDF/Docx/Txt) and update .gitignore to exclude venv

This commit is contained in:
AI Clinical Dev Team
2025-11-16 15:32:44 +08:00
parent 2a4f59b08b
commit 39eb62ee79
18 changed files with 2706 additions and 0 deletions

View File

@@ -0,0 +1,88 @@
@echo off
chcp 65001 >nul
echo ================================
echo 安装Nougat OCR
echo ================================
echo.
echo ⚠️ 注意事项:
echo 1. Nougat需要Python 3.8+
echo 2. 首次运行会下载模型文件约350MB
echo 3. 建议使用GPU加速需CUDA
echo 4. 安装可能需要5-10分钟
echo.
pause
REM 激活虚拟环境
if exist venv\Scripts\activate.bat (
echo [1/4] 激活虚拟环境...
call venv\Scripts\activate
) else (
echo 错误: 请先运行 install.bat 创建虚拟环境
pause
exit /b 1
)
REM 安装Nougat
echo.
echo [2/4] 安装Nougat OCR...
echo 这可能需要几分钟时间...
echo.
pip install nougat-ocr==0.1.17
if errorlevel 1 (
echo.
echo ❌ Nougat安装失败
echo.
echo 可能的原因:
echo 1. 网络问题:请使用国内镜像源
echo 2. Python版本需要Python 3.8+
echo 3. 依赖冲突:可能需要新的虚拟环境
echo.
echo 替代方案:
echo - 如果只使用中文PDF可以不安装Nougat
echo - 系统会自动降级使用PyMuPDF
echo.
pause
exit /b 1
)
echo.
echo [3/4] 验证安装...
python -c "import nougat; print('✅ Nougat导入成功')"
echo.
echo [4/4] 测试Nougat命令...
nougat --version
if errorlevel 1 (
echo ⚠️ 命令行工具未找到但Python模块已安装
echo 这可能不影响使用系统会尝试直接调用Python模块
) else (
echo ✅ Nougat命令行工具正常
)
echo.
echo ================================
echo 🎉 Nougat安装完成
echo ================================
echo.
echo 说明:
echo - Nougat擅长处理英文学术PDF
echo - 能保留表格、公式等结构
echo - 中文PDF会自动使用PyMuPDF
echo - 首次使用会下载模型约350MB
echo.
echo 下一步:
echo - 启动服务: start.bat
echo - 健康检查: curl http://localhost:8000/api/health
echo.
pause