feat: add extraction_service (PDF/Docx/Txt) and update .gitignore to exclude venv
This commit is contained in:
88
extraction_service/install_nougat.bat
Normal file
88
extraction_service/install_nougat.bat
Normal file
@@ -0,0 +1,88 @@
|
||||
@echo off
|
||||
chcp 65001 >nul
|
||||
echo ================================
|
||||
echo 安装Nougat OCR
|
||||
echo ================================
|
||||
echo.
|
||||
|
||||
echo ⚠️ 注意事项:
|
||||
echo 1. Nougat需要Python 3.8+
|
||||
echo 2. 首次运行会下载模型文件(约350MB)
|
||||
echo 3. 建议使用GPU加速(需CUDA)
|
||||
echo 4. 安装可能需要5-10分钟
|
||||
echo.
|
||||
pause
|
||||
|
||||
REM 激活虚拟环境
|
||||
if exist venv\Scripts\activate.bat (
|
||||
echo [1/4] 激活虚拟环境...
|
||||
call venv\Scripts\activate
|
||||
) else (
|
||||
echo 错误: 请先运行 install.bat 创建虚拟环境
|
||||
pause
|
||||
exit /b 1
|
||||
)
|
||||
|
||||
REM 安装Nougat
|
||||
echo.
|
||||
echo [2/4] 安装Nougat OCR...
|
||||
echo 这可能需要几分钟时间...
|
||||
echo.
|
||||
|
||||
pip install nougat-ocr==0.1.17
|
||||
|
||||
if errorlevel 1 (
|
||||
echo.
|
||||
echo ❌ Nougat安装失败
|
||||
echo.
|
||||
echo 可能的原因:
|
||||
echo 1. 网络问题:请使用国内镜像源
|
||||
echo 2. Python版本:需要Python 3.8+
|
||||
echo 3. 依赖冲突:可能需要新的虚拟环境
|
||||
echo.
|
||||
echo 替代方案:
|
||||
echo - 如果只使用中文PDF,可以不安装Nougat
|
||||
echo - 系统会自动降级使用PyMuPDF
|
||||
echo.
|
||||
pause
|
||||
exit /b 1
|
||||
)
|
||||
|
||||
echo.
|
||||
echo [3/4] 验证安装...
|
||||
python -c "import nougat; print('✅ Nougat导入成功')"
|
||||
|
||||
echo.
|
||||
echo [4/4] 测试Nougat命令...
|
||||
nougat --version
|
||||
|
||||
if errorlevel 1 (
|
||||
echo ⚠️ 命令行工具未找到,但Python模块已安装
|
||||
echo 这可能不影响使用,系统会尝试直接调用Python模块
|
||||
) else (
|
||||
echo ✅ Nougat命令行工具正常
|
||||
)
|
||||
|
||||
echo.
|
||||
echo ================================
|
||||
echo 🎉 Nougat安装完成!
|
||||
echo ================================
|
||||
echo.
|
||||
echo 说明:
|
||||
echo - Nougat擅长处理英文学术PDF
|
||||
echo - 能保留表格、公式等结构
|
||||
echo - 中文PDF会自动使用PyMuPDF
|
||||
echo - 首次使用会下载模型(约350MB)
|
||||
echo.
|
||||
echo 下一步:
|
||||
echo - 启动服务: start.bat
|
||||
echo - 健康检查: curl http://localhost:8000/api/health
|
||||
echo.
|
||||
|
||||
pause
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
Reference in New Issue
Block a user