AIclinicalresearch/extraction_service/services/pdf_extractor.py

"""
PDF文本提取服务

使用PyMuPDF (fitz)提取PDF文本内容
"""

import fitz  # PyMuPDF
from typing import Dict, Any
from loguru import logger


def extract_pdf_pymupdf(file_path: str) -> Dict[str, Any]:
    """
    使用PyMuPDF提取PDF文本

    Args:
        file_path: PDF文件路径

    Returns:
        {
            "success": True,
            "method": "pymupdf",
            "text": "提取的文本",
            "metadata": {
                "page_count": 20,
                "char_count": 50000,
                "has_text": True
            }
        }
    """
    try:
        logger.info(f"开始使用PyMuPDF提取: {file_path}")

        # 打开PDF
        doc = fitz.open(file_path)
        page_count = len(doc)

        logger.info(f"PDF页数: {page_count}")

        # 提取所有页面的文本
        text_parts = []

        for page_num in range(page_count):
            try:
                page = doc[page_num]
                text = page.get_text()

                if text.strip():
                    # 添加页面分隔符
                    text_parts.append(f"\n\n--- 第 {page_num + 1} 页 ---\n\n")
                    text_parts.append(text)

                    logger.debug(f"第 {page_num + 1} 页提取了 {len(text)} 个字符")

            except Exception as e:
                logger.warning(f"第 {page_num + 1} 页提取失败: {str(e)}")
                continue

        # 合并文本
        full_text = "".join(text_parts)
        char_count = len(full_text)

        # 关闭文档
        doc.close()

        # 检查是否提取到文本
        has_text = char_count > 100  # 至少要有100个字符

        if not has_text:
            logger.warning(f"PDF可能是扫描版或无文本内容")

        logger.info(f"PyMuPDF提取完成: 字符数={char_count}")

        return {
            "success": True,
            "method": "pymupdf",
            "text": full_text,
            "format": "plain_text",
            "metadata": {
                "page_count": page_count,
                "char_count": char_count,
                "has_text": has_text
            }
        }

    except Exception as e:
        logger.error(f"PyMuPDF提取失败: {str(e)}")
        return {
            "success": False,
            "error": str(e),
            "method": "pymupdf"
        }


def extract_pdf_with_layout(file_path: str) -> Dict[str, Any]:
    """
    使用PyMuPDF提取PDF文本（保留布局）

    Args:
        file_path: PDF文件路径

    Returns:
        提取结果
    """
    try:
        logger.info(f"开始使用PyMuPDF提取（保留布局）: {file_path}")

        doc = fitz.open(file_path)
        page_count = len(doc)

        text_parts = []

        for page_num in range(page_count):
            try:
                page = doc[page_num]

                # 使用dict模式提取，可以保留更多格式信息
                blocks = page.get_text("dict")["blocks"]

                page_text = []

                for block in blocks:
                    if block["type"] == 0:  # 文本块
                        for line in block.get("lines", []):
                            for span in line.get("spans", []):
                                text = span.get("text", "")
                                if text.strip():
                                    page_text.append(text)

                if page_text:
                    text_parts.append(f"\n\n--- 第 {page_num + 1} 页 ---\n\n")
                    text_parts.append(" ".join(page_text))

            except Exception as e:
                logger.warning(f"第 {page_num + 1} 页处理失败: {str(e)}")
                continue

        full_text = "".join(text_parts)
        doc.close()

        return {
            "success": True,
            "method": "pymupdf_layout",
            "text": full_text,
            "format": "plain_text",
            "metadata": {
                "page_count": page_count,
                "char_count": len(full_text)
            }
        }

    except Exception as e:
        logger.error(f"PyMuPDF布局提取失败: {str(e)}")
        return {
            "success": False,
            "error": str(e)
        }


def get_pdf_metadata(file_path: str) -> Dict[str, Any]:
    """
    获取PDF元数据

    Args:
        file_path: PDF文件路径

    Returns:
        PDF元数据
    """
    try:
        doc = fitz.open(file_path)

        metadata = {
            "page_count": len(doc),
            "metadata": doc.metadata,
            "is_encrypted": doc.is_encrypted,
            "is_pdf": doc.is_pdf
        }

        doc.close()
        return metadata

    except Exception as e:
        logger.error(f"获取PDF元数据失败: {str(e)}")
        return {}