# æ–‡æ¡£å¤„ç†å¼•æ“Ž

> **èƒ½åŠ›å®šä½ï¼?* é€šç”¨èƒ½åŠ›å±? 
> **å¤ç”¨çŽ‡ï¼š** 86% (6ä¸ªæ¨¡å—ä¾èµ?  
> **ä¼˜å…ˆçº§ï¼š** P0  
> **çŠ¶æ€ï¼š** âœ?å·²å®žçŽ°ï¼ˆPythonå¾®æœåŠ¡ï¼‰

---

## ðŸ“‹ èƒ½åŠ›æ¦‚è¿°

æ–‡æ¡£å¤„ç†å¼•æ“Žæ˜¯å¹³å°çš„æ ¸å¿ƒåŸºç¡€èƒ½åŠ›ï¼Œè´Ÿè´£ï¼š
- å¤šæ ¼å¼æ–‡æ¡£æ–‡æœ¬æå–ï¼ˆPDFã€Docxã€Txtã€Excelï¼?
- OCRå¤„ç†
- è¡¨æ ¼æå–
- è¯­è¨€æ£€æµ?
- è´¨é‡è¯„ä¼°

---

## ðŸ“Š ä¾èµ–æ¨¡å—

**6ä¸ªæ¨¡å—ä¾èµ–ï¼ˆ86%å¤ç”¨çŽ‡ï¼‰ï¼?*
1. **ASL** - AIæ™ºèƒ½æ–‡çŒ®ï¼ˆæ–‡çŒ®PDFæå–ï¼?
2. **PKB** - ä¸ªäººçŸ¥è¯†åº“ï¼ˆçŸ¥è¯†åº“æ–‡æ¡£ä¸Šä¼ ï¼‰
3. **DC** - æ•°æ®æ¸…æ´—ï¼ˆExcel/Docxæ•°æ®å¯¼å…¥ï¼?
4. **SSA** - æ™ºèƒ½ç»Ÿè®¡åˆ†æžï¼ˆæ•°æ®å¯¼å…¥ï¼‰
5. **ST** - ç»Ÿè®¡åˆ†æžå·¥å…·ï¼ˆæ•°æ®å¯¼å…¥ï¼‰
6. **RVW** - ç¨¿ä»¶å®¡æŸ¥ï¼ˆç¨¿ä»¶æ–‡æ¡£æå–ï¼‰

---

## ðŸ’¡ æ ¸å¿ƒåŠŸèƒ½

### 1. PDFæå–
- **Nougat**ï¼šè‹±æ–‡å­¦æœ¯è®ºæ–‡ï¼ˆé«˜è´¨é‡ï¼‰
- **PyMuPDF**ï¼šä¸­æ–‡PDF + å…œåº•æ–¹æ¡ˆï¼ˆå¿«é€Ÿï¼‰
- **è¯­è¨€æ£€æµ?*ï¼šè‡ªåŠ¨è¯†åˆ«ä¸­è‹±æ–‡
- **è´¨é‡è¯„ä¼°**ï¼šæå–è´¨é‡è¯„åˆ?

### 2. Docxæå–
- **Mammoth**ï¼šè½¬Markdown
- **python-docx**ï¼šç»“æž„åŒ–è¯»å–

### 3. Txtæå–
- **å¤šç¼–ç æ”¯æŒ?*ï¼šUTF-8ã€GBKç­?
- **chardet**ï¼šè‡ªåŠ¨æ£€æµ‹ç¼–ç ?

### 4. Excelå¤„ç†
- **openpyxl**ï¼šè¯»å–Excel
- **pandas**ï¼šæ•°æ®å¤„ç?

---

## ðŸ—ï¸?æŠ€æœ¯æž¶æž?

**Pythonå¾®æœåŠ¡ï¼ˆFastAPIï¼‰ï¼š**
```
extraction_service/
  â”œâ”€â”€ main.py (509è¡?              - FastAPIä¸»æœåŠ?
  â”œâ”€â”€ services/
  â”?  â”œâ”€â”€ pdf_extractor.py (242è¡?    - PDFæå–æ€»åè°?
  â”?  â”œâ”€â”€ pdf_processor.py (280è¡?    - PyMuPDFå®žçŽ°
  â”?  â”œâ”€â”€ language_detector.py (120è¡? - è¯­è¨€æ£€æµ?
  â”?  â”œâ”€â”€ nougat_extractor.py (242è¡? - Nougatå®žçŽ°
  â”?  â”œâ”€â”€ docx_extractor.py (253è¡?   - Docxæå–
  â”?  â””â”€â”€ txt_extractor.py (316è¡?    - Txtæå–ï¼ˆå¤šç¼–ç ï¼?
  â””â”€â”€ requirements.txt
```

---

## ðŸ“š APIç«¯ç‚¹

```
POST /api/extract/pdf      - PDFæ–‡æœ¬æå–
POST /api/extract/docx     - Docxæ–‡æœ¬æå–
POST /api/extract/txt      - Txtæ–‡æœ¬æå–
POST /api/extract/excel    - Excelè¡¨æ ¼æå–
GET  /health               - å¥åº·æ£€æŸ?
```

---

## ðŸ”— ç›¸å…³æ–‡æ¡£

- [é€šç”¨èƒ½åŠ›å±‚æ€»è§ˆ](../README.md)
- [Pythonå¾®æœåŠ¡ä»£ç ](../../../extraction_service/)

---

**æœ€åŽæ›´æ–°ï¼š** 2025-11-06  
**ç»´æŠ¤äººï¼š** æŠ€æœ¯æž¶æž„å¸ˆ