# ASL æ–‡çŒ®å¤„ç†æŠ€æœ¯é€‰åž‹

> **æ–‡æ¡£ç‰ˆæœ¬ï¼?* V1.0  
> **åˆ›å»ºæ—¥æœŸï¼?* 2025-11-15  
> **é€‚ç”¨æ¨¡å—ï¼?* AI æ™ºèƒ½æ–‡çŒ®ï¼ˆASLï¼? 
> **ç›®æ ‡ï¼?* å®šä¹‰åˆç­›ã€å…¨æ–‡å¤ç­›ã€å…¨æ–‡æå–çš„æŠ€æœ¯æ ˆå’Œå®žçŽ°è·¯å¾?

---

## ðŸ“‹ æ–‡æ¡£æ¦‚è¿°

ASL æ¨¡å—æ¶‰åŠä¸‰ç§ä¸åŒçš„æ–‡çŒ®å¤„ç†åœºæ™¯ï¼Œæ¯ç§åœºæ™¯æœ‰ä¸åŒçš„æŠ€æœ¯ç‰¹ç‚¹å’Œå®žçŽ°æ–¹æ¡ˆï¼?

| åœºæ™¯ | è¾“å…¥æ ¼å¼ | æ ¸å¿ƒæŠ€æœ?| ä¸»è¦æŒ‘æˆ˜ |
|------|---------|---------|---------|
| **æ ‡é¢˜æ‘˜è¦åˆç­›** | Excel æ–‡ä»¶ | Excel è§£æž + LLM ç­›é€?| æ‰¹é‡å¤„ç†æ•ˆçŽ‡ |
| **å…¨æ–‡å¤ç­›** | PDF å…¨æ–‡ | PDF æå– + LLM ç­›é€?| PDF è§£æžå‡†ç¡®çŽ?|
| **å…¨æ–‡æ•°æ®æå–** | PDF å…¨æ–‡ | PDF æå– + LLM ç»“æž„åŒ–æå?| è¡¨æ ¼ã€å…¬å¼å‡†ç¡®æå?|

---

## ðŸŽ¯ æŠ€æœ¯æž¶æž„æ€»è§ˆ

```
â”Œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”?
â”?                   ASL æ–‡çŒ®å¤„ç†æµç¨‹                        â”?
â””â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”?
           â”?
           â”œâ”€ åœºæ™¯ 1: æ ‡é¢˜æ‘˜è¦åˆç­›
           â”?  â””â”€ ç”¨æˆ·ä¸Šä¼  Excel â†?è§£æž â†?LLM æ‰¹é‡ç­›é€?â†?å¯¼å‡ºç»“æžœ
           â”?
           â”œâ”€ åœºæ™¯ 2: å…¨æ–‡å¤ç­›
           â”?  â””â”€ ç”¨æˆ·ä¸Šä¼  PDF â†?PDF æå– â†?LLM ç­›é€?â†?å¤æ ¸
           â”?
           â””â”€ åœºæ™¯ 3: å…¨æ–‡æ•°æ®æå–
               â””â”€ PDF â†?æå– + ç»“æž„åŒ?â†?LLM æå–æ•°æ® â†?äººå·¥å¤æ ¸

â”Œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”?
â”?              æŠ€æœ¯æ ˆåˆ†å±‚æž¶æž„ï¼ˆå…±äº«ï¼‰                        â”?
â”œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”?
â”? å‰ç«¯å±? React 19 + Ant Design 5 + xlsx/exceljs          â”?
â”œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”?
â”? åŽç«¯å±? Node.js (Fastify) + TypeScript                  â”?
â”œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”?
â”? æ–‡æ¡£å¤„ç†å±? Python å¾®æœåŠ?(extraction_service)           â”?
â”?   â”œâ”€ PyMuPDF: å¿«é€?PDF æå–                             â”?
â”?   â”œâ”€ Nougat: è‹±æ–‡ç§‘å­¦æ–‡çŒ®é«˜è´¨é‡æå?â­?                  â”?
â”?   â””â”€ Language Detector: è‡ªåŠ¨è¯­è¨€æ£€æµ?                    â”?
â”œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”?
â”? LLM å±? DeepSeek-V3 + Qwen3 / GPT-5 + Claude-4.5        â”?
â”œâ”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”?
â”? æ•°æ®åº? PostgreSQL 15 (asl_schema)                      â”?
â””â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”?
```

---

## ðŸ“Œ åœºæ™¯ 1: æ ‡é¢˜æ‘˜è¦åˆç­›

### 1.1 æŠ€æœ¯ç‰¹ç‚?

- **è¾“å…¥æ ¼å¼**: Excel æ–‡ä»¶ (`.xlsx` / `.xls`)
- **æ•°æ®è§„æ¨¡**: 50-500 ç¯‡æ–‡çŒ?æ‰¹æ¬¡
- **ä¸»è¦å­—æ®µ**: æ ‡é¢˜ã€æ‘˜è¦ã€DOIã€ä½œè€…ã€å‘è¡¨å¹´ä»½ã€æœŸåˆ?
- **å¤„ç†é‡ç‚¹**: æ‰¹é‡é«˜æ•ˆå¤„ç†ï¼Œæ— éœ€ PDF è§£æž

### 1.2 æŠ€æœ¯é€‰åž‹

#### å‰ç«¯ï¼šExcel ä¸Šä¼ ä¸Žè§£æž?

| æŠ€æœ?| åº?| ç”¨é€?| ä¼˜åŠ¿ |
|------|-----|------|------|
| **Excel ä¸Šä¼ ** | `antd Upload` | æ–‡ä»¶ä¸Šä¼ ç»„ä»¶ | æ‹–æ‹½ä¸Šä¼ ã€è¿›åº¦æ¡ |
| **Excel è§£æž** | `xlsx` / `exceljs` | å‰ç«¯è§£æž Excel | çº¯å‰ç«¯å¤„ç†ï¼Œå¿«é€Ÿé¢„è§?|
| **æ¨¡æ¿éªŒè¯** | è‡ªå®šä¹‰é€»è¾‘ | æ ¡éªŒåˆ—åå’Œæ•°æ®æ ¼å¼?| æå‰å‘çŽ°æ ¼å¼é”™è¯¯ |

**æŽ¨èæ–¹æ¡ˆï¼š`xlsx` åº“ï¼ˆSheetJSï¼?*
- âœ?æ”¯æŒ `.xlsx` å’?`.xls` æ ¼å¼
- âœ?çº?JavaScriptï¼Œå‰ç«¯ç›´æŽ¥è§£æž?
- âœ?ä½“ç§¯å°ï¼ˆ~600KBï¼‰ï¼Œæ€§èƒ½å¥?
- âœ?æ”¯æŒå¤§æ–‡ä»¶ï¼ˆ1000+ è¡Œï¼‰

**ä»£ç ç¤ºä¾‹ï¼?*
```typescript
import * as XLSX from 'xlsx';

function parseExcel(file: File): Promise<Literature[]> {
  return new Promise((resolve, reject) => {
    const reader = new FileReader();
    
    reader.onload = (e) => {
      try {
        const data = new Uint8Array(e.target.result as ArrayBuffer);
        const workbook = XLSX.read(data, { type: 'array' });
        
        // è¯»å–ç¬¬ä¸€ä¸ªå·¥ä½œè¡¨
        const sheetName = workbook.SheetNames[0];
        const worksheet = workbook.Sheets[sheetName];
        
        // è½¬æ¢ä¸?JSON
        const jsonData = XLSX.utils.sheet_to_json(worksheet);
        
        // æ˜ å°„ä¸ºæ ‡å‡†æ ¼å¼?
        const literatures = jsonData.map((row: any) => ({
          title: row['Title'] || row['æ ‡é¢˜'],
          abstract: row['Abstract'] || row['æ‘˜è¦'],
          doi: row['DOI'],
          authors: row['Authors'] || row['ä½œè€?],
          year: row['Year'] || row['å¹´ä»½'],
          journal: row['Journal'] || row['æœŸåˆŠ'],
        }));
        
        resolve(literatures);
      } catch (error) {
        reject(new Error('Excel è§£æžå¤±è´¥'));
      }
    };
    
    reader.onerror = () => reject(new Error('æ–‡ä»¶è¯»å–å¤±è´¥'));
    reader.readAsArrayBuffer(file);
  });
}
```

#### åŽç«¯ï¼šæ‰¹é‡ç­›é€‰å¤„ç?

**å¤„ç†æµç¨‹ï¼?*
```
Excel æ•°æ® â†?æ‰¹é‡åˆ†ç»„ï¼?0-20 ç¯?ç»„ï¼‰â†?å¹¶è¡Œè°ƒç”¨ LLM â†?æ±‡æ€»ç»“æž?
```

**å…³é”®æŠ€æœ¯ç‚¹ï¼?*
1. **æ‰¹é‡åˆ†ç»„**ï¼šé¿å…å•æ¬¡è¯·æ±‚è¿‡å¤§ï¼Œ10-20 ç¯?ç»„æœ€ä¼?
2. **å¹¶è¡Œå¤„ç†**ï¼šä½¿ç”?`Promise.all` å¹¶è¡Œè°ƒç”¨ LLM
3. **è¿›åº¦æŽ¨é€?*ï¼šWebSocket å®žæ—¶æŽ¨é€å¤„ç†è¿›åº?
4. **æ–­ç‚¹ç»­ä¼ **ï¼šæ”¯æŒä»»åŠ¡ä¸­æ–­åŽç»§ç»­

**ä»£ç ç¤ºä¾‹ï¼?*
```typescript
async function batchScreening(
  literatures: Literature[],
  protocol: Protocol,
  progressCallback: (progress: number) => void
) {
  const batchSize = 15;
  const batches = chunk(literatures, batchSize);
  const results = [];
  
  for (let i = 0; i < batches.length; i++) {
    const batch = batches[i];
    
    // å¹¶è¡Œå¤„ç†å½“å‰æ‰¹æ¬¡
    const batchResults = await Promise.all(
      batch.map(lit => dualModelScreening(lit, protocol))
    );
    
    results.push(...batchResults);
    
    // æŽ¨é€è¿›åº?
    const progress = Math.round(((i + 1) / batches.length) * 100);
    progressCallback(progress);
  }
  
  return results;
}
```

### 1.3 æ•°æ®æµ?

```
ç”¨æˆ·æ“ä½œ             å‰ç«¯å¤„ç†              åŽç«¯å¤„ç†            LLM å¤„ç†
   â”?                   â”?                    â”?                  â”?
   â”œâ”€ ä¸Šä¼  Excel        â”?                    â”?                  â”?
   â”?   â””â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â†’â”‚                     â”?                  â”?
   â”?                   â”œâ”€ è§£æž Excel         â”?                  â”?
   â”?                   â”œâ”€ éªŒè¯æ ¼å¼           â”?                  â”?
   â”?                   â”œâ”€ æ˜¾ç¤ºé¢„è§ˆ           â”?                  â”?
   â”?                   â”?                    â”?                  â”?
   â”?                   â”œâ”€ æäº¤ç­›é€‰ä»»åŠ?      â”?                  â”?
   â”?                   â”?   â””â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â†’â”‚                   â”?
   â”?                   â”?                    â”œâ”€ ä¿å­˜ä»»åŠ¡         â”?
   â”?                   â”?                    â”œâ”€ åˆ†ç»„ï¼?5 ç¯?ç»„ï¼‰ â”?
   â”?                   â”?                    â”?                  â”?
   â”?                   â”?                    â”œâ”€ æ‰¹æ¬¡ 1           â”?
   â”?                   â”?                    â”?   â””â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â†’â”‚
   â”?                   â”?                    â”?                  â”œâ”€ DeepSeek ç­›é€?
   â”?                   â”?                    â”?                  â”œâ”€ Qwen3 ç­›é€?
   â”?                   â”?                    â”?                  â”œâ”€ å¯¹æ¯”ç»“æžœ
   â”?                   â”?                    â”?   â†â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”?
   â”?                   â”?                    â”œâ”€ ä¿å­˜ç»“æžœ         â”?
   â”?                   â”?                    â”?                  â”?
   â”?                   â”?                    â”œâ”€ æ‰¹æ¬¡ 2...        â”?
   â”?                   â”?                    â”?                  â”?
   â”?                   â”?   â†â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”?è¿”å›žå®Œæ•´ç»“æžœ       â”?
   â”?   â†â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”?æ˜¾ç¤ºç»“æžœ            â”?                  â”?
   â””â”€ äººå·¥å¤æ ¸          â”?                    â”?                  â”?
```

---

## ðŸ“Œ åœºæ™¯ 2 & 3: å…¨æ–‡å¤ç­›ä¸Žæ•°æ®æå?

### 2.1 æŠ€æœ¯ç‰¹ç‚?

- **è¾“å…¥æ ¼å¼**: PDF æ–‡ä»¶ï¼ˆè‹±æ–‡åŒ»å­¦æ–‡çŒ®ï¼‰
- **æ–‡ä»¶ç‰¹ç‚¹**: 
  - ç§‘å­¦è®ºæ–‡æ ¼å¼ï¼ˆæ ‡é¢˜ã€æ‘˜è¦ã€å¼•è¨€ã€æ–¹æ³•ã€ç»“æžœã€è®¨è®ºã€å‚è€ƒæ–‡çŒ®ï¼‰
  - åŒ…å«å¤æ‚è¡¨æ ¼ã€å…¬å¼ã€å›¾è¡?
  - é€šå¸¸ 10-30 é¡?
- **å¤„ç†é‡ç‚¹**: é«˜å‡†ç¡®çŽ‡æå–ï¼Œä¿ç•™ç»“æž„å’Œæ ¼å¼

### 2.2 æŠ€æœ¯é€‰åž‹ï¼šPDF æå–

#### æ ¸å¿ƒæ–¹æ¡ˆï¼šNougat + PyMuPDF é¡ºåºé™çº§ç­–ç•¥ â­?

**çŽ°æœ‰æž¶æž„**ï¼ˆå·²å®žçŽ°ï¼Œä½äº?`extraction_service/`ï¼‰ï¼š

```python
# é¡ºåºé™çº§ç­–ç•¥
def extract_pdf(file_path: str):
    # Step 1: æ£€æµ‹è¯­è¨€
    language = detect_language(file_path)
    
    # Step 2: ä¸­æ–‡ PDF â†?PyMuPDFï¼ˆå¿«é€Ÿï¼‰
    if language == 'chinese':
        return extract_pdf_pymupdf(file_path)
    
    # Step 3: è‹±æ–‡ PDF â†?å°è¯• Nougat
    if check_nougat_available():
        result = extract_pdf_nougat(file_path)
        
        # è´¨é‡æ£€æŸ¥ï¼ˆé˜ˆå€?0.7ï¼?
        if result['quality_score'] >= 0.7:
            return result  # âœ?Nougat æˆåŠŸ
    
    # Step 4: é™çº§åˆ?PyMuPDF
    return extract_pdf_pymupdf(file_path)
```

#### æŠ€æœ¯å¯¹æ¯?

| æ–¹æ¡ˆ | ä¼˜åŠ¿ | åŠ£åŠ¿ | é€‚ç”¨åœºæ™¯ |
|------|------|------|---------|
| **Nougat** â­?| â€?ä¸“ä¸ºç§‘å­¦æ–‡çŒ®è®¾è®¡<br>â€?å…¬å¼ã€è¡¨æ ¼å‡†ç¡®çŽ‡é«?br>â€?è¾“å‡º Markdown æ ¼å¼<br>â€?ä¿ç•™æ–‡æ¡£ç»“æž„ | â€?é€Ÿåº¦æ…¢ï¼ˆ1-2 åˆ†é’Ÿ/20 é¡µï¼‰<br>â€?éœ€è¦?GPU åŠ é€?br>â€?å†…å­˜å ç”¨å¤§ï¼ˆ~4GBï¼?| è‹±æ–‡åŒ»å­¦æ–‡çŒ®å…¨æ–‡æå– |
| **PyMuPDF** | â€?é€Ÿåº¦å¿«ï¼ˆç§’çº§ï¼?br>â€?å†…å­˜å ç”¨ä½?br>â€?éƒ¨ç½²ç®€å?| â€?å…¬å¼ã€è¡¨æ ¼æ˜“ä¸¢å¤±<br>â€?çº¯æ–‡æœ¬è¾“å‡?br>â€?å¸ƒå±€æ˜“æ··ä¹?| ä¸­æ–‡æ–‡çŒ®ã€å¿«é€Ÿé¢„è§?|
| **Adobe API** | â€?å•†ä¸šçº§å‡†ç¡®çŽ‡<br>â€?äº‘ç«¯å¤„ç† | â€?éœ€ä»˜è´¹<br>â€?ç½‘ç»œä¾èµ–<br>â€?éšç§é£Žé™© | ä¸æŽ¨èï¼ˆæˆæœ¬é«˜ï¼‰ |
| **Tesseract OCR** | â€?å¼€æºå…è´?br>â€?æ”¯æŒå¤šè¯­è¨€ | â€?éœ€è¦å›¾åƒé¢„å¤„ç†<br>â€?å‡†ç¡®çŽ‡ä¸ç¨³å®š | æ‰«æç‰?PDFï¼ˆå¤‡é€‰ï¼‰ |

**æŽ¨èæ–¹æ¡ˆï¼šNougatï¼ˆä¸»ï¼?+ PyMuPDFï¼ˆé™çº§ï¼‰ â­?*

#### Nougat æ ¸å¿ƒä¼˜åŠ¿ï¼ˆåŒ»å­¦æ–‡çŒ®åœºæ™¯ï¼‰

```
âœ?ä¸“ä¸ºç§‘å­¦æ–‡çŒ®è®¾è®¡
   â”œâ”€ è®­ç»ƒæ•°æ®ï¼šarXiv è®ºæ–‡ + ç§‘å­¦æœŸåˆŠ
   â”œâ”€ å…¬å¼è¯†åˆ«ï¼šLaTeX æ ¼å¼è¾“å‡º
   â”œâ”€ è¡¨æ ¼ä¿ç•™ï¼šMarkdown è¡¨æ ¼æ ¼å¼
   â””â”€ ç»“æž„åŒ–è¾“å‡ºï¼šç« èŠ‚ã€æ®µè½æ¸…æ™?

âœ?è¾“å‡ºæ ¼å¼ï¼šMarkdown
   â”œâ”€ æ ‡é¢˜å±‚çº§ï¼? ## ###
   â”œâ”€ è¡¨æ ¼ï¼š| Header | Data |
   â”œâ”€ å…¬å¼ï¼?$ formula $$
   â””â”€ å¼•ç”¨ï¼š[1] [2] [3]

âœ?è´¨é‡è¯„ä¼°æœºåˆ¶
   â”œâ”€ è‡ªåŠ¨è´¨é‡è¯„åˆ†ï¼?-1ï¼?
   â”œâ”€ ä½Žè´¨é‡è‡ªåŠ¨é™çº?PyMuPDF
   â””â”€ ä¿è¯æå–æˆåŠŸçŽ?
```

#### å®žçŽ°ç»†èŠ‚

**æœåŠ¡æž¶æž„ï¼?*
```
Node.js Backend (Port 3001)
    â”?
    â”œâ”€ è°ƒç”¨ ExtractionClient.ts
    â”?  â””â”€ HTTP è¯·æ±‚ â†?Python å¾®æœåŠ?
    â”?
Python Extraction Service (Port 8000)
    â”?
    â”œâ”€ /api/extract/pdf
    â”?  â”œâ”€ detect_language()
    â”?  â”œâ”€ extract_pdf_nougat() â†?Nougat Model
    â”?  â””â”€ extract_pdf_pymupdf() â†?PyMuPDF
    â”?
    â””â”€ /api/health
        â””â”€ æ£€æŸ?Nougat å¯ç”¨æ€?
```

**Node.js è°ƒç”¨ä»£ç ï¼?*
```typescript
import { extractionClient } from '@common/document/ExtractionClient';

async function extractLiteraturePDF(file: Buffer, filename: string) {
  try {
    // æ–¹æ³• 1: è‡ªåŠ¨é€‰æ‹©ï¼ˆæŽ¨èï¼‰
    const result = await extractionClient.extractPdf(
      file, 
      filename, 
      'auto'
    );
    
    // æ–¹æ³• 2: å¼ºåˆ¶ä½¿ç”¨ Nougat
    // const result = await extractionClient.extractPdf(file, filename, 'nougat');
    
    return {
      text: result.text,
      method: result.method,  // "nougat" | "pymupdf"
      quality: result.metadata.quality_score,
      pageCount: result.metadata.page_count,
      hasTables: result.metadata.has_tables,
      hasFormulas: result.metadata.has_formulas
    };
  } catch (error) {
    console.error('PDF extraction failed:', error);
    throw error;
  }
}
```

**Python æå–ä»£ç ï¼?*
```python
# extraction_service/services/nougat_extractor.py

def extract_pdf_nougat(file_path: str) -> Dict[str, Any]:
    """
    ä½¿ç”¨ Nougat æå– PDF æ–‡æœ¬
    
    å‘½ä»¤è¡Œè°ƒç”¨ï¼š
    nougat <pdf_path> -o <output_dir> --markdown --no-skipping
    """
    cmd = [
        'nougat',
        file_path,
        '-o', output_dir,
        '--markdown',      # è¾“å‡º Markdown æ ¼å¼
        '--no-skipping'    # ä¸è·³è¿‡ä»»ä½•é¡µé?
    ]
    
    # æ‰§è¡Œ Nougatï¼ˆè¶…æ—?5 åˆ†é’Ÿï¼?
    process = subprocess.Popen(cmd, ...)
    stdout, stderr = process.communicate(timeout=300)
    
    # è¯»å–è¾“å‡ºæ–‡ä»¶ï¼?mmdï¼?
    markdown_text = read_output_file()
    
    # è´¨é‡è¯„ä¼°
    quality_score = evaluate_nougat_quality(markdown_text)
    
    return {
        "success": True,
        "method": "nougat",
        "text": markdown_text,
        "format": "markdown",
        "metadata": {
            "quality_score": quality_score,
            "has_tables": detect_tables(markdown_text),
            "has_formulas": detect_formulas(markdown_text)
        }
    }
```

### 2.3 æ–‡æœ¬åŽå¤„ç?

**Nougat è¾“å‡ºä¼˜åŒ–ï¼?*
```typescript
function postProcessNougatOutput(markdown: string): ProcessedText {
  return {
    // åŽŸå§‹ Markdown
    raw: markdown,
    
    // ç« èŠ‚åˆ†å‰²
    sections: extractSections(markdown),  // {abstract, methods, results, ...}
    
    // è¡¨æ ¼æå–
    tables: extractTables(markdown),
    
    // å…¬å¼æå–
    formulas: extractFormulas(markdown),
    
    // çº¯æ–‡æœ¬ï¼ˆåŽ»é™¤æ ¼å¼ï¼?
    plainText: markdownToPlainText(markdown),
    
    // ç»“æž„åŒ–æ•°æ®ï¼ˆç”¨äºŽ LLMï¼?
    structured: {
      title: extractTitle(markdown),
      abstract: extractAbstract(markdown),
      methodology: extractMethodology(markdown),
      results: extractResults(markdown),
    }
  };
}
```

---

## ðŸ“Œ åœºæ™¯ 4: æ–‡çŒ®ä¸‹è½½ï¼ˆUnpaywall APIï¼‰â­

### 3.1 æŠ€æœ¯èƒŒæ™?

**Unpaywall** æ˜¯ä¸€ä¸ªå…è´¹çš„å¼€æ”¾èŽ·å–ï¼ˆOpen Accessï¼‰æ–‡çŒ?APIï¼Œå¯ä»¥ï¼š
- âœ?é€šè¿‡ DOI æŸ¥è¯¢æ–‡çŒ®æ˜¯å¦æœ‰å…è´¹å…¨æ–?
- âœ?èŽ·å–åˆæ³•çš?PDF ä¸‹è½½é“¾æŽ¥
- âœ?å®Œå…¨å…è´¹ï¼Œæ— éœ€ä»˜è´¹
- âœ?æ•°æ®åº“è¦†ç›?3000+ ä¸‡ç¯‡æ–‡çŒ®

**å®˜ç½‘**: https://unpaywall.org/products/api

### 3.2 æŠ€æœ¯é€‰åž‹

#### API è°ƒç”¨æ–¹å¼

**åŸºç¡€ä¿¡æ¯ï¼?*
- **API ç«¯ç‚¹**: `https://api.unpaywall.org/v2/{doi}?email={your_email}`
- **è¯·æ±‚æ–¹æ³•**: GET
- **è®¤è¯æ–¹å¼**: æ— éœ€ API Keyï¼Œä»…éœ€æä¾›é‚®ç®±
- **é€ŸçŽ‡é™åˆ¶**: 100,000 æ¬?å¤©ï¼ˆå…è´¹ï¼?

**ç¤ºä¾‹è¯·æ±‚ï¼?*
```bash
curl "https://api.unpaywall.org/v2/10.1038/nature12373?email=YOUR_EMAIL"
```

**å“åº”ç¤ºä¾‹ï¼?*
```json
{
  "doi": "10.1038/nature12373",
  "title": "The genome of the woodland strawberry",
  "is_oa": true,
  "oa_status": "gold",
  "best_oa_location": {
    "url": "https://www.nature.com/articles/nature12373.pdf",
    "url_for_pdf": "https://www.nature.com/articles/nature12373.pdf",
    "url_for_landing_page": "https://www.nature.com/articles/nature12373",
    "license": "cc-by",
    "version": "publishedVersion"
  },
  "oa_locations": [...]
}
```

#### Node.js å®žçŽ°

**æœåŠ¡å°è£…ï¼?*
```typescript
// backend/src/common/literature/UnpaywallClient.ts

import axios from 'axios';
import { config } from '../../config/env';

export interface UnpaywallResult {
  doi: string;
  title: string;
  isOA: boolean;              // æ˜¯å¦å¼€æ”¾èŽ·å?
  oaStatus: string;           // "gold" | "green" | "hybrid" | "bronze" | "closed"
  pdfUrl: string | null;      // PDF ä¸‹è½½é“¾æŽ¥
  landingPageUrl: string;     // æ–‡çŒ®é¡µé¢é“¾æŽ¥
  license: string | null;     // è®¸å¯åè®®
  version: string | null;     // "publishedVersion" | "acceptedVersion"
}

class UnpaywallClient {
  private baseUrl = 'https://api.unpaywall.org/v2';
  private email: string;

  constructor(email: string = config.unpaywallEmail) {
    this.email = email;
  }

  /**
   * é€šè¿‡ DOI æŸ¥è¯¢æ–‡çŒ®ä¿¡æ¯
   */
  async getByDoi(doi: string): Promise<UnpaywallResult> {
    try {
      const url = `${this.baseUrl}/${doi}?email=${this.email}`;
      const response = await axios.get(url, {
        timeout: 10000,  // 10 ç§’è¶…æ—?
      });

      const data = response.data;

      // èŽ·å–æœ€ä½³ä¸‹è½½ä½ç½?
      const bestOA = data.best_oa_location;

      return {
        doi: data.doi,
        title: data.title,
        isOA: data.is_oa,
        oaStatus: data.oa_status,
        pdfUrl: bestOA?.url_for_pdf || null,
        landingPageUrl: bestOA?.url_for_landing_page || data.doi_url,
        license: bestOA?.license || null,
        version: bestOA?.version || null,
      };
    } catch (error) {
      if (axios.isAxiosError(error)) {
        if (error.response?.status === 404) {
          throw new Error(`DOI not found: ${doi}`);
        }
      }
      throw new Error(`Unpaywall API error: ${error.message}`);
    }
  }

  /**
   * æ‰¹é‡æŸ¥è¯¢ï¼ˆå¸¦é€ŸçŽ‡é™åˆ¶ï¼?
   */
  async getBatch(dois: string[]): Promise<UnpaywallResult[]> {
    const results = [];
    
    for (const doi of dois) {
      try {
        const result = await this.getByDoi(doi);
        results.push(result);
        
        // é€ŸçŽ‡é™åˆ¶ï¼?00ms/è¯·æ±‚
        await new Promise(resolve => setTimeout(resolve, 100));
      } catch (error) {
        console.error(`Failed to fetch ${doi}:`, error.message);
        results.push(null);  // å¤±è´¥é¡¹æ ‡è®°ä¸º null
      }
    }
    
    return results.filter(r => r !== null);
  }

  /**
   * ä¸‹è½½ PDF æ–‡ä»¶
   */
  async downloadPdf(pdfUrl: string, outputPath: string): Promise<void> {
    try {
      const response = await axios.get(pdfUrl, {
        responseType: 'arraybuffer',
        timeout: 60000,  // 1 åˆ†é’Ÿè¶…æ—¶
      });

      const fs = require('fs');
      fs.writeFileSync(outputPath, response.data);
    } catch (error) {
      throw new Error(`PDF download failed: ${error.message}`);
    }
  }
}

export const unpaywallClient = new UnpaywallClient();
```

**çŽ¯å¢ƒå˜é‡é…ç½®ï¼?*
```env
# .env
UNPAYWALL_EMAIL=your-email@example.com
```

#### ä¸šåŠ¡é›†æˆ

**åœºæ™¯ 1ï¼šæ‰¹é‡æ£€æŸ¥æ–‡çŒ®æ˜¯å¦å¯ä¸‹è½½**
```typescript
async function checkLiteratureAvailability(literatures: Literature[]) {
  const dois = literatures
    .map(lit => lit.doi)
    .filter(doi => doi);  // è¿‡æ»¤ç©?DOI

  const results = await unpaywallClient.getBatch(dois);

  return literatures.map(lit => ({
    ...lit,
    downloadable: results.find(r => r.doi === lit.doi)?.isOA || false,
    pdfUrl: results.find(r => r.doi === lit.doi)?.pdfUrl || null,
  }));
}
```

**åœºæ™¯ 2ï¼šç”¨æˆ·ç‚¹å‡»ä¸‹è½½å…¨æ–?*
```typescript
async function downloadLiteratureFullText(doi: string) {
  // Step 1: æŸ¥è¯¢ Unpaywall
  const unpaywallResult = await unpaywallClient.getByDoi(doi);

  if (!unpaywallResult.pdfUrl) {
    throw new Error('è¯¥æ–‡çŒ®æ— å…è´¹å…¨æ–‡');
  }

  // Step 2: ä¸‹è½½ PDF
  const filename = `${doi.replace(/\//g, '_')}.pdf`;
  const outputPath = `./downloads/${filename}`;
  
  await unpaywallClient.downloadPdf(unpaywallResult.pdfUrl, outputPath);

  // Step 3: æå–æ–‡æœ¬ï¼ˆè°ƒç”?extraction_serviceï¼?
  const extractionResult = await extractionClient.extractPdf(
    fs.readFileSync(outputPath),
    filename,
    'auto'
  );

  return {
    pdfPath: outputPath,
    text: extractionResult.text,
    method: extractionResult.method,
  };
}
```

### 3.3 å‰ç«¯é›†æˆ

**æ‰¹é‡ä¸‹è½½æŒ‰é’®ï¼?*
```typescript
// æ‰¹é‡æ£€æŸ¥å¯ä¸‹è½½æ€?
async function checkDownloadable(selectedRows: Literature[]) {
  setLoading(true);
  
  const results = await api.checkLiteratureAvailability(selectedRows);
  
  const downloadableCount = results.filter(r => r.downloadable).length;
  
  message.success(`å‘çŽ° ${downloadableCount} ç¯‡å¯ä¸‹è½½å…¨æ–‡`);
  setLiteratures(results);
  setLoading(false);
}

// ä¸‹è½½å…¨æ–‡
async function downloadFullText(literature: Literature) {
  if (!literature.downloadable) {
    message.warning('è¯¥æ–‡çŒ®æ— å…è´¹å…¨æ–‡');
    return;
  }

  try {
    const result = await api.downloadLiteratureFullText(literature.doi);
    message.success('ä¸‹è½½æˆåŠŸ');
    
    // æ‰“å¼€ PDF æŸ¥çœ‹å™?
    openPdfViewer(result.pdfPath);
  } catch (error) {
    message.error(`ä¸‹è½½å¤±è´¥: ${error.message}`);
  }
}
```

---

## ðŸ” è¡¥å……æŠ€æœ¯ç‚¹

### 4.1 æ‚¨æåˆ°çš„æŠ€æœ¯ç‚¹æ€»ç»“

| æŠ€æœ¯ç‚¹ | çŠ¶æ€?| è¯´æ˜Ž |
|--------|------|------|
| âœ?Nougat æ¨¡åž‹ | å·²å®žçŽ?| `extraction_service/services/nougat_extractor.py` |
| âœ?PyMuPDF | å·²å®žçŽ?| `extraction_service/services/pdf_extractor.py` |
| âœ?é¡ºåºé™çº§ç­–ç•¥ | å·²å®žçŽ?| è‹±æ–‡â†’Nougatï¼Œä¸­æ–‡â†’PyMuPDF |
| ðŸ†• Unpaywall API | éœ€æ–°å¢ž | æœ¬æ–‡æ¡£æä¾›å®žçŽ°æ–¹æ¡?|
| âœ?Excel è§£æž | éœ€æ–°å¢ž | ä½¿ç”¨ `xlsx` åº“ï¼ˆå‰ç«¯ï¼?|

### 4.2 å¯èƒ½é—æ¼çš„æŠ€æœ¯ç‚¹ â­?

#### ï¼?ï¼‰è¡¨æ ¼æå–å¢žå¼?

**é—®é¢˜**ï¼šNougat è™½ç„¶ä¿ç•™è¡¨æ ¼ç»“æž„ï¼Œä½† LLM ç›´æŽ¥å¤„ç† Markdown è¡¨æ ¼å¯èƒ½ä¸å‡†ç¡®ã€?

**è§£å†³æ–¹æ¡ˆï¼šTable Transformer**
```python
# ä½¿ç”¨å¾®è½¯çš?Table Transformer æ¨¡åž‹
# https://github.com/microsoft/table-transformer

from transformers import TableTransformerForObjectDetection
import torch

def extract_tables_enhanced(pdf_path: str):
    """
    ä½¿ç”¨ Table Transformer ç²¾ç¡®å®šä½è¡¨æ ¼
    """
    model = TableTransformerForObjectDetection.from_pretrained(
        "microsoft/table-transformer-detection"
    )
    
    # æ£€æµ‹è¡¨æ ¼ä½ç½?
    tables = model.detect_tables(pdf_path)
    
    # æå–æ¯ä¸ªè¡¨æ ¼
    for table in tables:
        table_image = crop_table(pdf_path, table.bbox)
        table_data = ocr_table(table_image)
        
    return structured_tables
```

**ä¼˜å…ˆçº§ï¼šV2.0**ï¼ˆMVP é˜¶æ®µ Nougat è¶³å¤Ÿï¼?

#### ï¼?ï¼‰å¼•ç”¨è§£æžä¸Žé“¾æŽ¥

**é—®é¢˜**ï¼šç§‘å­¦æ–‡çŒ®åŒ…å«å¤§é‡å¼•ç”?`[1] [2] [3]`ï¼Œéœ€è¦è§£æžå¹¶é“¾æŽ¥åˆ°å‚è€ƒæ–‡çŒ®ã€?

**è§£å†³æ–¹æ¡ˆï¼šGROBID**
```python
# GROBID: å¼€æºç§‘å­¦æ–‡çŒ®è§£æžå·¥å…?
# https://github.com/kermitt2/grobid

import requests

def parse_references(pdf_path: str):
    """
    ä½¿ç”¨ GROBID è§£æžå‚è€ƒæ–‡çŒ?
    """
    with open(pdf_path, 'rb') as f:
        files = {'input': f}
        response = requests.post(
            'http://localhost:8070/api/processFulltextDocument',
            files=files
        )
    
    # è¿”å›žç»“æž„åŒ–çš„å¼•ç”¨åˆ—è¡¨
    return response.json()['references']
```

**ä¼˜å…ˆçº§ï¼šV2.0**ï¼ˆéžæ ¸å¿ƒåŠŸèƒ½ï¼?

#### ï¼?ï¼‰å…¬å¼è¯†åˆ«ä¸Žæ¸²æŸ“

**é—®é¢˜**ï¼šNougat è¾“å‡º LaTeX å…¬å¼ï¼Œå‰ç«¯éœ€è¦æ¸²æŸ“ã€?

**è§£å†³æ–¹æ¡ˆï¼šKaTeX / MathJax**
```typescript
// å‰ç«¯æ¸²æŸ“ LaTeX å…¬å¼
import katex from 'katex';
import 'katex/dist/katex.min.css';

function renderFormula(latex: string) {
  return katex.renderToString(latex, {
    throwOnError: false,
    displayMode: true,
  });
}
```

**ä¼˜å…ˆçº§ï¼šMVP**ï¼ˆæå‡ç”¨æˆ·ä½“éªŒï¼‰

#### ï¼?ï¼‰PDF é¢„è§ˆä¸Žæ ‡æ³?

**é—®é¢˜**ï¼šäººå·¥å¤æ ¸æ—¶éœ€è¦æŸ¥çœ‹åŽŸæ–‡ï¼Œå¹¶é«˜äº®æ ‡æ³¨ã€?

**è§£å†³æ–¹æ¡ˆï¼šPDF.js + Annotator.js**
```typescript
// React ç»„ä»¶
import { Viewer } from '@react-pdf-viewer/core';
import '@react-pdf-viewer/core/lib/styles/index.css';

function PdfViewer({ pdfUrl, annotations }) {
  return (
    <Viewer
      fileUrl={pdfUrl}
      plugins={[
        highlightPlugin({
          highlights: annotations  // é«˜äº®ä½ç½®
        })
      ]}
    />
  );
}
```

**ä¼˜å…ˆçº§ï¼šMVP**ï¼ˆæ ¸å¿ƒåŠŸèƒ½ï¼‰

#### ï¼?ï¼‰æ–‡çŒ®åŽ»é‡?

**é—®é¢˜**ï¼šExcel ä¸Šä¼ å¯èƒ½åŒ…å«é‡å¤æ–‡çŒ®ï¼ˆåŒä¸€ç¯‡æ–‡çŒ®ä¸åŒç‰ˆæœ¬ï¼‰ã€?

**è§£å†³æ–¹æ¡ˆï¼šåŸºäº?DOI å’Œæ ‡é¢˜çš„åŽ»é‡**
```typescript
function deduplicateLiteratures(literatures: Literature[]) {
  const seen = new Set();
  
  return literatures.filter(lit => {
    // ä¼˜å…ˆä½¿ç”¨ DOI
    if (lit.doi) {
      if (seen.has(lit.doi)) return false;
      seen.add(lit.doi);
      return true;
    }
    
    // å¦åˆ™ä½¿ç”¨æ ‡é¢˜ï¼ˆæ ‡å‡†åŒ–åŽï¼‰
    const normalizedTitle = normalizeTitle(lit.title);
    if (seen.has(normalizedTitle)) return false;
    seen.add(normalizedTitle);
    return true;
  });
}

function normalizeTitle(title: string): string {
  return title
    .toLowerCase()
    .replace(/[^\w\s]/g, '')  // åŽ»é™¤æ ‡ç‚¹
    .replace(/\s+/g, ' ')      // è§„èŒƒåŒ–ç©ºæ ?
    .trim();
}
```

**ä¼˜å…ˆçº§ï¼šMVP**ï¼ˆå¿…é¡»åŠŸèƒ½ï¼‰

#### ï¼?ï¼‰æ–‡çŒ®å…ƒæ•°æ®è¡¥å…¨

**é—®é¢˜**ï¼šExcel ä¸Šä¼ çš„æ•°æ®å¯èƒ½ä¸å®Œæ•´ï¼ˆç¼º DOIã€å¹´ä»½ç­‰ï¼‰ã€?

**è§£å†³æ–¹æ¡ˆï¼šCrossref API**
```typescript
// é€šè¿‡æ ‡é¢˜æŸ¥è¯¢ DOI
async function enrichMetadata(literature: Literature) {
  if (literature.doi) return literature;  // å·²æœ‰ DOI

  // è°ƒç”¨ Crossref API
  const response = await axios.get(
    `https://api.crossref.org/works?query.title=${literature.title}`
  );

  const match = response.data.message.items[0];
  
  return {
    ...literature,
    doi: match.DOI,
    year: match['published-print']?.['date-parts'][0][0],
    journal: match['container-title'][0],
  };
}
```

**ä¼˜å…ˆçº§ï¼šV1.0**ï¼ˆå¢žå¼ºåŠŸèƒ½ï¼‰

#### ï¼?ï¼‰æ‰¹å¤„ç†è¿›åº¦æŒä¹…åŒ?

**é—®é¢˜**ï¼šæ‰¹é‡ç­›é€‰è€—æ—¶é•¿ï¼ˆ1000 ç¯?> 10 åˆ†é’Ÿï¼‰ï¼Œéœ€æ”¯æŒæ–­ç‚¹ç»­ä¼ ã€?

**è§£å†³æ–¹æ¡ˆï¼šRedis + ä»»åŠ¡é˜Ÿåˆ—**
```typescript
// ä½¿ç”¨ Bull é˜Ÿåˆ—
import Queue from 'bull';

const screeningQueue = new Queue('literature-screening', {
  redis: { host: 'localhost', port: 6379 }
});

// æ·»åŠ ä»»åŠ¡
screeningQueue.add({
  projectId: 'xxx',
  literatures: [...],
  protocol: {...}
});

// å¤„ç†ä»»åŠ¡
screeningQueue.process(async (job) => {
  const { projectId, literatures, protocol } = job.data;
  
  for (let i = 0; i < literatures.length; i++) {
    // å¤„ç†å•ç¯‡æ–‡çŒ®
    await screenLiterature(literatures[i], protocol);
    
    // æ›´æ–°è¿›åº¦
    job.progress((i + 1) / literatures.length * 100);
  }
});
```

**ä¼˜å…ˆçº§ï¼šV1.0**ï¼ˆä½“éªŒä¼˜åŒ–ï¼‰

#### ï¼?ï¼‰é”™è¯¯å¤„ç†ä¸Žé‡è¯•

**é—®é¢˜**ï¼šLLM è°ƒç”¨å¯èƒ½å¤±è´¥ï¼ˆç½‘ç»œã€è¶…æ—¶ã€é™æµï¼‰ã€?

**è§£å†³æ–¹æ¡ˆï¼šæŒ‡æ•°é€€é¿é‡è¯?*
```typescript
async function retryWithBackoff<T>(
  fn: () => Promise<T>,
  maxRetries: number = 3
): Promise<T> {
  for (let i = 0; i < maxRetries; i++) {
    try {
      return await fn();
    } catch (error) {
      if (i === maxRetries - 1) throw error;
      
      // æŒ‡æ•°é€€é¿ï¼š1s, 2s, 4s
      const delay = Math.pow(2, i) * 1000;
      await new Promise(resolve => setTimeout(resolve, delay));
    }
  }
}
```

**ä¼˜å…ˆçº§ï¼šMVP**ï¼ˆå¿…é¡»åŠŸèƒ½ï¼‰

---

## ðŸ“Š æŠ€æœ¯é€‰åž‹æ€»ç»“

### MVP é˜¶æ®µå¿…é€‰æŠ€æœ?

| å±‚çº§ | æŠ€æœ?| ç”¨é€?|
|------|------|------|
| **å‰ç«¯** | `xlsx` | Excel è§£æž |
| **å‰ç«¯** | `PDF.js` | PDF é¢„è§ˆ |
| **å‰ç«¯** | `KaTeX` | å…¬å¼æ¸²æŸ“ |
| **åŽç«¯** | `ExtractionClient` | è°ƒç”¨ Python å¾®æœåŠ?|
| **åŽç«¯** | `UnpaywallClient` | æ–‡çŒ®ä¸‹è½½ |
| **Python** | `Nougat` | è‹±æ–‡ PDF æå– |
| **Python** | `PyMuPDF` | å¿«é€?PDF æå– |
| **æ•°æ®åº?* | `asl_schema` | æ•°æ®å­˜å‚¨ |

### V1.0 å¢žå¼ºæŠ€æœ?

| æŠ€æœ?| ç”¨é€?|
|------|------|
| Crossref API | å…ƒæ•°æ®è¡¥å…?|
| Bull Queue | ä»»åŠ¡é˜Ÿåˆ— |
| Redis | è¿›åº¦æŒä¹…åŒ?|

### V2.0 é«˜çº§æŠ€æœ?

| æŠ€æœ?| ç”¨é€?|
|------|------|
| Table Transformer | è¡¨æ ¼ç²¾ç¡®æå– |
| GROBID | å¼•ç”¨è§£æž |
| Semantic Scholar API | å­¦æœ¯å›¾è°± |

---

## ðŸ“ æµ‹è¯•æ•°æ®å­˜æ”¾å»ºè®®

æ ¹æ® ASL æ¨¡å—çš„æ–‡ä»¶å¤¹ç»“æž„ï¼Œæµ‹è¯•æ•°æ®åº”è¯¥æ”¾åœ¨ï¼š

```
AIclinicalresearch/docs/03-ä¸šåŠ¡æ¨¡å—/ASL-AIæ™ºèƒ½æ–‡çŒ®/
â””â”€â”€ 05-æµ‹è¯•æ–‡æ¡£/
    â”œâ”€â”€ 01-æµ‹è¯•è®¡åˆ’.md
    â”œâ”€â”€ 02-æ ‡é¢˜æ‘˜è¦åˆç­›æµ‹è¯•ç”¨ä¾‹.md
    â””â”€â”€ 03-æµ‹è¯•æ•°æ®/  â†?æ–°å»ºæ–‡ä»¶å¤?
        â”œâ”€â”€ README.md  â†?è¯´æ˜Žæ–‡æ¡£
        â”œâ”€â”€ screening-test-data/
        â”?  â”œâ”€â”€ literature-list-199.xlsx  â†?199 ç¯‡æ–‡çŒ®åˆ—è¡?
        â”?  â”œâ”€â”€ picos-criteria.txt        â†?PICOS æ ‡å‡†
        â”?  â””â”€â”€ expected-results.json     â†?é¢„æœŸç»“æžœï¼ˆé‡‘æ ‡å‡†ï¼?
        â”œâ”€â”€ pdf-samples/
        â”?  â”œâ”€â”€ sample-rct-01.pdf
        â”?  â”œâ”€â”€ sample-cohort-01.pdf
        â”?  â””â”€â”€ README.md
        â””â”€â”€ extraction-test-data/
            â””â”€â”€ README.md
```

**æŽ¨èç»“æž„ï¼?*
```
05-æµ‹è¯•æ–‡æ¡£/
â”œâ”€â”€ 01-æµ‹è¯•è®¡åˆ’.md
â”œâ”€â”€ 02-æ ‡é¢˜æ‘˜è¦åˆç­›æµ‹è¯•ç”¨ä¾‹.md
â””â”€â”€ 03-æµ‹è¯•æ•°æ®/
    â”œâ”€â”€ README.md  â†?é‡è¦ï¼è¯´æ˜Žæµ‹è¯•æ•°æ®æ¥æºã€ç‰ˆæƒã€ä½¿ç”¨æ–¹æ³?
    â”œâ”€â”€ screening/
    â”?  â”œâ”€â”€ literature-list-199.xlsx
    â”?  â”œâ”€â”€ picos-criteria.txt
    â”?  â”œâ”€â”€ inclusion-criteria.txt
    â”?  â”œâ”€â”€ exclusion-criteria.txt
    â”?  â””â”€â”€ gold-standard.json  â†?äººå·¥æ ‡æ³¨çš„æ­£ç¡®ç­”æ¡?
    â””â”€â”€ pdf-extraction/
        â”œâ”€â”€ sample-01-high-quality.pdf
        â”œâ”€â”€ sample-02-with-tables.pdf
        â””â”€â”€ sample-03-chinese.pdf
```

**README.md ç¤ºä¾‹ï¼?*
```markdown
# ASL æµ‹è¯•æ•°æ®é›?

## ðŸ“‹ æ•°æ®è¯´æ˜Ž

### 1. æ ‡é¢˜æ‘˜è¦åˆç­›æµ‹è¯•æ•°æ®
- **æ–‡ä»¶**: `literature-list-199.xlsx`
- **æ•°é‡**: 199 ç¯‡è‹±æ–‡åŒ»å­¦æ–‡çŒ?
- **å­—æ®µ**: æ ‡é¢˜ã€æ‘˜è¦ã€DOIã€ä½œè€…ã€å¹´ä»½ã€æœŸåˆ?
- **æ¥æº**: [æè¿°æ•°æ®æ¥æº]
- **ç‰ˆæƒ**: [è¯´æ˜Žç‰ˆæƒä¿¡æ¯]

### 2. PICOS æ ‡å‡†
- **æ–‡ä»¶**: `picos-criteria.txt`
- **å†…å®¹**: Population, Intervention, Comparison, Outcome, Study Design
- **çº³å…¥æ ‡å‡†**: 5 æ?
- **æŽ’é™¤æ ‡å‡†**: 8 æ?

### 3. é‡‘æ ‡å‡†ï¼ˆäººå·¥æ ‡æ³¨ç»“æžœï¼?
- **æ–‡ä»¶**: `gold-standard.json`
- **æ ‡æ³¨äº?*: [æ ‡æ³¨ä¸“å®¶ä¿¡æ¯]
- **æ ‡æ³¨æ—¶é—´**: [æ—¶é—´]
- **é¢„æœŸå‡†ç¡®çŽ?*: â‰?90%

## ðŸŽ¯ ä½¿ç”¨æ–¹æ³•

### è¿è¡Œæµ‹è¯•
```bash
npm run test:asl:screening
```

### è¯„ä¼°å‡†ç¡®çŽ?
```bash
npm run test:asl:evaluate -- --gold-standard gold-standard.json
```

## ðŸ“Š é¢„æœŸç»“æžœ
- çº³å…¥: 45 ç¯?
- æŽ’é™¤: 132 ç¯?
- ä¸ç¡®å®? 22 ç¯?
```

---

## ðŸ“š ç›¸å…³æ–‡æ¡£

- [è´¨é‡ä¿éšœä¸Žå¯è¿½æº¯ç­–ç•¥](./06-è´¨é‡ä¿éšœä¸Žå¯è¿½æº¯ç­–ç•¥.md)
- [æ•°æ®åº“è®¾è®¡](./01-æ•°æ®åº“è®¾è®?md)
- [API è®¾è®¡è§„èŒƒ](./02-APIè®¾è®¡è§„èŒƒ.md)
- [æ–‡æ¡£æå–å¾®æœåŠ¡](../../../../extraction_service/README.md)

---

**æ›´æ–°æ—¥å¿—**ï¼?
- 2025-11-15: åˆ›å»ºæ–‡æ¡£ï¼Œå®šä¹‰åˆç­›ã€å…¨æ–‡å¤„ç†ã€æ–‡çŒ®ä¸‹è½½æŠ€æœ¯é€‰åž‹