# **æ€»ä½“ PRDï¼šåŒ»ç–—ç§‘ç ”æ™ºèƒ½æ•°æ®æ¸…æ´—å¹³å?(The Data Cleaning Platform)**

| æ–‡æ¡£ç‰ˆæœ¬ | V1.0 (åŸºäºŽå·¥å…·ç®±æž¶æž? |
| :---- | :---- |
| **äº§å“å½¢æ€?* | ä¼ä¸šçº?Web SaaS å¹³å° |
| **æ ¸å¿ƒä»·å€?* | ä¸ºä¸´åºŠåŒ»ç”Ÿæä¾?**â€œä¸€ç«™å¼â€?* çš„æ•°æ®æ²»ç†èƒ½åŠ›ï¼Œè§£å†³å¤šæºå¼‚æž„æ•°æ®åˆå¹¶éš¾ã€ç—…åŽ†æ–‡æœ¬æå–éš¾ã€ç»Ÿè®¡å‰æ¸…æ´—ç¹ççš„ä¸‰å¤§ç—›ç‚¹ã€?|
| **æŠ€æœ¯æž¶æž?* | Node.js \+ React \+ Python/R (ç»Ÿè®¡æœåŠ¡) \+ LLM |

## **ä¸€ã€?é¡¹ç›®èƒŒæ™¯ä¸Žç›®æ ?(Background & Objectives)**

### **1.1 æ ¸å¿ƒç—›ç‚¹**

ä¸´åºŠç§‘ç ”æ•°æ®çš„å‡†å¤‡è¿‡ç¨‹ï¼ˆData Preparationï¼‰é€šå¸¸å æ®æ•´ä¸ªç§‘ç ”å‘¨æœŸçš?80% æ—¶é—´ã€‚åŒ»ç”Ÿé¢ä¸´ä¸‰å¤§é˜»ç¢ï¼š

1. **ä¹?(Messy):** HIS å¯¼å‡ºçš„æ•°æ®åˆ†æ•£åœ¨å¤šä¸ª Excelï¼ˆé—¨è¯Šã€ä½é™¢ã€æ£€éªŒï¼‰ï¼ŒID å¯¹ä¸ä¸Šï¼Œæ—¶é—´çº¿æ··ä¹±ã€? 
2. **æ?(Unstructured):** å¤§é‡å…³é”®ä¿¡æ¯ï¼ˆå¦‚ç—…ç†è¯Šæ–­ã€å‡ºé™¢å°ç»“ï¼‰å­˜åœ¨äºŽæ–‡æœ¬æ®µè½ä¸­ï¼Œæ— æ³•ç›´æŽ¥ç»Ÿè®¡ã€? 
3. **é”?(Dirty):** ç¼ºå¤±å€¼ã€å¼‚å¸¸å€¼ã€å½•å…¥é”™è¯¯é¢‘å‘ï¼Œä¸ç¬¦åˆç»Ÿè®¡è½¯ä»¶ï¼ˆSPSS/SASï¼‰çš„æ ¼å¼è¦æ±‚ã€?
### **1.2 äº§å“ç›®æ ‡**

æž„å»ºä¸€ä¸?**â€œæµç¨‹åŒ–ã€æ™ºèƒ½åŒ–ã€ä½Žé—¨æ§›â€?* çš„æ•°æ®æ¸…æ´—å¹³å°ï¼š

* **æ¨¡å—åŒ?(Modular):** å°†å¤æ‚æµç¨‹æ‹†è§£ä¸ºä¸‰ä¸ªç‹¬ç«‹å·¥å…·ï¼Œé™ä½Žè®¤çŸ¥è´Ÿè·ã€? 
* **å¯ä¿¡èµ?(Trustworthy):** é€šè¿‡â€œåŒæ¨¡åž‹éªŒè¯â€å’Œâ€œå…¨è¿‡ç¨‹è¿½æº¯â€ï¼Œè§£å†³å¯?AI çš„ä¿¡ä»»å±æœºã€? 
* **é«˜æ€§èƒ½ (Performant):** æ”¯æŒ 10ä¸? è¡Œæ•°æ®çš„æµå¼å¤„ç†ä¸Žå®žæ—¶ç¼–è¾‘ã€?
## **äºŒã€?äº§å“æ€»ä½“æž¶æž„ (Product Architecture)**

å¹³å°é‡‡ç”¨ **â€? \+ 3â€?* æž¶æž„æ¨¡å¼ï¼?*1 ä¸ªç»Ÿä¸€å·¥ä½œå?\+ 3 ä¸ªåž‚ç›´æ•ˆèƒ½å·¥å…?*ã€?
### **2.1 æž¶æž„å›?*

graph TD  
    User\[ä¸´åºŠåŒ»ç”Ÿ/ç§‘ç ”äººå‘˜\] \--\> Portal\[æ™ºèƒ½æ•°æ®æ¸…æ´—å·¥ä½œå?(Portal)\]  
      
    subgraph The\_Toolkit \[æ•ˆèƒ½å·¥å…·ç®±\]  
        Portal \--\> ToolA\[å·¥å…· A: è¶…çº§åˆå¹¶å™¨\]  
        Portal \--\> ToolB\[å·¥å…· B: ç—…åŽ†ç»“æž„åŒ–æœºå™¨äºº\]  
        Portal \--\> ToolC\[å·¥å…· C: ç§‘ç ”æ•°æ®ç¼–è¾‘å™¨\]  
    end  
      
    subgraph Data\_Flow \[æ•°æ®æµè½¬\]  
        ToolA \--åˆå¹¶åŽæ•°æ?-\> ToolB  
        ToolB \--ç»“æž„åŒ–æ•°æ?-\> ToolC  
        ToolC \--æ¸…æ´—åŽæ•°æ®é›†--\> Analysis\[æ™ºèƒ½æ•°æ®åˆ†æžæ¨¡å—\]  
    end  
      
    subgraph Core\_Capabilities \[åº•å±‚èƒ½åŠ›\]  
        Engine1\[æµå¼å¤„ç†å¼•æ“Ž\]  
        Engine2\[åŒç›²å¤§æ¨¡åž‹å¼•æ“Ž\]  
        Engine3\[æµè§ˆå™¨è®¡ç®—å¼•æ“Ž\]  
    end  
      
    ToolA \-.-\> Engine1  
    ToolB \-.-\> Engine2  
    ToolC \-.-\> Engine3

### **2.2 æ¨¡å—å®šä¹‰ä¸Žè¾¹ç•?*

| æ¨¡å—åç§° | å¯¹åº”åœºæ™¯ | æ ¸å¿ƒä»»åŠ¡ | å…³é”®äº§å‡º | è¯¦ç»†æ–‡æ¡£ |
| :---- | :---- | :---- | :---- | :---- |
| **å·¥ä½œå?(Portal)** | å…¨å±€å…¥å£ | ä»»åŠ¡ç›‘æŽ§ã€èµ„äº§ç®¡ç†ã€è·¨å·¥å…·æµè½¬ | ç»Ÿä¸€ä»ªè¡¨ç›?| [PRD\_æ•°æ®æ¸…æ´—å·¥ä½œå°](https://www.google.com/search?q=PRD_%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97%E5%B7%A5%E4%BD%9C%E5%8F%B0.md) |
| **å·¥å…· A (Merger)** | å¤šæºåˆå¹¶ | ID å¯¹é½ã€è®¿è§†åŸºå‡†åˆå¹¶ã€æ—¶é—´çª—æ¸…æ´— | å®½è¡¨ (Wide Table) | [PRD\_å·¥å…·A\_è¶…çº§åˆå¹¶å™¨\_V2](https://www.google.com/search?q=PRD_%E5%B7%A5%E5%85%B7A_%E8%B6%85%E7%BA%A7%E5%90%88%E5%B9%B6%E5%99%A8_V2.md) |
| **å·¥å…· B (AI)** | æ–‡æœ¬æå– | OCRã€å®žä½“æå–ã€éšç§è„±æ•ã€äº¤å‰éªŒè¯?| ç»“æž„åŒ–å­—æ®?| [PRD\_å·¥å…·B\_ç—…åŽ†ç»“æž„åŒ–æœºå™¨äºº\_V2](https://www.google.com/search?q=PRD_%E5%B7%A5%E5%85%B7B_%E7%97%85%E5%8E%86%E7%BB%93%E6%9E%84%E5%8C%96%E6%9C%BA%E5%99%A8%E4%BA%BA_V2.md) |
| **å·¥å…· C (Editor)** | æ·±åº¦æ¸…æ´— | ç¼ºå¤±å¡«è¡¥ã€å¼‚å¸¸å¤„ç†ã€å˜é‡è®¡ç®—ã€åˆ†ç®?| æœ€ç»ˆåˆ†æžé›† | [PRD\_å·¥å…·C\_ç§‘ç ”æ•°æ®ç¼–è¾‘å™¨\_V2](https://www.google.com/search?q=PRD_%E5%B7%A5%E5%85%B7C_%E7%A7%91%E7%A0%94%E6%95%B0%E6%8D%AE%E7%BC%96%E8%BE%91%E5%99%A8_V2.md) |

## **ä¸‰ã€?æ ¸å¿ƒä¸šåŠ¡æµç¨‹ (Core Workflows)**

### **3.1 å…¸åž‹å…¨é“¾è·¯åœºæ™?(The "Happy Path")**

åœºæ™¯ï¼šåŒ»ç”Ÿæ”¶é›†äº† 100 ä»½æ‚£è€…çš„ä½é™¢ Excel å’Œç—…ç†æŠ¥å‘?PDFï¼Œéœ€è¦è¿›è¡Œç”Ÿå­˜åˆ†æžã€?
1. **åˆå¹¶ (Step 1):** åœ?**å·¥ä½œå?* å¯åŠ¨ **å·¥å…· A**ã€‚ä¸Šä¼ â€œä½é™¢è®°å½•â€ä¸ºä¸»è¡¨ï¼Œâ€œæ£€éªŒå•â€ä¸ºè¾…è¡¨ã€‚ç³»ç»ŸåŸºäºŽâ€œå…¥é™¢æ—¥æœ?Â±7å¤©â€çš„æ—¶é—´çª—ï¼Œå°†æ£€éªŒæ•°æ®æŒ‚è½½åˆ°ä½é™¢è®°å½•ä¸Šã€? 
2. **æå– (Step 2):** åˆå¹¶å®ŒæˆåŽï¼Œç‚¹å‡»â€œæµè½¬åˆ°å·¥å…· Bâ€ã€?*å·¥å…· B** è‡ªåŠ¨åŠ è½½æ•°æ®ã€‚åŒ»ç”Ÿé€‰æ‹©â€œè‚ºç™Œç—…ç†æ¨¡ç‰ˆâ€ï¼ŒåŒæ¨¡åž‹ï¼ˆDeepSeek & Qwenï¼‰å¹¶å‘æå–â€œè‚¿ç˜¤å¤§å°â€å’Œâ€œæ·‹å·´ç»“è½¬ç§»â€ã€‚åŒ»ç”Ÿåœ¨å…¨æ™¯ç½‘æ ¼ä¸­è£å†³ä¸ä¸€è‡´çš„æ•°æ®ã€? 
3. **æ¸…æ´— (Step 3):** æå–å®ŒæˆåŽï¼Œç‚¹å‡»â€œæµè½¬åˆ°å·¥å…· Câ€ã€?*å·¥å…· C** æ‰“å¼€ç¼–è¾‘å™¨ã€‚åŒ»ç”Ÿé€šè¿‡ä¾§è¾¹æ å‘çŽ°â€œè‚¿ç˜¤å¤§å°â€æœ‰ç¼ºå¤±å€¼ï¼Œä¸€é”®ç”¨å‡å€¼å¡«è¡¥ï¼›å¹¶æ–°å¢žè®¡ç®—åˆ— BMIã€? 
4. **åˆ†æž (Step 4):** æ•°æ®æ¸…æ´—å®Œæ¯•ï¼Œä¿å­˜ä¸ºâ€œåˆ†æžé›†\_V1â€ã€‚ä¸€é”®å‘é€è‡³ç³»ç»Ÿçš„â€œæ™ºèƒ½æ•°æ®åˆ†æžâ€æ¨¡å—è¿›è¡?Kaplan-Meier ç”Ÿå­˜åˆ†æžã€?
## **å››ã€?å…¨å±€éžåŠŸèƒ½éœ€æ±?(Non-Functional Requirements)**

### **4.1 ç”¨æˆ·ä½“éªŒç­–ç•¥ (UX Strategy)**

* **åŽ»å¯è§†åŒ– (De-visualization):** å¯¹äºŽå·¥å…· A å’?Bï¼Œä¸å±•ç¤ºå…¨é‡ Excel ç½‘æ ¼ï¼Œé‡‡ç”?**â€œå‘å¯¼é…ç½?\-\> é»‘ç›’å¤„ç† \-\> é»„é‡‘é¢„è§ˆâ€?* çš„æ¨¡å¼ï¼Œé™ä½Žæµè§ˆå™¨æ¸²æŸ“åŽ‹åŠ›ï¼Œèšç„¦ç»“æžœã€? 
* **åé¦ˆè¡¥å¿ (Feedback Loop):** æ—¢ç„¶çœ‹ä¸è§è¿‡ç¨‹ï¼Œå¿…é¡»å¢žå¼ºç»“æžœåé¦ˆã€‚æ¯ä¸ªå·¥å…·å¿…é¡»æä¾›è¯¦ç»†çš„ **â€œæ•°æ®è´¨é‡æŠ¥å‘Šâ€?*ï¼ˆå¦‚ï¼šä¸¢å¼ƒè¡Œæ•°ã€å†²çªçŽ‡ã€ç©ºå€¼çŽ‡ï¼‰ã€? 
* **æœ¬åœ°ä¼˜å…ˆ (Local-First):** å·¥å…· C é‡‡ç”¨ IndexedDB å­˜å‚¨ï¼Œç¡®ä¿ç¼–è¾‘æ“ä½œï¼ˆç­›é€‰ã€æ›¿æ¢ï¼‰æ— ç½‘ç»œå»¶è¿Ÿã€?
### **4.2 æ•°æ®å®‰å…¨ä¸Žéšç§?(Security & Privacy)**

* **PII è„±æ•:** æ‰€æœ‰å‘é€ç»™ LLM (å·¥å…· B) çš„æ•°æ®ï¼Œ**å¿…é¡»**åœ¨åŽç«¯å…ˆç»è¿‡æ­£åˆ™è„±æ•ï¼ˆå§“åã€èº«ä»½è¯ã€æ‰‹æœºå·ï¼‰ã€? 
* **æ•°æ®éš”ç¦»:** ä¸åŒç”¨æˆ·çš„æ•°æ®ä¸¥æ ¼ç‰©ç†éš”ç¦»ï¼ˆS3 è·¯å¾„ / DB Row Level Securityï¼‰ã€?
### **4.3 æ€§èƒ½æŒ‡æ ‡ (Performance SLAs)**

* **æ–‡ä»¶æ”¯æŒ:** å•ä¸ªæ–‡ä»¶æ”¯æŒæœ€å¤?**50MB** æˆ?**50ä¸‡è¡Œ**ã€? 
* **å“åº”é€Ÿåº¦:**  
  * å·¥å…· A åˆå¹¶ï¼?0ä¸‡è¡Œï¼‰ï¼š\< 60ç§’ã€? 
  * å·¥å…· B æå–ï¼ˆå¹¶å‘ï¼‰ï¼šå–å†³äºŽ Token é‡ï¼Œéœ€æä¾›è¿›åº¦æ¡ã€? 
  * å·¥å…· C ç¼–è¾‘å“åº”ï¼š\< 100msã€?
## **äº”ã€?æ•°æ®æ ‡å‡†ä¸Žæµè½¬åè®?(Data Standards)**

ä¸ºäº†ä¿è¯ä¸‰ä¸ªå·¥å…·èƒ½é¡ºç•…åä½œï¼Œå¿…é¡»å®šä¹‰ç»Ÿä¸€çš„æ•°æ®äº¤æ¢æ ‡å‡†ï¼š

1. **æ–‡ä»¶æ ¼å¼:** å†…éƒ¨æµè½¬ç»Ÿä¸€ä½¿ç”¨ **CSV (UTF-8 with BOM)** æˆ?**JSON Lines**ã€? 
2. **æ—¥æœŸæ ¼å¼:** æ‰€æœ‰å·¥å…·äº§å‡ºçš„æ—¥æœŸåˆ—ï¼Œå¼ºåˆ¶æ ‡å‡†åŒ–ä¸º YYYY-MM-DDã€? 
3. **ç©ºå€¼è¡¨ç¤?** ç»Ÿä¸€ä½¿ç”¨ null æˆ–ç©ºå­—ç¬¦ä¸?""ï¼Œä¸¥ç¦ä½¿ç”?"NA", "-" ç­‰æ–‡æœ¬æ··å…¥æ•°å€¼åˆ—ã€? 
4. **æµè½¬å‡­è¯:** è·¨å·¥å…·è·³è½¬æ—¶ï¼Œé€šè¿‡ URL å‚æ•°ä¼ é€?assetId (èµ„äº§ID)ï¼ŒæŽ¥æ”¶æ–¹é€šè¿‡ API èŽ·å–æ–‡ä»¶æµï¼Œæ— éœ€å‰ç«¯é€ä¼ å¤§æ–‡ä»¶ã€?
## **å…­ã€?é™„å½•ï¼šç‰ˆæœ¬è§„åˆ?(Roadmap)**

* **Phase 1 (MVP):** ä¸Šçº¿å·¥ä½œå?\+ å·¥å…· A (åŸºç¡€åˆå¹¶) \+ å·¥å…· C (åŸºç¡€ç¼–è¾‘)ã€‚å·¥å…?B æš‚ä¸ä¸Šçº¿ã€? 
* **Phase 2 (Intelligence):** ä¸Šçº¿ å·¥å…· B (å•æ¨¡åž‹æå?ã€‚å·¥å…?C å¢žåŠ ä¾§è¾¹æ ç»Ÿè®¡ã€? 
* **Phase 3 (Trust):** å·¥å…· B å‡çº§ä¸ºåŒæ¨¡åž‹äº¤å‰éªŒè¯ã€‚å·¥å…?A å‡çº§ä¸ºæ—¶é—´çª—åˆå¹¶ã€