# **å·¥å…· Cï¼šAI è¾…åŠ©åŒ»ç–—æ•°æ®æ¸…æ´—åœºæ™¯åˆ†çº§æ¸…å•**

è¿™ä»½æ¸…å•æŒ?*æŠ€æœ¯å®žçŽ°éš¾åº?*å’?*ä¸šåŠ¡é€»è¾‘å¤æ‚åº?*ä»Žç®€å•åˆ°å¤æ‚æŽ’åˆ—ã€‚æ‰€æœ‰åœºæ™¯å‡å‡è®¾æ•°æ®å·²åŠ è½½ä¸º Pandas DataFrame (df)ã€?
## **Level 1: åŸºç¡€å«ç”Ÿæ¸…ç† (Data Hygiene)**

*ç›®æ ‡ï¼šæŠŠâ€œè„â€æ•°æ®å˜æˆâ€œèƒ½è¯»â€çš„æ•°æ®ã€‚Excel ä¹Ÿèƒ½åšï¼Œä½?Python æ›´å¿«æ›´å‡†ã€?

### **1.1 å˜é‡åæ ‡å‡†åŒ– (Rename)**

* **åœºæ™¯ï¼?* åŽŸå§‹è¡¨å¤´æ˜¯ä¸­æ–‡æˆ–å«ç‰¹æ®Šç¬¦å·ï¼ˆå¹´é¾„(å²?, æ€§åˆ«/Gender, å…¥é™¢\_æ—¥æœŸï¼‰ï¼ŒSPSS æŠ¥é”™ã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œæŠŠæ‰€æœ‰åˆ—åè½¬ä¸ºçº¯è‹±æ–‡å°å†™ï¼ŒåŽ»æŽ‰æ‹¬å·ã€‚â€? 
* **Python é€»è¾‘ï¼?* ä½¿ç”¨æ˜ å°„å­—å…¸æˆ–æ­£åˆ™æ›¿æ¢åˆ—åã€?
### **1.2 æ•°å€¼åˆ—â€œæŽ’æ¯’â€?(Clean Numeric)**

* **åœºæ™¯ï¼?* æ£€éªŒç§‘å¯¼å‡ºçš„æ•°æ®ï¼Œæ•°å€¼åˆ—æ··å…¥äº†ç¬¦å·ï¼ˆ\>100, \<0.1, 12.5+, æœªæŸ¥ï¼‰ã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œæŠŠâ€˜è‚Œé…â€™åˆ—é‡Œçš„éžæ•°å­—ç¬¦å·åŽ»æŽ‰ï¼Œâ€˜\<0.1â€™æŒ‰â€?.05â€™å¤„ç†ï¼Œè½¬ä¸ºæµ®ç‚¹æ•°ã€‚â€? 
* **Python é€»è¾‘ï¼?* str.replace \+ æ­£åˆ™æå– \+ pd.to\_numeric(errors='coerce')ã€?
### **1.3 ç»Ÿä¸€ç¼ºå¤±å€?(Standardize Nulls)**

* **åœºæ™¯ï¼?* æ•°æ®é‡Œæ··æ‚äº†å„ç§ä»£è¡¨â€œç©ºâ€çš„è¯ï¼šNA, N/A, \-, \\, ä¸è¯¦ã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œæŠŠæ‰€æœ‰ä»£è¡¨â€˜æ²¡æœ‰â€™çš„å­—ç¬¦éƒ½ç»Ÿä¸€æ›¿æ¢ä¸ºæ ‡å‡†çš„ç©ºå€¼ã€‚â€? 
* **Python é€»è¾‘ï¼?* df.replace(\['-', 'ä¸è¯¦', 'NA'\], np.nan, inplace=True)ã€?
## **Level 2: å˜é‡æ ‡å‡†åŒ–ä¸Žé‡ç¼–ç ?(Recode & Standardization)**

*ç›®æ ‡ï¼šä¸ºç»Ÿè®¡åˆ†æžå‡†å¤‡åˆ†ç±»å˜é‡ã€?

### **2.1 æ–‡æœ¬è½¬æ•°å€¼æ˜ å°?(Map Categorical)**

* **åœºæ™¯ï¼?* æ€§åˆ«åˆ—æ˜¯ Male/Femaleï¼Œå¸çƒŸå²æ˜?Yes/Noã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œæŠŠæ€§åˆ«è½¬ä¸º 1(ç”?/0(å¥?ï¼ŒæŠŠå¸çƒŸå²è½¬ä¸?1/0ã€‚â€? 
* **Python é€»è¾‘ï¼?* df\['sex'\].map({'Male': 1, 'Female': 0})ã€?
### **2.2 è¿žç»­å˜é‡åˆ†ç®± (Binning)**

* **åœºæ™¯ï¼?* éœ€è¦æŒ‰å¹´é¾„åˆ†ç»„è¿›è¡Œå¡æ–¹æ£€éªŒã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œæŠŠå¹´é¾„æŒ?0-18, 19-60, 60+ åˆ†ä¸ºâ€˜æœªæˆå¹´â€? â€˜æˆå¹´â€? â€˜è€å¹´â€™ä¸‰ç»„ã€‚â€? 
* **Python é€»è¾‘ï¼?* pd.cut() å‡½æ•°ã€?
### **2.3 å¤æ‚æ—¥æœŸè®¡ç®— (Date Logic)**

* **åœºæ™¯ï¼?* è®¡ç®—ç”Ÿå­˜æ—¶é—´ï¼ˆOSï¼‰ã€‚Excel ç»å¸¸ç®—é”™é—°å¹´æˆ–æœˆä»½ã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œæ ¹æ®â€˜ç¡®è¯Šæ—¥æœŸâ€™å’Œâ€˜éšè®¿æ—¥æœŸâ€™è®¡ç®—ç”Ÿå­˜æœˆæ•°ï¼Œä¿ç•™1ä½å°æ•°ã€‚â€? 
* **Python é€»è¾‘ï¼?* (df\['end\_date'\] \- df\['start\_date'\]).dt.days / 30.4ã€?
## **Level 3: ä¸´åºŠé€»è¾‘ç‰¹å¾å·¥ç¨‹ (Feature Engineering)**

*ç›®æ ‡ï¼šåŸºäºŽåŒ»å­¦çŸ¥è¯†ç”Ÿæˆæ–°çš„åˆ†æžæŒ‡æ ‡ã€?

### **3.1 å¤åˆå…¬å¼è®¡ç®— (Complex Formula)**

* **åœºæ™¯ï¼?* è®¡ç®— eGFR (è‚¾å°çƒæ»¤è¿‡çŽ‡) æˆ?BMIã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œå¸®æˆ‘è®¡ç®?BMIã€‚å¦‚æž?BMI \> 28ï¼Œç”Ÿæˆæ–°åˆ—æ ‡è®°ä¸ºâ€˜è‚¥èƒ–â€™ã€‚â€? 
* **Python é€»è¾‘ï¼?* å‘é‡åŒ–è®¡ç®?df\['weight'\] / (df\['height'\]/100)\*\*2 \+ æ¡ä»¶èµ‹å€?np.whereã€?
### **3.2 æå–å…¥æŽ’æ ‡å‡† (Cohort Selection)**

* **åœºæ™¯ï¼?* ç­›é€‰ç¬¦åˆæ¡ä»¶çš„å…¥ç»„äººç¾¤ã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œç­›é€‰å‡ºï¼šç¡®è¯Šä¸ºè‚ºè…ºç™Œï¼Œä¸”å¹´é¾„å¤§äº?8å²ï¼Œä¸”æ²¡æœ‰é«˜è¡€åŽ‹ç—…å²çš„ç—…äººã€‚â€? 
* **Python é€»è¾‘ï¼?* df.query("diagnosis \== 'Lung Adenocarcinoma' & age \> 18 & hypertension \== 0")ã€?
### **3.3 å“‘å˜é‡ç”Ÿæˆ?(One-Hot Encoding)**

* **åœºæ™¯ï¼?* å‡†å¤‡å?Logistic å›žå½’ï¼Œæœ‰ä¸€ä¸ªæ— åºå¤šåˆ†ç±»å˜é‡â€œè¡€åž?(A, B, AB, O)â€ã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œæŠŠè¡€åž‹ç”Ÿæˆå“‘å˜é‡ã€‚â€? 
* **Python é€»è¾‘ï¼?* pd.get\_dummies(df\['blood\_type'\], prefix='blood')ã€?
## **Level 4: ç»“æž„é‡å¡‘ä¸Žé«˜çº§æ²»ç?(Reshaping & Governance)**

*ç›®æ ‡ï¼šæ”¹å˜è¡¨æ ¼ç»“æž„ä»¥é€‚åº”ç‰¹å®šçš„ç»Ÿè®¡æ¨¡åž‹ï¼Œæˆ–è¿›è¡Œé«˜é˜¶æ•°æ®ä¿®å¤ã€?

### **4.1 é•¿å®½è¡¨è½¬æ?(Pivot/Melt) â€”â€?Excel çš„å™©æ¢?*

* **åœºæ™¯ï¼?* ç›®å‰æ˜¯â€œä¸€äººå¤šè¡Œâ€ï¼ˆå¼ ä¸‰-ç¬?æ¬¡åŒ–éªŒï¼Œå¼ ä¸‰-ç¬?æ¬¡åŒ–éªŒï¼‰ï¼Œè¦åšé‡å¤æµ‹é‡åˆ†æžï¼Œéœ€è¦å˜æˆâ€œä¸€äººä¸€è¡Œâ€ï¼ˆå¼ ä¸‰-åŒ–éªŒ1-åŒ–éªŒ2ï¼‰ã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œæŠŠè¡¨æ ¼ä»Žé•¿è¡¨è½¬ä¸ºå®½è¡¨ï¼ŒæŒ‰ç—…äººIDç´¢å¼•ï¼Œç”¨â€˜è®¿è§†æ¬¡åºâ€™åšåŽç¼€ï¼Œé“ºå¼€â€˜ç™½ç»†èƒžâ€™åˆ—ã€‚â€? 
* **Python é€»è¾‘ï¼?* df.pivot(index='id', columns='visit', values='wbc')ã€?
### **4.2 æ™ºèƒ½åŽ»é‡ (Smart Deduplication)**

* **åœºæ™¯ï¼?* åŒä¸€ä¸ªç—…äººæœ‰ä¸¤æ¡è®°å½•ï¼Œä¸€æ¡ä¿¡æ¯å…¨ï¼Œä¸€æ¡ä¿¡æ¯ç¼ºã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œæŒ‰ç—…äººIDåŽ»é‡ã€‚å¦‚æžœæœ‰é‡å¤ï¼Œä¿ç•™â€˜æ£€æŸ¥æ—¥æœŸâ€™æœ€è¿‘çš„é‚£ä¸€æ¡ï¼›å¦‚æžœæ—¥æœŸä¸€æ ·ï¼Œä¿ç•™â€˜æ•°æ®å®Œæ•´åº¦â€™æœ€é«˜çš„é‚£æ¡ã€‚â€? 
* **Python é€»è¾‘ï¼?* df.sort\_values(\['date', 'completeness'\]).drop\_duplicates(subset=\['id'\], keep='last')ã€?
### **4.3 è·¨åˆ—é€»è¾‘æ ¡éªŒ (Cross-Check)**

* **åœºæ™¯ï¼?* å‘çŽ°è„æ•°æ®ã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œæ£€æŸ¥ä¸€ä¸‹æœ‰æ²¡æœ‰â€˜ç”·æ€§â€™ä½†æ˜¯â€˜æ€€å­•æ¬¡æ•°\>0â€™çš„é”™è¯¯æ•°æ®ï¼Œæ ‡è®°å‡ºæ¥ã€‚â€? 
* **Python é€»è¾‘ï¼?* df.loc\[(df\['sex'\]=='ç”?) & (df\['preg\_count'\]\>0), 'error\_flag'\] \= 1ã€?
### **4.4 å¤šé‡æ’è¡¥ (Multiple Imputation) â€”â€?ç»Ÿè®¡å­¦çš„é«˜çº§å¡«è¡¥**

* **åœºæ™¯ï¼?* æ•°æ®é›†æœ‰ç¼ºå¤±å€¼ï¼ˆå¦?BMI ç¼ºå¤±ï¼‰ï¼Œå•çº¯ç”¨å‡å€¼å¡«è¡¥ä¼šç ´åæ•°æ®åˆ†å¸ƒã€‚éœ€è¦åˆ©ç”¨å…¶ä»–å˜é‡ï¼ˆå¦‚å¹´é¾„ã€æ€§åˆ«ã€è‚Œé…ï¼‰çš„ç›¸å…³æ€§æ¥é¢„æµ‹å¡«è¡¥ã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œä½¿ç”¨å¤šé‡æ’è¡¥æ³•(MICE)å¯¹â€˜BMIâ€™å’Œâ€˜å¹´é¾„â€™åˆ—çš„ç¼ºå¤±å€¼è¿›è¡Œå¡«è¡¥ã€‚â€?
* # **Python é€»è¾‘ï¼?\`\`\`python**   **from sklearn.experimental import enable\_iterative\_imputer**   **from sklearn.impute import IterativeImputer**   **ä»…é’ˆå¯¹æ•°å€¼åˆ—è¿›è¡Œæ’è¡¥**   **cols \= \['bmi', 'age', 'creatinine'\]**   **imp \= IterativeImputer(max\_iter=10, random\_state=0)**   **df\[cols\] \= imp.fit\_transform(df\[cols\])** 

## **Level 5: éžç»“æž„åŒ–æ–‡æœ¬æŒ–æŽ˜ (Text Mining) â€”â€?Python çš„ç»å¯¹ç»Ÿæ²»åŒº**

*ç›®æ ‡ï¼šä»Žå¤‡æ³¨æˆ–æŠ¥å‘Šæ–‡æœ¬ä¸­â€œæŠ â€å‡ºæ•°æ®ã€‚è¿™æ˜?Excel ç»å¯¹åšä¸åˆ°çš„ã€?

### **5.1 æ­£åˆ™è¡¨è¾¾å¼æå?(Regex Extraction)**

* **åœºæ™¯ï¼?* åªæœ‰ä¸€åˆ—æ–‡æœ¬â€œç—…ç†è¯Šæ–­â€ï¼Œå†…å®¹å¦‚ï¼šâ€?å·¦è‚ºä¸Šå¶)æµ¸æ¶¦æ€§è…ºç™Œï¼Œå¤§å°3.5\*2cmâ€ã€‚éœ€è¦æå–è‚¿ç˜¤å¤§å°ã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œä»Žâ€˜ç—…ç†è¯Šæ–­â€™é‡Œæå–å‡ºè‚¿ç˜¤çš„é•¿å¾„ï¼ˆæœ€å¤§çš„é‚£ä¸ªæ•°å­—ï¼‰ã€‚â€? 
* **Python é€»è¾‘ï¼?* df\['text'\].str.extract(r'(\\d+\\.?\\d\*)\\s\*\[\\\*xX\]\\s\*(\\d+\\.?\\d\*)') å¹¶å–æœ€å¤§å€¼ã€?
### **5.2 å­—ç¬¦ä¸²æ¨¡ç³ŠåŒ¹é…?(Fuzzy Matching)**

* **åœºæ™¯ï¼?* åŒ»é™¢åç§°å½•å…¥æ··ä¹±ï¼šâ€œåå’ŒåŒ»é™¢â€ã€â€œåŒ—äº¬åå’Œâ€ã€â€œåå’Œâ€ã€‚éœ€è¦ç»Ÿä¸€ã€? 
* **ç”¨æˆ·æŒ‡ä»¤ï¼?* â€œæŠŠâ€˜åŒ»é™¢åç§°â€™åˆ—é‡Œæ‰€æœ‰åŒ…å«â€˜åå’Œâ€™çš„ï¼Œéƒ½ç»Ÿä¸€æ”¹ä¸ºâ€˜PUMCHâ€™ã€‚â€? 
* **Python é€»è¾‘ï¼?* df.loc\[df\['hospital'\].str.contains('åå’Œ'), 'hospital'\] \= 'PUMCH'ã€