正在啟動 Python 環境(首次約 15 秒)...
用 AI 做資料清洗
資料有空值、格式不一致、重複⋯⋯手動清太慢
你從後台匯出了一份會員資料,打開一看:
- 有些人的電話欄位是空的
- 地址有的寫「台北市」有的寫「台北」
- 同一個人出現了兩次
- 金額欄位混了文字("NT$1,500")
這些就是資料品質問題。手動清理 10 筆可以,1000 筆就崩潰了。好消息是:你可以先用 Python 找出問題在哪,再寫好 prompt 讓 AI 幫你處理。
常見的資料品質問題
| 問題類型 | 範例 | 影響 |
|---|---|---|
| 空值(missing) | 電話欄位是空的 | 統計不準確 |
| 格式不一致 | "台北市" vs "台北" | 分組會變兩組 |
| 重複資料 | 同一筆訂單出現兩次 | 營收灌水 |
| 型別錯誤 | 金額欄位出現 "NT$1,500" | 無法計算 |
用 Python 找出資料問題
檢查空值
檢查格式不一致
檢查重複資料
檢查型別問題
把問題描述給 AI:prompt 模板
找到問題之後,你需要用精確的語言告訴 AI 要怎麼處理。
Prompt 模板
動手做:找出問題 + 寫 prompt
AI 協作:學了這個,跟 AI 怎麼配合?
資料清洗是 AI 最擅長的工作之一,但你要先當「品管」,告訴它問題在哪。
你的人類優勢:
- 你能跑一遍檢查,精確告訴 AI 有哪幾種問題、各幾筆
- 你知道業務邏輯(例如「空值要保留不能刪」),AI 不會自己猜到
- 你能驗證清洗後的資料筆數和總金額是否正確
Prompt 的黃金公式:
資料描述(幾筆、哪些欄位、什麼型別) + 發現的問題(具體數字:幾筆空值、哪些格式不一致) + 你要的處理方式(空值怎麼處理、格式統一成什麼)
練習題
互動示範
DEMO 1可以修改程式碼試玩
DEMO 2可以修改程式碼試玩
DEMO 3可以修改程式碼試玩
DEMO 4可以修改程式碼試玩
DEMO 5可以修改程式碼試玩
DEMO 6可以修改程式碼試玩
挑戰任務
Task 1
有 data = [{'name': '小明', 'phone': '0912'}, {'name': '', 'phone': '0923'}, {'name': '大方', 'phone': ''}],算出 name 欄位有幾筆空值,印出數字
Task 2
有 ids = ['A001', 'A002', 'A003', 'A001', 'A002'],找出重複的 id 放進 duplicates list,印出 duplicates
Task 3
把字串 'NT$3,200' 中的 'NT$' 和逗號移除後轉成 int,印出結果
← BackNext Lesson →