跳到主要內容
Cypher's Practical Coding
AI 數據分析
3 / 5
正在啟動 Python 環境(首次約 15 秒)...

用 AI 做資料清洗

資料有空值、格式不一致、重複⋯⋯手動清太慢

你從後台匯出了一份會員資料,打開一看:

  • 有些人的電話欄位是空的
  • 地址有的寫「台北市」有的寫「台北」
  • 同一個人出現了兩次
  • 金額欄位混了文字("NT$1,500")

這些就是資料品質問題。手動清理 10 筆可以,1000 筆就崩潰了。好消息是:你可以先用 Python 找出問題在哪,再寫好 prompt 讓 AI 幫你處理。


常見的資料品質問題

問題類型範例影響
空值(missing)電話欄位是空的統計不準確
格式不一致"台北市" vs "台北"分組會變兩組
重複資料同一筆訂單出現兩次營收灌水
型別錯誤金額欄位出現 "NT$1,500"無法計算

用 Python 找出資料問題

檢查空值

檢查格式不一致

檢查重複資料

檢查型別問題


把問題描述給 AI:prompt 模板

找到問題之後,你需要用精確的語言告訴 AI 要怎麼處理。

Prompt 模板


動手做:找出問題 + 寫 prompt


AI 協作:學了這個,跟 AI 怎麼配合?

資料清洗是 AI 最擅長的工作之一,但你要先當「品管」,告訴它問題在哪。

你的人類優勢:

  • 你能跑一遍檢查,精確告訴 AI 有哪幾種問題、各幾筆
  • 你知道業務邏輯(例如「空值要保留不能刪」),AI 不會自己猜到
  • 你能驗證清洗後的資料筆數和總金額是否正確

Prompt 的黃金公式:

資料描述(幾筆、哪些欄位、什麼型別) + 發現的問題(具體數字:幾筆空值、哪些格式不一致) + 你要的處理方式(空值怎麼處理、格式統一成什麼)


練習題

互動示範

DEMO 1可以修改程式碼試玩
DEMO 2可以修改程式碼試玩
DEMO 3可以修改程式碼試玩
DEMO 4可以修改程式碼試玩
DEMO 5可以修改程式碼試玩
DEMO 6可以修改程式碼試玩

挑戰任務

Task 1

有 data = [{'name': '小明', 'phone': '0912'}, {'name': '', 'phone': '0923'}, {'name': '大方', 'phone': ''}],算出 name 欄位有幾筆空值,印出數字

Task 2

有 ids = ['A001', 'A002', 'A003', 'A001', 'A002'],找出重複的 id 放進 duplicates list,印出 duplicates

Task 3

把字串 'NT$3,200' 中的 'NT$' 和逗號移除後轉成 int,印出結果

BackNext Lesson →