正在準備工作環境...
Google 怎麼看你的網頁?
你上架了 500 件商品,標題都寫得很用心,但在 Google 搜尋卻一個都找不到——為什麼?因為 Google 根本「不知道」這些頁面存在。了解 Google 怎麼發現、讀取、收錄你的網頁,是 SEO 的第一步。
Google 搜尋的三個階段
Google 把網頁放上搜尋結果,需要經過三個步驟:
| 階段 | 英文 | 比喻 | 說明 |
|---|---|---|---|
| 爬取 | Crawl | 派偵察兵出去探路 | Googlebot(爬蟲)順著連結一頁一頁抓取網頁內容 |
| 索引 | Index | 把資料整理進圖書館 | Google 分析網頁內容,決定要不要收進資料庫 |
| 排名 | Rank | 決定書放在哪個書架 | 使用者搜尋時,演算法從資料庫中挑出最相關的結果排序 |
如果你的網頁連「爬取」這關都過不了,後面的索引和排名都不會發生。
robots.txt — 告訴爬蟲「哪裡可以去」
robots.txt 是放在網站根目錄的純文字檔,用來告訴搜尋引擎爬蟲哪些路徑可以爬、哪些不要爬。
電商常見要擋的路徑:
/admin/— 後台管理頁面/checkout/— 結帳流程/cart/— 購物車頁面/api/— API 端點/search?— 站內搜尋結果頁(避免大量低品質頁面被收錄)
Sitemap — 給爬蟲的網站地圖
sitemap.xml 主動列出你希望被收錄的重要頁面,讓爬蟲更有效率地發現內容。
Sitemap 重點:
<loc>— 頁面的完整網址<lastmod>— 最後更新日期(幫助爬蟲判斷是否需要重新爬)<priority>— 0.0 ~ 1.0,告訴爬蟲這頁的相對重要性
怎麼確認你的網頁有沒有被 Google 收錄?
最簡單的方法:在 Google 搜尋框輸入 site:你的網址。
例如:site:www.myshop.com 會列出所有被 Google 收錄的頁面。
如果結果是零——代表 Google 完全不認識你的網站,需要檢查:
robots.txt有沒有不小心擋掉全部- 有沒有提交 sitemap 到 Google Search Console
- 網站是不是太新,爬蟲還沒來過
AI 協作:學了這個,跟 AI 怎麼配合?
了解 Google 怎麼看你的網頁後,你就能更精準地向 AI 提需求。
你的人類優勢:
- 你知道網站上哪些頁面最重要、哪些不該被搜尋到
- 你能判斷 robots.txt 的規則是否合理(例如不小心把商品頁也擋掉了)
可以這樣跟 AI 說:
幫我寫一個電商網站的 robots.txt,允許爬取商品頁和分類頁,但要擋掉後台、結帳、購物車和 API。最後附上 sitemap 位置。
練習題
互動示範
DEMO 1可以修改程式碼試玩
DEMO 2可以修改程式碼試玩
挑戰任務
Task 1
寫一個 robots.txt,允許所有爬蟲存取網站,但禁止爬取 /admin/ 和 /checkout/ 路徑,並指定 sitemap 位置為 https://www.myshop.com/sitemap.xml
Task 2
寫一個 sitemap.xml,包含首頁(priority 1.0)和兩個商品頁(priority 0.8),網域為 https://www.myshop.com
Task 3
你發現某電商網站的 robots.txt 寫了 Disallow: /,這代表什麼?會造成什麼影響?
Next Lesson →