跳到主要內容
Cypher's Practical Coding
正在準備工作環境...

Google 怎麼看你的網頁?

你上架了 500 件商品,標題都寫得很用心,但在 Google 搜尋卻一個都找不到——為什麼?因為 Google 根本「不知道」這些頁面存在。了解 Google 怎麼發現、讀取、收錄你的網頁,是 SEO 的第一步。

Google 搜尋的三個階段

Google 把網頁放上搜尋結果,需要經過三個步驟:

階段英文比喻說明
爬取Crawl派偵察兵出去探路Googlebot(爬蟲)順著連結一頁一頁抓取網頁內容
索引Index把資料整理進圖書館Google 分析網頁內容,決定要不要收進資料庫
排名Rank決定書放在哪個書架使用者搜尋時,演算法從資料庫中挑出最相關的結果排序

如果你的網頁連「爬取」這關都過不了,後面的索引和排名都不會發生。

robots.txt — 告訴爬蟲「哪裡可以去」

robots.txt 是放在網站根目錄的純文字檔,用來告訴搜尋引擎爬蟲哪些路徑可以爬、哪些不要爬。

電商常見要擋的路徑:

  • /admin/ — 後台管理頁面
  • /checkout/ — 結帳流程
  • /cart/ — 購物車頁面
  • /api/ — API 端點
  • /search? — 站內搜尋結果頁(避免大量低品質頁面被收錄)

Sitemap — 給爬蟲的網站地圖

sitemap.xml 主動列出你希望被收錄的重要頁面,讓爬蟲更有效率地發現內容。

Sitemap 重點:

  • <loc> — 頁面的完整網址
  • <lastmod> — 最後更新日期(幫助爬蟲判斷是否需要重新爬)
  • <priority> — 0.0 ~ 1.0,告訴爬蟲這頁的相對重要性

怎麼確認你的網頁有沒有被 Google 收錄?

最簡單的方法:在 Google 搜尋框輸入 site:你的網址

例如:site:www.myshop.com 會列出所有被 Google 收錄的頁面。

如果結果是零——代表 Google 完全不認識你的網站,需要檢查:

  1. robots.txt 有沒有不小心擋掉全部
  2. 有沒有提交 sitemap 到 Google Search Console
  3. 網站是不是太新,爬蟲還沒來過

AI 協作:學了這個,跟 AI 怎麼配合?

了解 Google 怎麼看你的網頁後,你就能更精準地向 AI 提需求。

你的人類優勢:

  • 你知道網站上哪些頁面最重要、哪些不該被搜尋到
  • 你能判斷 robots.txt 的規則是否合理(例如不小心把商品頁也擋掉了)

可以這樣跟 AI 說:

幫我寫一個電商網站的 robots.txt,允許爬取商品頁和分類頁,但要擋掉後台、結帳、購物車和 API。最後附上 sitemap 位置。

練習題

互動示範

DEMO 1可以修改程式碼試玩
DEMO 2可以修改程式碼試玩

挑戰任務

Task 1

寫一個 robots.txt,允許所有爬蟲存取網站,但禁止爬取 /admin/ 和 /checkout/ 路徑,並指定 sitemap 位置為 https://www.myshop.com/sitemap.xml

Task 2

寫一個 sitemap.xml,包含首頁(priority 1.0)和兩個商品頁(priority 0.8),網域為 https://www.myshop.com

Task 3

你發現某電商網站的 robots.txt 寫了 Disallow: /,這代表什麼?會造成什麼影響?

Next Lesson →