robots.txt
robots.txt 控制「能不能爬取」,noindex 控制「能不能索引」。兩者差很多。
定義
robots.txt 是放在網站根目錄的純文字檔案,用來告訴爬蟲哪些路徑允許爬取(crawl)。它不等於存取控制,也不保證能阻擋惡意爬蟲。
為什麼重要
- 避免爬蟲浪費資源在不重要的路徑(例如後台)
- 避免誤擋 CSS/JS 影響渲染與索引判斷
- 搭配 sitemap 提升發現效率
- 管理大型網站的爬取預算(crawl budget)
- 防止開發/測試環境被意外索引
- 控制特定爬蟲的存取(例如封鎖 AI 訓練爬蟲)
- 是搜尋引擎的第一個存取點,設定錯誤影響全站
怎麼做(實作重點)
- robots.txt 放在根目錄:/robots.txt
- 不要阻擋必要資源(CSS/JS/圖片)
- 想避免出現在搜尋結果,用 noindex(meta 或 header),不是用 robots.txt
- 使用 User-agent 指定特定爬蟲規則
- 加上 Sitemap 指令指向 sitemap 位置
- 定期檢查 Search Console 的爬取狀態報告
- 用 robots.txt 測試工具驗證規則是否正確
範例
txt
# 基本 robots.txt
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /private/
# 允許爬取 CSS/JS
Allow: /*.css
Allow: /*.js
Sitemap: https://example.com/sitemap.xmltxt
# 封鎖特定 AI 訓練爬蟲
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
# 但允許 Googlebot
User-agent: Googlebot
Allow: /
Sitemap: https://example.com/sitemap.xml相關連結
常見問題
關於這個詞彙的常見問答。