Crawlability
可爬取性指爬蟲能否取得你的頁面與資源(robots.txt、登入牆、狀態碼、封鎖資源都會影響)。
定義
Crawlability(可爬取性)描述搜尋引擎爬蟲是否能成功抓到頁面回應與必要資源(HTML、CSS、JS、圖片)。如果重要路徑或資源被 robots.txt、權限、或錯誤狀態碼擋住,搜尋引擎可能無法渲染與理解內容。
為什麼重要
- 不能爬取就談不上索引與排名
- 擋到 CSS/JS 會影響渲染判斷與收錄
- 提升爬取效率能降低 crawl waste
怎麼做(實作重點)
- 檢查 robots.txt 是否誤擋重要路徑與資源
- 確保重要頁回 200,不要長期 3xx/4xx/5xx
- 用 sitemap 與內部連結讓爬蟲更快發現重要頁
相關連結
常見問題
關於這個詞彙的常見問答。