Crawling
Crawling 是搜尋引擎用爬蟲抓取網址與內容的過程,受內鏈、sitemap、crawl budget 與 robots 規則影響。
定義
Crawling(爬取)是搜尋引擎爬蟲發現 URL、抓取內容並建立候選索引資料的流程。它受到內部連結結構、sitemap、伺服器回應品質與 crawl budget 的影響。
為什麼重要
- 爬取是索引與排名的前置條件
- 低品質爬取(慢、錯誤多)會拖累整站收錄效率
- 大型站需要控管 crawl budget 與 crawl traps
怎麼做(實作重點)
- 用清楚的內鏈與 sitemap 提升重要頁的發現效率
- 降低 4xx/5xx 與 redirect chain,避免爬蟲浪費
- 避免產生無限參數/篩選頁造成 crawl trap
相關連結
常見問題
關於這個詞彙的常見問答。