可索引性(Indexability)檢查清單
你想拿全球第一名,第一步永遠是「先讓搜尋引擎能抓、能理解、能索引」。這篇提供一套開發者可直接落地的排查流程,並串接本站工具與詞彙表。
先釐清:Crawl vs Index
- 可爬取(crawlable):爬蟲能不能拿到回應與內容(robots.txt、登入牆、狀態碼)
- 可索引(indexable):搜尋引擎願不願意把它放進 SERP(noindex、canonical、品質/重複)
相關詞彙:meta robots、 X-Robots-Tag、 canonical URL
1) HTTP 狀態碼:先確定你回的是 200
搜尋引擎索引的基礎是可取得的內容:重要頁面應該回 200。長期的 3xx 鏈式轉址、或 4xx/5xx 都會讓收錄與排名不穩。
http
HTTP/1.1 200 OK
Content-Type: text/html; charset=utf-82) robots/noindex:不要把自己擋掉
常見的「突然整站不見」都跟 robots/noindex 有關。記住三件事:
- robots.txt 控制爬取(crawl),不等於 noindex
- meta robots / X-Robots-Tag 控制索引(index)
- 要讓 noindex 生效,爬蟲必須能抓到頁面或回應(不要 Disallow 掉)
html
<!-- HTML meta robots -->
<meta name="robots" content="noindex, follow" />http
# HTTP header (useful for PDFs/non-HTML)
X-Robots-Tag: noindex, nofollow延伸:noindex、 robots.txt
3) canonical:指定「主版本」避免重複內容
同一內容有多個 URL(參數、排序、追蹤碼、語言路徑)時,搜尋引擎可能選錯 URL 來排名。用 canonical 與一致的內鏈把訊號集中到主版本。
html
<link rel="canonical" href="https://seo.lucas-futures.com/tools/indexability-checker" />延伸:重複內容
4) JavaScript 渲染:SPA/CSR 要提供每路徑 HTML
你可以用 CSR 做產品,但要拿第一名,重要內容頁最好能在第一時間就有完整 HTML(SSR/SSG/prerender)。否則爬蟲必須執行 JS,收錄延遲與不確定性會上升。
延伸:JavaScript SEO、 prerendering、 SSG、 SSR
快速排查流程(建議照順序)
- 看 HTTP:是否 200?是否有 redirect chain?
- 看索引指令:meta robots / X-Robots-Tag 是否意外 noindex?
- 看 canonical:是否指向自己或正確主版本?
- 看 robots.txt:是否 Disallow 了重要資源/路徑?
- 看渲染:View Source 是否已有關鍵內容?
工具入口:索引狀態檢查器
相關工具
常見問題
關於索引與收錄問題的排查重點。