SEO 白老鼠實驗 #1:sitemap 提交 GSC 跳「無法擷取」是壞了嗎?
先講重點
sitemap 提交後 GSC(Google Search Console)顯示「無法擷取」是壞了嗎?90% 不是壞掉 — 新站第一次提交幾乎都這樣,Google 還在排隊抓。正確動作是提交後別再動它,給 Google 幾天到一兩週排程,狂按重新驗證反而沒用。
前幾天說要拿自己的網站當練習場,從 0 開始學 SEO。結果第一關就卡住。
我把 sitemap 提交到 Google Search Console,一按下去直接跳「無法擷取」紅字。當下心想:完蛋,白老鼠實驗第一天就翻車。
後來才知道,這個紅字 90% 的新手第一次提交都會遇到。寫下來給跟我一樣從 0 開始的人,少花一點時間在 Google 自己的時差上。
1. 我做了什麼
事情的順序很簡單:
- build.py 自動產出 sitemap.xml 到網站根目錄
- Vercel 部署完,確認 https://www.coolkidlab.com/sitemap.xml 可以打開
- 到 GSC 的「Sitemap」頁面,輸入 sitemap.xml,按提交
結果狀態欄直接跳出紅字「無法擷取」,系統探索到的網頁是 0。
2. 我這種非工程師背景的第一反應
看到紅字,腦袋自動跑出一連串「是不是我哪裡寫錯了」:
- Vercel 是不是又抽風
- build.py 是不是產錯路徑
- robots.txt 是不是擋住了
- DNS 是不是還沒完全生效
差一點就要去改設定。但這就是新手最常踩的坑:看到紅字就動手,結果問題根本不在自己這邊。
3. 冷靜下來,先驗證自己
在動手改設定之前,先確認一件事:檔案本身有沒有問題。
我用 curl 直接打自己的 sitemap.xml:
curl -I https://www.coolkidlab.com/sitemap.xml
回應:
- HTTP/1.1 200 OK ← 檔案存在
- Content-Type: text/xml ← MIME 對
- 內容長度正常,URL 全部都在
再看 robots.txt:
Sitemap: https://www.coolkidlab.com/sitemap.xml
也有正確指向。三個都過,代表檔案那邊沒問題,問題不在我這邊。
4. 為什麼 GSC 第一次提交 sitemap 都會跳「無法擷取」?
查官方文件才知道——「無法擷取」其實只是 placeholder。
GSC 提交 sitemap 後,系統不會立刻去抓。它會排進 Google 自己的 crawl queue,等到輪到你才會真的讀。從提交到第一次成功擷取沒有保證時間,通常幾小時到幾天,新站可能更久。
在那之前,狀態欄會顯示「無法擷取」或「未知」。這不是錯誤,是還沒輪到你。
官方依據在這:Google Search Central 說明 sitemap 是給 Googlebot 的「建議」不是命令,不保證即時或全部抓取、也不保證時程(「要等幾天」是我的實際觀察,不是官方數字)。所以「無法擷取」九成是還在排隊,不是檔案壞了。
重點:GSC 的「無法擷取」紅字,不一定是你的網站壞了。第一次提交時,它幾乎一定會出現。
5. sitemap 一直「無法擷取」正確處理方式是什麼?
確認檔案本身沒問題之後(HTTP 200、Content-Type 對、robots.txt 有指向),處理流程其實超無聊:
- 不要刪除已提交的 sitemap
- 不要一直重複提交同一個 sitemap(重複提交沒有幫助、也沒必要,但不會被懲罰)
- 耐心等幾天,讓 Google 排程輪到你(沒有保證的固定時間)
- 想加速的話,用 GSC 上方搜尋框貼 sitemap 網址,按「網址審查」→「要求建立索引」
24 小時後,狀態通常會變「成功」,系統探索到的網頁數會跳成 sitemap 裡的實際數量。如果 24 小時後還是紅字,那才是真的有問題,這時候才應該回頭檢查檔案、robots.txt、網域驗證。
6. 用交易視角看這件事
我做交易學到一件事:看到紅字不要急著反應,先問「這是不是正常流程的一部分」。
下單之後看到 pending,沒人會以為券商系統壞了。但換成 GSC 的「無法擷取」,新手就會慌,因為平常很少碰這個工具,看不出正常流程跟壞掉的差別。
判斷一個系統是壞了還是還沒輪到,只有兩個方法:看官方文件,或自己驗證輸入端有沒有問題。先驗證自己,再判斷對方,順序很重要。
7. 給跟我一樣的新手:三個 checkpoint
如果你也剛把 sitemap 丟到 GSC,看到紅字先別動,照這個 checklist 走:
- 瀏覽器直接打開 sitemap.xml 網址,看得到內容嗎?
- robots.txt 裡有沒有 Sitemap: 那一行?
- GSC 裡的網域所有權有沒有完成驗證?
三個都通過,就放著等 24 小時。不要重提、不要刪、不要改設定。
8. 下一步
白老鼠實驗的下一篇,會記錄 24 小時後 Google 到底有沒有抓我、抓了幾頁、第一個被索引的是哪一頁。
教學文不會寫這種小卡點——太瑣碎、太邊角。但真實在做的人都會撞一次。我把它寫下來,主要是給未來的自己當筆記,順便讓跟我一樣從 0 開始的人少走一點冤枉路。
名詞解釋
- SEO(搜尋引擎優化)
- 讓網站在 Google 搜尋結果排得更前面的一整套方法,涵蓋技術體質、內容品質、連結結構三層。
- GSC(Google Search Console)
- Google 給網站主的免費後台:看自己網站在搜尋的曝光、點擊、排名跟索引狀態。做 SEO 的人天天開的儀表板。
- 網站地圖(sitemap)
- 列出網站所有頁面跟最後更新日的清單檔(sitemap.xml),交給搜尋引擎加速發現與重抓你的頁面。
- GEO(生成式引擎優化)
- 讓 ChatGPT、Perplexity 這類 AI 在回答問題時引用你網站內容的優化方法,是 SEO 在 AI 時代的延伸戰場。
- GA4(Google Analytics 4)
- Google 的流量分析工具:訪客從哪來、看了什麼、停多久。GSC 管「搜尋結果上的表現」,GA4 管「進站後的行為」。
- PageSpeed Insights
- Google 提供的免費網站速度體檢工具,輸入網址就給 0-100 分跟逐項改善建議。
- robots.txt
- 放在網站根目錄的「爬蟲守則」:告訴搜尋引擎跟 AI 爬蟲哪些頁面可以抓、哪些不要碰。
- 索引(index)
- 搜尋引擎把你的頁面收進資料庫、開始能被搜到的狀態。「先被索引」是「有排名」的前提。
- 點閱率(CTR, Click-Through Rate)
- 看到你的搜尋結果的人裡,實際點進來的比例。曝光 100 次、被點 5 次,CTR 就是 5%。
- 曝光(impression)
- 你的頁面出現在搜尋結果裡被看到的次數,不管有沒有被點擊。
- 標準網址(canonical)
- 告訴 Google「這一頁的正版網址是哪個」的標籤,避免同內容有多個網址時被當成重複頁面、分散權重。
- 內部連結(internal link)
- 站內文章互相連的連結,幫讀者跟搜尋引擎理解「哪些內容相關、哪一頁重要」,是成本最低的 SEO 訊號。
看完這篇之前先確認:
- 知道 SEO 有技術面但不知從哪開始
- 想了解 schema / canonical 是什麼
- 想替自己網站做技術面健檢
- 內容還很少的新站(先寫文章)
- 完全託付給 WordPress 全自動外掛的人
- B2B 純 LinkedIn 流量的人
- 灌一堆 schema 但內容不對應(被視為假)
- canonical 指向錯誤頁面
- sitemap lastmod 永遠不更新
相關閱讀
這篇背後的真實開發過程記錄在 Build Log。
搜尋標籤:sitemap、gsc。
本篇為個人學習與實驗紀錄。SEO 演算法持續變動,本文方法不保證在你的網站產生相同效果,請依自身網站狀況實驗驗證。本站不接 YMYL 高風險站、不做 PBN、不做品牌矩陣 SEO。