Coolkid mascot CoolkidLab Build in Public. Level up together.

SEO 菜鳥成長史 · #1

閱讀

SEO 白老鼠實驗 #1:sitemap 提交 GSC 跳「無法擷取」是壞了嗎?

先講重點

sitemap 提交後 GSC(Google Search Console)顯示「無法擷取」是壞了嗎?90% 不是壞掉 — 新站第一次提交幾乎都這樣,Google 還在排隊抓。正確動作是提交後別再動它,給 Google 幾天到一兩週排程,狂按重新驗證反而沒用。

前幾天說要拿自己的網站當練習場,從 0 開始學 SEO。結果第一關就卡住。

我把 sitemap 提交到 Google Search Console,一按下去直接跳「無法擷取」紅字。當下心想:完蛋,白老鼠實驗第一天就翻車。

後來才知道,這個紅字 90% 的新手第一次提交都會遇到。寫下來給跟我一樣從 0 開始的人,少花一點時間在 Google 自己的時差上。

1. 我做了什麼

事情的順序很簡單:

  1. build.py 自動產出 sitemap.xml 到網站根目錄
  2. Vercel 部署完,確認 https://www.coolkidlab.com/sitemap.xml 可以打開
  3. 到 GSC 的「Sitemap」頁面,輸入 sitemap.xml,按提交

結果狀態欄直接跳出紅字「無法擷取」,系統探索到的網頁是 0。

2. 我這種非工程師背景的第一反應

看到紅字,腦袋自動跑出一連串「是不是我哪裡寫錯了」:

差一點就要去改設定。但這就是新手最常踩的坑:看到紅字就動手,結果問題根本不在自己這邊。

3. 冷靜下來,先驗證自己

在動手改設定之前,先確認一件事:檔案本身有沒有問題。

我用 curl 直接打自己的 sitemap.xml:

curl -I https://www.coolkidlab.com/sitemap.xml

回應:

再看 robots.txt:

Sitemap: https://www.coolkidlab.com/sitemap.xml

也有正確指向。三個都過,代表檔案那邊沒問題,問題不在我這邊。

4. 為什麼 GSC 第一次提交 sitemap 都會跳「無法擷取」?

查官方文件才知道——「無法擷取」其實只是 placeholder。

GSC 提交 sitemap 後,系統不會立刻去抓。它會排進 Google 自己的 crawl queue,等到輪到你才會真的讀。從提交到第一次成功擷取沒有保證時間,通常幾小時到幾天,新站可能更久。

在那之前,狀態欄會顯示「無法擷取」或「未知」。這不是錯誤,是還沒輪到你。

官方依據在這:Google Search Central 說明 sitemap 是給 Googlebot 的「建議」不是命令,不保證即時或全部抓取、也不保證時程(「要等幾天」是我的實際觀察,不是官方數字)。所以「無法擷取」九成是還在排隊,不是檔案壞了。

重點:GSC 的「無法擷取」紅字,不一定是你的網站壞了。第一次提交時,它幾乎一定會出現。

5. sitemap 一直「無法擷取」正確處理方式是什麼?

確認檔案本身沒問題之後(HTTP 200、Content-Type 對、robots.txt 有指向),處理流程其實超無聊:

  1. 不要刪除已提交的 sitemap
  2. 不要一直重複提交同一個 sitemap(重複提交沒有幫助、也沒必要,但不會被懲罰)
  3. 耐心等幾天,讓 Google 排程輪到你(沒有保證的固定時間)
  4. 想加速的話,用 GSC 上方搜尋框貼 sitemap 網址,按「網址審查」→「要求建立索引」

24 小時後,狀態通常會變「成功」,系統探索到的網頁數會跳成 sitemap 裡的實際數量。如果 24 小時後還是紅字,那才是真的有問題,這時候才應該回頭檢查檔案、robots.txt、網域驗證。

6. 用交易視角看這件事

我做交易學到一件事:看到紅字不要急著反應,先問「這是不是正常流程的一部分」。

下單之後看到 pending,沒人會以為券商系統壞了。但換成 GSC 的「無法擷取」,新手就會慌,因為平常很少碰這個工具,看不出正常流程跟壞掉的差別。

判斷一個系統是壞了還是還沒輪到,只有兩個方法:看官方文件,或自己驗證輸入端有沒有問題。先驗證自己,再判斷對方,順序很重要。

7. 給跟我一樣的新手:三個 checkpoint

如果你也剛把 sitemap 丟到 GSC,看到紅字先別動,照這個 checklist 走:

  1. 瀏覽器直接打開 sitemap.xml 網址,看得到內容嗎?
  2. robots.txt 裡有沒有 Sitemap: 那一行?
  3. GSC 裡的網域所有權有沒有完成驗證?

三個都通過,就放著等 24 小時。不要重提、不要刪、不要改設定。

8. 下一步

白老鼠實驗的下一篇,會記錄 24 小時後 Google 到底有沒有抓我、抓了幾頁、第一個被索引的是哪一頁。

教學文不會寫這種小卡點——太瑣碎、太邊角。但真實在做的人都會撞一次。我把它寫下來,主要是給未來的自己當筆記,順便讓跟我一樣從 0 開始的人少走一點冤枉路。

名詞解釋

SEO(搜尋引擎優化)
讓網站在 Google 搜尋結果排得更前面的一整套方法,涵蓋技術體質、內容品質、連結結構三層。
GSC(Google Search Console)
Google 給網站主的免費後台:看自己網站在搜尋的曝光、點擊、排名跟索引狀態。做 SEO 的人天天開的儀表板。
網站地圖(sitemap)
列出網站所有頁面跟最後更新日的清單檔(sitemap.xml),交給搜尋引擎加速發現與重抓你的頁面。
GEO(生成式引擎優化)
讓 ChatGPT、Perplexity 這類 AI 在回答問題時引用你網站內容的優化方法,是 SEO 在 AI 時代的延伸戰場。
GA4(Google Analytics 4)
Google 的流量分析工具:訪客從哪來、看了什麼、停多久。GSC 管「搜尋結果上的表現」,GA4 管「進站後的行為」。
PageSpeed Insights
Google 提供的免費網站速度體檢工具,輸入網址就給 0-100 分跟逐項改善建議。
robots.txt
放在網站根目錄的「爬蟲守則」:告訴搜尋引擎跟 AI 爬蟲哪些頁面可以抓、哪些不要碰。
索引(index)
搜尋引擎把你的頁面收進資料庫、開始能被搜到的狀態。「先被索引」是「有排名」的前提。
點閱率(CTR, Click-Through Rate)
看到你的搜尋結果的人裡,實際點進來的比例。曝光 100 次、被點 5 次,CTR 就是 5%。
曝光(impression)
你的頁面出現在搜尋結果裡被看到的次數,不管有沒有被點擊。
標準網址(canonical)
告訴 Google「這一頁的正版網址是哪個」的標籤,避免同內容有多個網址時被當成重複頁面、分散權重。
內部連結(internal link)
站內文章互相連的連結,幫讀者跟搜尋引擎理解「哪些內容相關、哪一頁重要」,是成本最低的 SEO 訊號。

看完這篇之前先確認:

適合你
  • 知道 SEO 有技術面但不知從哪開始
  • 想了解 schema / canonical 是什麼
  • 想替自己網站做技術面健檢
不適合
  • 內容還很少的新站(先寫文章)
  • 完全託付給 WordPress 全自動外掛的人
  • B2B 純 LinkedIn 流量的人
最常踩
  • 灌一堆 schema 但內容不對應(被視為假)
  • canonical 指向錯誤頁面
  • sitemap lastmod 永遠不更新

這篇是收斂後寫的版本。
我每兩週寄一封電子報,講「正在做但還沒寫成文章」的東西——
包含每月幫你過濾值得花時間的新 AI 工具,
以及 Lab 新文的個人版(你會比公開版早一週收到)。

→ 訂閱(雙週一封,第一封自動寄起步清單)

跳轉 Substack、隨時取消、不轉賣 email。

如果內容對你有用就太好了
隨喜斗內

Buy Me a Coffee at ko-fi.com
NEXT CHAPTER ▸ #0 什麼是 GSC?新手如何看懂 Google Search Console

相關閱讀

這篇背後的真實開發過程記錄在 Build Log搜尋標籤:sitemapgsc

本篇為個人學習與實驗紀錄。SEO 演算法持續變動,本文方法不保證在你的網站產生相同效果,請依自身網站狀況實驗驗證。本站不接 YMYL 高風險站、不做 PBN、不做品牌矩陣 SEO。

← 回 SEO 菜鳥成長史

⚠ 本站所有內容僅供教育與研究用途,不構成投資建議,不保證任何獲利。投資有風險,使用者須自行判斷並承擔結果。