深入了解檢索預算(Crawl Budget)對 SEO 的重要性。本文教你如何透過 Google Search Console 監控爬蟲行為,從網站速度、結構層級到重複內容與 Sitemap 提交,全面優化檢索效率,加速網頁索引與排名表現。
Google再強大,也不會有無窮無盡的資源,讓自家的爬蟲同時爬取全世界所有網站的全部頁面,因此Google會分配時間和資源在不同網站上,這被稱為「檢索預算」,也稱爬蟲預算。
檢索預算(Crawl Budget)是指搜尋引擎的爬蟲在一定時間內分配給網站的檢索資源和時間,由於網絡上有無數的網站,爬蟲需要有效分配時間,排出優先級來檢索權重高、品質好的網站,以提供優質搜尋結果,而常見的檢索預算的分配取決於以下因素:
- 網站內容品質:Google爬蟲更傾向於花費時間和資源在高品質內容的網站上,因為這些網站的內容通常能夠更好地滿足用戶的需求。
- 網站架構和動線:網站結構清晰、內部連結流暢,可以讓爬蟲更輕鬆檢索網站內容,以提高抓取效率。
- 頁面檢索和讀取狀況:網站中存在過多的重複內容、無效頁面和無意義的轉址,會浪費爬蟲的時間和資源,所以要避免這些問題。
- 網站速度:如果網頁加載速度慢,爬蟲抓取會比較困難且耗時,這會影響到重要頁面的檢索進度。
那麼,我們要怎麼知道爬蟲到底有沒有來我們網站呢?

這個時候你就非用Google Search Console不可了,我剛好有寫網站成立初期,遇到的各種問題,並且寫在Google Search Console操作紀錄,從Day 1開始的記錄裡,歡迎看看我這種新手架站會遇到什麼問題。
回到正題,我們只要進入Google Search Console,點擊左下角的「設定」,再進入「檢索統計資料」,就可以看到一個欄位叫做「檢索要求總次數」。
這裡要記得,這裡的時間區間是過去90天,所以你要用這個時間長度來去看檢索(爬蟲來了幾次)。
但是要看爬蟲來你的網站待了多久,那麼可以用這種方式計算。舉例,像我的產品先生網站目前「
已編入索引的網頁」一共有29頁,過去90天來發生了818次的檢索要求總次數(上圖的時間維度沒有到90天,因為我的網站才剛建立),所以,可以利用這個功能看到爬蟲待在你的網站的頻率。
要想辦法讓爬蟲在網站爬的速度越快越好,為什麼?如果網站讓爬蟲爬了好久,連帶的,網站資料被「索引」的時間也就越晚,出現在搜尋結果頁上也就更慢,所以,網站要讓爬蟲爬的很快,就有機會盡早被索引。
讓爬蟲爬的夠快
那麼,我怎麼知道我的網站速度到底夠不夠快?你只要到PageSpeed Insights這個網站,輸入你的網址,就可以看到Google怎麼判斷你的網站速度了。
但是,為什麼還分有Mobile與Desktop版本呢?因為Google在2020年9月開始,所有網站將改採行動版內容優先索引系統,也就是說,先被索引的會是行動版網頁,而且這還是早在2020就公告的事情,時至今日,仍然不少網站還是處於沒有RWD的版本。
所以,根據Google的說明,我們的手機版的網站速度最好是越快越好。
回到正題,網站速度會有很多變數來被影響到,如果可以最好找你家的工程師確認問題點,如果你沒有工程師可以協助,那麼建議你找的網站版型套件越簡單越好,不要太過複雜,也不要放大檔案的圖片,這些都會影響到網站在手機上載入的速度。
還有一點,你的網站內容的「層級」不要太多,就好比,你的手機,是放在你的隨身包,你的隨身包又放在後背包,你的後背包又放在汽車的後車箱裡,而你的汽車又停在停車塔裡…
聽懂了嗎?當今天你每天都要去看手機上的訊息時,你要透過層層關卡才能看到,那麼是不是很花時間又不容易找到呢?爬蟲來你的網站的時候也是一樣意思。

所以,我們再複習一次,為了爬蟲爬取我們的網頁,我們要做到:
- 網站速度夠快
- 網站版面夠簡單
- 網站內容層級不要太深
欸?網頁層級不要太深?什麼意思?你可以參考一下較大型的網站,它的導航列是怎麼設計的,以我為例,我的網頁上戶的「導航列」就只有兩層,主要目的是想要讓爬蟲可以輕易的就透過超連結來到我的頁面。

那麼,我們的分類很多、很少怎麼辦?這個時候你就該想一想,我到底要怎麼進行分類了,或是找我當你的顧問,現在只要月付10,000元,一次簽一年……。
不開玩笑了,這個分類多或少,還是得要實際的評估。
那麼,這個導航列除了讓爬蟲之外,還有什麼用途?以下圖秝芙演藝經紀有限公司的網站為例,在左半邊的導航列只有一層的架構。

一但我們在搜尋結果頁搜尋之後,則我們可以看到它的搜尋結果有列出在導航列上的選單內容,而這樣的呈現型式叫做「sitelink」,雖然數量、位置沒有和網站的一致,但是,總比只有原本的一點高度的呈現還要好。

而除了在導航列之外,在頁面當中,也可以放置超連結,讓爬蟲根據你文章中的內容去爬取這個相關頁面,一篇文章可以放上2~4個這樣的超連結,但是,切記一定要「自然的提到這件事、順便放上超連結」這樣子。

重覆內容會搞混爬蟲
什麼叫做重覆內容?當今天你的網頁內容,在世界上還有另一個頁面裡存在著,此時,Google就會開始有一連串的「腦補」機制,至於怎麼腦補,我們不知道、也無法管理,所以,我們該怎麼讓Google的爬蟲知道,我們的網頁內容是獨一無二的。
不要一文多貼
很多人認為想要盡一切的可能散播自己的內容,認為在多個平台上有著自己的內容是很棒的事情,但實際上,對於Google而言,就好比學校老師叫大家寫作者,今天的題目是「我的媽媽」,結果,全班同學有一半的人媽媽都姓劉,而且都住在同一個地方,對於老師在批改作業時,就無法判斷到底誰的同學才真的姓劉,以及,到底是誰抄襲誰的作文。
因此,Google有自己的一套機制,去判斷誰的文章才是「根源」,但實際上有一些黑㡌手法會讓Google誤判。
總之,你的文章只能在你自己的網頁上出現,如果想要授權其他網站使用,建議最多三分之一的內容即可,並且還要附上「全文瀏覽請至原始頁面」的文字提醒,並且放上超連結。
技術性問題
第1種:https://pagerank.ing/seo與https://www.pagerank.ing/seo
問題:
- 分散權重:外部鏈接的權重可能會被分散,降低頁面的整體SEO效果。
- 品牌混淆:用戶可能會對網站的品牌一致性感到困惑,影響用戶體驗。
解決方法:選擇一個主要域名(帶www或不帶www),並使用301轉址到將另一個域名。
第2種:https://pagerank.ing/seo與http://pagerank.ing/seo
問題:
- 安全性問題:HTTP頁面不安全,會影響用戶信任度和搜索引擎排名。
- 分散權重:外部鏈接的權重可能會被分散,降低頁面的整體SEO效果。
解決方法:使用301轉址將HTTP頁面重定向到HTTPS頁面,以確保所有流量都通過安全連接。
第3種:https://pagerank.ing/seo-1與https://pagerank.ing/seo-2和https://pagerank.ing/seo-3
問題:
- 混淆:爬蟲可能會對網站的內容差別到困惑,影響索引(例如你賣的鞋子不同尺寸有不同的頁面,但每一個頁面的差別只有尺寸的文字不同)。
解決方法:使用canonical標籤,將其他的頁面指向「唯一」的頁面。
以上的技術性問題,基本上不建議你自己處理,請找工程師或是你配的網站委外人員處理,但你就是要留心注意這件事就對了。
怎麼確認爬蟲有爬過?
簡單講,你就去搜索你的網頁標題有沒有出現,但前提是你能夠在搜尋結果頁裡能找到,如果你輸入像是「SEO」的關鍵字,有著超多業界大老在搶的關鍵字,那麼基本上你應該找不到你這篇寫SEO的搜尋結果。
另一個方法,就是去搜尋你的網頁的網址,基本上就會出現了,此時,我們就可以判斷這一頁已經經過了檢索、索引和呈現在搜尋結果頁的一連串流程了。
最後的大絕招,就是使用site指令來找你這一頁有沒有出現在搜尋結果頁上,例如「site:https://pagerank.ing/seo」。而且有時候我也會用「site:https://pagerank.ing」這樣的指令,來看看自己的網站總共有幾頁可以出現在搜尋結果頁上。
當然啦,SEO專家們的招式很多,最常用的還是會是Google Search Console來看看這一頁有沒有被Google正確的檢索和索引,最後在搜尋結果頁上看有沒有出現,多半是為了心安和向客戶交代,你的網頁我處理好了。




直接給爬蟲sitemap
一秒就懂:把你網站的所有網址都列給爬蟲。
通常我會用Chrome的擴充功能AITDK來看一個網頁的狀態,然後會出現一個叫做「sitemap.xml」的文字,這個文字點擊之後,就可以看到一個網頁,裡頭有出現一行一行類似「https://pagerank.ing/page-sitemap.xml」的網址。
這個就是告知爬蟲我的網站有這些網頁,你可以去爬,那麼sitemap.xml要怎麼產生呢?這太容易,我個人通常會是去Sitemap Generator網站來產生sitemap,然後自己上傳到網站的根目錄,但如果你用的是wordpress,那就用一些SEO外卦就可以自動產生了,但是,你還是不知道怎麼產生,那麼最好的方法,就是找你家公司的工程師來協助處理。
而且,你還要請工程師想辦法「自動更新sitemap.xml」這個檔案,不然每一次都有新、舊網址的調整,都要自己手動去處理嗎?



要深入了解 SEO ,請參考我們的詳細指南:SEO 是什麼? 就是一套方法,向 Google 證明:我的內容,就是這個問題的最好答案。