Robots.txt 與 Noindex 的差異

釐清爬取與索引的本質差異。深入解析 Robots.txt 與 Noindex 的運作邏輯,揭開 SEO 常見的雙重設定誤區。掌握正確禁止頁面出現在搜尋結果中的實務作法,確保搜尋引擎能精準理解你的收錄意圖,避免網站權威受到不必要的影響。

有時候,我們的網頁當中,都有幾個頁面不想出現在搜尋結果頁中,那麼,我們要怎麼怎麼做?

簡單講,就這兩個原則:

在網頁的頁面上,設定No index=不要索引網頁

在Robots.txt檔案中,設定disallow=不要爬這個網頁

各位可以看一下下方Google Store的robot.txt內容。「User-agent: AdsBot-Google」當中的「User-agent」是指定搜尋引擎的爬蟲,例如,可以針對Bing或是百度,而這裡可以看到User-agent: AdsBot-Google,就是針對User-agent: AdsBot-Google的爬蟲,去說明以下「Disallow: /」的路徑不允許爬取。

而「User-agent: *」則是針對「所有爬蟲」的意思,而「Allow: /」則是說明該路徑允許爬取。

但是,這都只是一個參考,有時候各家搜尋引擎不一定會照你設定的去做。

User-agent: AdsBot-Google
Disallow: /accessoriesdata
......

User-agent: *
Allow: /
Allow: /category
Disallow: /accessoriesdata
......

Sitemap: https://store.google.com/sitemap.xml
Sitemap: https://store.google.com/intl/en/ideas/sitemap.xm

被「爬取」,跟不要被「索引」有什麼區別?

我們用圖書館來比喻:

  • Robots.txt:你在圖書館門口貼了一張「今日盤點,閒人勿進」。管理員(爬蟲)很守規矩,看到公告連門都不推就回家了。他連裡面有什麼書都不知道。
  • Noindex:你讓管理員進來看書了,但你在某一本書上貼了一張黃色便條紙寫著:「此書僅供館內閱讀,請勿建檔上架」。

那麼,當有一個頁面你不想出現在搜尋結果頁上,能不能雙管齊下?也就是:我先貼公告不讓你進門(Robots.txt),同時又在書裡貼了「不要上架」的紙條(Noindex)?

這就會鬧出 SEO 界經典的烏龍事件,因為管理員被你擋在門口,他根本沒看到那張黃色紙條。

更慘的是,如果這時候隔壁鄰居(別的網站)跟路人說:「嘿,那間房間裡有寶藏喔!(超連結指向你)」,Google 會因為外界的推薦,直接把這間「連管理員都沒進去過的房間」列在搜尋結果頁面上。

結論:如果你要讓頁面「不被索引」,請務必讓路給 Googlebot 進來,不要在 Robots.txt 裡擋它,讓它看到 Noindex 標籤,它才會把這頁從資料庫裡劃掉。

可參考:noindex 禁止 Google 搜尋建立索引的說明。

要深入了解 SEO ,請參考我們的詳細指南:SEO 是什麼? 就是一套方法,向 Google 證明:我的內容,就是這個問題的最好答案。
返回頂端