Robots.txt 與 Noindex 的差異

釐清爬取與索引的本質差異。深入解析 Robots.txt 與 Noindex 的運作邏輯，揭開 SEO 常見的雙重設定誤區。掌握正確禁止頁面出現在搜尋結果中的實務作法，確保搜尋引擎能精準理解你的收錄意圖，避免網站權威受到不必要的影響。

有時候，我們的網頁當中，都有幾個頁面不想出現在搜尋結果頁中，那麼，我們要怎麼怎麼做？

簡單講，就這兩個原則：

在網頁的頁面上，設定No index＝不要索引網頁

在Robots.txt檔案中，設定disallow＝不要爬這個網頁

各位可以看一下下方Google Store的robot.txt內容。「User-agent: AdsBot-Google」當中的「User-agent」是指定搜尋引擎的爬蟲，例如，可以針對Bing或是百度，而這裡可以看到User-agent: AdsBot-Google，就是針對User-agent: AdsBot-Google的爬蟲，去說明以下「Disallow: /」的路徑不允許爬取。

而「User-agent: *」則是針對「所有爬蟲」的意思，而「Allow: /」則是說明該路徑允許爬取。

但是，這都只是一個參考，有時候各家搜尋引擎不一定會照你設定的去做。

User-agent: AdsBot-Google
Disallow: /accessoriesdata
......

User-agent: *
Allow: /
Allow: /category
Disallow: /accessoriesdata
......

Sitemap: https://store.google.com/sitemap.xml
Sitemap: https://store.google.com/intl/en/ideas/sitemap.xm

被「爬取」，跟不要被「索引」有什麼區別？

我們用圖書館來比喻：

Robots.txt：你在圖書館門口貼了一張「今日盤點，閒人勿進」。管理員（爬蟲）很守規矩，看到公告連門都不推就回家了。他連裡面有什麼書都不知道。
Noindex：你讓管理員進來看書了，但你在某一本書上貼了一張黃色便條紙寫著：「此書僅供館內閱讀，請勿建檔上架」。

那麼，當有一個頁面你不想出現在搜尋結果頁上，能不能雙管齊下？也就是：我先貼公告不讓你進門（Robots.txt），同時又在書裡貼了「不要上架」的紙條（Noindex）？

這就會鬧出 SEO 界經典的烏龍事件，因為管理員被你擋在門口，他根本沒看到那張黃色紙條。

更慘的是，如果這時候隔壁鄰居（別的網站）跟路人說：「嘿，那間房間裡有寶藏喔！（超連結指向你）」，Google 會因為外界的推薦，直接把這間「連管理員都沒進去過的房間」列在搜尋結果頁面上。

結論：如果你要讓頁面「不被索引」，請務必讓路給 Googlebot 進來，不要在 Robots.txt 裡擋它，讓它看到 Noindex 標籤，它才會把這頁從資料庫裡劃掉。

可參考：noindex 禁止 Google 搜尋建立索引的說明。

要深入了解 SEO ，請參考我們的詳細指南：SEO 是什麼？ 就是一套方法，向 Google 證明：我的內容，就是這個問題的最好答案。

也許會感興趣的文章

相關文章