爬蟲,這個最有名的應該是搜尋引擎之王 Googlebot 吧?而我根據 Google 搜尋團隊相關技術文獻的分析,盡可能的在本文將從頭到尾詳細解說網路爬蟲(特別是 Googlebot)的歷史演進、運作原理、與現代 AI 時代所面臨的全新挑戰,將探討一個根本性的問題:當網路爬蟲不再只是為了建立搜尋索引,而是成為訓練大型語言模型的基礎時,整個生態系將如何變化?

什麼是網路爬蟲?
網路爬蟲(Crawler)在本質上就是一個 HTTP 客戶端(Client)是向伺服器發送 HTTP 請求(Request)並接收回應(Response)的應用程式或工具,你可以把它想像成一個功能被大幅簡化的瀏覽器,專門用來透過網路擷取資料。
最基礎的爬蟲運作方式是從一個初始網址(URL)出發,擷取該網頁的內容後,自動提取頁面上的其他連結,並繼續遞迴存取這些新發現的網址。在 1990 年代的早期網路環境中,只要從 CNN 或華爾街日報等熱門網頁開始跟隨連結,甚至就有可能爬取整個網際網路。
早期搜尋引擎與 Google 的「BackRub」時代
Google 創辦人 Larry Page 和 Sergey Brin 早期開發的搜尋引擎名為「BackRub」。
在那個年代,網際網路的規模很小,早期的搜尋引擎(如 WebCrawler)大約只索引了 200 萬個網頁,這在今天是微不足道的數字。當時的網頁也極度輕量,可能只有大約 7,000 bytes 的大小。
然而,當時最大的挑戰在於頻寬成本非常昂貴,因此爬蟲系統必須謹慎控管,避免耗盡自身或目標網站的頻寬。
Google 爬蟲基礎架構的演進:從混亂到統一
隨著 Google 的發展,爬蟲系統經歷了重要的變革。
單一 Googlebot 時期
最初只有搜尋引擎使用 Googlebot 來抓取網頁。但隨著 Google 在 2000 年代初期推出 AdWords(Google Ads)、AdSense 以及 Gmail 等多項新產品,越來越多服務需要從網路擷取資料(例如 Gmail 需要透過代理伺服器抓取圖片以保護使用者隱私)。
身分混淆問題
當時所有的抓取動作都統稱為 Googlebot,這導致許多網站管理員誤以為自己即將被收錄進 Google 搜尋,但實際上那只是廣告或信件系統的資料擷取。
統一的共用基礎架構
為了解決混淆,並防止內部工程師各自開發爬蟲而導致難以維護與行為失控,Google 自 2006 年起建立了一個統一的抓取系統。
自此,所有的爬蟲都共用相同的底層程式碼與規範,但可以根據不同產品自訂專屬的使用者代理字串(User Agent)(例如 Google AdsBot),讓網站管理者能清楚辨識流量來源。
爬蟲的「禮貌」原則與動態控制
一個行為良好的系統爬蟲必須遵守網路規範,不去干擾一般網站的運作:
- 遵守 robots.txt:良好的爬蟲會尊重機器人排除協議(Robots Exclusion Protocol),不去抓取網站擁有者禁止存取的內容。
- 動態調整抓取速率:爬蟲系統會監控目標主機的健康狀態與負載情況,如果發現伺服器負擔過重,就會自動放慢抓取速度,避免對網站造成類似 DDoS 的攻擊。相反地,有些不守規矩的爬蟲則會試圖在極短時間內大量抓取資料,這會讓網站伺服器不堪負荷。
系統爬蟲 vs. 使用者觸發擷取:權限與優先權的差異
節目中特別區分了兩種不同的資料抓取情境,Google 在處理上有顯著差異。
系統排程爬蟲
一般的爬蟲擁有龐大的 URL 資料庫,新加入的網址必須排隊等待,有時可能需要數週才能被抓取到。
使用者主動觸發
當使用者在鍵盤前主動發起請求(例如在 Search Console 中進行「即時測試」或要求從試算表載入特定網址)時,系統會給予極高的優先權,並幾乎瞬間完成抓取。
在這種由使用者親自指定的行為下,系統有時甚至可以忽略 robots.txt 的限制,因為這代表了使用者的明確意圖。
現代網路的技術升級與挑戰
- 技術升級:爬蟲底層所使用的通訊協定已經從早期的 HTTP/1.1 升級到 HTTP/2(未來可能會支援 HTTP/3),這使得爬蟲能在單一連線上進行多重任務(Streaming),大幅提升了抓取效率。
- 網路擁擠與 AI 代理:隨著越來越多人、AI 產品及代理程式推出自己的爬蟲,網路環境正變得越來越擁擠。但 Gary 認為,真正消耗龐大伺服器資源的其實是後續的「資料處理與索引」,單純的抓取動作對現代網路的負載來說還在可承受範圍內。
現代網頁的挑戰:動態內容與多媒體片段索引
隨著 Web 2.0 時代到來,YouTube 等平台產生了大量的多媒體內容,傳統爬蟲面臨了新的挑戰:它們通常無法讀取由 Ajax 動態載入的影片時間軸標註或互動式逐字稿,導致搜尋引擎只能索引「整個網頁」,而無法精準對應到影片的特定時間段。
為了解決這個問題,Google 利用了其 Ajax 應用程式爬蟲架構,提出一種針對多媒體片段(Media Fragments) 的索引模型:
- Hashbang (#!) 網址技術:當爬蟲遇到帶有 #! 的網址(例如包含特定時間段 t=3,7)時,會向伺服器發送特殊請求。
- 生成快照頁面(Snapshot Page):伺服器會動態生成一個只包含該影片片段(如 3 到 7 秒)相關標註與 Metadata 的靜態 HTML 快照頁面交給爬蟲索引。
- 精準跳轉:透過這種方式,使用者在 Google 搜尋特定關鍵字時,可以直接在搜尋結果中找到對應的影片連結,點擊後播放器會自動從該片段的起始時間開始播放,大幅提升了多媒體檢索的效率。
AI 時代的轉折:爬蟲限制潮與數據偏見危機
生成式 AI 時代與爬蟲封鎖潮
進入 AI 時代後,大型語言模型(LLM)的訓練極度仰賴 CommonCrawl 等大規模開源爬蟲資料集。然而,為了奪回資料控制權,越來越多網站擁有者開始透過 robots.txt 主動封鎖 AI 訓練用的爬蟲(例如 OpenAI 的 GPTBot、Anthropic 的 ClaudeBot 以及 CommonCrawl 的 CCBot)。
這波封鎖潮的影響力正快速擴大:
- 在全世界前一百萬大熱門網站中,有超過 10% 封鎖了 GPTBot。
- 如果縮小範圍到前一千大最熱門網站,封鎖 OpenAI 爬蟲的比例更是高達 25.2%。
- 不同類型的網站態度大不相同:新聞與政治類網站有 34.2% 封鎖 GPTBot,而購物拍賣網站的封鎖率則僅有 4%。
深遠影響:訓練資料的劣化與政治偏見危機
這場針對 AI 爬蟲的防禦戰並非均勻發生,進而引發了嚴重的資料偏見(Data Bias) 與品質劣化問題:
- 高品質新聞流失:具備「高事實查核評分」的優質媒體,封鎖 AI 爬蟲的比例高達 55.4%;政治立場中立的媒體封鎖率更達 58%。
- 極端言論比例攀升:相對地,「低事實查核評分」或「極端政治立場」的網站極少封鎖爬蟲(例如右翼極端網站僅 4.1% 封鎖 GPTBot,左翼極端網站也遠低於中立媒體)。
這種不對等的防禦行為,導致用來訓練 AI 的資料集(例如 FineWeb)出現了結構性偏移:高品質新聞的佔比明顯下降,而極端政治(Hyperpartisan)來源的內容比例相對增加了 18% 到 28% 不等。
文字分析更顯示,這會導致 AI 訓練庫中充斥著具有高度政治爭議與極端化的關聯詞彙。如果 AI 開發者沒有積極介入處理這類爬蟲採樣偏差,未來的 AI 模型將可能不自覺地繼承並放大這些極端化與偏見。
內容分類如何決定 AI 爬蟲的存取權限
網站的「內容分類」對於 AI 爬蟲的存取與被封鎖率有著決定性的影響。根據最新的研究與流量數據分析,網站管理者面對 AI 爬蟲時,會因為其內容的性質(如版權價值、商業模式、政治立場等)而採取截然不同的防禦策略;同時,不同類型的 AI 爬蟲也會主動針對特定的內容分類進行抓取。
內容屬性決定了對 AI 爬蟲的「封鎖率」
網站所屬的產業類別,直接影響了它們是否願意讓 AI 爬蟲(如 OpenAI 的 GPTBot)存取資料:
- 新聞與政治 (News & Politics) 及 娛樂 (Entertainment) 網站:這類網站擁有極高的原創內容與版權價值,因此對 AI 爬蟲的防禦心態最強。數據顯示,高達 34.2% 的新聞與政治類網站會主動封鎖 GPTBot。娛樂類網站的封鎖率也超過 14%。
- 教育類網站 (Education):封鎖率居中,約為 9.0% 會阻擋 GPTBot 的抓取。
- 購物與拍賣網站 (Shopping & Auctions):對於這類以促銷和曝光為主要目的的網站而言,被抓取資料反而可能有助於商品曝光。因此,僅有 4.0% 的購物與拍賣網站會封鎖 GPTBot。
新聞媒體的「事實查核品質」與「政治立場」加劇了存取差異
即使在「新聞與政治」這個單一分類中,AI 爬蟲的存取權限也呈現極端的分化。這顯示網站的品質與立場會顯著影響其資料保護策略:
- 高品質與中立媒體強力封鎖:具備「高事實查核評分(High factual reporting)」的優質新聞媒體中,有高達 55.4% 封鎖了 OpenAI 的爬蟲。若以政治立場來看,政治中立(Neutral)的媒體封鎖率最高,達到 58.0%。
- 極端立場與低品質來源門戶洞開:相對地,「低事實查核評分」的網站僅有 3.7% 進行封鎖,而「混合/中等事實查核評分」的網站封鎖率也只有 8.4%。在政治光譜的極端,右翼極端(Right-leaning)媒體僅有 4.1% 封鎖 GPTBot,左翼極端(Left-leaning)媒體的封鎖率也僅約 19.6%。
不同類型的 AI 爬蟲會「主動鎖定」特定的內容分類
除了網站主動封鎖外,不同用途的 AI 爬蟲也會因為其任務需求,而頻繁存取特定分類的網站:
- AI 數據抓取工具(AI Data Scrapers,用於訓練 LLM):這類爬蟲(如 GPTBot、CCBot)極度偏好「線上社群(Online Communities)」(如論壇、問答網站)。因為這類網站的「問答形式」與 LLM 生成回應的格式非常相似,是訓練 AI 的理想語料。其他常被抓取的分類還包括網際網路與電信、居家與園藝、商業與工業等。
- AI 搜尋爬蟲(AI Search Crawlers,用於 AI 搜尋引擎索引):這類爬蟲(如 PerplexityBot、OAI-SearchBot)因為需要提供使用者精確的事實與解答,因此最常造訪「參考資料(Reference)」、健康(Health)、遊戲(Games)與新聞(News)類網站。
- AI 助理(AI Assistants,如 ChatGPT-User):為了在聊天中即時回覆使用者的特定提問,它們常存取網際網路與電信、金融(Finance)、房地產(Real Estate)以及美容健身等分類。
- AI 代理(AI Agents,代客操作的機器人):由於這類機器人的目的是「代替人類完成多步驟任務(如預訂、比價、購買)」,它們的流量高度集中在電腦與電子產品、商業與工業、金融、健康以及旅遊與交通(Travel and Transportation)等具備高度交易或操作性質的網站。
造成的深遠影響:訓練資料的結構性偏差
這種因「內容分類」與「品質/立場」而產生的存取差異,正在重塑大型語言模型(LLM)的基礎訓練資料。因為高價值的新聞、客觀中立的報導以及優質的教育內容大量將 AI 爬蟲拒之門外,而低品質、充滿強烈政治偏見或極端主義的網站卻任由 AI 爬蟲無限制抓取。
這導致在如 FineWeb 等被廣泛使用的 AI 訓練資料集中,來自高事實查核來源的內容佔比顯著下降,而極端政治內容的比例卻相對增加了近 20% 到 30%。如果 AI 開發者不積極介入處理這種因內容分類造成的「抓取不對等」,未來的 AI 模型將可能不自覺地繼承並放大這些極端化與偏見。
數據偏見對 AI 模型的具體影響
這種由網路爬蟲限制所引發的數據偏見,會對 AI 模型造成深遠且難以察覺的負面影響。
損害公平性與事實準確度
模型將會繼承系統性偏見,損害其輸出的公平性、政治中立性,甚至導致歧視性輸出。
內建政治兩極化
隨著中立新聞退出、極端內容佔比增加,AI 系統將把政治極化現象內建於其基礎能力之中。
語意關聯極端化
模型會過度學習極端政治色彩的專屬詞彙關聯。例如,極端右翼文本會讓模型頻繁將「總統」與「川普」連結。
針對弱勢群體的框架偏見
數據偏見會導致 AI 對特定群體產生截然不同的語意聯想。例如,左翼文本傾向將「跨性別者」與「權利」連用;而右翼文本則傾向將其與「兒童、學校」等爭議性框架連用。
審核與修正極度困難
現代 AI 模型訓練資料規模龐大且不透明,一旦偏見融入,將變得極難以被察覺、追蹤與審核。
爬蟲生態系的完整圖譜:15 種主要分類與詳細列表
根據 Known Agents 資料庫的統計,網際網路上有數百甚至上千種不同的爬蟲與自動化程式。以下為您詳細列出各種類的名稱與其核心用途,以供查詢與理解。
1. AI 代理 (AI Agents)
用途:使用真實的網頁瀏覽器,自動代表人類使用者完成複雜的多步驟任務(例如購物、預訂等)。
已知名稱:AmazonBuyForMe、ChatGPT Agent、Google-Agent、GoogleAgent-Mariner、Manus-User、NovaAct、TwinAgent。
2. AI 助理 (AI Assistants)
用途:為了回應使用者的提示 (Prompt) 而擷取網頁內容,並將其包含在 AI 生成的回覆中。
已知名稱:AI2Bot-DeepResearchEval、Amzn-User、bigsur.ai、ChatGPT-User、Claude-User、Devin、DuckAssistBot、Gemini-Deep-Research、Google-NotebookLM、kagi-fetcher、KlaviyoAIBot、LinerBot、meta-externalfetcher、MistralAI-User、Perplexity-User、PhindBot、Poggio-Citations、QualifiedBot。
3. AI 數據抓取工具 (AI Data Scrapers)
用途:下載網頁內容以納入資料集,專門用於訓練大型語言模型 (LLMs) 等 AI 模型。
已知名稱:Ai2Bot-Dolma、Amazonbot、ApifyWebsiteContentCrawler、Applebot-Extended、Bytespider (ByteDance)、CCBot (Common Crawl)、ChatGLM-Spider、ClaudeBot、CloudVertexBot、cohere-training-data-crawler、Cotoyogi、Datenbank Crawler、Diffbot、FacebookBot、FirecrawlAgent、Google-Extended、GoogleOther、GPTBot、ICC-Crawler、imageSpider、Kangaroo Bot、laion-huggingface-processor、LCC、meta-externalagent、netEstate Imprint Crawler、omgili、PanguBot (Huawei)、SBIntuitionsBot、Spider、Timpibot、VelenPublicWebCrawler、webzio-extended。
4. AI 搜尋爬蟲 (AI Search Crawlers)
用途:索引網頁內容,以便將其作為 AI 支援搜尋結果中的引用來源。
已知名稱:AddSearchBot、Amzn-SearchBot、Anomura、Applebot、atlassian-bot、AzureAI-SearchBot、Bravebot、Channel3Bot、Claude-SearchBot、Cloudflare-AutoRAG、ExaBot、Google-CloudVertexBot、LinkupBot、meta-webindexer、OAI-SearchBot、PerplexityBot、PetalBot、YouBot、ZanistaBot。
5. 網頁存檔工具 (Archivers)
用途:擷取並儲存歷史網站快照,以進行長期的數位保存。
已知名稱:Archive-It、archive.org_bot (Wayback Machine)、Arquivo-web-crawler、Authory、bl.uk_lddc_bot、bne.es_bot、bnf.fr_bot、heritrix、ia_archiver、ia_archiver-web.archive.org、IABot、Internet Archive、mirrorweb、netarkivindsamling、Nicecrawler、SmarshBot、special_archiver、Turnitin、XY-Archive-Compliance、XY-Archive-Compliance-Archiver。
6. 自動化代理 (Automated Agents)
用途:以程式化方式自動執行瀏覽器互動,無需人類直接監督。
已知名稱:Amazon Bedrock AgentCore Browser、Anchor Browser、Browserbase、Cloudflare Browser Rendering、HeadlessChrome、Known Agents Browser。
7. 開發者輔助工具 (Developer Helpers)
用途:協助測試、除錯並確保網站的正常運作(例如監控網站上線時間、效能或連結完整性)。
代表名稱:AccessStatus、AlertSite、Better Uptime Bot、BlogVault、Bugsnag、Checkly、Chrome-Lighthouse、Cloudflare Radar URL Scanner、Crazy Egg、Datadog Synthetic、deadlinkchecker、Ghost Inspector、Google Inspection Tool、Google-Site-Verification、Google-Structured-Data-Testing-Tool、GTmetrix、HetrixTools、Hotjar、Jetpack、Let’s Encrypt、Pingdom.com_bot、ProjectShield Url Check、Qualys、Sentry、Site24x7、SiteLock、Splunk Synthetics、StatusCake、UptimeRobot、Validator.nu 等超過百種監控程式。
8. 內容提取工具 (Fetchers)
用途:檢索網頁的 Metadata(詮釋資料),用於驅動應用程式功能(例如生成社群媒體的連結預覽、RSS 訂閱或訊息推播)。
代表名稱:AASA-Bot、AddThis、BingPreview、bitlybot、Bluesky Link Preview Service、Discordbot、Embedly、EvernoteRichLinkBot、facebookexternalhit (Meta)、FeedBurner、Feedly、FlipboardProxy、Goodreads、Google Feed Fetcher、Google Web Preview、Grammarly、Iframely、IFTTT、Instapaper、LinkedInBot、Pinterestbot、redditbot、SkypeUriPreview、Slackbot、Snapchat、TelegramBot、TikTokSpider、Twitterbot、WhatsApp、Yahoo Link Preview。
9. 情報收集工具 (Intelligence Gatherers)
用途:分析網頁內容,用於品牌安全監控、競爭對手洞察分析以及廣告精準投放。
代表名稱:ActiveComply、adbeat_bot、AdsBot-Google、Amazon AdBot、AwarioBot、Bing Ads、BrandVerity、CriteoBot、DVbot (DoubleVerify)、EzoicBot、HubSpot Crawler、IAS crawler、Macrobondbot、Mediapartners-Google (Google AdSense)、MuckRack、Netcraft、outbrain、Owler、Quantcastbot、Taboolabot、TurnitinBot、ZoominfoBot。
10. 一般抓取工具 (Scrapers)
用途:提取大量的網路資料,這類行為通常沒有經過網站的明確許可。
已知名稱:008、AdsTxtCrawler、Dataprovider.com、dcrawl、HelloworkJobPostingBot、HTTrack、IndeedJobBot、KrawlerBot、MetaInspector、MetaJobBot、newspaper、Nutch、nyt_scraping (New York Times)、Offline Explorer、OpenindexSpider、Potions、Scrapy、ServerHunterSpider、StatsDroneBot。
11. 搜尋引擎爬蟲 (Search Engine Crawlers)
用途:系統性地掃描與索引網頁,以便將其納入傳統搜尋引擎的結果中。
代表名稱:360Spider、Baiduspider、bingbot、Cốc Cốc、Daum、DuckDuckBot、Gigabot、Googlebot (及其 Image, Mobile, News, Video 分支)、msnbot、Neevabot、Qwantbot、SeznamBot、Sogou web spider、Teoma、TinEye-bot、YandexBot、Yeti (Naver)、YisouSpider、ZumBot。
12. 安全掃描工具 (Security Scanners)
用途:掃描網站以尋找安全漏洞、潛在威脅以及設定上的弱點。
代表名稱:AliyunSecBot、CensysInspect、Cloudflare-Validator、Cookiebot、CookieHub、Detectify、DigiCert DCV Bot、Expanse、Google-Safety、Google-Trust-Services、Nmap Scripting Engine、Sansec Security Monitor、SecurityHeaders、SiteLockSpider、SSL Labs、Sucuri、TermlyBot。
13. SEO 爬蟲 (SEO Crawlers)
用途:分析網站的架構與內容,以找出搜尋引擎最佳化 (SEO) 的改善機會。
代表名稱:AhrefsBot、Barkrowler、BLEXBot、botify、BrightEdge Crawler、contentking、DataForSEO、deepcrawl、DomainStatsBot、Moz dotbot、Moz rogerbot、Screaming Frog SEO Spider、SemrushBot (含 BA, CT, SA, SI 分支)、SeobilityBot、SERankingBacklinksBot、Sitebulb、Siteimprove Crawl、XoviOnpageCrawler。
14. 未分類代理 (Uncategorized Agents)
用途:尚未被分配到特定類型的各式爬蟲與機器人。
包含狀態:此類別包含數百種用途不明、歷史悠久或極為冷門的爬蟲。代表性的如:007ac9 Crawler、AppleNewsBot、Disqus、DomainCrawler、Foobot、Genieo、Gigablast、Internet Archive 的多個舊分支、MegaIndex、Nuzzel、Pingdom、Pinterest、Postrank、TeleportPro、WebCopier、WebCrawler、Xenu Link Sleuth、Yahoo! Slurp 等。
15. 未記錄的 AI 代理 (Undocumented AI Agents)
用途:目的不明的 AI 驅動機器人,通常被用於未公開的資料收集任務。
已知名稱:anthropic-ai、ApifyBot、Aranet-SearchBot、Claude-Web、cohere-ai、Crawl4AI、DeepSeekBot、iAskBot、iaskspider、KunatoCrawler、TavilyBot、TerraCotta、WRTNBot。

Googlebot 與 AI 訓練爬蟲:目的、法律與版權的差異
| 維度 | Googlebot(傳統搜尋爬蟲) | AI 訓練爬蟲(如 GPTBot) |
|---|---|---|
| 核心目的 | 建立搜尋索引,為網站帶來流量 | 大規模收集文本以訓練大型語言模型 |
| 商業模式 | 互利關係:抓取內容,附上連結與流量 | 商業剝削:將內容轉化為 AI 的生成能力 |
| 版權爭議 | 較小,被視為合理使用的範疇 | 引發《紐約時報》等重大版權訴訟,被指為「知識勞力竊取」 |
| 授權機制 | 依賴公開的 robots.txt 規範 | 衍生出專屬的付費授權協議(如 OpenAI 與新聞集團的合作) |
| 網站封鎖率 | 低(前百萬大網站僅 4% 封鎖) | 高(前百萬大網站達 10.6%,高品質新聞網站達 55.4%) |
Common Crawl 的貢獻:解決重複抓取與頻寬浪費
為了減少各家公司重複抓取資料浪費網路資源,Common Crawl 扮演了關鍵角色。
他們透過統一且遵守規範的基礎架構爬取網路,並將高達 PB 等級的資料集打包公開,讓大眾可以直接使用這些資料。這意味著 AI 開發者、研究人員或企業可以直接下載並使用現成的資料,而不需要自己開發爬蟲去消耗別人的網站頻寬。
知名的大型語言模型 Llama 與 GPT-3,其訓練語料庫中有高達 80% 以上是源自於 Common Crawl 的衍生資料集。
從早期 BackRub 對輕量網頁的單純抓取,到如今面對動態內容、多媒體片段,再到 AI 時代引發的封鎖潮與數據偏見危機,網路爬蟲的演進史不僅是一部技術史,更是一部關於資源分配、法律版權與社會倫理的角力史。
未來,如何在 AI 的發展需求與內容創作者的權益之間找到平衡,如何建立更公平、透明的數據使用規範,將是整個網路生態系必須共同面對的核心課題。
參考文獻
- Bouchaud, P., & Ramaciotti, P. (2025). Web Crawler Restrictions, AI Training Datasets & Political Biases. Complex Systems Institute of Paris Ile-de-France CNRS, médialab (Sciences Po), & Learning Planet Institute.
- Li, Y., Wald, M., & Wills, G. (2012). Let Google Index Your Media Fragments. In WWW2012 Developer Track (April 18-20, 2012). Lyon, France: School of Electronics and Computer Science, University of Southampton UK.
- Known Agents. (2026). Known Agents 2025 Year In Review. Bit Flip LLC.
- Known Agents. (2025). Known Agents AI & Bot Traffic Trends – November 2025. Bit Flip LLC.
- Known Agents. (2026). Agents | Known Agents (formerly Dark Visitors). Bit Flip LLC. Retrieved from Known Agents Agent Database.
- Martin, & Illyes, G. (n.d.). How googlebot crawls the web [Audio podcast episode]. In Search Off the Record. Google Search Team.
