谷歌Google搜索引擎爬虫UA和蜘蛛IP

谷歌Google搜索引擎爬虫UA和蜘蛛IP

"爬虫程序"是任何程序(如机器人或蜘蛛)的通用术语,用于通过跟踪从一个网页到另一个网页的链接来自动发现和扫描网站。谷歌的主要抓取器被称为谷歌机器人。此表列出了有关您在引用日志中看到的常见 Google 爬网程序的信息,以及如何在 robots.txt、机器人元标记和 X-Robots-Tag HTTP 指令中指定它们。

谷歌搜索引擎爬虫 UA

下表显示了 Google 中各种产品和服务使用的爬网程序:

APIs-Google 谷歌 API

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

API-Google 是 Google API 用于传递推送通知消息的用户代理。应用程序开发人员可以请求这些通知,以避免需要不断轮询 Google 的服务器,以了解他们感兴趣的资源是否已更改。为了确保没有人滥用这项服务,Google 要求开发人员在允许他们将 URL 注册到域作为他们想要接收消息的位置之前,证明他们拥有该域名。

AdsBot AdSense 广告

(查看桌面网页广告质量)

AdsBot-Google (+http://www.google.com/adsbot.html)

Google AdSense 广告爬网程序访问您的网站以确定其内容,以便提供相关广告。

AdsBot-Google-Mobile 安卓广告

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Google 广告系统还会访问您的着陆页来评估您的移动网站(通过拥有完整浏览器的移动设备(如 Android 设备和 iPhone)查看)

AdsBot-Google-Mobile 苹果广告

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

如果您有一个独特的移动优化版本的网站,我们建议您配置您的服务器,以显示移动优化的网站时,谷歌广告移动用户代理检测到抓取您的网站。目前,我们使用两个 HTTP 用户代理标头来标识 Google 广告移动访问,默认情况下,Google 广告系统会审核广告登陆页以评估着陆页体验。

Googlebot Image 谷歌图片

  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0

Googlebot News 谷歌新闻

  • Googlebot-News
  • Googlebot
Googlebot-News

Googlebot Video 谷歌视频

  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot Google PC

  • Googlebot
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z‡ Safari/537.36
Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot 谷歌移动

  • Googlebot
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense 移动广告感知

各种移动设备类型移动广告感知

  • Mediapartners-Google
(Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android 移动应用安卓

检查 Android 应用页面广告质量。遵守 AdsBot-谷歌机器人规则。

  • AdsBot-Google-Mobile-Apps
AdsBot-Google-Mobile-Apps

Feedfetcher

不遵守 robots.txt 规则

  • FeedFetcher-Google
FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud 谷歌朗读

不遵守 robots.txt 规则

  • Google-Read-Aloud
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
google-speakr

Duplex on the Web

可能会忽略 * 用户代理通配符

  • DuplexWeb-Google
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google Favicon

检索各种服务的 favicon,对于用户启动的请求,请忽略 robots.txt 规则

  • Google Favicon
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon

Web Light

俗称“灯塔”,用于检测网站网页各项指标加载

不遵守 robots.txt 规则

  • googleweblight
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

验证谷歌搜索引擎 UA

您可以验证访问您的服务器的网络爬虫是否真的是 Googlebot(或其他 Google 用户代理)。 如果您担心垃圾邮件发送者或其他麻烦制造者在声称自己是 Googlebot 时正在访问您的网站,则此功能非常有用。 Google 不会发布公共 IP 地址列表,以使网站管理员可以将其列入白名单。

这是因为这些 IP 地址范围可能会发生变化,从而给所有对其进行硬编码的网站站长都带来麻烦,因此您必须按照以下说明运行 DNS 查找。

验证 Googlebot 访问:

  • 使用 host 命令在日志访问 IP 地址上运行反向 DNS 查找。
  • 验证域名是否在 googlebot.com 或 google.com 中
  • 使用在检索到的域名上的主机命令,对在步骤 1 中检索到的域名运行正向 DNS 查找。 验证它是否与日志中的原始访问 IP 地址相同。

示例 1:

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

示例 2:

> host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.
> host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

 

本文原创作者:SEO大学,其版权均为SEO大学所有。如需转载,请注明出处:《谷歌Google搜索引擎爬虫UA和蜘蛛IP
35

发表评论