网络爬虫链接检测分析工具 Screaming Frog SEO Spider 尖叫青蛙

SEO大学 SEO软件工具 2020年5月3日

136 33994 86

SEO Spider 是一个功能强大且灵活的网站爬网程序，能够高效地爬网小型和超大型网站，同时允许您实时分析结果。它收集关键的现场数据，可让您搜寻网站的 URL 来分析和审核技术和现场 SEO。以使 SEO 能够做出明智的决策。

在尖叫青蛙 SEO 蜘蛛可以让你快速抓取，分析和审计一个网站的现场搜索引擎优化。它可以用于爬网小型和大型网站，在这些网站上手动检查每个页面会非常费力（或不可能！），而且您很容易错过重定向，元刷新或重复页面问题。您可以在程序的用户界面中连续地收集和更新爬网数据时查看，分析和过滤爬网数据。

SEO Spider 允许您将关键的现场 SEO 元素（URL，页面标题，元描述，标题等）导出到电子表格，因此可以轻松用作 SEO 建议的基础。

Screaming Frog SEO Spider 功能简介

查找死链 404 链接

立即抓取网站并找到断开的链接（404）和服务器错误。批量导出错误和源 URL 进行修复，或发送给站长。

审核 301 重定向

查找临时和永久重定向，标识重定向链和循环，或上载 URL 列表以在站点迁移中进行审核。

分析页面标题和元数据

在爬网过程中分析页面标题和元描述，并确定在整个网站中太长，太短，丢失或重复的页面。

发现重复内容

使用 md5 算法检查发现确切的重复 URL，并复制部分重复的元素（例如页面标题，描述或标题），并找到内容不足的页面。

使用 XPath 提取数据

使用 CSS Path，XPath 或 regex 从网页的 HTML 收集任何数据。这可能包括社交元标记，其他标题，价格，SKU 或更多！

查看 robots.txt

查看被 robots.txt，元机器人或 X-Robots-Tag 指令（例如“ noindex”或“ nofollow”）以及规范和 rel =“ next”和 rel =“ prev”阻止的 URL。

生成 XML 网站地图

快速创建 XML Sitemaps 和 Image XML Sitemaps，并通过 URL 进行高级配置，包括最后修改，优先级和更改频率。

与 GA，GSC 和 PSI 集成

连接到 Google Analytics（分析），Search Console 和 PageSpeed Insights API，并抓取所有 URL 的用户和性能数据，以获取更深入的了解。

抓取 JavaScript 网站

使用集成的 Chromium WRS 渲染网页以爬网动态的，JavaScript 丰富的网站和框架，例如 Angular，React 和 Vue.js。

可视化网站架构

使用交互式爬网和目录强制导向图以及树图站点可视化来评估内部链接和 URL 结构。

SEO 蜘蛛工具抓取并生成报告

Screaming Frog SEO Spider 是一个 SEO 审核工具，由真正的 SEO 建造，在全球拥有成千上万的用户。抓取中收集的某些数据的快速摘要包括-

错误–客户端错误，例如链接断开和服务器错误（无响应，4XX 客户端和 5XX 服务器错误）。
重定向–永久，临时，JavaScript 重定向和元刷新。
阻止的网址– robots.txt 协议不允许的查看和审核网址。
阻止的资源–以渲染模式查看和审核阻止的资源。
外部链接–查看所有外部链接，它们的状态代码和源页面。
协议–发现不安全的页面，混合内容问题和其他不安全的元素，例如规范。
URI 问题–非 ASCII 字符，下划线，大写字符，参数或长 URL。
重复页面–通过算法检查发现确切的重复页面。
页面标题–缺少，重复，长，短或多个标题元素。
元描述–缺少，重复，长，短或多个描述。
元关键字–主要供参考或区域搜索引擎使用，因为它们未被 Google，Bing 或 Yahoo 使用。
文件大小– URL 和图像的大小。
响应时间–查看响应请求需要花费多长时间。
上次修改的标头–查看 HTTP 标头中的最后修改日期。
抓取深度–查看网址在网站架构中的深度。
字数统计–分析每页上的字数。
H1 –缺少，重复，长，短或多个标题。
H2 –缺少，重复，长，短或多个标题
元机器人-索引，noindex，关注，nofollow，noarchive，nosnippet 等。
元刷新–包括目标页面和时间延迟。
规范–链接元素和规范的 HTTP 标头。
X-Robots-Tag –请参阅通过 HTTP 标头发布的指令。
分页–查看 rel =“ next”和 rel =“ prev”属性。
关注和 Nofollow –查看元 nofollow 和 nofollow 链接属性。
重定向链–发现重定向链和循环。
hreflang 属性–审核缺少的确认链接，不一致和错误的语言代码，非规范的 hreflang 等。
内联-查看链接到 URL 的所有页面，锚文本以及该链接是跟随还是 nofollow。
出站链接–查看 URL 链接到的所有页面以及资源。
锚文本–所有链接文本。带有链接的图片的替代文本。
渲染–通过在 JavaScript 执行后对渲染的 HTML 进行爬网，来抓取 AngularJS 和 React 之类的 JavaScript 框架。
AJAX –选择遵守 Google 现在不推荐使用的 AJAX 爬行方案。
图片–带有图片链接的所有 URL 以及给定页面中的所有图片。图片超过 100kb，缺少替代文字，替代文字超过 100 个字符。
用户代理切换器–爬行为 Googlebot，Bingbot 和 Yahoo! Slurp，移动用户代理或您自己的自定义 UA。
自定义 HTTP 标头–在请求中提供任何标头值，从 Accept-Language 到 cookie。
自定义源代码搜索–在网站的源代码中找到您想要的任何内容！无论是 Google Analytics（分析）代码，特定文本还是代码等。
自定义提取–使用 XPath，CSS 路径选择器或正则表达式从 URL 的 HTML 中抓取所有数据。
Google Analytics（分析）集成–连接到 Google Analytics（分析）API，并在抓取过程中直接提取用户和转化数据。
Google Search Console 集成–连接到 Google Search Analytics API，并根据 URL 收集印象，点击和平均排名数据。
PageSpeed Insights 集成–大规模连接到 PSI API，以获取 Lighthouse 指标，机会，诊断和 Chrome 用户体验报告（CrUX）数据。
外部链接度量标准–将来自 Majestic，Ahrefs 和 Moz API 的外部链接度量标准放入爬网中，以执行内容审核或配置文件链接。
XML 网站地图生成–使用 SEO 蜘蛛创建 XML 网站地图和图像网站地图。
自定义 robots.txt –使用新的自定义 robots.txt 下载，编辑和测试网站的 robots.txt。
渲染的屏幕截图–获取，查看和分析已爬网的渲染页面。
存储并查看 HTML 和渲染 HTML –分析 DOM 所必需。
AMP 爬网和验证–使用官方集成的 AMP 验证器，对 AMP URL 进行爬网并对其进行验证。
XML Sitemap 分析–独立地或在爬网的一部分中爬网 XML Sitemap，以查找丢失的，不可索引的和孤立的页面。
可视化–使用爬网和目录树强制导向图和树形图分析网站的内部链接和 URL 结构。
结构化数据和验证–根据 Schema.org 规范和 Google 搜索功能提取和验证结构化数据。

SEO Spider 会使用广度优先算法对 Googlebot 等网站进行爬网，以发现 HTML 中的超链接。它使用可配置的混合存储引擎，能够将数据保存在 RAM 和磁盘中以对大型网站进行爬网。默认情况下，它将仅抓取网站的原始 HTML，但也可以使用无头 Chromium 呈现网页来发现内容和链接。