Spider Analyser – WordPress搜索引擎蜘蛛分析插件

Descrizione

Spider Analyser是一款用于跟踪WordPress网站各种搜索引擎蜘蛛爬行日志,并进行详细的蜘蛛爬行数据统计、蜘蛛行为分析、蜘蛛爬取分析及伪蜘蛛拦截等。

Spider Analyser Pro

这是Spider Analyser的免费版本,包括蜘蛛概况、蜘蛛日志、蜘蛛列表(蜘蛛清单)、访问路径等大部分功能。如需使用到蜘蛛IP段、伪蜘蛛判断、蜘蛛拦截及蜘蛛文章爬取分析等功能,则需要升级到Pro版本! 点击了解及购买Spider Analyser Pro版本!

功能包括:

1.蜘蛛概况

支持查看网站日常各大搜索引擎蜘蛛来访的数据;

  • 今日蜘蛛
    方便站长快速了解当日、昨日及30天平均的来访蜘蛛数、爬取URL数及平均爬取URL数。

  • 趋势图
    支持按今天、昨天、最近7天及最近30天查看蜘蛛数、爬取URLs总量、响应状态码及热门蜘蛛爬取链接数走势折线图,并可查看上一周期数据,以作对比分析。

  • Top10蜘蛛
    支持按今天、昨天、最近7天及最近30天查看Top10蜘蛛的爬取URL数及占比相关数据。

  • Top10蜘蛛爬取URL
    支持按今天、昨天、最近7天及最近30天查看Top10蜘蛛爬取URL的爬取次数及占比,方便站长对热门蜘蛛爬取页面URL进行分析。

  • Top10热门文章
    按今天、昨天、最近7天及最近30天查看Top10热门文章,以便于站长分析热门文章蜘蛛爬取情况以进一步优化文章页SEO。

2.蜘蛛日志

支持按今天、最近7天及最近30天查看蜘蛛日志,包括蜘蛛访问时间、状态码、访问链接、蜘蛛IP及蜘蛛名称等参数。

并且支持按蜘蛛名称、状态码及时间进行筛选日志;以及可通过访问URL、蜘蛛IP搜索蜘蛛日志。支持单个或者批量忽略/拦截日志对应蜘蛛。

ℹ️ Tips

1.应重点关注301/302,及404状态码主流搜索引擎(如百度、谷歌和必应)蜘蛛日志。
2.蜘蛛日志分析工作,请查阅详细教程
3.301/302状态码内部链接,尽可能修改为最终目标链接。
4.404状态码内部链接,应修复或重定向为正确链接。
5.重定向可安装Smart SEO Tool插件实现或手动配置

3.蜘蛛列表

蜘蛛列表包含蜘蛛清单、蜘蛛IP段、疑似伪蜘蛛及蜘蛛拦截四部分的功能,其中:

  • 蜘蛛清单
    列表包括蜘蛛名称、蜘蛛类型、蜘蛛地址、最近来访时间、爬取URLs及占比情况等数据,支持按蜘蛛名称、蜘蛛类型及时间段筛选查询;并且支持单个或者批量忽略或者拦截指定蜘蛛。

ℹ️ Tips

1.蜘蛛清单数据引自蜘蛛查询工具
2.部分不常见蜘蛛尤其是伪蜘蛛,可能类型显示为未知。但站长切勿以此为标准判别该蜘蛛是否为伪蜘蛛。
3.对于无需记录的蜘蛛爬虫,应该选择忽略或者拦截,避免浪费服务器资源。

  • 蜘蛛IP段
    在该列表可以查看不同蜘蛛对应IP段及其占比情况,支持按蜘蛛名、时间进行筛选查询。且支持单个或者批量拦截蜘蛛IP段。注:蜘蛛IP段拦截属于泛拦截,应审慎操作。

ℹ️ Tips

1.IP段拦截前,请确保该IP段蜘蛛均是不需要统计的,若要取消拦截,请通过蜘蛛拦截列表取消。
2.Pro版本用户可以考虑直接启用智能拦截,则无需执行手动拦截操作。

  • 疑似伪蜘蛛
    协作站长快速发现疑似伪蜘蛛名称及IP地址,便于快速对伪蜘蛛执行单个或者批量拦截操作。站长应该积极对伪蜘蛛进行拦截操作,避免伪蜘蛛的频繁爬取导致服务器性能下降。

ℹ️ Tips

1.疑似伪蜘蛛数据参考蜘蛛查询工具,仅供参考。
2.如果您的网站启用了全站CDN(如Cloudflare),真实蜘蛛也可能被判断为伪蜘蛛。全站CDN站点应结合CDN路线IP进一步判断蜘蛛的真伪。

  • 蜘蛛拦截
    蜘蛛拦截列表用于站长管理蜘蛛拦截清单,支持站长按名称、IP/IP段或者名称+IP/IP段对蜘蛛进行拦截操作。该拦截列表也支持对拦截动作反操作,即可单个或者批量移除拦截。

ℹ️ Tips

1.开启智能拦截前,需确定未采用全站CDN,否则可能误判拦截真实蜘蛛。
2.部分伪蜘蛛可能会伪装成真实蜘蛛名称,对于伪蜘蛛拦截请使用IP拦截方式。
3.按蜘蛛名称拦截,需准确填写蜘蛛名称,区分大小写,否则可能会拦截失败。
4.蜘蛛拦截仅对前端页面爬取蜘蛛有效,对后端数据爬取蜘蛛无效。

4.访问路径

支持按今天、最近7天及最近30天查看蜘蛛访问路径(爬取页面URL)具体信息列表,包括URL、URL类型、爬取次数及占比情况等数据。

并且支持按蜘蛛名称、类型、状态、时间、访问URL及蜘蛛IP进行筛选查询。同时,站长还可以快速查看各类型的访问路径的蜘蛛爬取占比饼状分布图。

ℹ️ Tips

1.重点关注主流搜索引擎对文章页及Sitemap的访问爬取。
2.持续更新发布高质量文章内容,以吸引搜索引擎爬取。
3.安装Smart SEO Tool插件或其他类似插件,通过sitemap生成配置剔除不重要链接类型。
4.对于主流搜索引擎高频次爬取文章页,应该适当地添加内部链接

5.文章爬取

此功能模块是为了方便站长按蜘蛛名称、不同状态的文章类型及时间,快速了解网站文章蜘蛛访问量、出链数及入链数。站长再根据这几个指标,对文章进行内链布局处理,提升蜘蛛爬取频率,从而提升网站收录量。

ℹ️ Tips

1.蜘蛛访问量直接体现搜索引擎对URL的嗅觉,蜘蛛访问频率越高,URL被收录索引几率越大。
2.蜘蛛访问量频率低且未收录文章,可以尝试内容重建增加入链数
3.尽可能降低文章指向其他网站的链接数,又或者外链增加nofollow属性
4.收录状态数据通过搜索引擎推送插件引入,建议站长结合这两插件做好链接推送和爬虫分析工作。

6.插件设置

  • 记录管理-支持自定义蜘蛛类型及设置蜘蛛记录状态。

ℹ️ Tips

1.如无需统计某一蜘蛛,可以通过操作修改该蜘蛛状态为忽略即可。
2.对于一些非必要蜘蛛,应直接拦截,节省服务器资源。
3.此列表的占比计算范围:最近7天的蜘蛛数据。
4.蜘蛛名称及类型数据引自蜘蛛查询工具

  • 链接自定义-允许通过设置链接规则来区分蜘蛛爬取URL链接类型,支持添加自定义或者修改新增现有链接类型的规则。

ℹ️ Tips

1.支持通配符形式链接规则,如 /mp-api/*
2.如有不同于预设的链接类型,可以通过添加自定义来新增;否则建议在预设类型基础上修改新增。

  • 日志设置-支持设置插件日志保留时间周期(最近30天、最近3个月、最近6个月、最近1年或永久),日志备份及删除和自定义蜘蛛。

ℹ️ Tips

1.日志保留周期可根据自身实际情况选择,一般保留30天即可。如数据量非常大,改为近7天亦可。
2.日志更新方式需写入数据库,为保证服务器性能,可考虑每小时(默认)甚至每天更新。
3.如蜘蛛日志数据量非常庞大,建议备份日志并删除,忽略及拦截不必要的蜘蛛。

Spider Analyser插件非常适合站长作为网站SEO优化的辅助工具,通过数据统计深入了解更大搜索引擎蜘蛛爬取页面URL的行为习惯。WordPress站长可以利用该插件,并结合WordPress网站SEO优化插件百度推送插件关键词推荐插件,对WordPress网站内容的搜索引擎收录及排名优化可以做到事半功倍的效果!

Spider Analyser插件的蜘蛛爬虫数据引自蜘蛛爬虫查询在线工具。该工具整合了1600+蜘蛛爬虫数据,涵盖的类型包括搜索引擎、营销、快照、监控、信息流、链接检测、爬虫、工具、速度检测和漏洞/病毒扫描等。

您也可以使用该在线工具在线,通过蜘蛛名称、IP地址和用户代理字符串,来查询蜘蛛的详细信息及判断蜘蛛爬虫的真伪!

其他WP插件

Spider Analyser是一款专门为WordPress开发的搜索引擎蜘蛛分析插件.

闪电博(wbolt.com)专注于原创WordPress主题WordPress插件开发,为中文博客提供更多优质和符合国内需求的主题和插件。

除了Spider Analyser插件外,目前我们还开发了以下WordPress插件:

如果你在WordPress主题和插件上有更多的需求,也希望您可以向我们提出意见建议,我们将会记录下来并根据实际情况,推出更多符合大家需求的主题和插件。

WordPress资源

由于我们是WordPress重度爱好者,在WordPress主题插件开发之余,我们还独立开发了一系列的在线工具及分享大量的WordPress教程,供国内的WordPress粉丝和站长使用和学习,其中包括:

1. WordPress学院: 这里将整合全面的WordPress知识和教程,帮助您深入了解WordPress的方方面面,包括基础、开发、优化、电商及SEO等。WordPress大师之路,从这里开始。

2. 关键词查找工具: 选择符合搜索用户需求的关键词进行内容编辑,更有机会获得更好的搜索引擎排名及自然流量。使用我们的关键词查找工具,以获取主流搜索引擎推荐关键词。

3. WOrdPress错误查找: 我们搜集了大部分WordPress最为常见的错误及对应的解决方案。您只需要在下方输入所遭遇的错误关键词或错误码,即可找到对应的处理办法。

4. SEO工具箱: 收集整理国内外诸如链接建设、关键词研究、内容优化等不同类型的SEO工具。善用工具,往往可以达到事半功倍的效果。

5. SEO优化中心: 无论您是 SEO 初学者,还是想学习高级SEO 策略,这都是您的 SEO 知识中心。

6. 蜘蛛查询工具: 网站每日都可能会有大量的蜘蛛爬虫访问,或者搜索引擎爬虫,或者安全扫描,或者SEO检测……满目琳琅。借助我们的蜘蛛爬虫检测工具,让一切假蜘蛛爬虫无处遁形!

7. WP开发宝典: WordPress作为全球市场份额最大CMS,也为众多企业官网、个人博客及电商网站的首选。使用我们的开发宝典,快速了解其函数、过滤器及动作等作用和写法。

8. robots.txt测试工具: 标准规范的robots.txt能够正确指引搜索引擎蜘蛛爬取网站内容。反之,可能让蜘蛛晕头转向。借助我们的robots.txt检测工具,校正您所写的规则。

9. WordPress主题检测器: 有时候,看到一个您为之着迷的WordPress网站。甚是想知道它背后的主题。查看源代码定可以找到蛛丝马迹,又或者使用我们的小工具,一键查明。

Screenshot

  • Spider Analyser-蜘蛛概况界面截图.
  • Spider Analyser-蜘蛛日志统计界面截图.
  • Spider Analyser-访问路径统计界面截图.
  • Spider Analyser-文章爬取界面截图.
  • Spider Analyser-蜘蛛列表界面截图.
  • Spider Analyser-插件设置界面截图.

Installazione

方式1:在线安装(推荐)

  1. 进入WordPress仪表盘,访问 插件-安装插件,输入 Spider Analyser 关键词搜索,找搜索结果中找到Spider Analyser插件,点击现在安装
  2. 安装完毕后,启用 Spider Analyser 插件.
  3. 通过仪表盘左侧菜单 蜘蛛分析即可查看网站蜘蛛爬虫的数据统计及行为分析.

方式2:上传安装

FTP上传安装
1. 解压插件压缩包spider-analyser.zip,将解压获得文件夹上传至wordpress安装目录下的 /wp-content/plugins/目录.
2. 访问WordPress仪表盘,进入 插件-已安装插件,在插件列表中找到Spider Analyser插件,点击启用.
3. 通过仪表盘左侧菜单 蜘蛛分析即可查看网站蜘蛛爬虫的数据统计及行为分析.

仪表盘上传安装

  1. 进入WordPress仪表盘,点击插件-安装插件
  2. 点击界面左上方的上传按钮,选择本地提前下载好的插件压缩包spider-analyser.zip,点击现在安装
  3. 安装完毕后,启用 Spider Analyser插件;
  4. 通过仪表盘左侧菜单 蜘蛛分析即可查看网站蜘蛛爬虫的数据统计及行为分析.

关于本插件,你可以通过阅读Spider Analyser插件教程学习了解插件安装、设置等详细内容。

FAQ

为什么网站采用全站CDN,不能开启智能拦截?

网站如采用全站CDN,所有访问IP均经过CDN服务器,再到源服务器,此时访问IP已经变更为CDN服务器的IP,插件无法判断CDN服务器的IP访问背后的真实IP地址属于真实蜘蛛或者伪装蜘蛛。

百度、谷歌、搜狗、360等搜索引擎蜘蛛基本不到访,怎么办?

该插件的主要作用是用于统计分析搜索引擎蜘蛛行为。如需要吸引搜索引擎蜘蛛到访或者增加蜘蛛访问深度。建议如下:

  1. 尽可能地将网站sitemap提交至各大搜索引擎,查看sitemap相关教程
  2. 尽可能通过各种方式将URL数据推送至搜索引擎,使用闪电博的搜索自动推送管理插件可以自动推送url数据至百度、Bing、360、神马和头条等搜索引擎。
  3. 适当地布局站外和站内链接,可以增加搜索引擎蜘蛛到访网站频率及提升爬取网站深度。推荐学习网站内部链接SEO优化实操指南外链建设在SEO中的重要性及策略.

安装插件后无数据显示或者显示为空白,如何处理?

首先,如果是首次安装,数据可能有延迟,应该稍后再次查看插件后台数据显示情况;
然后,如果不是首次安装,可查看蜘蛛日志列表确认是否有蜘蛛到访,若有数据,尝试强刷浏览器清除缓存及暂停缓存插件,查看是否正常;
上述两个方法均不管用,则应该在插件异常页面,鼠标右键点击“检查”跳出浏览器开发工具,切换至Console标签项,查看是否存在报错信息。如果有,通过“闪电博工单”反馈信息。

如何应对蜘蛛日志过多导致数据库反应缓慢?

  1. 将插件日志保留周期改为最近30天;
  2. 及时删除历史日志;
  3. 对不必要的蜘蛛日志,设置为忽略或者添加至拦截列表。

为什么插件统计的蜘蛛日志与服务器日志数据有差异?

插件仅统计前端页面的蜘蛛访问日志,服务器日志则统计所有数据访问日志。因此,理论上服务器日志蜘蛛访问数据应该大于插件的蜘蛛访问数据。但插件统计的数据已经足以作为搜索引擎蜘蛛分析。

Spider Analyser插件的蜘蛛数据存放在哪里?

数据库。由于该数据仅用于网站管理分析时使用,存放在数据库更加实时和准确,主要是占数据库空间,对服务器性能影响可以忽略不计。

Spider Analyser插件是否会识别伪蜘蛛?

会进行伪蜘蛛识别,如站长发现可疑伪蜘蛛,可以通过Robots.txt进行屏蔽。查看教程《如何编写和优化WordPress网站的Robots.txt?》,但不是所有蜘蛛不一定遵循该协议。也可以通过插件进行拦截。拦截前务必确保该蜘蛛为伪蜘蛛或者不需要的蜘蛛。

访问路径统计中URL类型为什么有些现实为unknown?

部分历史数据及一些未能够识别类别的蜘蛛访问URL地址,均列为unknown。在后面的插件版本,将会加入URL类型分组自定义功能。

Recensioni

29 Gennaio 2021
插件的伪蜘蛛识别和蜘蛛拦截功能很实用!!! 希望热门文章列表可以开放全部文章数据,对SEO优化很有必要。 友情提示,v1.2.1版本蜘蛛清单有个小bug,不应该有状态码下拉。
Leggi la recensione di 1

Contributi e sviluppo

“Spider Analyser – WordPress搜索引擎蜘蛛分析插件” è un software open source. Le persone che hanno contribuito allo sviluppo di questo plugin sono indicate di seguito.

Collaboratori

“Spider Analyser – WordPress搜索引擎蜘蛛分析插件” è stato tradotto in 1 lingua. Grazie ai traduttori per i loro contributi.

Traduci “Spider Analyser – WordPress搜索引擎蜘蛛分析插件” nella tua lingua.

Ti interessa lo sviluppo?

Esplora il Codice segui il Repository SVN iscriviti al Log delle Modifiche. Puoi farlo tramite RSS con un lettore di feed.

Changelog (registro delle modifiche)

1.4.0

  • 增加疑似伪蜘蛛列表筛选选项;
  • 增加蜘蛛拦截列表筛选选项;
  • 增加文章爬取列表文章编辑操作项;
  • 其他已知问题修复和体验优化。

1.3.11

  • 优化移动端样式和体验;
  • 主题插件仪表盘UI规范化处理;
  • 其他已知问题及bug修复。

1.3.10

  • 优化趋势统计表交互效果;
  • 优化温馨提示移动端样式;
  • 优化表单数据移动端筛选查询交互。

1.3.9

  • 完善和新增各个模块对应温馨提示,以帮助站长更高效地利用插件;
  • 优化数据统计图表,提升数据查看交互体验;
  • 合并301/302状态码日志数据,提升数据筛选效率及调用便利性;
  • 删除各个数据列表无关筛选项;
  • 优化统计数据缓存规则,提升插件效率;
  • 优化移动端筛选项交互体验。

1.3.8

  • 新增智能拦截一键清除按钮;
  • 新增日志设置选项,支持日志更新方式可选及日志删除等;
  • 新增部分操作项再次确认窗口,以免误操作;
  • 修复版本更新提示链接点击无效bug;
  • 兼容WordPress 6.0;
  • 进一步优化蜘蛛日志写入逻辑以提升效率。

1.3.7

  • 紧急修复Pro无法激活bug。

1.3.6

  • 修复智能拦截开关状态无法保存问题;
  • 新增智能拦截弹窗提示,以再次确认站长操作。

1.3.5

  • 新增日志保留周期“最近7天”选项;
  • 新增伪蜘蛛智能拦截开关;
  • 优化插件设置记录管理,支持拦截相关操作;
  • 其他已知小问题及体验优化。

1.3.4

  • 兼容WordPress 5.9;
  • 优化列表批量操作交互体验;
  • 优化多处移动端样式及交互体验。

1.3.3

  • 修复Free版本蜘蛛日志记录异常问题。

1.3.2

  • 新增以WP安全标准规范化插件代码;
  • 优化蜘蛛拦截逻辑提高拦截准确率;
  • 修复搜狗蜘蛛名称未能正确匹配为sogou spider的bug。

1.3.1

  • 修复新安装插件部分数据表无法正常显示的bug。

1.3.0

  • 新增蜘蛛爬虫信息查看快捷入口;
  • 新增蜘蛛爬虫IP搜索快捷入口;
  • 修复疑似伪蜘蛛列表免费版本下为空白;
  • 补充部分列表说明文字及数据来源。

1.2.5

  • 修复插件后台部分URL路径问题;
  • 兼容WordPress 5.8.

1.2.4

  • 新增列表批量操作选项(批量忽略/拦截/移除);
  • 新增访问路径分布饼状图;
  • 新增Pro版本升级入口链接;
  • 新增限时优惠活动入口;
  • 优化版本升级提示与WordPress默认样式一致。

1.2.3

  • 优化蜘蛛概况趋势图,移除爬取URLs均值数据统计,新增蜘蛛爬取链接状态码、热门蜘蛛爬取链接数趋势;
  • 列表新增数据列升降序排列支持;
  • 优化蜘蛛日志列表,增加状态码筛选项及列表数据;
  • 优化内容推荐版块展示逻辑;
  • 加入缓存机制,以提升部分数据加载性能;
  • 增加Pro及免费版本功能对比列表。

1.2.2

  • 优化列表拦截/忽略操作交互体验,拦截/忽略记录不在原列表显示;
  • 修复列表忽略操作无效bug;
  • 蜘蛛拦截列表新增路径及拦截方式列;
  • 优化文章爬取列表显示数据,支持全局数据读取;
  • 引入全新列表UI库,增强交互体验;
  • 修复蜘蛛清单所有状态筛选项错误bug,改为所有类型筛选项;
  • 进步优化插件相关页面移动端兼容性。

1.2.1

  • 新增部分数据列表数据项查看更多入口;
  • 优化蜘蛛概况数据统计图表UI布局;
  • 重新调整蜘蛛列表,拆分为蜘蛛清单、蜘蛛IP、疑似伪蜘蛛和蜘蛛拦截多个Tab标签页;
  • 优化蜘蛛拦截规则,支持名称、IP/IP段或名称+IP/IP段三种拦截方式;
  • 重新调整插件设置,拆分为记录管理、链接规则和日志设置多个Tab标签页;
  • 新增蜘蛛日志备份下载功能;
  • 修正搜狗蜘蛛日志无法记录bug。

1.2.0

  • 新增热门文章列表,支持站长了解文章蜘蛛爬取量、出链数及入链数;
  • 新增蜘蛛IP段列表,以便于站长了解不同蜘蛛对应IP段数据;
  • 新增疑似伪蜘蛛识别功能;
  • 新增蜘蛛名称及蜘蛛IP拦截功能,以便于站长对不需要的蜘蛛或者IP进行拦截;
  • 蜘蛛概况新增访问路径快捷入口;
  • 蜘蛛日志、蜘蛛列表及访问路径等列表新增拦截操作选项;
  • 其他功能体验优化及已知问题修复。

1.1.4

  • 紧急修复蜘蛛忽略设置可能导致相似名称蜘蛛被忽略bug.

1.1.3

  • 新增日志保留时间选项及删除日志操作;
  • 新增蜘蛛列表管理,支持自定义蜘蛛,蜘蛛类型及记录开关;
  • 新增链接自定义类型及规则设置,支持新增或者修改URL类型及链接规则;
  • 优化蜘蛛列表,新增按蜘蛛名称筛选支持。

1.1.2

  • 新增蜘蛛访问路径数据列表功能;
  • 新增访问路径类型数据统计,支持按首页、文章页、独立页、分类页、搜索页、作者页、Feed、Sitemap、API和其他类型归类URL;
  • 其他已知问题及bug修复。

1.1.1

  • 新增蜘蛛列表功能,支持查看站点更多蜘蛛相关数据信息;
  • 新增更多蜘蛛数据统计,支持300+不同类型蜘蛛数据统计;
  • 优化插件移动端界面样式。

1.1.0

  • 新增日志筛选搜索功能;
  • 新增版本升级提示功能;
  • 修复部分蜘蛛无法统计bug。

1.0.3

  • 优化爬虫日志记录规则,由每小时更新改为实时更新;
  • 删除原有的本地日志记录功能,改为直接数据库记录。

1.0.2

  • 修复数据图表纵坐标参考值出现小数的bug;
  • 修复统计图表数据取值异常问题;
  • 优化数据统计图表当期及上期折线样式(当期实线,上期虚线)。

1.0.1

  • 修复部分网站无数据展示bug;
  • 优化插件部分统计数据术语,统一标准;
  • 优化移动端展示外观;
  • 删除非必要文件。

1.0.0

  • 新增今日蜘蛛数据统计功能;
  • 新增蜘蛛数据趋势图功能;
  • 新增Top10搜索引擎蜘蛛统计功能;
  • 新增Top10蜘蛛爬取URL统计功能;
  • 新增蜘蛛日志功能,统计蜘蛛访问时间、状态码、访问链接、蜘蛛IP及蜘蛛名称等数据。