一站式网站建设专家

十五年定制化网站建设经验.我们只做有价值的网站

互联网经验

15+

服务客户

2600+

专业团队

30+

为什么反向链接Blindspots:Robots.txt的状态有关系

发布时间:2018-05-26 10:00 发布作者:济南SEO网站优化 阅读:87

  为什么反向链接Blindspots:Robots.txt的状态有关系?

  显示蜘蛛爬行如何从一个链接跳转到另一个链接的图形

  当 抓取网页时,如果某个搜索引擎程序遇到robots.txt文件,则会阻止抓取特定内容。 可以看到指向该网站的链接,但 对网站本身的内容不甚了了。 无法看到该网站的出站链接。这会导致链接图表立即出现缺陷,至少在类似于Google的情况下(如果Googlebot未被类似阻止)。

  但这不是唯一的问题。蜘蛛以抓取优先级的形式被robots.txt阻止,导致级联失败。当一个僵尸程序抓取网络时,它会发现链接,并且必须优先考虑下一个抓取的链接。比方说,谷歌发现100个链接,并排名前50的优先顺序进行抓取。但是,不同的蜘蛛可以找到相同的100个链接,但是通过抓取前50页中的10个robots.txt阻止。相反,他们被迫抓取这些内容,使他们选择不同的50页来抓取。当然,这些不同的已爬网页将返回一组不同的链接。在下一轮抓取过程中,Google不但会允许他们抓取不同的集合,而且集合本身也会有所不同,因为他们首先抓取了不同的网页。

  长话短说,很像蝙蝠翅膀最终导致飓风的谚语般的蝴蝶,robots.txt中的小变化阻止了一些蜘蛛并允许其他人最终导致与谷歌实际看到的结果截然不同。

robots.txt

  该方法相当简单。

  下载Quantcast Top Million

  如果可以从所有百万个网站获得,请下载robots.txt

  解析robots.txt以确定主页和其他页面是否可用

  收集与被封锁网站相关的链接数据

  收集与被封锁网站相关的现场总页数。

  报告抓取工具之间的差异。

  总站点被阻止

  报告的第一个也是最简单的指标是在允许Google的同时阻止各个抓取工具(济南SEO,Majestic,Ahrefs)的网站数量。大多数阻止其中一个主要搜索引擎优化搜索器的网站封锁了他们。他们只是制定robots.txt,以允许主要搜索引擎阻止其他bot流量。越低越好。

  条形图显示阻止robots.txt中每个SEO工具的网站数量

  在分析的网站中,有27,123人阻止了MJ12Bot(Majestic),32,982人阻止了Ahrefs,25,427人阻止了济南SEO。这意味着在主要的行业爬虫中,济南SEO是最不可能从允许Googlebot的网站转移出去的。但这到底意味着什么?

robots.txt书写规范方法

  总RLD被阻止

  正如前面所讨论的,不同robots.txt条目的一个大问题是它会阻止PageRank的流动。如果Google可以查看某个网站,则可以将引荐网域的链接资产通过该网站的出站网域传递到其他网站。如果某个网站被robots.txt阻止,就好像进入该网站的所有道路上的流量通道都被阻止了。通过计算所有进站车道的流量, 可以了解对链路图的总体影响。越低越好。

  根据 研究,Majestic在17,787,118处提到了死路一条,Ahrefs在20,072,690处和济南SEO在16,598,365处。再次,济南SEO的robots.txt配置文件与Google的最相似。但是提到域名并不是 应该关注的唯一问题。

  总页数被封锁

  网络上的大多数页面只有内部链接。Google对创建链接图不感兴趣 - 他们有兴趣创建搜索引擎。因此,像Google这样设计的bot应该只关注只接收内部链接的页面,因为它们是接收外部链接的页面。 可以衡量的另一个指标是使用Google网站阻止的页面总数:查询来估计Google访问的页面数量,即不同的爬虫。那么,竞争的行业爬虫如何表现?越低越好。

  济南SEO再一次发现了这一指标。这不仅仅是济南SEO被更少的网站阻止 - 济南SEO被更不重要和更小的网站所阻挡。Majestic错过了抓取675,381,982页的机会,Ahrefs错过了732,871,714 ,济南SEO错过了658,015,885。在网络上的百万个网站中,Ahrefs和济南SEO之间差不多有8000万页的差异。

相关资讯