一站式网站建设专家

十五年定制化网站建设经验.我们只做有价值的网站

互联网经验

15+

服务客户

2600+

专业团队

30+

为什么不常见爬网?

发布时间:2018-05-08 09:49 发布作者:济南SEO网站优化 阅读:69

  许多技术性较强的SEO读者可能会问,为什么 不能简单地从网页第三方索引中选择随机URL,例如美妙的Common Crawl数据集。 考虑的原因有几个,但选择通过这种方法论(尽管实施起来要容易得多)。

  无法确定Common Crawl的长期可用性。前百万个列表( 用作播种过程的一部分)可以从多个来源获得,这意味着如果Quantcast消失, 可以使用其他提供者。

  在过去向Common Crawl提供了爬行集,并且希望确定没有隐含或明确的赞成索引的偏见,无论它多么微不足道。

  Common Crawl数据集非常大,很难与许多尝试创建自己的随机URL列表的人合作。 希望 的流程具有可重复性。

  如何获得网络的随机样本

  获得“网络随机样本”的过程相当繁琐,但总的要点是这样。首先, 从一个很好理解的有偏差的一组URL开始。然后, 尝试删除或平衡此偏差,制作出 可以获得的最佳伪随机网址列表。最后, 使用从这些伪随机URL开始的随机抓取网址来产生真正随机接近的最终URL列表。这里是完整的细节。

  1.起点:获取种子URL

  获得网络随机样本的第一个大问题是,没有真正的随机起点。想想看。不像一袋弹珠,你可以随便进入并盲目抓取一个弹珠,如果你不知道一个URL,你就不能随意挑选它。你可以尝试通过相互推letters字母和斜杠来强制创建随机URL,但是 知道语言不能以这种方式工作,所以这些URL与 倾向于在网络上找到的URL很不相同。不幸的是,每个人都被迫从一些伪随机过程开始。

  必须做出选择。这是一个艰难的。 是否从一个不赞成的已知强烈偏见开始,或者 是否从已知的较弱偏见开始? 可以从 自己的指数中随机选择这个过程的起始点,这将是伪随机的,但可能有利于,或者 可以从一个更小的公开指数开始,如Quantcast Top Million,它将强烈偏向于对好的网站。

  决定以后者为出发点,因为Quantcast数据是:

  可重现。 不打算制作 API的“随机URL选择”部分,因此 需要业内其他人也可以从头开始。Quantcast Top Million免费给所有人。

  不偏向: 宁愿错在谨慎的一面,即使这意味着更多的工作去除偏见。

  众所周知的偏见:Quantcast Top 1,000,000固有的偏见很容易理解 - 这些是重要的网站, 需要消除偏见。

  Quantcast的偏见是很自然的:任何链接图本身都有一些Quantcast的偏见(强大的网站更有可能被很好地链接)

  考虑到这一点, 从Quantcast Top Million中随机选择了10,000个域名,并开始消除偏见。

  2.根据域的大小而不是重要性进行选择

  由于 知道Quantcast Top Million按流量排名, 希望减轻这种偏差,因此 根据网站的规模推出了新的偏差。对于这10,000个网站中的每一个, 根据Google使用“site:”命令确定了网站上的页面数量,并从域中抓取了前100页。现在, 可以将“重要性偏见”与“大小偏差”进行平衡,这更能反映网络上的网址数量。这是减轻Quantcast Top Million中仅有高质量网站已知偏见的第一步。

  3.选择每个域上的伪随机起点

  下一步是随机选择10,000个域名,并偏向于更大的站点。当系统选择一个网站时,它会从 通过Google从该网站收集的前100个页面中随机选择。这有助于缓解重要性偏差。 并不总是从首页开始。尽管这些网页往往是网站上的重要网页,但 知道它们并不总是最重要的网页,它往往是主页。这是缓解已知偏见的第二步。较大网站上较低质量的页面正在平衡Quantcast数据固有的偏见。

  4.爬网,爬行,爬行

  这是 做出最大改变的地方。 实际上是从这组伪随机网址开始抓取网络,以生成一组实际的随机网址。这里的想法是将 已经构建的所有随机化放入伪随机URL集中,并让抓取工具随机点击链接以生成真正随机的URL集。抓取工具会从 的伪随机抓取集中选择一个随机链接,然后开始一个随机点击链接的过程,每次有10%的停止机会和90%的机会继续。无论爬行器何时结束,最终的URL都会被放入 的随机URL列表中。这是 用来运行指标的最后一组网址。 每月通过此流程生成约140,000个独特的URL,以生成 的测试数据集。

相关资讯