为什么不常见爬网？

发布时间：2018-05-08 09:49 发布作者：济南SEO网站优化阅读：69

　　许多技术性较强的SEO读者可能会问，为什么不能简单地从网页第三方索引中选择随机URL，例如美妙的Common Crawl数据集。考虑的原因有几个，但选择通过这种方法论(尽管实施起来要容易得多)。

　　无法确定Common Crawl的长期可用性。前百万个列表( 用作播种过程的一部分)可以从多个来源获得，这意味着如果Quantcast消失，可以使用其他提供者。

　　在过去向Common Crawl提供了爬行集，并且希望确定没有隐含或明确的赞成索引的偏见，无论它多么微不足道。

　　Common Crawl数据集非常大，很难与许多尝试创建自己的随机URL列表的人合作。希望的流程具有可重复性。

　　如何获得网络的随机样本

　　获得“网络随机样本”的过程相当繁琐，但总的要点是这样。首先，从一个很好理解的有偏差的一组URL开始。然后，尝试删除或平衡此偏差，制作出可以获得的最佳伪随机网址列表。最后，使用从这些伪随机URL开始的随机抓取网址来产生真正随机接近的最终URL列表。这里是完整的细节。

　　1.起点：获取种子URL

　　获得网络随机样本的第一个大问题是，没有真正的随机起点。想想看。不像一袋弹珠，你可以随便进入并盲目抓取一个弹珠，如果你不知道一个URL，你就不能随意挑选它。你可以尝试通过相互推letters字母和斜杠来强制创建随机URL，但是知道语言不能以这种方式工作，所以这些URL与倾向于在网络上找到的URL很不相同。不幸的是，每个人都被迫从一些伪随机过程开始。

　　必须做出选择。这是一个艰难的。是否从一个不赞成的已知强烈偏见开始，或者是否从已知的较弱偏见开始? 可以从自己的指数中随机选择这个过程的起始点，这将是伪随机的，但可能有利于，或者可以从一个更小的公开指数开始，如Quantcast Top Million，它将强烈偏向于对好的网站。

　　决定以后者为出发点，因为Quantcast数据是：

　　可重现。不打算制作 API的“随机URL选择”部分，因此需要业内其他人也可以从头开始。Quantcast Top Million免费给所有人。

　　不偏向：宁愿错在谨慎的一面，即使这意味着更多的工作去除偏见。

　　众所周知的偏见：Quantcast Top 1,000,000固有的偏见很容易理解 - 这些是重要的网站，需要消除偏见。

　　Quantcast的偏见是很自然的：任何链接图本身都有一些Quantcast的偏见(强大的网站更有可能被很好地链接)

　　考虑到这一点，从Quantcast Top Million中随机选择了10,000个域名，并开始消除偏见。

　　2.根据域的大小而不是重要性进行选择

　　由于知道Quantcast Top Million按流量排名，希望减轻这种偏差，因此根据网站的规模推出了新的偏差。对于这10,000个网站中的每一个，根据Google使用“site：”命令确定了网站上的页面数量，并从域中抓取了前100页。现在，可以将“重要性偏见”与“大小偏差”进行平衡，这更能反映网络上的网址数量。这是减轻Quantcast Top Million中仅有高质量网站已知偏见的第一步。

　　3.选择每个域上的伪随机起点

　　下一步是随机选择10,000个域名，并偏向于更大的站点。当系统选择一个网站时，它会从通过Google从该网站收集的前100个页面中随机选择。这有助于缓解重要性偏差。并不总是从首页开始。尽管这些网页往往是网站上的重要网页，但知道它们并不总是最重要的网页，它往往是主页。这是缓解已知偏见的第二步。较大网站上较低质量的页面正在平衡Quantcast数据固有的偏见。

　　4.爬网，爬行，爬行

　　这是做出最大改变的地方。实际上是从这组伪随机网址开始抓取网络，以生成一组实际的随机网址。这里的想法是将已经构建的所有随机化放入伪随机URL集中，并让抓取工具随机点击链接以生成真正随机的URL集。抓取工具会从的伪随机抓取集中选择一个随机链接，然后开始一个随机点击链接的过程，每次有10%的停止机会和90%的机会继续。无论爬行器何时结束，最终的URL都会被放入的随机URL列表中。这是用来运行指标的最后一组网址。每月通过此流程生成约140,000个独特的URL，以生成的测试数据集。

一站式网站建设专家

互联网经验

15+

服务客户

2600+

专业团队

30+

为什么不常见爬网？

如何获得网络的随机样本

1.起点：获取种子URL

2.根据域的大小而不是重要性进行选择

3.选择每个域上的伪随机起点

4.爬网，爬行，爬行

相关资讯

20个seo大牛常用的优化技巧干货！

网站快照不更新原因，以及解决方法

你的网站有没有出现优化过度现象？

百°MIP2.0版本悄然上线

劫持？不存在的！百°移动搜索推出烽火算法2

一站式网站建设专家

互联网经验

15+

服务客户

2600+

专业团队

30+

为什么不常见爬网？

如何获得网络的随机样本

1.起点：获取种子URL

2.根据域的大小而不是重要性进行选择

3.选择每个域上的伪随机起点

4.爬网，爬行，爬行

相关资讯

20个seo大牛常用的优化技巧 干货！

网站快照不更新原因，以及解决方法

你的网站有没有出现优化过度现象？

百°MIP2.0版本悄然上线

劫持？不存在的！百°移动搜索推出烽火算法2

　　如何获得网络的随机样本

　　1.起点：获取种子URL

　　2.根据域的大小而不是重要性进行选择

　　3.选择每个域上的伪随机起点

　　4.爬网，爬行，爬行

20个seo大牛常用的优化技巧干货！