我能多快其实抓取网站?

我要爬一段信息的网站。 这是关于170 000多个网页。 那么,有多少的要求,我可以做什么呢? 我要提取直到HTML和获得一些信息。 这是一个已经很受欢迎的网站,所以我不认为如果只是在巡航快速过的所有网页它会死......唯一让我紧张的是,我不知道,如果ownser将阻止我的IP或东西如果你这样做? 这是否正常? 如果我只是加载5页/分钟? 然后,它会采取永远......我想获得新的数据每隔24小时见。

感谢所有答复!

--------------解决方案-------------

这将需要一段时间,其实我建议你使用旋转代理,并加入多线程。 10个线程会做。 通过这种方式,你可以在同一时间10个请求。 使用代理服务器将是缓慢的,虽然,并添加ATLEAST 1.5秒每个请求,它会减慢你的速度超时,但会降低得到取缔的风险。

我创建了一个WebCrawler的一对夫妇几年前爬着7GB左右一晚,从英国广播公司的网站(受限于带宽)和从未被封锁,但加入请求之间的延迟1秒是正经事。

每个请求后两秒钟的延迟就足够了。 让您的机器人抓取尽可能快实际上可能让你禁止。 在我的日常工作​​中,我所管理的网站的一对夫妇的报纸,我看到本土的爬虫偶然。 糟糕的确实可以在新增加的IP黑名单引起相当多的系统代码和结果。 不要成为那个人。

只要你服从他们的robots.txt的说明,你应该是好的。 我请求之间看到了标准延迟为2秒 - 这是相当频繁之后,你可能会开始让你的流量节流限制或阻止的IP。

分类:网络爬虫 时间:2015-03-15 人气:0
本文关键词: 网络爬虫
分享到:

相关文章

Copyright (C) 55228885.com, All Rights Reserved.

55228885 版权所有 京ICP备15002868号

processed in 0.543 (s). 10 q(s)