如何使机械化等待网页'全'负荷?

我想刮了一些网页,动态加载及其组件。 该网页包含的onload脚本,并键入URL到我的浏览器之后,我可以看到完整的页面3-5秒。

问题是,当我叫br.open('URL')响应为0秒网页。 是有区别的3-5秒后,HTML之间(我想)和结果br.open('URL')

--------------解决方案-------------

工作具有丰富的js内容与机械化网页并不多容易,但有办法让你根据不同势的情况下想要什么。

  • 如果某些JSON的请求,以创建内容,比你可以调用URL和尝试解析响应获取内容,然后尝试适当加入。
  • 如果您需要使用一些表单,您可以创建一些表单字段和机械化内设置它们的值。 或者干脆写,将你的编码方法POSTGET数据(报价特殊字符等),并送他们mechanize.browser.open方法。
  • 如果页面公顷一些基于JavaScript的安全功能(如一些特殊的编码,形成张贴之前的数据),themn你可以使用如JavaScript应用服务器的nod​​e.js处理一些JavaScript代码块。

但事实上,上面的一些选项是不容易做到,而且必须使用机械化等项目之前三思而后行。

您遇到的问题是,该网页在Web浏览器中通过JavaScript引擎渲染。 然而,机械化不必对自己的执行JavaScript的话,无论你等多长时间的能力,你是不会让你只使用机械化缺少HTML。

有关如何刮动态生成的内容的更多信息,请看看这个问题。

分类:蟒蛇 时间:2015-03-14 人气:0
本文关键词: 蟒蛇,机械化
分享到:

相关文章

Copyright (C) 55228885.com, All Rights Reserved.

55228885 版权所有 京ICP备15002868号

processed in 0.504 (s). 10 q(s)