PHP中,网络爬虫

  • 生成所有包含在一个网站编程的页面的列表,使用PHP 2015-03-15

    它是如何possibe产生编程方式使用PHP的一个特定网站的所有页面的列表? 什么我基本上试图实现是生成像一个网站地图,嵌套无序列表的链接中包含的所有网站的网页. --------------解决方案------------- 如果所有页面都连在一起的,那么你可以使用一个爬虫或蜘蛛做到这一点. 如果有未所有链接,你将需要拿出另一种方法页. 你可以试试这个: 添加"图像错误/网站信标/网络臭虫"你跟踪如下每一页: 要么 交替添加JavaScript函数的每一页,使呼叫/scripts/l

    关键词: PHP中,网络爬虫
  • PHP寻找外部链接,获取资料 2014-12-19

    可能重复: 查找和打印DIV中的所有链接 我试图做一个迷你crawler..when我指定网站..它的file_get_contents()..然后得到我想要的数据..我已经做了..现在我想添加代码,使之到find..any上的网站,它是外部链接..并获取数据.. 我指定site..it的basically..instead只是遵循外部链接,如果可以得到的数据... 这里是我.. 提前致谢.. <?php $link = strip_tags($_GET['s']); $path_info =

    关键词: PHP中,网络爬虫
  • 高性能网络蜘蛛的发展 2014-12-10

    我想开发一个WebSpider守护程序(PHP / C / C ++)你知道有关如何开发高性能的网络爬虫一个很好的参考? --------------解决方案------------- 下面是一个例子库用Java编写的源代码. 另外这里是原理图"大"履带式的一个例子.

    关键词: PHP中,网络爬虫
  • 履带编码:确定网页已抓取? 2014-10-23

    我工作在PHP履带的期望在此找到一组n个链接到n页 (内页)这是抓取的文本 m的URL. 可加入或从 n组链接移除链接. 我需要保持链接/页,让我知道已经抓取,哪些将被删除,哪些是新的轨道. 我应该如何去跟踪其中m和n页面抓取以便下次爬取新的URL,再检查,仍然存在的URL,而忽略过时的网址? --------------解决方案------------- 如果要存储这些数据,长期使用数据库. 您可以将抓取米的URL及其N-网址的数据库及其状态. 当你要抓取的抓取的网址再次首先检查数据库. 例如

    关键词: PHP中,网络爬虫
  • 如何检测搜索引擎visites我的网站上? 喜欢的phpBB 2014-10-05

    有什么方法来检测搜索引擎或爬虫在我的网站. 我看到的phpBB的管理,我们可以看到,并让搜索引擎也可以看到机器人的上次访问(如谷歌机器人). 在PHP中任何脚本? 没有谷歌分析或同一类型的应用程序. 我需要实现我的博客网站,我觉得有一些方法来发现? --------------解决方案------------- 你可以通过任何IP地址或"用户代理"字符串,这个bot或Web浏览器发送给您. 当Googlebot的(或大多数其他良好的行为机器人)访问你的网站,他们会送你一个$ _ SER

    关键词: PHP中,网络爬虫
  • PHP脚本应该需要6个小时,但30分钟后停止 2014-09-22

    我做了一个基本的网络爬虫从网站刮信息,我估计它大约需要6小时(页面通过需要多长时间来获取信息的数量相乘),但周围30-40分钟,通过循环后我的功能,它停止工作,我只拥有我想要的信息的一小部分. 当工作时,页面看起来像它的装载和其输出的地方它是由在屏幕上,但是当它停止,页面加载停止和输入停止显示. 反正是有,我可以保持页面加载,所以我不必再次启动它每隔30分钟? 编辑:这是我的代码 function scrape_ingredients($recipe_url, $recipe_title, $r

    关键词: PHP中,网络爬虫
  • 而它的运行我的网站履带死亡 2014-07-19

    我写了一个网站爬虫获取链接和图像创建站点地图,运行时,它杀死了! 所以这不是我的全班 class pageCrawler { ....... private $links = array(); public function __construct ( $url ) { ignore_user_abort ( true ); set_time_limit ( 0 ); register_shutdown_function ( array ( $this, 'callRegisteredShutd

    关键词: PHP中,网络爬虫
  • 我需要编写特定的用户代理一个网络爬虫 2014-03-13

    我需要写一个网络爬虫,并希望能够用已知的用户代理抓取. 例如,我希望我的爬虫作为一个iphone抓取网站的移动网站,然后使用Mozilla PC剂等再次抓取 这样一来,生病是可以抓取网站的每一个"类型"(手机和PC). 不过,我也希望能够设置我的履带式的用户代理,所以站长也在他们的统计数据看到,它是参观了他们的整个网站,而不是真正的用户履带. 所以我的问题是,你们知道如何设置一个移动代理+履带剂的同时,在PHP? 它甚至有可能? --------------解决方案----------

    关键词: PHP中,网络爬虫
  • 如何使用PHP来抓取数据形式 2014-02-09

    这个网站展示不同国家的外汇利率,我想抓取所有这些可以通过选择不同的日期显示所存储的数据,请帮助我,我怎么能写卷曲或FPOT履带, www.forex.pk/open_market_​​rates.asp 谢谢 --------------解决方案------------- 您可以卷曲抓取页面,然后分析一个简单的HTML解析器的内容. 这里是一家http://simplehtmldom.sourceforge.net/ 就那么简单.

    关键词: PHP中,网络爬虫
  • 我如何在PHP一个简单的履带式? 2014-01-22

    我有一堆链接的网页. 我想写这将转储全部包含在本地文件的链接数据的脚本. 有没有人做到这一点用PHP? 一般准则和陷阱就足够作为一个答案. --------------解决方案------------- 咩. 不要用正则表达式解析HTML. 这里的灵感来自大肚的一个DOM版本: <?php function crawl_page($url, $depth = 5) { static $seen = array(); if (isset($seen[$url]) || $depth === 0)

    关键词: PHP中,网络爬虫
  • 如何摆脱无用的,重复的,备份文件从一个文件夹的根目录 2013-12-21

    我刚刚恢复一个老的网站完全无用的文件(index2.php,index_bkup.php,test.php的...),我不知道如何使它们的列表... 解决方案可以是服务器端或客户端(但我不能做太多事情服务器端)... 正如我说,该网站是很旧的和使用大量包括()函数. THX的想法! --------------解决方案------------- 我不知道这应该是自动的,因为它可以删除,看起来像垃圾文件. 你可以这样做? $files = glob('path/*.php'); $files =

    关键词: PHP中,网络爬虫
  • PHP不直到完成加载更新页面 2013-12-03

    我想写用PHP脚本履带,它是necessery表明这是在线索引页. 然而,PHP不更新页面实时,有时写几个回声在一起,等到完成加载,有时似乎没有任何页面,直到完成加载. 这里是什么我说一个例子: <?php echo '1<br>'; sleep(2); echo '2<br>'; sleep(2); echo '3<br>'; sleep(2); echo '4<br>'; ?> 我试图在WAMP和灯和结果是一样的. 有没有什么办法来显示回波实

    关键词: PHP中,网络爬虫
  • 如何识别网络爬虫? 2013-10-04

    我怎么能过滤掉网络爬虫等,点击它不会是人类的命中.. 我用maxmind.com从IP要求全市..如果我必须付出的一切是不是很便宜命中,包括网络爬虫,机器人等. --------------解决方案------------- 一般有两种方法来检测机器人,我会叫他们"礼貌/被动"和"进取". 基本上,你必须给你的网站一个心理障碍. 有礼貌 这些办法礼貌地告诉他们不应该抓取您的网站,并限制你如何抓取经常爬行. 礼貌是通过robots.txt文件,确保在您指定的机器人,如

    关键词: PHP中,网络爬虫
  • 如何通过PHP来确定谷歌/雅虎/ MSN的网络爬虫? 2013-08-22

    据我所知, $ _ SERVER ['REMOTE_HOST']应该结束了"google.com"或"yahoo.com". 但它是最保障的方法? 任何其他的办法呢? --------------解决方案------------- 您可以通过用户代理和IP地址来标识搜索引擎. 更多信息可在如何识别搜索引擎蜘蛛和webbots被发现. 另外值得一提的这个名单. 你不应该把用户代理(或甚至远程主机)为必要的权威性但是. 用户代理是真的没有什么比什么的另一端告诉你这是,这

    关键词: PHP中,网络爬虫
  • 是将数据置于一个href安全吗? 2013-06-21

    我想从一个PHP页面传递数据到另一个点击,并使用该数据填充链接页面. 起初我打算使用AJAX来做到这一点,但遇到了麻烦,然后意识到这是为放置数据中容易href链接. 我的问题是,它是安全直接将数据放置在以这种方式在href? 我知道,通过URL(此结束了做)传递的数据是安全的,但我听说的地方(我不记得),即直接在放置数据href链接中可能会导致网络爬虫问题和类似物. 这是真的? 还有什么,我应该在使用这种方法好担心的? 或者,这是我的数据,唯一发送到每个环节,到另一页面上点击的最好方法? PHP

    关键词: PHP中,网络爬虫
  • 如何获取特定网站中的所有页面链接? 2013-05-30

    我想在PHP编程来让我的网站中的所有页面的链接,我想检查的PageRank我的网站的每一页,是有工具或库或在PHP中实现的算法得到的所有页面链接具体的网站吗? --------------解决方案------------- 你可以试试这个: <?php $original_file = file_get_contents("http://www.your_domain.com/page"); $stripped_file = strip_tags($original_file,

    关键词: PHP中,网络爬虫
  • PHP抓取 - 启用javascript 2013-03-30

    卓悦,没有人知道建立一个蜘蛛,其作用就好像它已经安装Javascript的一种方式? PHP代码: file_get_contents("http://www.google.co.uk/search?hl=en&q=".$keyword."&start=".($x*10)."&sa=N") 它将检索页的输出. 如果你使用的,PHP代码: file_get_contents("http://www.facebook

    关键词: PHP中,网络爬虫
  • 基本的网络抓取的问题:如何创建使用PHP网站所有页面的列表? 2013-02-19

    我想创建一个履带式使用PHP,这将使我在一个特定域的所有页面的列表(从主页开始:www.example.com). 我怎样才能做到这一点在PHP? 我不知道如何递归地找到从特定页面开始,不包括外部链接网站的所有页面. --------------解决方案------------- 对于一般的方法,检查出这些问题的答案: 如何写一个爬虫? 如何最好地开发Web爬虫 有没有一种方法使用PHP来抓取链接? 在PHP中,你应该能够简单地获取远程URL与file_get_contents()函数. 你可以

    关键词: PHP中,网络爬虫
  • 我需要帮助,使得使用PHP网站爬虫 2013-02-16

    我真的想使一个网站抓取工具,去一个网站,它会扫描链接,放入数据库中的链接,并移动到另一个网站. 我发现一个网站,但该代码是真正马车. 如果你见过这样的事或已经写了一个你的自我. --------------解决方案------------- 你可能不会找到适合PHP任何东西,因为它通常是短期运行的页面. 许多西弗斯,例如,被设定在30秒至超时. 你可以写PHP命令行脚本,但我怀疑这不是你想要的. Anywyay,如果你想有一个预打包的解决方案,何必在乎的语言? 我建议像wget来抓取的网站,并将

    关键词: PHP中,网络爬虫
  • 如何执行PHP蜘蛛/刮刀,但没有它超时 2012-10-19

    基本上,我需要解决的最大的执行时间. 我需要刮的信息的网页在不同的时间,这意味着要求机器人在这些间隔,加载链接形成数据库并取消该页面的链接指向. 问题是,装载机器人. 如果我用JavaScript加载(如Ajax调用),浏览器会抛出了一个错误,指出该页面时间太长回应yadda yadda yadda,再加上我必须保持页面打开. 如果我在PHP中做到这一点我可能延长执行时间,但长期是必要的但如果它抛出一个错误,我没有接杀的过程中,并没有显示在浏览器中,直到PHP执行完成对不对? 我想知道如果任何人

    关键词: PHP中,网络爬虫

Copyright (C) 55228885.com, All Rights Reserved.

55228885 版权所有 京ICP备15002868号

processed in 2.341 (s). 10 q(s)