当前位置: 首页 > news >正文

手机网站建设公司服务易网站票网站开发

手机网站建设公司服务,易网站票网站开发,百度客户端电脑版,义乌建设局网站之前做页面抓取#xff0c;数据采集等功能的时候#xff0c;第一个想到的就是用正则表达式去匹配页面内容。但是对于像我这种#xff0c;正则只懂皮毛的人来说#xff0c;写正则是真的很恶心的一件事。去网上找#xff0c;也不一定能改成自己需要的正则。今天给大家推荐一…之前做页面抓取数据采集等功能的时候第一个想到的就是用正则表达式去匹配页面内容。但是对于像我这种正则只懂皮毛的人来说写正则是真的很恶心的一件事。去网上找也不一定能改成自己需要的正则。今天给大家推荐一个很好用的工具smiple html dom。文档地址http://www.phpddt.com/manual/simplehtmldom_1_5/manual.htm解析器不仅仅只是帮助我们验证html文档更能解析不符合W3C标准的html文档。它使用了类似jQuery的元素选择器通过元素的idclasstag等等来查找定位同时还提供添加、删除、修改文档树的功能。当然这样一款强大的html Dom解析器也不是尽善尽美在使用的过程中需要十分小心内存消耗的情况。不过不要担心本文中笔者在最后会为各位介绍如何避免消耗过多的内存。下面是我解析的mm131.com的页面内容代码主要是盗链他的图片O(∩_∩)O哈哈~index.phprequire ./dom/simple_html_dom.php;require ./include/function.php;//打开错误信息error_reporting(E_ERROR | E_WARNING | E_PARSE);$count  0;error_reporting(0);$url  trim(post(url));$str  ;if($url){$html  new simple_html_dom();$html-load_file($url..html);$ret  $html-find(.content-pic img);$title  $html-find(title,0);echo str_ireplace(www.mm131.com,,iconv(GBK,UTF-8,$title-innertext)).;foreach($ret as $v){if($v-src){$str . $v-src.\n;$count;}}flush();for($i  2;$i $html-clear();$location  $url._.$i..html;if(!GetCurl($location)){break;}$html-load_file($location);$ret  $html-find(.content-pic img);foreach($ret as $v){if($v-src){$str . $v-src.\n;$count;}}flush();}echo $count;}以上3个代码块都是index.php的内容。其中的require ./dom/simple_html_dom.php; 即引用的simple html dom 解析器。function.php 只是封装了2个方法 代码如下function GetCurl($url){$ch  curl_init();curl_setopt($ch,CURLOPT_URL,$url);curl_setopt($ch, CURLOPT_HEADER, true);curl_setopt($ch, CURLOPT_NOBODY,true);curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);curl_setopt($ch, CURLOPT_FOLLOWLOCATION,true);curl_setopt($ch, CURLOPT_AUTOREFERER,true);curl_setopt($ch, CURLOPT_TIMEOUT,30);$rtn  curl_exec($ch);curl_exec($ch);if(strpos($rtn,404 Not Found)true) {return false;}return true;}function post($id) {return isset ( $_POST [$id] ) ? $_POST [$id] : ;}如何避免解析器消耗过多内存在本文的开篇中笔者就提到了Simple HTML DOM解析器消耗内存过多的问题。如果php脚本占用内存太多会导致网站停止响应等一系列严重的问题。解决的方法也很简单在解析器加载html文档并使用完成后记得清理掉这个对象就可以了。当然也不要把问题看得太严重了。如果只是加载了2、3个文档清理或不清理是没有多大区别的。当你加载了5个10个甚至更多的文档的时候用完一个就清理一下内存绝对是对自己负责啦^_^
http://wiki.neutronadmin.com/news/442293/

相关文章:

  • 优惠券的网站怎么做深圳自适应网站设计
  • 营销网站建设方案网站备案主体空壳
  • 银川企业网站建设自主做网站
  • 青岛网站建设找润商在哪个网站上做简历
  • 常宁网站免费采集器 wordpress
  • 行业门户网站大全wordpress编辑器提示失败
  • 长沙网站制作好公司企业网站建设与优化
  • 山东英文网站建站怎么建立一个公司的网站吗
  • 自建网站三种模式知名的软件开发公司
  • 合肥seo整站优化海西网站建设哪家好
  • 怎么样做销往非洲太阳能板的网站重庆本地建站
  • 微信公众平台视频网站开发南京建设网站企业
  • 做淘宝美工图片网站网站博客怎么做
  • 谁可以做网站优化排名推广wordpress主题不更新
  • 加强门户网站建设提升wordpress全局pjax
  • 快速建立平台网站开发需要多少钱深圳福田做网站公司哪家好
  • 郑州正规的网站设计成都网站建设哪便宜
  • 自己怎么做彩票网站做新闻源网站采集站赚钱
  • 建设网站 软件wordpress配置数据库失败6
  • 阿里网站建设需要准备什么软件企业展厅设计费用多少
  • 360建筑网密码忘了如何设定旅游网站seo核心关键词
  • 建站模板有哪些linux本地wordpress
  • 装饰设计网站大全东莞网站建设公司 h5
  • 网站优化外包做网站推广的价格
  • 兰州网站建设q479185700惠百度自己网站排名
  • 资金盘做网站oppo软件商店安装
  • 网页设计网站制作公司谷歌推广网站怎么做
  • 网站制作开发的步骤和方法郑州做网站茂睿科技
  • 鹰潭网站建设做企业展示型网站
  • 柳州企业网站建设价格做公众号推送的网站