当前位置: 首页 > news >正文

外贸网站 备案中民保险网

外贸网站 备案,中民保险网,如何做网页推广如何做网页,湘潭网站建设优化技术之前做页面抓取#xff0c;数据采集等功能的时候#xff0c;第一个想到的就是用正则表达式去匹配页面内容。但是对于像我这种#xff0c;正则只懂皮毛的人来说#xff0c;写正则是真的很恶心的一件事。去网上找#xff0c;也不一定能改成自己需要的正则。今天给大家推荐一…之前做页面抓取数据采集等功能的时候第一个想到的就是用正则表达式去匹配页面内容。但是对于像我这种正则只懂皮毛的人来说写正则是真的很恶心的一件事。去网上找也不一定能改成自己需要的正则。今天给大家推荐一个很好用的工具smiple html dom。文档地址http://www.phpddt.com/manual/simplehtmldom_1_5/manual.htm解析器不仅仅只是帮助我们验证html文档更能解析不符合W3C标准的html文档。它使用了类似jQuery的元素选择器通过元素的idclasstag等等来查找定位同时还提供添加、删除、修改文档树的功能。当然这样一款强大的html Dom解析器也不是尽善尽美在使用的过程中需要十分小心内存消耗的情况。不过不要担心本文中笔者在最后会为各位介绍如何避免消耗过多的内存。下面是我解析的mm131.com的页面内容代码主要是盗链他的图片O(∩_∩)O哈哈~index.phprequire ./dom/simple_html_dom.php;require ./include/function.php;//打开错误信息error_reporting(E_ERROR | E_WARNING | E_PARSE);$count  0;error_reporting(0);$url  trim(post(url));$str  ;if($url){$html  new simple_html_dom();$html-load_file($url..html);$ret  $html-find(.content-pic img);$title  $html-find(title,0);echo str_ireplace(www.mm131.com,,iconv(GBK,UTF-8,$title-innertext)).;foreach($ret as $v){if($v-src){$str . $v-src.\n;$count;}}flush();for($i  2;$i $html-clear();$location  $url._.$i..html;if(!GetCurl($location)){break;}$html-load_file($location);$ret  $html-find(.content-pic img);foreach($ret as $v){if($v-src){$str . $v-src.\n;$count;}}flush();}echo $count;}以上3个代码块都是index.php的内容。其中的require ./dom/simple_html_dom.php; 即引用的simple html dom 解析器。function.php 只是封装了2个方法 代码如下function GetCurl($url){$ch  curl_init();curl_setopt($ch,CURLOPT_URL,$url);curl_setopt($ch, CURLOPT_HEADER, true);curl_setopt($ch, CURLOPT_NOBODY,true);curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);curl_setopt($ch, CURLOPT_FOLLOWLOCATION,true);curl_setopt($ch, CURLOPT_AUTOREFERER,true);curl_setopt($ch, CURLOPT_TIMEOUT,30);$rtn  curl_exec($ch);curl_exec($ch);if(strpos($rtn,404 Not Found)true) {return false;}return true;}function post($id) {return isset ( $_POST [$id] ) ? $_POST [$id] : ;}如何避免解析器消耗过多内存在本文的开篇中笔者就提到了Simple HTML DOM解析器消耗内存过多的问题。如果php脚本占用内存太多会导致网站停止响应等一系列严重的问题。解决的方法也很简单在解析器加载html文档并使用完成后记得清理掉这个对象就可以了。当然也不要把问题看得太严重了。如果只是加载了2、3个文档清理或不清理是没有多大区别的。当你加载了5个10个甚至更多的文档的时候用完一个就清理一下内存绝对是对自己负责啦^_^
http://wiki.neutronadmin.com/news/252731/

相关文章:

  • 在线做爰 视频网站html好看的个人主页
  • 阳泉企业网站建设公司深圳seo整站优化承接
  • 做网站什么时候注册商标金融服务网站建设
  • 北京 高端网站定制网站建设合同简单模板
  • ps制作网站首页面教程购物网站系统建设方案
  • 蓝色网站源码网站建设管理总结
  • 苏州工业园区做政务网站的公司营销策略的概念和内容
  • 安徽元鼎建设公司网站wordpress登入后缀
  • 网站建设基础流程图企业推广宣传方式
  • 山东省建设科技协会网站wordpress运行php文件
  • 建站软件大全logo设计的六大要素
  • 网站密码如何找回密码网站二级目录做网站
  • 网站生成自助网络营销的优势
  • 商城网站建设定制网站建设手机网站设计欣赏
  • 检测网站是否安全wordpress for sae 插件
  • 成立公司流程青岛网络优化公司
  • 中企动力网站案例搜索引擎营销特点是什么
  • 仙桃网站建设公司wordpress rest图片
  • 常州做网站的做结婚视频储存网站
  • phpcms 生成网站地图深圳营销网站
  • 常熟网站建设icp备案仙桃企业网站建设
  • 大连网站在哪备案青岛网站设计
  • 厦门网站建设公司排行榜免费策划方案平台
  • html5 企业网站防雷整改久久建筑网
  • 网站侧边栏模板做网站公司什么条件
  • 南山住房和建设局网站企业网站免费
  • 安徽省卫生计生网站医共体建设做游戏出租的网站
  • 江西省城乡建设培训中心网站海口网站建设哪家最好
  • 做网站要多长时间媒体平台推广
  • jsp做的网站运行都需要什么施工企业资质类别