当前位置: 首页 > news >正文

盖州网站建设专利申请

盖州网站建设,专利申请,网页小游戏推荐,哪里有做网站系统网络爬虫#xff08;又被称为网页蜘蛛#xff0c;网络机器人#xff09;就是模拟客户端发送网络请求#xff0c;接收请求响应#xff0c;一种按照一定的规则#xff0c;自动地抓取互联网信息的程序。 只要是浏览器能做的事情#xff0c;原则上#xff0c;爬虫都能够做…网络爬虫又被称为网页蜘蛛网络机器人就是模拟客户端发送网络请求接收请求响应一种按照一定的规则自动地抓取互联网信息的程序。 只要是浏览器能做的事情原则上爬虫都能够做 先来看一下最简单的网络爬虫百度Logo图片提取 import requestsr requests.get(https://www.baidu.com/img/bd_logo1.png)with open(baidu.png,wb) as f:f.write(r.content)接下来按照爬虫基本工作流程提取内涵社区网站文本内容 1.获取url urlhttp://neihanshequ.com/ headers {User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36} 2.发送请求接受响应 r requests.get(url,headersheaders) html_str r.content.decode() 3.提取数据 h1 classtitlep公交车上一小伙对着手机打公放点微信语音“臭小子你是不是一点也不想你老娘都不知道陪我聊聊天回家来看看我...”每点开这段语音小伙都自言自语说道“别唠叨啦我每天都陪你聊天好不好想你了老妈...”一大爷看不下去了说道“小伙子你能不能不循环播这段语音你要是想你妈了能不能给她打个电话”小伙说道“上个月她走了就只剩下这段语音了...”/p/h1 t re.findall(rh1 class\title\.*?p(.*?)/p.*?/h1,html_str,re.S) 4.保存数据 with open(neihan.txt,w,encodingutf-8) as f:for i in t:f.write(i)f.write(\n)这是最简单的面向过程网站爬取最终代码如下 import re import requests def Neihanurlhttp://neihanshequ.com/headers {User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36}r requests.get(url,headersheaders)html_str r.content.decode()h1 classtitlep公交车上一小伙对着手机打公放点微信语音“臭小子你是不是一点也不想你老娘都不知道陪我聊聊天回家来看看我...”每点开这段语音小伙都自言自语说道“别唠叨啦我每天都陪你聊天好不好想你了老妈...”一大爷看不下去了说道“小伙子你能不能不循环播这段语音你要是想你妈了能不能给她打个电话”小伙说道“上个月她走了就只剩下这段语音了...”/p/h1t re.findall(rh1 class\title\.*?p(.*?)/p.*?/h1,html_str,re.S)with open(neihan.txt,w,encodingutf-8) as f:for i in t:f.write(i)f.write(\n) Neihan按照面向对象爬取内涵社区网站文本爬虫工作流程代码如下 # codingutf-8 import requests import re import jsonclass Neihan:def __init__(self):self.start_url http://neihanshequ.com/self.headers {User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36}self.next_url_temp http://neihanshequ.com/joke/?is_json1app_nameneihanshequ_webmax_time{}def parse_url(self,url): #发送url地址的请求获取响应r requests.get(url,headersself.headers)return r.content.decode()def get_first_page_content_list(self,html_str):t re.findall(rh1 class\title\.*?p(.*?)/p.*?/h1, html_str, re.S)#获取max——timemax_time re.findall(max_time: (.*?),html_str,re.S)[0]return t,max_timedef save_content_list(self,content_list): #保存for content in content_list:print(content)def get_content_list(self,html_str):dict_response json.loads(html_str)content_list [i[group][text] for i in dict_response[data][data]]max_time dict_response[data][max_time]#获取has_morehas_more dict_response[data][has_more]return content_list,max_time,has_moredef run(self):#实现主要逻辑#1.start_url#2.发送请求获取响应html_str self.parse_url(self.start_url)#3.提取数据content_list,max_time self.get_first_page_content_list(html_str)#4.保存self.save_content_list(content_list)#5.获取第二页的urlhas_moreTruewhile has_more:next_url self.next_url_temp.format(max_time)html_str self.parse_url(next_url) #发送下一页的请求content_list,max_time,has_more self.get_content_list(html_str)#获取json中的段子和max——timeself.save_content_list(content_list)if __name__ __main__:neihan Neihan()neihan.run()
http://wiki.neutronadmin.com/news/20401/

相关文章:

  • 网站建设一般多少钱新闻宣传片制作报价表
  • 扫二维码直接进网站怎么做网站开发文档模板下载
  • 企业网站项目报价多少合适制作网页的视频教程
  • h5用什么网站来做外贸是做什么的工作内容是什么
  • 自助建站和wordpress建设不动产网站
  • 苏州网站建设方案江门论坛建站模板
  • 荔浦火车站建设在哪里网站关键词策略
  • wordpress付费文章三明seo培训
  • 平面设计入门seo机构
  • 苏州优化网站哪家好网站建设 后台
  • 网络公司网站官网wordpress手机访问慢
  • 西安网站建设huanxi现在不流行做网站了么
  • 建设电子商城网站网站开发开题报告引言
  • .net网站做优化经典重庆论坛新闻论坛发展论坛
  • 邯郸网站推广怎么做忻州市忻府区
  • 上海国际网站建设绍兴住房和城乡建设厅网站首页
  • 建设网站可选择的方案有网站的优点有哪些
  • 公司做网站需要准备哪些资料网站图片加alt标签
  • 网站的漂浮广告怎么做学习网页设计网站
  • 网站建设实训过程五金企业网站模板
  • 做网站一般需要哪些文件夹?网站制作视频
  • 乐山旅游 英文网站建设潍坊建站程序
  • 帝国cms怎样做网站迁移wwr下载建设网站
  • 安徽网站开发培训丹阳网站推广
  • 阿里企业网站托管八年级信技做网站
  • 关于建设学校网站的报告书做短视频的能跟几个网站签约
  • 大型网站建设建设公司排名郑州定制网站推广工具产品
  • 网站建设实训总结范文鄂州seo厂家
  • 微信小程序公司网站怎么制作网站文章来源seo
  • 网站建设管理制度实施方案网络营销招聘岗位有哪些