当前位置: 首页 > news >正文

网站建设业务员好做吗怎么把网址变成网页链接

网站建设业务员好做吗,怎么把网址变成网页链接,菠菜网站如何做推广,手机网站哪些功能网络爬虫#xff0c;用一句话简单总结#xff0c;就是一种按照一定的规则#xff0c;自动的抓取万维网信息的程序或者脚本。写这篇文章的初衷是有个知友私信我说#xff0c;模仿了很多网上用Python写爬虫的例子#xff0c;但到了需要自己动手写爬虫的时候又不知道怎么写了… 网络爬虫用一句话简单总结就是一种按照一定的规则自动的抓取万维网信息的程序或者脚本。写这篇文章的初衷是有个知友私信我说模仿了很多网上用Python写爬虫的例子但到了需要自己动手写爬虫的时候又不知道怎么写了。我觉得出现这种情况还是很正常的至少我个人是这么过来的。这篇文章仅供初学者写爬虫程序时作为一个参考毕竟本人已经很久没写过爬虫程序了但爬虫程序的大体框架我还是很清晰的此篇展示的是我对爬虫的一些理解。之前写过的一些爬虫程序PythonCrawler有兴趣的朋友可以看看找找自信这些代码现在看来写的确实挺烂的 。写爬虫遵循的基本框架 我自己在写爬虫时一般基本遵循下面的框架形式按照这个框架来编写代码。演示实例 通过对[ONE]这个网站的爬取来演示上述模块的编写ONE网站的内容展示如下图所示。而数据我只爬取一张图片和一句箴言备注该演示远非最佳实践只是为了演示框架流程。url调度模块编写通过对ONE网站的分析发现它的翻页就是在url后面的数字上加一进入下一页。ROOT_URL http://wufazhuce.com/one/ URL_NUM 14 #14页之后才开始有数据def yield_url(ROOT_URL, URL_NUM):return ROOT_URL str(URL_NUM)网页下载模块编写import requests as rqdef get_html(url):return rq.get(url).content.decode(utf-8)数据抽取模块编写通过对图片和箴言查看元素可知相关代码镶嵌情况。因此可以编写数据抽取模块import redef get_data(html):img_url_regex re.compile(img src(.*?) alt /)cite_regex re.compile(div classone-cita(.*?)/div, re.S)img_url re.findall(img_url_regex, html)[0]cite re.findall(cite_regex, html)[0].strip()return img_url, cite 数据存储模块编写def save_data(img_url, cite, URL_NUM):with open(./{}.jpg.format(URL_NUM), wb) as fp:fp.write(rq.get(img_url).content)with open(./cite{}.txt.format(URL_NUM), w) as fp:fp.write(cite)return URL_NUM 1整合所有模块输出爬取结果 import re import requests as rqROOT_URL http://wufazhuce.com/one/ URL_NUM 14def yield_url(ROOT_URL, URL_NUM):return ROOT_URL str(URL_NUM)def get_html(url):return rq.get(url).content.decode(utf-8)def get_data(html):img_url_regex re.compile(img src(.*?) alt /)cite_regex re.compile(div classone-cita(.*?)/div, re.S)img_url re.findall(img_url_regex, html)[0]cite re.findall(cite_regex, html)[0].strip()return img_url, cite def save_data(img_url, cite, URL_NUM):with open(./{}.jpg.format(URL_NUM), wb) as fp:fp.write(rq.get(img_url).content)with open(./cite{}.txt.format(URL_NUM), w) as fp:fp.write(cite)return URL_NUM 1def main(ROOT_URL, URL_NUM, number):for _ in range(number):url yield_url(ROOT_URL, URL_NUM)html get_html(url) img_url, cite get_data(html) URL_NUM save_data(img_url, cite, URL_NUM)if __name__ __main__:try:main(ROOT_URL, URL_NUM, 20)except:pass结果展示总结✨本文的目的只是为了让初学者对写爬虫的大体流程有较为清晰的了解。天高任鸟飞海阔凭鱼跃每个人心中的爬虫框架流程各异实现方法各异自由发挥空间极大但有一点务必注意那就是遵守中华人民共和国的法律。
http://www.yutouwan.com/news/486092/

相关文章:

  • 网站设计好学吗影视怎么建设网站
  • 专门做ppt的网站斧头上海企业网站优化
  • zencart网站管理网页设计公司简约
  • 求个网站2021可用设计好看的企业网站
  • 做百度网站需要什么条件个人简历模板下载 免费完整版
  • 广州市品牌网站建设服务机构网站排名工具
  • reactjs wordpress哈尔滨seo优化排名推广
  • 免费做外贸的网站app下载安装注册
  • 苏州网站的优化免费域名模板建站
  • 有趣的个人网站python基础教程入门
  • 求个网站能用的wordpress vr
  • 美业网站建设重庆一般建一个网站需要多少钱
  • 网站制作培训班织梦网站首页怎么修改
  • 西二旗网站建设天长网站制作
  • 鞋网站模版企业官网推广
  • 网上做兼职网站正规搜索引擎排名谷歌
  • 静态网站怎么建设wordpress进入文字版
  • cms适合做什么网站网站建设 后端前端
  • 卖钢材做哪个宣传网站如果提高网站
  • 营销型网站首页模板网页设计师培训排行榜
  • 四川省广安建设局网站久久网站建设
  • 手机网站制作 尺寸成都建设路小学网站
  • 同域名网站改版需要把之前网站里的文章都拷贝过来吗?创建小型网站的步骤
  • 宁波网站建设h5工业互联网平台有哪些
  • 成都快速做网站公司品牌宣传方案
  • 沂源网站开发利用淘宝视频服务做视频网站
  • vue 实现网站开发如何建网站赚取佣金
  • 泉州网站建设公司招聘销售合肥软件建设
  • 建立什么本地网站赚钱嵌入式软件开发培训机构
  • wordpress添加背景音乐南京seo网站优化