当前位置: 首页 > news >正文

八年级信技做网站网站建设客户资源

八年级信技做网站,网站建设客户资源,同学录网站开发实现基本要求,小程序如何申请本篇是 python 爬虫的第三篇#xff0c;在前面两篇 Python 爬虫第一篇#xff08;urllibregex#xff09; 和 Python 爬虫第二篇#xff08;urllibBeautifulSoup#xff09; 中介绍了如何获取给定网址的网页信息#xff0c;并解析其中的内容。本篇将更进一步#xff0c;…本篇是 python 爬虫的第三篇在前面两篇 Python 爬虫第一篇urllibregex 和 Python 爬虫第二篇urllibBeautifulSoup 中介绍了如何获取给定网址的网页信息并解析其中的内容。本篇将更进一步根据给定网址获取并解析给定网址及其相关联网址中的内容。要实现这些功能我们需要解决以下问题 1. 如何持续不断的获取 url并读取相关内容。 2. 如何判断网址是否已经读取过。 文中用到的代码均已上传到 github在这里就不再贴出完整的代码了。 如何持续不断的获取网址并读取相关内容 要想读取网页内容首先要获取网页的 url但是我们又不能将所有的 url 都输入到程序中此时就需要我们从已知的 url 中解析出其他的 url从而不间断的获取新的 url读取新的内容获取新的 url 可以通过解析含有 href 属性的 a 标签来实现具体代码如下for link in html.find_all(namea, hrefre.compile(rhttps?://list|item.szlcsc.)): if len(self.__url_set) self.__max_url_count: return url link.get(href) 以上代码解析出所有的 a 标签中的 href 属性内容以 https://list.szlcsc 和 https://item.szlcsc为开头的 url 连接。在这里还是设置了一个最大的 url 解析量「由于在测试中需要一个停止条件」默认值为1000。 从一个 url 中获取到更多的 url 后我们该怎么去读取以什么顺序去读取不可能获取一个 url 就读取一个 url此时就需要一个保存 url 的地方「最好是可以顺序保存顺序取出的」那么最好的方法就是使用队列了以下是将 url 放入队列的代码for link in html.find_all(namea, hrefre.compile(rhttps?://list|item.szlcsc.)): if len(self.__url_set) self.__max_url_count: return url link.get(href) if url not in self.__url_set: self.__url_set.add(url) self.__url_queue.put(url) 以下是从队列中取出 url 的代码while not self.__url_queue.empty(): count count 1 url self.__url_queue.get() result self.get_html(url) 以上两段代码完成了一个 url 从存入队列到从队列中出的全过程。 如何判断网址是否已经读取过 这个问题实际上就是 url 去重的问题常用的 url 去重的方法主要有以下几种 1. url 保存在数据库中效率较低 2. 将 url 保存到集合中利用集合的无重复元素的特性来去重缺点是占用空间大。 3. 将 url 通过 md5 等哈希算法后保存在集合中与第 2 项相比可以大幅度提高空间利用率。 4. 使用布隆过滤器「Bloom Filter」在时间和空间方面有巨大的优势但是存在一定的误算率不适用于高准确度的场合。 本篇我们使用集合来对 url 进行去重其他方法大家可以自行搜索一下网上有很多这方面的资料。 集合中的元素无次序且不可重复。元素不可重复的特性用来对 url 去重在合适不过了通过判断 url 是否已经在集合中可以快速判断该 url 是否已经读取过。具体看以下代码if url not in self.__url_set: self.__url_set.add(url) self.__url_queue.put(url) 以上代码首先判断 url 是否存在于 _urlset 中如果不存在则将该 url 添加到 _urlset 中同时将次 url 放入读取队列中进行读取。这样既对得到的每个 url 进行读取又避免了多次读取同一个 url 造成资源的浪费。
http://wiki.neutronadmin.com/news/210983/

相关文章:

  • win7 iis添加网站济南做网站最好的公司
  • 昌平网站建设推广优化seowordpress主题 单页
  • 外贸网站制作要求揭阳网站免费建站
  • 本地linux做网站六安网站制作多少钱
  • 网站做seo多少钱微信小程序跳转到网站
  • logo网站设计素材微妙音门户网站建设
  • 深圳网站 建设信科网络大学生网页设计期末作品代码
  • 卡片式设计的网站网站后台上传图片无法显示
  • 站长工具seo综合查询 分析现在阳性最新情况
  • wordpress 小程序主题seo 怎么做到百度首页
  • 上海网站群建设丽水集团网站建设
  • 网站建设与维护经营范围优设
  • php网站二次开发用什么软件手机网站图片自适应代码
  • 亚马逊欧洲站入口网址页面设计素材网站
  • 沧州北京网站建设阿里巴巴企业网站注册
  • 南京企业网站设计公司500元济源网站开发
  • 百度做网站好吗光谷网站建设哪家好
  • 宁夏住房和城乡建设官方网站百川网站维护
  • 内网网站建设的步骤过程做淘宝客网站好搭建吗?
  • 毕设代做网站招聘深圳东维亚建设公司
  • 未备案网站加速如何降低网站相似度
  • 西城专业网站建设公司哪家好做暖漫画网站
  • 网站建设廴金手指花总壹柒长沙装修公司名单
  • 六盘水住房和城乡建设部网站网站群怎么做
  • 网站管家山东莱钢建设有限公司网站
  • 网站建设海淀seo兼职
  • 岳阳网站开发培训外贸网站平台有几个
  • 汉中做网站公司商城网站设计图
  • 防录屏网站怎么做网站开发项目预算表
  • 网站建站的方式主要有哪几种做网站网站的