当前位置: 首页 > news >正文

做代练去什么网站安全吗网站建设选哪个公司

做代练去什么网站安全吗,网站建设选哪个公司,国家高新技术企业申请,wordpress 手机 判断背景#xff1a; ​ 昨天我们讲了讲关于seleium的一些基础操作#xff0c;今天讲讲如何将seleium和爬虫结合起来#xff0c;可以使用selenium获取网页的动态加载数据#xff0c;可以使用selenium获得cookie#xff0c;这两个是比较常用的。我将一一展开。 实战案例…背景 ​ 昨天我们讲了讲关于seleium的一些基础操作今天讲讲如何将seleium和爬虫结合起来可以使用selenium获取网页的动态加载数据可以使用selenium获得cookie这两个是比较常用的。我将一一展开。 实战案例 获取XHR动态加载数据 思考在爬虫中为什么需要使用seleniumselenium和爬虫之间的关联是什么 便捷的爬取动态加载数据可见即可得 我发现大家对动态加载数据和请求包中的数据没有一个特别清晰的认识。 selenium获得网页数据是经过多个数据包发送请求共同渲染后的数据上图片 记住这个元素页面是有多个网络请求共同整合出来的数据即下面网络请求数据包加载渲染后的 要求https://movie.douban.com/typerank?type_name%E5%96%9C%E5%89%A7type24interval_id100:90action 解析其相关数据电影名等等。 from selenium import webdriver from time import sleep from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager path rD:\Downloads\xx\chromedriver-win64\chromedriver.exe urlhttps://movie.douban.com/typerank?type_name%E5%96%9C%E5%89%A7type24interval_id100:90action driver webdriver.Chrome(executable_pathpath)driver.get(url) sleep(5) print(driver.page_source)如上图我们获取的一定是渲染加载完成后的数据接下来对网页源码数据进行解析即可。如果想获取全部大家就注入js脚本使用selenium让其不断向下滑动即可。 获取分页数据 ​ 这个案例是之前写的可能代码以已经失效了但是爬虫学习学的一定是思路不是代码在当前这个大时代会用chatgpt的程序员才不会被淘汰。 要求获取前5页的企业名称 实现思路将每一页源码数据存到一个列表中最后对列表中的每一项进行数据解析即可获得首页源码数据后使用selenium对下一页进行点击然后不断循环。 #获取前5页的企业名称 from selenium import webdriver import time from lxml import etreebro webdriver.Chrome(executable_path./chromedriver) url http://scxk.nmpa.gov.cn:81/xk/ bro.get(urlurl) time.sleep(2) #获取页面源码数据(page_source) page_text bro.page_source #将前5页的页面源码数据存储到该列表中 all_page_text_list [page_text] for i in range(4):#找到下一页标签next_page_btn bro.find_element_by_xpath(//*[idpageIto_next])# 点击next_page_btn.click()#等待几秒 使得网站数据能够加载出来time.sleep(2)#将当前页源码数据放入总列表all_page_text_list.append(bro.page_source)for page_text in all_page_text_list:#解析数据tree etree.HTML(page_text)li_list tree.xpath(//*[idgzlist]/li)for li in li_list:# 这里得到 ./ .代表在上面的路径的基础上title li.xpath(./dl/title)[0]print(title) time.sleep(2) bro.quit()Cookie 使用Selenium还可以方便地对Cookies进行操作例如常见的获取Cookies示例如下 get_cookies()返回值是由字典组成的列表叫做jsonCookies。需要将jsonCookies解析成浏览器携带的cookie形式这个返回的是相应请求相应回来的cookie path rD:\Downloads\xx\chromedriver-win64\chromedriver.exe browser webdriver.Chrome(executable_pathpath) browser.get(https://www.zhihu.com/explore) # 获取cookie jsonhuke cookies browser.get_cookies()# 返回的是一个列表 print(cookies,type(cookies)) # 解析cookie dic {} for cookie in cookies:key cookie[name]value cookie[value]dic[key] valueprint(key,value) print(dic) # 在爬虫中可以使用的cookie browser.close()
http://www.yutouwan.com/news/410717/

相关文章:

  • 一级域名的免费网站江西城乡建设网站
  • 做网站要交钱吗网站专题页面设计
  • 网站制作方案报价手机版 网站建设
  • 最牛的手机视频网站建设泰州网站建设方案优化
  • 山西省建五公司官网优化网站seo方案
  • 网站建设初级教程佛山推广seo排名
  • wap网站推荐设计网页机构
  • 花卉网站建设的总结与广告设计与制作专业简历
  • 专业网站设计多少钱如何做网站设计
  • 网站开发者模式怎么保存网页的建设流程怎么确定
  • 手机禁止网站跳转页面广告设计公司开店策划
  • 怎么做自己的公司网站放在百度代理加盟网
  • 建设招标网湖南网站seo营销多少费用
  • 小城市网站建设银行营销技巧和营销方法
  • 闸北手机网站建设海拉尔网站建设sjteam
  • 织梦多网站2018年网站开发技术
  • 冠县网站建设费用长沙传统网络营销策略
  • 旅游网站技术流程图如何修改wordpress的登录
  • 站长工具怎么用软文营销网
  • 龙岩市住房和城乡建设局网站中国seo排行榜
  • 黄骅做网站价格织梦html5手机网站模板
  • 青岛网站设计建设大型企业网站源码
  • 佛山网站建设价格整站优化要多少钱
  • 义乌高端网站设计品牌火车头 wordpress 发布
  • 海东企业网站建设如何做网站营销
  • 网站开发重要性wordpress国外模板安装
  • 吉林省建设 安全 网站WordPress主题启用出现错误
  • 拼多多网站建设方案免费ftp 网站
  • 网站技术培训网站开发用技术
  • 北京城乡住房建设部网站深圳 网站设计公司排名