当前位置: 首页 > news >正文

烟台建设局网站网摘网站推广法

烟台建设局网站,网摘网站推广法,大学网站建设与管理职责,三亚哪里做网站在爬学校安全教育题库的时候发现题库分页实际上执行了一段js代码#xff0c;如下图所示 点击下一页时是执行了函数doPostBack#xff0c;查看页面源码如下 点击下一页后这段js提交了一个表单#xff0c;随后后端返回对应数据#xff0c;一开始尝试分析获取对应两个参数如下图所示 点击下一页时是执行了函数doPostBack查看页面源码如下 点击下一页后这段js提交了一个表单随后后端返回对应数据一开始尝试分析获取对应两个参数封装在data中通过POST请求获得新的一页后面尝试了很久始终不成功…肯定是因为太菜 没办法只能使用神器selenium缺点是要调用浏览器肯定是比较慢的但是python直接给你模拟浏览器的各种操作而且不用抓包分析比较方便。所以还是偷偷懒注意除了python要安装selenium之外还需要安装对应浏览器的web驱动这里我用的是谷歌浏览器驱动下载地址 镜像https://registry.npmmirror.com/binary.html?pathchromedriver/ 如果你谷歌版本新镜像上可能没有对应版本。 官网https://sites.google.com/chromium.org/driver/downloads117以上在这里找这里~ 下载好后就是正常的爬虫步骤直接看代码吧 import docx from selenium import webdriver import html2text import timeidx [4, 5, 9, 10, 11, 13, 14, 15, 16] srcsel xxxx/Web/userSingle.aspx?ID # 选择题 srcjg xxxx/Web/userIs.aspx?ID # 判断题def remove_tags(text):h html2text.HTML2Text()h.ignore_links Truereturn h.handle(text)def process(url):driver webdriver.Chrome()driver.get(url)res driver.find_element(id, GridViewx).get_attribute(innerHTML)res remove_tags(res)doc.add_paragraph().add_run(res)pages int(driver.find_element(id, GridViewx_ctl13_lblPageCount).text)# pages 2for i in range(pages - 1):time.sleep(1.5)driver.find_element(id, GridViewx_ctl13_btnNext).click()res driver.find_element(id, GridViewx).get_attribute(innerHTML)res remove_tags(res)doc.add_paragraph().add_run(res)driver.quit()doc docx.Document(res.docx) for pid in idx:process(srcsel str(pid))time.sleep(3)process(srcjg str(pid)) doc.save(res.docx) 为什么多此一举用html2text呢因为发现这样写又能比较好看和丑的比起来还不用自己一条数据一条数据取出来排版。然后代码里我直接写进word文档里了这里有个小坑你的word文档docx中必须得有东西不能是空的要不然会报错… 懒得排版凑合看看
http://wiki.neutronadmin.com/news/250325/

相关文章:

  • 网站一定要备案吗杭州装修公司排名前十强
  • 化隆县公司网站建设软件工程学什么及就业前景
  • 装修案例欣赏seo工具助力集群式网站升级
  • 外贸网站流量分析抽奖页面设计
  • 网站建设报价表格wordpress免费的可视化编辑
  • 福建省建设环卫协会网站汕头东莞网站建设
  • 网站内容页相关性怎么做英文wordpress建站
  • 织梦个人博客网站源码珠海有什么好的网站推广公司
  • 佛山网站优化推广方案网站推广常用方法有哪些
  • 建设网站工作室seo入门培训课程
  • 微网站免费大连精美网站制作
  • 百度怎么搜索到自己的网站做新网站 备案证明交接
  • 网站建设验收装修网页设计网站
  • 西安做网站的公司电话永久在线观看电影网址
  • 制作公司网站价格wordpress 商业网站
  • 汽车配件外贸网站火车票网站开发
  • 南宁建设银行官网招聘网站飞天侠调用wordpress
  • 房屋租赁网站开发需求分析网站建设会计分录
  • 怎么做网站不被发现内蒙网站开发
  • 企业网站模板带后台企业内部管理软件
  • 中国做网站推广哪家好365房产南京网站
  • 大自然的网站设计易网网站
  • 个人网站设计的意义网络营销的方式有几种
  • 网站管理平台扩展插件微信文章导入wordpress
  • 石家庄做外贸的网站推广公司注册代理费
  • wordpress 网站很卡更改wordpress登录地址
  • 烟台网站优化2022年国内重大新闻
  • 企业标准型手机网站网站顶部地图代码怎么做的
  • 网站建设策划公司地址合肥网站优化搜索
  • 各行各业网站建设服务周到做商品网站需要营业执照