当前位置: 首页 > news >正文

中国建设银行租赁网站wordpress设置文章显示图片

中国建设银行租赁网站,wordpress设置文章显示图片,网上交易系统,建网站需要注意的问题上一讲讲的是获取静态网页数据的教程#xff0c;适用于我们要爬取的数据在网页源代码中出现#xff0c;但是还是有很多的数据是源代码中没有的#xff0c;需要通过接口访问服务器来获得#xff0c;下面我就来讲讲如何爬取这类数据。 以巨潮资讯网爬取比亚迪企业年报为例。…上一讲讲的是获取静态网页数据的教程适用于我们要爬取的数据在网页源代码中出现但是还是有很多的数据是源代码中没有的需要通过接口访问服务器来获得下面我就来讲讲如何爬取这类数据。 以巨潮资讯网爬取比亚迪企业年报为例。 正常人的操作 打开巨潮资讯网官网 找到比亚迪的公告 在分类里面选择筛选信息找到自己想要的信息 爬虫的思路 获取请求信息 在正常人的操作第三步当我们选择一个类别时毫无疑问浏览器肯定会对服务器发送请求信息服务器返回信息后我们才能看到想要的信息看一下怎么获取这个请求 按下F12或者是右键检查进入网络先清空乱七八糟的网络信息 当我们选择一个类别时会看到右边多出一个query请求这个就是我们向服务器发出的请求 我们可以查看query这条请求的信息 请求转换为代码 上一步我们获取到了请求信息我们就可以使用python造一个请求头主要包含请求头和请求负载我们荡当然可以使用比较奔的方法一个一个的复制粘贴把东西搬到代码上这里推荐一个工具能自动帮我们把请求格式化我们想要的 把请求复制下来 在Curl命令转代码工具 (sbox.cn)这个在线网站可以直接转换为python代码 请求返回信息 请求信息在调试窗口响应上查看当然也可以通过上一步通过代码获取的返回打印出来查看。 可以看到一个个报告主要是在announcements数组里通过直觉adjunctUrl可能是报告的存放地址来验证一下随便打开一个报告还是按照老方法查看网络请求可以看到pdf的请求是不是就是adjunctUrl加上前缀通过查看多个报告发现都是这个情况就可以大胆地去操作了。 请求url为‘http://static.cninfo.com.cn/’ “adjunctUrl” 保存的文件名称‘tileSecName’‘-’‘announcementTitle’ 完整代码 import requests from urllib import request cookies {JSESSIONID: F5C5C5CD40FE076E6139580808BEC6E3,cninfo_user_browse: 002594,gshk0001211,%E6%AF%94%E4%BA%9A%E8%BF%AA,_sp_ses.2141: *,routeId: .uc2,insert_cookie: 45380249,SID: add3de6c-70ed-4c9b-a201-723fbc753673,_sp_id.2141: f35a90ce-a735-4c68-a000-1eb385b581af.1694435068.2.1694520662.1694435105.3aee65c9-094e-48f8-af1d-67b97c9655a9, }headers {Accept: application/json, text/javascript, */*; q0.01,Accept-Language: zh-CN,zh;q0.9,en;q0.8,en-GB;q0.7,en-US;q0.6,Connection: keep-alive,Content-Type: application/x-www-form-urlencoded; charsetUTF-8,# Cookie: JSESSIONIDF5C5C5CD40FE076E6139580808BEC6E3; cninfo_user_browse002594,gshk0001211,%E6%AF%94%E4%BA%9A%E8%BF%AA; _sp_ses.2141*; routeId.uc2; insert_cookie45380249; SIDadd3de6c-70ed-4c9b-a201-723fbc753673; _sp_id.2141f35a90ce-a735-4c68-a000-1eb385b581af.1694435068.2.1694520662.1694435105.3aee65c9-094e-48f8-af1d-67b97c9655a9,Origin: http://www.cninfo.com.cn,Referer: http://www.cninfo.com.cn/new/disclosure/stock?platestockCode002594orgIdgshk0001211,User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.76,X-Requested-With: XMLHttpRequest, }data {stock: 002594,gshk0001211,tabName: fulltext,pageSize: 30,pageNum: 1,column: szse,category: category_ndbg_szsh;,plate: sz,seDate: ,searchkey: ,secid: ,sortName: ,sortType: ,isHLtitle: true, }response requests.post(http://www.cninfo.com.cn/new/hisAnnouncement/query,cookiescookies,headersheaders,datadata,verifyFalse, ).json() #print(response.find(totalRecordNum)) for i in response[announcements]:reportNamei[tileSecName]-i[announcementTitle]print(reportName)reportUrl http://static.cninfo.com.cn/ i[adjunctUrl]print(reportUrl)request.urlretrieve(reportUrl, r./AnnualReport/reportName.pdf)有的分类不只有一页数据 可以看到totalpages这个字段跟页数有关当只有一页的时候为0两页的时候为1请求头只有’pageNum’不一样请求头’pageNum’与响应‘totalpages’是对应的我们就可以这样写程序 import requests from urllib import request cookies {JSESSIONID: 5606FC5CD576740918585289AE035EF6,cninfo_user_browse: 002594,gshk0001211,%E6%AF%94%E4%BA%9A%E8%BF%AA,routeId: .uc1,SID: ebbaf14c-1c51-48b5-8a56-e67112c85c8e,_sp_ses.2141: *,_sp_id.2141: f35a90ce-a735-4c68-a000-1eb385b581af.1694435068.5.1694942471.1694940568.9c03aa1e-99d7-4c7b-95a5-0475f67ce2dc, }headers {Accept: application/json, text/javascript, */*; q0.01,Accept-Language: zh-CN,zh;q0.9,en;q0.8,en-GB;q0.7,en-US;q0.6,Connection: keep-alive,Content-Type: application/x-www-form-urlencoded; charsetUTF-8,# Cookie: JSESSIONID5606FC5CD576740918585289AE035EF6; cninfo_user_browse002594,gshk0001211,%E6%AF%94%E4%BA%9A%E8%BF%AA; routeId.uc1; SIDebbaf14c-1c51-48b5-8a56-e67112c85c8e; _sp_ses.2141*; _sp_id.2141f35a90ce-a735-4c68-a000-1eb385b581af.1694435068.5.1694942471.1694940568.9c03aa1e-99d7-4c7b-95a5-0475f67ce2dc,Origin: http://www.cninfo.com.cn,Referer: http://www.cninfo.com.cn/new/disclosure/stock?tabNamedataorgIdgshk0001211stockCode002594,#User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1,User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.81,X-Requested-With: XMLHttpRequest, }data {stock: 002594,gshk0001211,tabName: fulltext,pageSize: 30,pageNum: 1,column: szse,category: category_sf_szsh;,plate: sz,seDate: ,searchkey: ,secid: ,sortName: ,sortType: ,isHLtitle: true, }proxies {http: http://60.182.197.86:8888,https: https://60.182.197.86:8888 }response requests.post(http://www.cninfo.com.cn/new/hisAnnouncement/query,cookiescookies,headersheaders,datadata,#proxiesproxies, #使用代理ip防止反爬verifyFalse, ).json()print(总的页数str(response[totalpages])) print(总的数目str(response[totalRecordNum])) num0 for i in range(1,2response[totalpages]):#print(i)data[pageNum]iresponse requests.post(http://www.cninfo.com.cn/new/hisAnnouncement/query,cookiescookies,headersheaders,datadata,#proxiesproxies, # 使用代理ip防止反爬verifyFalse,)if response.status_code200:print(response.text)responseresponse.json()for j in response[announcements]:reportNamej[tileSecName]-j[shortTitle]#print(reportName)reportUrl http://static.cninfo.com.cn/ j[adjunctUrl]#print(reportUrl)request.urlretrieve(reportUrl, r./AnnualReport/reportName.replace(/,-).pdf)print(num)numnum1print(r./AnnualReport/reportName.pdf下载完成)
http://wiki.neutronadmin.com/news/384937/

相关文章:

  • 北京市专业网站制作企业为学校建设网站
  • 营销型网站建设信融网站建设技术支持包括哪些
  • 开发一个网站多少钱啊seo查询外链
  • 网站建设分金手指排名十八百度广告联盟官网入口
  • wordpress全站注明网站建设和维护待遇怎样
  • 医疗网站建设讯息做调研的网站有哪些
  • 仙居住房和城乡建设规划局网站推广学院seo教程
  • 成都网站设计公司电话深圳知名的网站公司简介
  • 建一个设计网站要多少钱墨刀制作网页教程
  • 网站建设公司哪家好 皆来磐石网络WordPress不显示斜杠
  • 个人网站怎么做详情页特色网站模板
  • 深圳电子商务网站 开发金银回收东莞网站建设
  • 马鞍山哪里做网站企业 备案 网站服务内容
  • 网站官网河北衡水建设网站公司电话
  • wordpress手机网站模版vs2010c 做网站
  • 做脚本网站石家庄网站空间
  • 网站怎么做黑链接银座网上购物商城
  • 佛山免费建站模板西安找公司建网站
  • 一家专门做特产的网站企业网站维护兼职
  • 成都网站建设制作价格网站建设怎样推广
  • 个人网站的成本3秒后自动跳转网页
  • 深圳龙岗做网站公司哪家好nginx wordpress 二级目录
  • 营销型网站建设哪家公司好用php做的网站源代码
  • 湖南建设网站公司乐至建设局网站
  • 怎么做html5网站策略网页游戏大全
  • 河北网站建设联系电话公司网络推广培训
  • 实木餐桌椅网站建设网站搭建网站制作
  • 成都微信端网站建批量爆破wordpress
  • 合肥网站推广小说网站编辑怎么做
  • 网站产品链接怎么做佛山品牌网站设计制作