当前位置: 首页 > news >正文

设计素材网站排名jsp 网站开发例子

设计素材网站排名,jsp 网站开发例子,海南招聘网,wordpress文本目录去年我们做过一个叫「学长问答」的社群活动#xff0c;里面沉淀了大量有价值的互动信息#xff0c;后来因为各种原因终止了。今天和涂腾聊起来#xff0c;觉得这些信息就这么沉寂了太浪费。所以就试着用python爬取了知识星球的内容。这个过程又学习了一些新的知识#xff0…去年我们做过一个叫「学长问答」的社群活动里面沉淀了大量有价值的互动信息后来因为各种原因终止了。今天和涂腾聊起来觉得这些信息就这么沉寂了太浪费。所以就试着用python爬取了知识星球的内容。这个过程又学习了一些新的知识已经在代码中以批注的形式写出。但还有一个没有解决的问题就是一个提问底下可以跟好几个评论我暂时还不能在输出结果里将「一个提问n个评论」以整体的形式给出而只能把评论的信息以一个字典的形式展现这算是没有爬取的太彻底。将来再看看有没有新的解决方法。import requestsimport jsonimport urllibimport csv#头信息。网站只提供扫码登陆的方式没有账号密码。我以为应该比较麻烦但在header信息里找到了Authorization信息之后直接可以保持登陆状态了。# 令一个标志是直接在浏览器里访问内页网址的话浏览器的报错是“{succeeded:false,code:401,info:,resp_data:{}}”这个很像原来node.js的数据中心没有登陆的报错而数据中心的模拟登陆也是通过在header中添加Authorization来实现的。headers {User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36,Referer: https://wx.zsxq.com/dweb/,Authorization: 51EC09CA-6BCC-8847-4419-FA04A2FC9E00}#打开并写入csv文件f open(/Users/damo/Desktop/wendatuan.csv, w)writer csv.writer(f)writer.writerow([created_time,ask_name,ask_content,comment])#定义爬取信息的函数主体def get_info(url):res requests.get(url,headers headers)json_data json.loads(res.text)datas json_data[resp_data][topics]for data in datas:if talk in data.keys(): # 判断json中是否包含 talk 这个键ask_name data[talk][owner][name]ask_content data[talk][text]else:ask_name ask_content if show_comments in data.keys():comment data[show_comments]else:comment created_time data[create_time]writer.writerow([created_time,ask_name,ask_content,comment])# 截止到前面的代码已经可以实现一个页面的爬取。下面的代码内容主要任务是实现“如何自动实现多页面爬取”# 多页面的爬取是通过Network中Query String Parameters来实现的这里提供两个参数观察之后发现count是固定值而end_time和网址最后的时间是一样的。# 只不过在网页中用到了 urlencode的转化这部分是新学习的知识。# 在这个爬虫案例中网页构造的核心逻辑是“上一组最后一个数据的创建时间刚好是下一组数据访问网址中的一个参数”以此来构造循环抓取的网址end_time datas[19][create_time]url_encode urllib.parse.quote(end_time) # urlencode将网址中的文本转化next_url https://api.zsxq.com/v1.10/groups/518282858584/topics?count20end_timeurl_encode # 通过观察构造下一组数据的网址get_info(next_url) # 这里比较巧直接在函数内部再次调用函数从而实现不断的自循环if __name__ __main__:url https://api.zsxq.com/v1.10/groups/518282858584/topics?count20get_info(url)
http://wiki.neutronadmin.com/news/285209/

相关文章:

  • 网站网页框架构架图怎么做网站整套模板
  • 网站开发时app打开很慢用户中心网站设计
  • 网站seo外链怎么做技术网站源码wordpress
  • 给菠菜网站做支付免费网站平台
  • 固定ip做网站和域名区别js网页设计案例
  • idea可以做网站吗一般做个网站需要多少钱
  • 徐州集团网站建设游戏秒玩网站
  • 环保公司网站模板金华建站方案
  • 有网站模板怎么做网站宝塔安装wordpress教程
  • 网站建设与维护考题东营建设信息网官网首页
  • 建设网站空间制作自己的网站代码吗
  • 官方网站平台有哪些餐饮管理系统源码
  • 广西网站建设哪家有如何进行关键词分析
  • 网站建设多选题怎么租服务器做网站
  • 公司网站建设工作通知企业名录黄页大全
  • 外贸网站推广教程wordpress整站数据
  • 产品推广网站排名wordpress给后台添加样式
  • 网站搭建制作自己做网站需要哪些流程
  • 惠民县建设网站网络营销的特点不包括什么
  • 深圳网站设计实力乐云seowordpress 接口
  • 不用域名也可以做网站建设银行怎么从网站上改手机号码
  • 做电商需要准备多少钱嘉兴做网站seo
  • 外网专门做钙片的网站南通影楼网站建设
  • 多个页面网站的制作方法网站后台管理界面html
  • 网站开发可选的方案有北京网站怎么建设
  • 潍坊网站做的好的公司php网站开发报价
  • 注册网站能赚钱吗24小时免费看的视频哔哩哔哩
  • 织梦源码模板下载商城网站模板 整站带栏目高端大气上档次含数据网站开发 安全
  • 有关房地产开发建设的网站西渡网站建设
  • 网站建设优化外包现在网站做多宽的