当前位置：首页 > news >正文

网站建设入什么会计科目上海建设工程检测网

news 2025/12/27 13:17:37

网站建设入什么会计科目,上海建设工程检测网,做网站设计的,广州个人网站建设前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇#xff08;理论篇#xff09;#xff0c;今天给大家分享一下代码实现#xff08;实战篇#xff09;#xff0c;接着上篇往下继续深入。一、代码实现1、修改Scrapy项目中的items.py文件。我们需要获取的数…前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇理论篇今天给大家分享一下代码实现实战篇接着上篇往下继续深入。一、代码实现1、修改Scrapy项目中的items.py文件。我们需要获取的数据是朋友圈和发布日期因此在这里定义好日期和动态两个属性如下图所示。2、修改实现爬虫逻辑的主文件moment.py首先要导入模块尤其是要主要将items.py中的WeixinMomentItem类导入进来这点要特别小心别被遗漏了。之后修改start_requests方法具体的代码实现如下图。3、修改parse方法对导航数据包进行解析代码实现稍微复杂一些如下图所示。l需要注意的是从网页中获取的response是bytes类型需要显示的转为str类型才可以进行解析否则会报错。l在POST请求的限定下需要构造参数需要特别注意的是参数中的年、月和索引都需要是字符串类型的否则服务器会返回400状态码表示请求参数错误导致程序运行的时候报错。l在请求参数还需要加入请求头尤其是Referer反盗链务必要加上否则在重定向的时候找不到网页入口导致报错。l上述的代码构造方式并不是唯一的写法也可以是其他的。4、定义parse_moment函数来抽取朋友圈数据返回的数据以JSON加载的用JSON去提取数据具体的代码实现如下图所示。5、在setting.py文件中将ITEM_PIPELINES取消注释表示数据通过该管道进行处理。6、之后就可以在命令行中进行程序运行了在命令行中输入scrapy crawl moment -o moment.json之后可以得到朋友圈的数据在控制台上输出的信息如下图所示。7、尔后我们得到一个moment.json文件里面存储的是我们朋友圈数据如下图所示。8、嗯你确实没有看错里边得到的数据确实让人看不懂但是这个并不是乱码而是编码的问题。解决这个问题的方式是将原来的moment.json文件删除之后重新在命令行中输入下面的命令scrapy crawl moment -o moment.json -s FEED_EXPORT_ENCODINGutf-8此时可以看到编码问题已经解决了如下图所示。下一篇文章小编带大家将抓取到的朋友圈数据进行可视化展示敬请关注~~

查看全文

http://wiki.neutronadmin.com/news/31946/