北京网站建设亿玛酷出名5,100个网页设计模板,百度推广关键词规划师,票务网站策划书不知道什么时候开始#xff0c;中国出现了南抖音、北快手的互文格局(东市买骏马#xff0c;西市买鞍鞯…)。刚才提到了#xff0c;之前比较喜欢刷抖音#xff0c;对于我这种佛系程序猿#xff0c;看网上这些整容妹子基本一个样。喜欢抖音主要是两个初衷#xff0c;学做菜…不知道什么时候开始中国出现了南抖音、北快手的互文格局(东市买骏马西市买鞍鞯…)。刚才提到了之前比较喜欢刷抖音对于我这种佛系程序猿看网上这些整容妹子基本一个样。喜欢抖音主要是两个初衷学做菜听音乐。朋友之前常说人家抖音看妹子看的乐呵呵你看人家做菜也能津津有味一个人在那儿傻笑…民以食为天我看到色香味俱全的菜做的那么好吃的乐呵乐呵还不行么。抖音捧红了很多人也让很多本不怎么让大家熟知的歌曲、BGM经过翻唱、混剪与视频搭配从而传播大街小巷。什么“若不是你突然闯进我心里…”亦或者“也许未来遥远在光年之外我愿守候未知里为你等待…”成了大家闲时在嘴边哼唱的调调。那么有没有想过将这些好听的剪辑批量下载下来呢Python 链接抖音python下载抖音内容的帖子网上有一些但都比较麻烦需要通过adb连接安卓手机后模拟操作。我这么懒这种事儿玩不来…那么该如何获取抖音内容呢网上搜了下大概有两种方式一个是浏览器插件快抖另外一个是我今天要说的抖音网页版。其实这两者差别不是很大都是先将抖音内容下载至服务器后通过开发简单网站配置域名后让大家访问。让我们来看看抖音网页版哎哟吼居然看到了昨天爬虫的“乔奶奶”…当然今天的重点不是视频而是下载它全站所有的音乐爬虫实现分析热歌榜内容大家先开看看这个抖音热歌榜歌曲每页20首歌曲一个55页。但细不细心大家都能发现很多歌曲存在重复的问题。所以等下爬虫的时候我们需要先准备一个music_list,用来识别这首歌曲是否已经下载过了…网页解析网页比较简单一个div中包裹了一个ulli*20,我们是不是该这样获取soup.find(div,{class:pull-left}).find(ul).findAll(a)如果你说是那么一定没有好好看我前天整理的文章通过哪吒豆瓣影评带你分析python爬虫快速入门:https://www.jianshu.com/p/ae38f7607902我在文章中专门提到了一个小技巧通过使用attr的属性进行快速解析那么最快速的获取方式是soup.findAll(a, attrs{onclick: True})我们只需要获取所有的a标签切这些标签中包含onclick这个属性即可。巧用eval我们解析到的内容通过attr[‘onclick’],可以得到他的属性open1(‘夜’,’http://p9-dy.byteimg.com/obj/61a20007a98954b0831d)如何能快速获取歌曲名字和url呢这里我们需要用到一个eval的小技巧index open1(夜,http://p9-dy.byteimg.com/obj/61a20007a98954b0831d,)index[5:](夜,http://p9-dy.byteimg.com/obj/61a20007a98954b0831d,)index_tuple eval(index[5:])print(index_tuple, type(index_tuple))(夜, http://p9-dy.byteimg.com/obj/61a20007a98954b0831d, ) index_tuple[0]夜index_tuple[1]http://p9-dy.byteimg.com/obj/61a20007a98954b0831dps:今天一个朋友说我写代码没注释我这是现身说法的告诉你如何能写出让别人压根看不懂的代码就是不写注释啊哈哈其实代码我都在文章中一点一点的讲解了所以没有写但秉承着害怕大佬们取关的心态我还是把注释加上吧…代码实现总体来说实现比较简单全部代码如下# -*- coding: utf-8 -*-# Author : 王翔# JianShu : 清风Python# Date : 2019/7/31 23:25# Software : PyCharm# version Python 3.7.3# File : DouYinMusic.pyimport osimport requestsfrom bs4 import BeautifulSoupimport threadingimport timeclass DouYinMusic:def __init__(self):self.music_list []self.path self.download_path()staticmethoddef download_path():获取代码执行目录并在目录下创建Music文件夹:return Music文件夹全路径base_dir os.path.dirname(os.path.abspath(__file__))_path os.path.join(base_dir, Music)if not os.path.exists(_path):os.mkdir(_path)return _pathdef get_request(self, url):封装requests.get方法如果为网页请求返回网页内容否则解析音乐地址并返回音乐二进制文件:param url: 请求url(分网页、音乐两类):return: 网页内容 音乐二进制文件r requests.get(url, timeout5)if url.endswith(html):return r.textelse:return r.contentdef analysis_html(self, html):根据获取的网页内容解析音乐名称、下载地址调用音乐下载方法:param html: 网页内容soup BeautifulSoup(html, lxml)# 根据关键字onclick查找每个下载地址for tag_a in soup.findAll(a, attrs{onclick: True}):# 下载格式(name,link,),通过eval将str转化为tuple类型link_list eval(tag_a[onclick][5:])music_name, music_link link_list[:2]# 因为存在部分重复音乐故设置判断下载过的音乐跳过if music_name in self.music_list:continueself.music_list.append(music_name)t threading.Thread(targetself.download_music, args(music_name, music_link))time.sleep(0.5)t.start()def download_music(self, music_name, music_link):解析音乐文件,完成音乐下载:param music_name: 音乐名称:param music_link: 下载地址_full_name os.path.join(self.path, music_name)with open(_full_name .mp3, wb) as f:f.write(self.get_request(music_link))print(抖音音乐{} 下载完成.format(music_name))def run(self):主方法用于批量生成urlfor page in range(1,55):url http://douyin.bm8.com.cn/t_{}.html.format(page)html self.get_request(url)self.analysis_html(html)if __name__ __main__:main DouYinMusic()main.run()来让我们看看效果吧网站是通过nginx负载均衡搭建的有一些链接已经失效了。最终下载了不重复的592首抖音音乐。同样的大家喜欢可以按照这种方法尝试下载一下网站的抖音视频。本文作者华为云 | 清风Python