东莞品牌设计公司,济南做网站优化,关键词优化软件,网站跟网页的区别是什么意思Python3 爬虫学习笔记第三章 —— 【Ajax 数据爬取】文章目录【3.1】Ajax 简介 【3.2】解析真实地址提取【3.1】Ajax 简介
Ajax — Asynchronous Javascript And XML#xff08;异步 JavaScript 和 XML#xff09;#xff0c;是指一种创建交互式网页应用的网页开发技术。可… Python3 爬虫学习笔记第三章 —— 【Ajax 数据爬取】 文章目录 【3.1】Ajax 简介 【3.2】解析真实地址提取【3.1】Ajax 简介
Ajax — Asynchronous Javascript And XML异步 JavaScript 和 XML是指一种创建交互式网页应用的网页开发技术。可以在不重新加载整个网页的情况下对网页的某部分进行更新。 【3.2】解析真实地址提取
以豆瓣电影动作片排行榜为例地址为https://movie.douban.com/typerank?type_name%E5%8A%A8%E4%BD%9Ctype5interval_id100:90action 首先使用常用方法来爬取电影信息
import requestsurl https://movie.douban.com/typerank?type_name%E5%8A%A8%E4%BD%9Ctype5interval_id100:90actionheaders {User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0}
response requests.get(url, headersheaders)print(response.text)得到的数据里面我们并没有找到电影相关信息 再次分析页面发现鼠标下滑的时候页面不刷新URL 也不变但是会加载新数据那么此处就运用了 Ajax可以使用抓包工具或者浏览器控制台来捕获 Ajax 接口获取其真实地址XHR 是 Ajax 特殊的请求类型返回的是 json 数据利用浏览器控制台过滤 XHR随便点击一条请求可以看到其 Request URL也就是真实地址点击 Preview 就可以看到返回的 json 数据。 同样我们可以使用 Fiddler 抓包软件抓取 Ajax 接口 分析其真实地址为https://movie.douban.com/j/chart/top_list?type5interval_id100%3A90actionstart20limit20 多下滑几次只有 start 参数发生了改变观察变化可知每一次页面将多出20个电影信息start 为从第几个电影开始由此就不难进行数据抓取了
代码
import requestsurl https://movie.douban.com/j/chart/top_list?type5interval_id100%3A90actionpage int(input(请输入想要第几页的数据))
data {start: (page - 1)*20,limit: 20,
}
headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36,
}
response requests.get(url, paramsdata, headersheaders)
print(response.text)运行代码即可得到电影排行信息