网做 网站有哪些,哪个网站的邮箱最好,网站的服务器怎么做,wordpress会员权限插件一般步骤#xff1a;确定网站--搭建关系--发送请求--接受响应--筛选数据--保存本地
1.拿到网站首先要查看我们要爬取的目录是否被允许
一般网站都会议/robots.txt目录#xff0c;告诉你哪些地址可爬#xff0c;哪些不可爬#xff0c;以安全客为例子 2. 首先测试在不登录的…一般步骤确定网站--搭建关系--发送请求--接受响应--筛选数据--保存本地
1.拿到网站首先要查看我们要爬取的目录是否被允许
一般网站都会议/robots.txt目录告诉你哪些地址可爬哪些不可爬以安全客为例子 2. 首先测试在不登录的情况下是否请求成功 可见该请求成功有很多网站在没有登录的情况下是请求失败的这时需要添加请求头信息
haders{},
2.1、首先 F12 到 Network 下F5刷新 复制 Requests Headers然后把它转换成 json 格式 2.1.1 Requests Headers 转 json 格式有很多种方法
1. 在线转 json 格式的网站:在线HTTP请求/响应头转JSON工具 - UU在线工具
2.如果电脑没网 在终端下载pip install feapder feapder create -j reqrequests.get(urlurl).text 是把所有的文本都提取出来会很乱所有我们需要筛选整理一下
可以发现我们需要的数据在 a 标签中
a target_blank href/post/id/291754苹果委托进行数据泄露研究以强调端到端加密的必要性/a
数据多了id位数也可能会增加也可以把id写死根据291754是个六位数所以 \d{6}只匹配 id是六位数的。
Titlere.findall(ra target_blank href/post/id/\d(.*?)/a,req)\d 注意代码格式
range() 取值 [ 最终代码
import re
import requests
#headers{}
urlhttps://www.anquanke.com/
reqrequests.get(urlurl).text
# print(req)
dict{}
for i in range(1,20):dict[Title]re.findall(ra target_blank href/post/id/\d(.*?)/a,req)[i]dict[url]re.findall(ra target_blank href(/post/id/\d),req)[i]print(dict) 优化后的代码
import re
import requests
urlhttps://www.anquanke.com/
reqrequests.get(urlurl)
print(req.status_code)
reqreq.text
dict{}
Titlere.findall(ra target_blank href(/post/id/\d)(.*?)/a,req)
# print(Title)
for title in Title:dict[Title]title[1]dict[url]urltitle[0]print(dict)