统一手机网站,和龙市建设局网站,惠阳区规划建设局网站,WordPress zend 乱码如何获取一个页面内所有URL链接#xff1f;在Python中可以使用urllib对网页进行爬取#xff0c;然后利用Beautiful Soup对爬取的页面进行解析#xff0c;提取出所有的URL。什么是Beautiful Soup#xff1f;
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索…如何获取一个页面内所有URL链接在Python中可以使用urllib对网页进行爬取然后利用Beautiful Soup对爬取的页面进行解析提取出所有的URL。什么是Beautiful Soup
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱通过解析文档为用户提供需要抓取的数据因为简单所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码输出文档转换为utf-8编码。你不需要考虑编码方式除非文档没有指定一个编码方式这时Beautiful Soup就不能自动识别编码方式了。
BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器如果我们不安装它则 Python 会使用 Python默认的解析器lxml 解析器更加强大速度更快。
全部代码
from bs4 import BeautifulSoup
import time,re,urllib2
ttime.time()
websiteurls{}
def scanpage(url):
websiteurlurl
ttime.time()
n0
htmlurllib2.urlopen(websiteurl).read()
soupBeautifulSoup(html)
pageurls[]
Upageurls{}
pageurlssoup.find_all(a,hrefTrue)
for links in pageurls:
if websiteurl in links.get(href) and links.get(href) not in Upageurls and links.get(href) not in websiteurls:
Upageurls[links.get(href)]0
for links in Upageurls.keys():
try:
urllib2.urlopen(links).getcode()
except:
print connect failed
else:
t2time.time()
Upageurls[links]urllib2.urlopen(links).getcode()
print n,
print links,
print Upageurls[links]
t1time.time()
print t1-t2
n1
print (total is repr(n) links)
print time.time()-t
scanpage(http://news.163.com/)
利用BeautifulSoup还可以有针对性的获取网页链接Python爬虫获取网页上的链接通过beautifulsoup的findall()方法对匹配的标签进行查找。
最后注意光理论是不够的。这里顺便送大家一套2020最新python入门到高级项目实战视频教程可以去小编的Python交流.裙 七衣衣九七七巴而五数字的谐音转换下可以找到了还可以跟老司机交流讨教
本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。