襄阳市建设工程质量监督站网站,网站开发工具比较,微网站界面设计基础,企信网官网登录入口北京一、正则表达式
正则表达式#xff08;Regular Expression 简称regex或regexp#xff09;是一种强大的文本处理工具#xff0c;它可以帮助实现快速的检索、替换或验证字符串中的特定模式。 1、match match()方法会尝试从字符串开始的位置到字符结束的位置匹配正则表达式Regular Expression 简称regex或regexp是一种强大的文本处理工具它可以帮助实现快速的检索、替换或验证字符串中的特定模式。 1、match match()方法会尝试从字符串开始的位置到字符结束的位置匹配正则表达式如果匹配返回匹配的结果不匹配返回None。
import re
content Hello 123456 welcome to tuling
print(len(content))
result re.match(Hello\s\d\d\d\s\d{3}\w{9},content)
print(result)
print(result.group())
pritn(result.span())# group()返回本正则匹配的字符串
# start()返回匹配开始的位置
# span()返回一个元组包含匹配开始结束的位置
1匹配数字
import re
content Hello 123456 welcome to tuling
print(len(content))
result re.match(Hello\s\d\d\d\s\d{3}\w{9},content)
print(result)
print(result.group())
pritn(result.span())# group()返回本正则匹配的字符串
# start()返回匹配开始的位置
# span()返回一个元组包含匹配开始结束的位置
2通用匹配
import recontent Hello 123 456 welcome to tuling
result re.match(^Hello\s(\d)\swelcome,content)
print(result)
print(result.span())
3贪婪和非贪婪
python默认贪婪模式匹配的更多
在“*”“”“”“{m,n}”后面加上使贪婪变成非贪婪
import re
concent https://feier.com/yyds
result1 re.match(http.*?com/(.*?),content)
result2 re.match(http.*?com/(.*),content)
print(result1:,result1.group()) #输出result1: https://feier.com/
print(result2:,result2.group()) #输出result2: https://feier.com/yyds
4修饰符 2、search
匹配时会扫描整个字符串然后返回第一个匹配成功的结果如果搜索完还没有找到就返回None。 二、PyQuery PyQuery 是一个用于解析HTML和XML文档的Python库它提供了与jQuery类似的语法使得从文档中提取信息变得简单快捷。PyQuery 是基于lxml的 etree 库构建的因此它速度很快并且可以处理复杂的XML/HTML文档。
使用PyQuery具体步骤如下
安装PyQuery
首先你需要安装 PyQuery。通常可以通过pip来安装使用国内阿里镜像源
如果以后安装不想输入 -i Simple Index
可以配置pip.ini文件具体步骤如下https://mp.csdn.net/mp_blog/creation/editor/135030143
pip install pyquery -i http://mirrors.aliyun.com/pypi/simple/
使用PyQuery解析HTML
一旦安装了 PyQuery你就可以开始使用它来解析HTML或XML了。下面是一个简单的例子
在这个例子中pq(html) 创建了一个 PyQuery 对象然后我们使用CSS选择器 p 来查找所有的p标签。
from pyquery import PyQuery as pq# 定义一个HTML字符串
html
divp classhelloHello/pp classworldWorld/p
/div
# 创建PyQuery对象
d pq(html)# 查找所有的p标签
paragraphs d(p)
for p in paragraphs.items():print(p.text())print(p)#输出Hello
p classhelloHello/pWorld
p classworldWorld/p使用PyQuery从网络获取内容
PyQuery 也可以直接从网址或者文件加载内容例如
from pyquery import PyQuery as pq# 从网址获取内容
d pq(urlhttp://example.com/)# 从文件获取内容
# d pq(filenamepath/to/your/file.html)# 使用CSS选择器
h1 d(h1).text()
print(h1)
# 输出 Example Domain
使用PyQuery进行更高级的选择和操作
PyQuery 支持多种CSS选择器和各种操作例如
from pyquery import PyQuery as pqhtml
ulli classitem-0item 1/lili classitem-1 activea hreflink2.htmlitem 2/a/lili classitem-0 idunique-itema hreflink3.htmlitem 3/a/lili classitem-1 activea hreflink4.htmlitem 4/a/lili classitem-0item 5/li
/ul
d pq(html)# 查找第一个li元素
first_li d(li:first)
print(first_li.text())# 查找ID为unique-item的元素
unique_item d(#unique-item)
print(unique_item.text())# 找到所有 class 包含 active 的 li 元素
active_items d(li.active)
for item in active_items.items():print(item.text())# 查找 href 为 link3.html 的 a 元素的父元素
parent_li d(a[hreflink3.html]).parent()
print(parent_li.attr(class))
输出
item 1
item 3
item 2
item 4
item-0PyQuery 的强大功能使其成为处理复杂HTML/XML文档时的一个良好选择尤其对于那些已经熟悉jQuery语法的开发者。
三、Xpath
XPathXML Path Language是一种在XML和HTML文档中查找信息的语言。它使用路径表达式来选取文档中的节点或节点集。XPath 由 W3C 作为一个标准发布被广泛应用于各种XML解析和处理技术中比如在XSLTExtensible Stylesheet Language Transformations中选取数据或者在Python的lxml库中解析HTML文档。
插件下载https://chorme.zzzmh.cn/index
XPath 语法允许你指定文档的结构以便精确选取出你想要的节点比如元素、属性、文本等。一些基本的XPath选择器包括
nodename: 选取此节点的所有子节点。/: 从根节点选取。//: 从匹配选择的当前节点选择文档中的节点不考虑它们的位置。.: 选取当前节点。..: 选取当前节点的父节点。: 选取属性。
例子
下面是一些XPath表达式的例子及其描述
/bookstore: 选取根元素bookstore。只有bookstore元素才能被选取。bookstore/book: 选取属于bookstore子元素的所有book元素。//book: 选取所有book子元素而不管它们在文档中的位置。bookstore//book: 选取属于bookstore元素的后代的所有book元素而不管它们位于bookstore下的什么位置。//lang: 选取名为lang的所有属性。
在Python中可以使用lxml库来执行XPath查询。下面是如何使用lxml和XPath来解析HTML文档的一个例子
from lxml import etree# 假设我们有以下HTML文档
html_content
htmlbodydiv idcontentul idlistliItem 1/liliItem 2/liliItem 3/li/uldiv classfooterFooter information/div/div/body
/html
# 解析HTML内容
tree etree.HTML(html_content)# 使用XPath选取所有的li元素
items tree.xpath(//li)
for item in items:print(item.text) # 输出: Item 1, Item 2, Item 3# 使用XPath选取id为list的ul元素下的所有子节点
list_items tree.xpath(//ul[idlist]/li)
for item in list_items:print(item.text) # 输出: Item 1, Item 2, Item 3# 使用XPath获取class为footer的div的文本
footer tree.xpath(//div[classfooter]/text())[0]
print(footer) # 输出: Footer information在上述例子中我们使用lxml.etree.HTML函数将HTML字符串解析为一个元素树然后利用xpath方法来执行XPath查询。这是在Python中进行XML和HTML文档处理时的一种常见做法。
四、Beautiful Soup
Beautiful Soup是一个用于从HTML和XML文件中提取数据的Python库。它创建了一个解析树这便于开发者能够轻松地搜索和修改解析树。Beautiful Soup自动将输入文档转换为Unicode编码并输出有效的HTML/XML。它适用于多种解析器如Python标准库中的html.parser、lxml和html5lib。
安装 Beautiful Soup
首先你需要安装Beautiful Soup库通常可以通过pip来安装
pip install beautifulsoup4使用 Beautiful Soup 解析HTML
安装完成后你就可以开始使用Beautiful Soup来解析HTML了。下面是一些基本用法的例子
from bs4 import BeautifulSoup# 定义一个HTML字符串
html_doc
html
headtitleThe Dormouses story/title
/head
bodyp classtitlebThe Dormouses story/b/pp classstoryOnce upon a time there were three little sisters; and their names werea hrefhttp://example.com/elsie classsister idlink1Elsie/a,a hrefhttp://example.com/lacie classsister idlink2Lacie/a anda hrefhttp://example.com/tillie classsister idlink3Tillie/a;and they lived at the bottom of a well./pp classstory.../p
/body
/html
# 创建一个Beautiful Soup对象
soup BeautifulSoup(html_doc, html.parser)# 获取title标签的内容
title_tag soup.title
print(title_tag) # 输出: titleThe Dormouses story/title
print(title_tag.string) # 输出: The Dormouses story# 查找文档中所有的a标签
a_tags soup.find_all(a)
for tag in a_tags:# 输出每个a标签的href属性print(tag.get(href))# 查找文档中所有类属性为sister的a标签
sisters soup.find_all(a, class_sister)
for sister in sisters:# 输出sister的文本内容print(sister.string)在这个例子中我们使用了BeautifulSoup(html_doc, html.parser)来创建一个Beautiful Soup对象。然后我们使用了.title来获取标题标签和.find_all()方法来获取所有的a标签。
使用不同的解析器
Beautiful Soup支持不同的解析器这里是如何选择解析器的例子
html.parser: 使用Python内置的HTML解析器。lxml: 使用lxml的HTML解析器。lxml-xml: 使用lxml的XML解析器。html5lib: 使用html5lib解析器它会像浏览器一样解析HTML。
# 使用lxml解析器来创建Beautiful Soup对象
soup BeautifulSoup(html_doc, lxml)# 其他用法与html.parser相同请注意使用lxml或html5lib可能需要你先安装这些库可以使用pip安装。
pip install lxml
pip install html5libBeautiful Soup库在爬虫和数据挖掘中非常有用因为它可以轻松处理网页中的复杂元素和嵌套。