萍乡的电子商务网站建设公司,濮阳做网站的价格,app安装下载,怀柔做网站的吗XPath#xff0c;我们可以先将 HTML文件 转换成 XML文档#xff0c;然后用 XPath 查找 HTML 节点或元素。
什么是XML
XML 指可扩展标记语言#xff08;EXtensible Markup Language#xff09;XML 是一种标记语言#xff0c;很类似 HTMLXML 的设计宗旨是传输数据#xf…XPath我们可以先将 HTML文件 转换成 XML文档然后用 XPath 查找 HTML 节点或元素。
什么是XML
XML 指可扩展标记语言EXtensible Markup LanguageXML 是一种标记语言很类似 HTMLXML 的设计宗旨是传输数据而非显示数据XML 的标签需要我们自行定义。XML 被设计为具有自我描述性。XML 是 W3C 的推荐标准
W3School官方文档http://www.w3school.com.cn/xml/index.asp
XML 和 HTML 的区别
数据格式描述设计目标XMLExtensible Markup Language 可扩展标记语言被设计为传输和存储数据其焦点是数据的内容。HTMLHyperText Markup Language 超文本标记语言显示数据以及如何更好显示数据。HTML DOMDocument Object Model for HTML (文档对象模型)通过 HTML DOM可以访问所有的 HTML 元素连同它们所包含的文本和属性。可以对其中的内容进行修改和删除同时也可以创建新的元素。
XML文档示例
?xml version1.0 encodingutf-8?bookstore book categorycooking title langenEveryday Italian/title authorGiada De Laurentiis/author year2005/year price30.00/price /book book categorychildren title langenHarry Potter/title authorJ K. Rowling/author year2005/year price29.99/price /book book categoryweb title langenXQuery Kick Start/title authorJames McGovern/author authorPer Bothner/author authorKurt Cagle/author authorJames Linn/author authorVaidyanathan Nagarajan/author year2003/year price49.99/price /book book categoryweb coverpaperback title langenLearning XML/title authorErik T. Ray/author year2003/year price39.95/price /book /bookstoreHTML DOM 模型示例
HTML DOM 定义了访问和操作 HTML 文档的标准方法以树结构方式表达 HTML 文档。 XML的节点关系
1. 父Parent
每个元素以及属性都有一个父。
下面是一个简单的XML例子中book 元素是 title、author、year 以及 price 元素的父
?xml version1.0 encodingutf-8?booktitleHarry Potter/titleauthorJ K. Rowling/authoryear2005/yearprice29.99/price
/book2. 子Children
元素节点可有零个、一个或多个子。
在下面的例子中title、author、year 以及 price 元素都是 book 元素的子
?xml version1.0 encodingutf-8?booktitleHarry Potter/titleauthorJ K. Rowling/authoryear2005/yearprice29.99/price
/book3. 同胞Sibling
拥有相同的父的节点
在下面的例子中title、author、year 以及 price 元素都是同胞
?xml version1.0 encodingutf-8?booktitleHarry Potter/titleauthorJ K. Rowling/authoryear2005/yearprice29.99/price
/book4. 先辈Ancestor
某节点的父、父的父等等。
在下面的例子中title 元素的先辈是 book 元素和 bookstore 元素
?xml version1.0 encodingutf-8?bookstorebooktitleHarry Potter/titleauthorJ K. Rowling/authoryear2005/yearprice29.99/price
/book/bookstore5. 后代Descendant
某个节点的子子的子等等。
在下面的例子中bookstore 的后代是 book、title、author、year 以及 price 元素
?xml version1.0 encodingutf-8?bookstorebooktitleHarry Potter/titleauthorJ K. Rowling/authoryear2005/yearprice29.99/price
/book/bookstore什么是XPath XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言可用来在 XML 文档中对元素和属性进行遍历。 W3School官方文档http://www.w3school.com.cn/xpath/index.asp XPath 开发工具
开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)Chrome插件 XPath HelperFirefox插件 XPath Checker
选取节点
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
下面列出了最常用的路径表达式
表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。选取属性。
在下面的表格中我们已列出了一些路径表达式以及表达式的结果 路径表达式结果bookstore选取 bookstore 元素的所有子节点。/bookstore选取根元素 bookstore。注释假如路径起始于正斜杠( / )则此路径始终代表到某元素的绝对路径bookstore/book选取属于 bookstore 的子元素的所有 book 元素。//book选取所有 book 子元素而不管它们在文档中的位置。bookstore//book选择属于 bookstore 元素的后代的所有 book 元素而不管它们位于 bookstore 之下的什么位置。//lang选取名为 lang 的所有属性。
谓语Predicates
谓语用来查找某个特定的节点或者包含某个指定的值的节点被嵌在方括号中。
在下面的表格中我们列出了带有谓语的一些路径表达式以及表达式的结果
路径表达式结果/bookstore/book[1]选取属于 bookstore 子元素的第一个 book 元素。/bookstore/book[last()]选取属于 bookstore 子元素的最后一个 book 元素。/bookstore/book[last()-1]选取属于 bookstore 子元素的倒数第二个 book 元素。/bookstore/book[position()3]选取最前面的两个属于 bookstore 元素的子元素的 book 元素。//title[lang]选取所有拥有名为 lang 的属性的 title 元素。//title[lang’eng’]选取所有 title 元素且这些元素拥有值为 eng 的 lang 属性。/bookstore/book[price35.00]选取 bookstore 元素的所有 book 元素且其中的 price 元素的值须大于 35.00。/bookstore/book[price35.00]/title选取 bookstore 元素中的 book 元素的所有 title 元素且其中的 price 元素的值须大于 35.00。
选取未知节点
XPath 通配符可用来选取未知的 XML 元素。
通配符描述*匹配任何元素节点。*匹配任何属性节点。node()匹配任何类型的节点。
在下面的表格中我们列出了一些路径表达式以及这些表达式的结果
路径表达式结果/bookstore/*选取 bookstore 元素的所有子元素。//*选取文档中的所有元素。//title[*]选取所有带有属性的 title 元素。
选取若干路径
通过在路径表达式中使用“|”运算符您可以选取若干个路径。
实例
在下面的表格中我们列出了一些路径表达式以及这些表达式的结果
路径表达式结果//book/title | //book/price选取 book 元素的所有 title 和 price 元素。//title | //price选取文档中的所有 title 和 price 元素。/bookstore/book/title | //price选取属于 bookstore 元素的 book 元素的所有 title 元素以及文档中所有的 price 元素。
XPath的运算符
下面列出了可用在 XPath 表达式中的运算符 这些就是XPath的语法内容在运用到Python抓取时要先转换为xml。
lxml库 lxml 是 一个HTML/XML的解析器主要的功能是如何解析和提取 HTML/XML 数据。 lxml和正则一样也是用 C 实现的是一款高性能的 Python HTML/XML 解析器我们可以利用之前学习的XPath语法来快速的定位特定元素以及节点信息。 lxml python 官方文档http://lxml.de/index.html 需要安装C语言库可使用 pip 安装pip install lxml 或通过wheel方式安装 初步使用
我们利用它来解析 HTML 代码简单示例
# lxml_test.py# 使用 lxml 的 etree 库
from lxml import etree text
divulli classitem-0a hreflink1.htmlfirst item/a/lili classitem-1a hreflink2.htmlsecond item/a/lili classitem-inactivea hreflink3.htmlthird item/a/lili classitem-1a hreflink4.htmlfourth item/a/lili classitem-0a hreflink5.htmlfifth item/a # 注意此处缺少一个 /li 闭合标签/ul/div
#利用etree.HTML将字符串解析为HTML文档
html etree.HTML(text) # 按字符串序列化HTML文档
result etree.tostring(html) print(result)输出结果
htmlbody
divulli classitem-0a hreflink1.htmlfirst item/a/lili classitem-1a hreflink2.htmlsecond item/a/lili classitem-inactivea hreflink3.htmlthird item/a/lili classitem-1a hreflink4.htmlfourth item/a/lili classitem-0a hreflink5.htmlfifth item/a/li
/ul/div
/body/htmllxml 可以自动修正 html 代码例子里不仅补全了 li 标签还添加了 bodyhtml 标签。
文件读取
除了直接读取字符串lxml还支持从文件里读取内容。我们新建一个hello.html文件
!-- hello.html --divulli classitem-0a hreflink1.htmlfirst item/a/lili classitem-1a hreflink2.htmlsecond item/a/lili classitem-inactivea hreflink3.htmlspan classboldthird item/span/a/lili classitem-1a hreflink4.htmlfourth item/a/lili classitem-0a hreflink5.htmlfifth item/a/li/ul/div再利用 etree.parse() 方法来读取文件。
# lxml_parse.pyfrom lxml import etree# 读取外部文件 hello.html
html etree.parse(./hello.html)
result etree.tostring(html, pretty_printTrue)print(result)输出结果与之前相同
htmlbody
divulli classitem-0a hreflink1.htmlfirst item/a/lili classitem-1a hreflink2.htmlsecond item/a/lili classitem-inactivea hreflink3.htmlthird item/a/lili classitem-1a hreflink4.htmlfourth item/a/lili classitem-0a hreflink5.htmlfifth item/a/li
/ul/div
/body/htmlXPath实例测试
1. 获取所有的 li 标签
# xpath_li.pyfrom lxml import etreehtml etree.parse(hello.html)
print type(html) # 显示etree.parse() 返回类型result html.xpath(//li)print result # 打印li标签的元素集合
print len(result)
print type(result)
print type(result[0])输出结果
type lxml.etree._ElementTree
[Element li at 0x1014e0e18, Element li at 0x1014e0ef0, Element li at 0x1014e0f38, Element li at 0x1014e0f80, Element li at 0x1014e0fc8]
5
type list
type lxml.etree._Element2. 继续获取li 标签的所有 class属性
# xpath_li.pyfrom lxml import etreehtml etree.parse(hello.html)
result html.xpath(//li/class)print result运行结果
[item-0, item-1, item-inactive, item-1, item-0]3. 继续获取li标签下hre 为 link1.html 的 a 标签
# xpath_li.pyfrom lxml import etreehtml etree.parse(hello.html)
result html.xpath(//li/a[hreflink1.html])print result运行结果
[Element a at 0x10ffaae18]4. 获取li 标签下的所有 span 标签
# xpath_li.pyfrom lxml import etreehtml etree.parse(hello.html)#result html.xpath(//li/span)
#注意这么写是不对的
#因为 / 是用来获取子元素的而 span 并不是 li 的子元素所以要用双斜杠result html.xpath(//li//span)print result运行结果
[Element span at 0x10d698e18]5. 获取 li 标签下的a标签里的所有 class
# xpath_li.pyfrom lxml import etreehtml etree.parse(hello.html)
result html.xpath(//li/a//class)print result运行结果
[blod]6. 获取最后一个 li 的 a 的 href
# xpath_li.pyfrom lxml import etreehtml etree.parse(hello.html)result html.xpath(//li[last()]/a/href)
# 谓语 [last()] 可以找到最后一个元素print result运行结果
[link5.html]7. 获取倒数第二个元素的内容
# xpath_li.pyfrom lxml import etreehtml etree.parse(hello.html)
result html.xpath(//li[last()-1]/a)# text 方法可以获取元素内容
print result[0].text运行结果
fourth item8. 获取 class 值为 bold 的标签名
# xpath_li.pyfrom lxml import etreehtml etree.parse(hello.html)result html.xpath(//*[classbold])# tag方法可以获取标签名
print result[0].tag运行结果
span