lxml与pyquery解析html的方法

本篇内容主要讲解“lxml与pyquery解析html的方法”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“lxml与pyquery解析html的方法”吧!

创新互联制作网站网页找三站合一网站制作公司,专注于网页设计,做网站、成都做网站,网站设计,企业网站搭建,网站开发,建网站业务,680元做网站,已为上1000+服务,创新互联网站建设将一如既往的为我们的客户提供最优质的网站建设、网络营销推广服务!

lxml

首先来了解一下lxml，很多常用的解析html的库都用到了lxml这个库，例如BeautifulSoup、pyquery。

下面我们介绍一下lxml关于html解析的3个Element。

_Element

_Element获取

from lxml import etree

text = '''

    
         first
         second
         third
     
 
'''

# lxml.etree._Element
element = etree.HTML(text)

_Element常用方法

# 通过css选择器获取节点
cssselect(expr)

# 通过标签或者xpath语法获取第一个匹配
find(path)

# 通过标签或者xpath语法获取所有匹配
findall(path)

# 获取属性值
get(key)

# 获取所有属性
items()

# 获取所有属性名称
keys()

# 获取所有属性值
values()

# 获取子节点
getchildren()

# 获取父节点
getparent()

# 获取相邻的下一个节点
getnext()

# 获取相邻的上一个节点
getprevious()

# 迭代节点
iter(tag)

# 通过xpath表达式获取节点
xpath(path)

_Element示例

from lxml import etree

text = '''

    
         first
         second
         third
     
 
'''

element = etree.HTML(text)

# css选择器，获取class为item-0的li节点
lis = element.cssselect("li.item-0")

for li in lis:
    # 获取class属性
    print(li.get("class"))
    # 获取属性名称和值，元组列表
    print(li.items())
    # 获取节点所有的属性名称
    print(li.keys())
    # 获取所有属性值
    print(li.values())

print("--------------")

ass = element.cssselect("li a")
for a in ass:
    # 获取文本节点
    print(a.text)

print("--------------")

# 获取第一个li节点
li = element.find("li")

# 获取所有li节点
lis = element.find("li")

# 获取所有的a节点
lias = element.iter("a")
for lia in lias:
    print(lia.get("href"))

textStr = element.itertext("a")
for ts in textStr:
    print(ts)

xpath我们后面单独介绍。

_ElementTree

_ElementTree获取

from io import StringIO
from lxml import etree

text = '''

    
         first
         second
         third
     
 
'''

parser = etree.HTMLParser()
# lxml.etree._ElementTree
elementTree = etree.parse(StringIO(text), parser)
# 可以直接从文件读取
# elementTree = etree.parse(r'F:\tmp\etree.html',parser)

_ElementTree常用方法

find(path)
findall(path)
iter(tag)
xpath(path)

_ElementTree方法和 _Element的同名方法使用基本一样。

有很多不同的是_ElementTree的find和findall方法只接受xpath表达式。

_ElementTree示例

from io import StringIO
from lxml import etree

text = '''

    
         first
         second
         third
     
 
'''

parser = etree.HTMLParser()
elementTree = etree.parse(StringIO(text), parser)

lis = elementTree.iter("li")
for li in lis:
    print(type(li))

print("---------")

firstLi = elementTree.find("//li")
print(type(firstLi))
print(firstLi.get("class"))

print("---------")

ass = elementTree.findall("//li/a")
for a in ass:
    print(a.text)

HtmlElement

HtmlElement获取

import lxml.html

text = '''

    
         first
         second
         third
     
 
'''

# lxml.html.HtmlElement
htmlElement = lxml.html.fromstring(text)

HtmlElement继承了etree.ElementBase和HtmlMixin，etree.ElementBase继承了_Element。

因为HtmlElement继承了_Element，所以_Element中介绍的方法，HtmlElement都可以使用。 HtmlElement还可以使用HtmlMixin中的方法。

HtmlMixin常用方法

# 通过类名获取节点
find_class(class_name)
# 通过id获取节点
get_element_by_id(id)
# 获取文本节点
text_content()
# 通过css选择器获取节点
cssselect(expr)

xpath

xpath功能非常强大，并且_Element、_ElementTree、HtmlElement都可以使用xpath表达式，所以最后介绍一下xpath。

表达式	描述
/	从根节点开始，绝对路径
//	从当前节点选取子孙节点，相对路径，不关心位置
.	选取当前节点
..	选取当前节点的父节点
@	选取属性
*	通配符，选择所有元素节点与元素名
@*	选取所有属性
[@attrib]	选取具有给定属性的所有元素
[@attrib='value']	选取给定属性具有给定值的所有元素
[tag]	选取所有具有指定元素的直接子节点
[tag='text']	选取所有具有指定元素并且文本内容是text节点

expression	表达式	描述
ancestor	xpath('./ancestor:: *')	选取当前节点的所有先辈节点
ancestor-or-self	('./ancestor-or-self:: *')	选取当前节点的所有先辈以及节点本身
attribute	xpath('./attribute:: *')	选取当前节点的所有属性
child	xpath('./child:: *')	返回当前节点的所有子节点
descendant	xpath('./descendant:: *')	返回当前节点的所有后代节点（子节点、孙节点）
following	xpath('./following:: *')	选取文档中当前节点结束标签后的所有节点
following-sibing	xpath('./following-sibing:: *')	选取当前节点之后的兄弟节点
parent	xpath('./parent:: *')	选取当前节点的父节点
preceding	xpath('./preceding:: *')	选取文档中当前节点开始标签前的所有节点
preceding-sibling	xpath('./preceding-sibling:: *')	选取当前节点之前的兄弟节点
self	xpath('./self:: *')	选取当前节点

lxml与pyquery解析html的方法

很多时候我们可以通过浏览器获取xpath表达式：

lxml与pyquery解析html的方法

示例

from lxml.html.clean import Cleaner
from lxml import etree

text = '''

    
         first
         second
         third
     
 
'''

# 去除css、script
cleaner = Cleaner(style=True, scripts=True, page_structure=False, safe_attrs_only=False)
print(cleaner.clean_html(text))

# _Element
element = etree.HTML(text)

# 文本节点，特殊字符转义
print(element.xpath('//text()'))

# 文本节点，不转义
print(element.xpath('string()'))

# find、findall只能使用相对路径，以.//开头
print(element.findall('.//a[@rel]'))
print(element.find('.//a[@rel]'))

# 获取包含rel属性的a节点
print(element.xpath('//a[@rel]'))

# 获取ul元素下的第一个li节点，注意是列表，因为ul可能有多个
print(element.xpath("//ul/li[1]"))

# 获取ul元素下rel属性为li2的li节点
print(element.xpath("//ul/li[@rel='li2']"))

# 获取ul元素下的倒数第2个节点
print(element.xpath("//ul/li[last()-1]"))

# 获取ul元素下的前2个li节点
print(element.xpath("//ul/li[position()<3]"))

# 获取li元素下的所有a节点
for a in element.xpath("//li/a"):
    print(a.text)
    print(a.get("href"))

# 获取父节点，列表，因为可能匹配多个a
print(element.xpath('//a[@href="link2.html"]/parent::*'))

# 获取的是文本节点对象列表
print(element.xpath('//li[@class="item-1"]/a/text()'))

print("---------------")
# 获取a的href属性
print(element.xpath('//li/a/@href'))
# 获取所有li子孙节点的href属性
print(element.xpath('//li//@href'))

xpath示例

from lxml import etree

text = '''

解忧杂货店 [日] 东野圭吾 / 李盈春 / 南海出版公司 / 2014-5 / 39.50元

NEWS

网站建设资讯

lxml与pyquery解析html的方法

lxml

_Element

_Element获取

_Element常用方法

_Element示例

_ElementTree

_ElementTree获取

_ElementTree常用方法

_ElementTree示例

HtmlElement

HtmlElement获取

HtmlMixin常用方法

xpath

示例

xpath示例

pyquery

构造PyQuery

选择器

查找与过滤节点

其他资讯