Python解析库（一）：使用XPath

最新推荐文章于 2024-03-18 17:37:21 发布

步步星愿

最新推荐文章于 2024-03-18 17:37:21 发布

阅读量1.1k

点赞数

分类专栏： Network Crawler

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41940950/article/details/81269802

版权

Network Crawler 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

XPath最初是用来搜寻XML文档的，但是同样可以用来解析HTML文档

1、XPah的常用规则：

表达式描述

nodename 选取此节点的所有子节点

/ 从当前节点选取直接子节点

// 从当前节点选取子孙节点

. 选取当前节点

. . 选取当前节点的父节点

@ 选取属性

例如：

//title[@lang='eng']

这是一个XPath规则，他代表选取所有名称为title，同时属性为lang的值为ang的节点。

2.关于lxml库中的etree模块：

先用etree模块申明一段HTML文本，etree模块可自动补全HTML文本，

然后调用tostring（）方法输出修正后的HTML文本，结果为bytes型

利用decode（）方法转化为str类型

3.所有节点：

用//开头选取所有符合要求的节点，声明文本后，调用xpath（）方法，例如：xpath（//节点名称）

返回的为列表，其中的每一个元素都是一个Element对象，可选择中括号加索引的形式取出其中的一个对象

4.子节点：

通过//和/来获取当前节点的子节点或者子孙节点；

/用来获取直接子节点，例如result=html.xpath（//li/a）

//用来获取子孙节点，例如result=html.xpath（//ul//a）

5.父节点：

用. .来查找父节点

比如：

from lxml import etree

html = etree.parse('./text.html' , etree.HTMLParser())

result = html.xpath('//a[@href="link4.html"]/. ./@class']

print(result)

当然，. .可以用parent::来替换

6.属性匹配：

比如要选取class为item-0的li节点，可以这样实现：

from lxml import etree

html=etree.parse('./text.html',etree.HTMLParser())

result = html.xpath('//li[@class='items-0']')

print(result)

7.文本获取：

可以利用XPath中的text（）方法获取其中节点中的文本

选取相应的节点获取文本

from lxml import etree

html = etree.parse('./text.html' , etree.HTMLParser())

result = html.xpath('//li[@class="item-0"]/a/text()')

print(result)

利用//来实现选取结果

from lxml import etree

html = etree.parse('./text.html' , etree.HTMLParser())

result = html.xpath('//li[@class="item-0"]/a/text()')

print(result)

8.按序选择：

在li节点的括号中传入数字1即可，这里的序号是以1开头，不是0

例如：result = html.xpath('//li[1]/a/text()')

在括号中传入last（）可知，获取的便是最后一个li节点

例如：result = html.xpath('//li[last()]/a/text()')

选取位置小于3的li节点，利用position（）函数实现

例如：result = html.xpath('//li[position()<3]/a/text()')

获取倒数第三个li节点：用last()实现

例如：result = html.xpath('//li[last()-2]/a/text()')

9.节点轴的选取：

节点的轴方法，可获取子元素，兄弟元素，父元素，祖先元素等

result = html.xpath('//li[1]/ancestor::*') #ancestor轴，用于获取所有祖先元素

result = html.xpath('//li[1]/ancestor::div')#加限定条件div

result = html.xpath('//li[1]/child::a[href="link1.html"]')#获取相应属性的子节点

result = html.xpath('//li[1]/descendant::span')#descendant获取所有的子孙节点，span是限定条件

result = html.xpath('//li[1]/following::*[2]')#following轴，获取当前节点之后的所有节点，但是这里加了索引限制

result = html.xpath('//li[1]/following-sibling::*')#follow-sibling轴，可以获取当前节点之后的所有同级节点

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python解析库（一）：使用XPath

XPath最初是用来搜寻XML文档的，但是同样可以用来解析HTML文档 1、XPah的常用规则：表达式描述nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 ...
复制链接

扫一扫

专栏目录

步步星愿 CSDN认证博客专家 CSDN认证企业博客

码龄6年

128: 原创

3万+: 周排名

184万+: 总排名

61万+: 访问

: 等级

5445: 积分

250: 粉丝

368: 获赞

49: 评论

1889: 收藏

私信

关注

热门文章

分类专栏

动手深度学习 12篇
数字图像处理 6篇
计算机视觉 2篇
SQL server 2篇
特征工程 2篇
Python 46篇
Markdown 1篇
Git 6篇
HTML 1篇
Network Crawler 3篇
Mongodb 5篇
机器学习之旅 22篇
Numpy 9篇
C语言 1篇
深度学习 8篇
Pandas 4篇
pytorch 5篇

最新评论

三、数字图像的卷积计算python实现
Dengyuanm: 为什么我只有原图输出呢？
Pytorch学习教程（一）----pytorch是什么？
q-类星体: 我试用了autodl，inscode和炼丹侠的服务器产品，其中炼丹侠的服务器算是相当不错的，炼丹侠的算力市场上架了大批量的A100，和其他几个产品相比这个平台的服务器质量是比较高的，而且价格也不贵，和autodl价格相仿，当前处于内测阶段，免费试用，之后还能薅羊毛，还没服务器的铁子们赶快入手了
二、图像二值化方法（python）---阈值全局固定、大津法
妞éг妖dё精致﹌: # RGB转换成灰度图像的一个常用公式是： # Gray = R * 0.299 + G * 0.587 + B * 0.114 """一幅图像III由很多个像素点组成的，而每个像素点又包含RGB（red，green，blue）三个通道值，范围是0 - 255，这样我们就能在计算机上看见彩色图片 b=img[:,:,0].copy() g=img[:,:,1].copy() r=img[:,:,2].copy()""" # 对应数组和rgb的对应不清楚 # 原代码对应的R的数组是image[i , j ,1],但是查阅知本应该为image[i, j, 2] # 我将1，2同时跑了一下图片test3，发现按照资料的对应image[i,j,2]来跑，噪点更少。 # grayimage[i, j] = 0.144 * image[i, j, 0] + 0.587 * image[i, j, 1] + 0.299 * image[i, j, 1] grayimage[i, j] = 0.144*image[i, j, 0]+0.587*image[i, j, 1]+0.299*image[i, j, 2] 或者说博主有其他考量么，想请教一下，本人第一次接触rgb图像的处理
在离线服务器上创建深度学习虚拟环境
步步星愿: 错误已更改
在离线服务器上创建深度学习虚拟环境
buaayunjc: 笑死环境environments拼错了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。