xpath解析:最常用并且最便捷高效的一种解析方式,通用性高


xpath解析原理

  1. 实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。
  2. 调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。

环境的安装

pip install lxml

如何实例化一个etree对象:

  1. 导入
    from lxml import etree
  2. 将文件加载到etree中:
etree.parse(filePath) # 本地文件加载,filePath为文件路径
etree.HTML('page_text') # 从互联网获取的源码数据加载进去
  1. 使用
xxx.xpath('')

xpath表达式

/html/xxx    # 根据层级关系定位, 第一个'/'表示从根节点开始定位
/html//xxx   # '//'表示多个层级
//xxx        # '//'表示找到所有xxx标签

//xxx[@class="aaa"]   # 表示定位class为aaa的xxx标签(属性定位)
//xxx/bbb[2]   # 表示定位xxx标签下的第三个ppp标签(索引定位,从1开始)

//xxx/text()[0]   # 获取xxx标签中的文本内容
//xxx//text()     # 获取标签中所有文本内容

//xxx/aaa/@src    # 获取aaa标签中src属性值
最后修改:2021 年 05 月 02 日 01 : 27 PM
如果觉得我的文章对你有用,请随意赞赏