parse中可以使用css及xpath对html和xml进行解析,其中主要用到的方法如上图所示,并支持使用 XPath 和 CSS S服务器托管elector 对内容进行提取和修改,同时它还融合了正则表达式提取的功能。方法使用代码示例如下,关于xpath相关方法的使用可以参照:Python爬虫学习(二):xpath解析html-CSDN博客
from parsel import Selector
def parseDemo():
html = '''
- first item
- second item
- third item
- fourth item
服务器托管 -
fifth item
'''
# 创建一个selector对象
res = Selector(text=html, encoding='utf-8')
# 通过css方法获取class为item-0的元素
cssRes = res.css('.item-0')
print(cssRes)
# 返回的类型为
print(type(cssRes))
xpathRes = res.xpath('//li/a')
print(xpathRes)
# 返回的类型同为
print(type(xpathRes))
# 基于上述返回类型可以使用for循环进行相关逻辑操作
for cssres in cssRes:
# getall方法是获取所有
print(cssres.xpath('.//text()').getall())
# get方法是获取第一个
result1 = res.css('.item-0 a::attr(href)').get()
print(result1)
result2 = res.xpath('//li[contains(@class, "item-0") and contains(@class, "active")]/a/@href').get()
print(result2)
if __name__ == "__main__":
parseDemo()
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
相关推荐: 界面组件DevExpress WinForms v23.2 – 进一步增强HTML & CSS支持
DevExpress WinForms拥有180+组件和UI库,能为Windows Forms平台创建具有影响力的业务解决方案。DevExpress WinForms能完美构建流畅、美观且易于使用的应用程序,无论是Office风格的界面,还是分析处理大批量的业…