文档的顶层节点比如的父节点是 ​​BeautifulSoup​​ 对象:

html_tag = soup.html
type(html_tag.parent)
#

三、beautifulsoup的搜索文档树

1、find_all

find_all( name , attrs , recursive , string , **kwargs )

​find_all()​​ 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件:

soup.find_all("title")
# [The Dormouse's story]

soup.find_all("a")
# [Elsie,
# Lacie,
# Tillie]

soup.find_all(id="link2")
# [Lacie]

import re
# 模糊查询 包含sisters的就可以
soup.find(string=re.compile("sisters"))
# 'Once upon a time there were three little sisters; and their names weren'

有几个方法很相似,还有几个方法是新的,参数中的 ​​string​​ 和 ​​id​​ 是什么含义? 为什么 ​​find_all("p", "title")​​ 返回的是CSS Class为”title”的

标签? 我们来仔细看一下 ​​find_all()​​ 的参数.

1.1 name 参数

​name​​ 参数可以查找所有名字为 ​​name​​ 的tag,字符串对象会被自动忽略掉.

简单的用法如下:

soup.find_all("title")
# [The Dormouse's story]

搜索 ​​name​​ 参数的值可以使任一类型的 过滤器 ,字符串,正则表达式,列表,方法或是 ​​True​​ .

传字符串

最简单的过滤器是字符串.在搜索方法中传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的标签

soup.find_all('b')
# [The Dormouse's story]

传正则表达式

如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 ​​match()​​ 来匹配内容.下面例子中找出所有以b开头的标签,这表示

标签都应该被找到

import re
for tag in soup.find_all(re.compile("^b")):
print(tag.name)
# body
# b

传列表

如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有标签和标签

soup.find_all(["a", "b"])
# [The Dormouse's story,
# Elsie,
# Lacie,
# Tillie]

1.2 keyword 参数

如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为 ​​id​​ 的参数,Beautiful Soup会搜索每个tag的”id”属性.

soup.find_all(id='link2')
# [Lacie]

import re
# 超链接包含elsie标签
print(soup.find_all(href=re.compile("elsie")))
# [Elsie]
# 以The作为开头的字符串
print(soup.find_all(text=re.compile("^The")))
# ["The Dormouse's story", "The Dormouse's story"]
# class选择器包含st的节点
print(soup.find_all(class_=re.compile("st")))

搜索指定名字的属性时可以使用的参数值包括 字符串 , 正则表达式 , 列表, True .

下面的例子在文档树中查找所有包含 ​​id​​ 属性的tag,无论 ​​id​​ 的值是什么:

soup.find_all(id=True)
# [Elsie,
# Lacie,
# Tillie]

使用多个指定名字的参数可以同时过滤tag的多个属性:

soup.find_all(href=re.compile("elsie"), id='link1')
# [three]

在这里我们想用 class 过滤,不过 class 是 python 的关键词,这怎么办?加个下划线就可以

print(soup.find_all("a", class_="sister"))

'''
[Elsie,
Lacie,
Tillie
]

'''

通过 ​​find_all()​​ 方法的 ​​attrs​​ 参数定义一个字典参数来搜索包含特殊属性的tag:

data_soup.find_all(attrs={"data-foo": "value"})
# [
foo!
]

注意:如何查看条件id和class同时存在时的写法

print(soup.find_all('b', class_="story", id="x"))
print(soup.find_all('b', attrs={"class":"story", "id":"x"}))

1.3 text 参数

通过 ​​text​​ 参数可以搜搜文档中的字符串内容.与 ​​name​​ 参数的可选值一样, ​​text​​ 参数接受 字符串 , 正则表达式 , 列表, True

import re

print(soup.find_all(text="Elsie"))
# ['Elsie']

print(soup.find_all(text=["Tillie", "Elsie", "Lacie"]))
# ['Elsie', 'Lacie', 'Tillie']

# 只要包含Dormouse就可以
print(soup.find_all(text=re.compile("Dormouse")))
# ["The Dormouse's story", "The Dormouse's story"]

1.4 limit 参数

​find_all()​​ 方法返回全部的搜索结构,如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 ​​limit​​ 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 ​​limit​​ 的限制时,就停止搜索返回结果.

print(soup.find_all("a",limit=2))
print(soup.find_all("a")[0:2])

'''
[Elsie,
Lacie]
'''

2、find()

find( name , attrs , recursive , string , **kwargs )

​find_all()​​ 方法将返回文档中符合条件的所有tag,尽管有时候我们只想得到一个结果.比如文档中只有一个

标签,那么使用 ​​find_all()​​ 方法来查找标签就不太合适, 使用 ​​find_all​​ 方法并设置 ​​limit=1​​ 参数不如直接使用 ​​find()​​ 方法.下面两行代码是等价的:

soup.find_all('title', limit=1)
# [The Dormouse's story]

soup.find('title')
# The Dormouse's story

唯一的区别是 ​​find_all()​​ 方法的返回结果是值包含一个元素的列表,而 ​​find()​​ 方法直接返回结果.

​find_all()​​ 方法没有找到目标是返回空列表, ​​find()​​ 方法找不到目标时,返回 ​​None​​ .

print(soup.find("nosuchtag"))
# None

​soup.head.title​​ 是 tag的名字 方法的简写.这个简写的原理就是多次调用当前tag的 ​​find()​​ 方法:

soup.head.title
# The Dormouse's story

soup.find("head").find("title")
# The Dormouse's story

四、beautifulsoup的css选择器

我们在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 soup.select(),返回类型是 list

1、通过标签名查找

print(soup.select("title"))  #[The Dormouse's story]
print(soup.select("b")) #[The Dormouse's story]

2、通过类名查找

print(soup.select(".sister")) 

'''
[Elsie,
Lacie,
Tillie]

'''

3、id名查找

print(soup.select("#link1"))
# [Elsie]

4、组合查找

组合查找即和写 class 文件时,标签名与类名、id名进行的组合原理是一样的,例如查找 p 标签中,id 等于 link1的内容,二者需要用空格分开

print(soup.select("p #link2"))

#[Lacie]

直接子标签查找

print(soup.select("p > #link2"))
# [Lacie]

查找既有class也有id选择器的标签

a_string = soup.select(".story#test")

查找有多个class选择器的标签

a_string = soup.select(".story.test")

查找有多个class选择器和一个id选择器的标签

a_string = soup.select(".story.test#book")

5、属性查找

查找时还可以加入属性元素,属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格,否则会无法匹配到。

print(soup.select("a[href='http://example.com/tillie']"))
#[Tillie]

select 方法返回的结果都是列表形式,可以遍历形式输出,然后用 get_text() 方法来获取它的内容:

for title in soup.select('a'):
print (title.get_text())

'''
Elsie
Lacie
Tillie
'''