正则表达式与bs4选择器筛选论文数准确率之比较

Posted on 2024年3月7日2024年3月7日 by hackdl

一、正则爬取论文网首页论文标题的示例

import requests
import re
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (W服务器托管网indows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/83.0.4103.116 Safari/537.36'}


def get_html(url):
    try:
        res = requests.get(url, headers=headers)
        res.raise_for_status()
        res.encoding = 'gbk'
        return res.text
    except:
        print('response error!')


def paper_title(page):
    my_items = re.findall(r'(.*服务器托管网?)', page)
    print('paper count of main page:' + str(len(my_items)))       # 用正则的findall得出首页所有论文的超链接数量
    for item in my_items:
        print(item)

二、主函数使用bs4的CSS选择器select()一样算出了论文数：

if __name__ == '__main__':
    url = 'https://www.lunwendata.com/'
    html = get_html(url)
    soup = BeautifulSoup(html, 'html.parser')
    size = len(soup.select('a[target="_blank"]'))  # 用CSS选择器得出首页所有论文超链接数
    print('paper count of main page:' + str(size))
    paper_title(html)

三、输出结果得出用正则方法筛选准确率更高：

可以看到，用正则的方法筛选出的数量比bs4的select选择器筛选出的少了20个，证明正则的方法筛选数量的准确率更高。

服务器托管，北京服务器托管，服务器租用 http://www.fwqtg.net

相关推荐: 关于LayUI弹出层表单提交两次问题

在弹出层点击注册按钮表单会提交两次但是在单独页面点击是正常的经过排查发现，问题在于主页面和注册页服务器托管网面重复引用了layui.js服务器托管网，页面要被渲染两次服务器托管，北京服务器托管，服务器租用 http://www.fwqtg.net相关…

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用

服务器托管

咨询：董先生

电话13051898268 QQ/微信93663045！

上一篇: DLLNotFoundException:xxx tolua… 错误打印
下一篇: C++红黑树