Python读取PDF文字去掉页眉页脚 - 服务器托管|北京服务器租用|机房托管租用|IDC托管租用|机房机柜带宽租用-价格及费用咨询

使用PyMuPDF（即fit服务器托管z）读取PDF中的text时，会把页码也读进来。所以，有时候就需要让程序忽略页眉和页脚，或者直接删除页眉和页脚。

根据fitz的文档：Page – PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域，于是大致代码如下：

doc = fitz.open(fname)
page = doc[0]
rect = 服务器托管page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)

服务器托管，北京服务器托管，服务器租用 http://www.fwqtg.net

相关推荐: 【EndNote20】Endnote20和word的一些操作

文章目录前言一、如何导入参考文献到EndNote20 1.1.在谷歌学术或知网上下载文献 1.2.将下载好的文件导入EndNote20(可批量导入) 1.3.书籍如何导入二、Word中加入参考文献前言做毕设时学习了EndNote20的一些使用方法，并…

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用