当前位置: 首页> 财经> 创投人物 > 网站搭建原理_网页视频解析下载_网络公司取什么名字好_网站设计与建设

网站搭建原理_网页视频解析下载_网络公司取什么名字好_网站设计与建设

时间:2025/7/12 19:39:59来源:https://blog.csdn.net/weixin_45947938/article/details/144188367 浏览次数:0次
网站搭建原理_网页视频解析下载_网络公司取什么名字好_网站设计与建设

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

pip install pypdf2

python 代码

import PyPDF2# 使用open的‘rb’方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") # 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

关键字:网站搭建原理_网页视频解析下载_网络公司取什么名字好_网站设计与建设

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: