当前位置: 首页> 游戏> 单机 > 北京定制公交app_南宁网站seo排名优化_广告平台网站有哪些_企业网站多少钱一年

北京定制公交app_南宁网站seo排名优化_广告平台网站有哪些_企业网站多少钱一年

时间:2025/8/23 10:54:16来源:https://blog.csdn.net/m0_68654129/article/details/145012800 浏览次数:0次
北京定制公交app_南宁网站seo排名优化_广告平台网站有哪些_企业网站多少钱一年

1.获取pdf单页,及所有内容

import fitz  # PyMuPDF# 打开 PDF 文件
pdf_path = r"/data2/ljsang/0106/0725_Self-organization-of-plasticity-and-specialization-in-a-primi_2022_Cell-Syst.pdf【唯一淘宝店铺:艾米学社】.pdf"
doc = fitz.open(pdf_path)# 获取第一页
page = doc.load_page(0)# 提取页面中的文本信息(以字典形式返回)
text_dict = page.get_text("dict")# 遍历文本块
for block in text_dict["blocks"]:# 检查是否为文本块(type == 0)if block["type"] == 0:  # 0 表示文本块# 遍历行for line in block["lines"]:# 遍历字符片段for span in line["spans"]:text = span["text"]       # 文本内容font_size = span["size"]  # 字号大小font_name = span["font"]  # 字体名称print(f"文本: {text}, 字号: {font_size}, 字体: {font_name}")else:print(f"跳过非文本块,类型: {block['type']}")
import fitz  # PyMuPDF# 定义 PDF 文件路径
pdf_path = r"/data2/66.pdf"# 打开 PDF 文件
with fitz.open(pdf_path) as pdf:# 获取 PDF 的总页数total_pages = len(pdf)print(f"PDF 文件总页数: {total_pages}")# 遍历每一页for page_num in range(total_pages):print(f"正在处理的页码为 {page_num + 1}...")# 获取当前页page = pdf.load_page(page_num)# 提取文本内容text = page.get_text("text")if text:print("提取的文本内容:")print(text)else:print("该页无文本内容。")

2.获取每篇pdf内容,以及DOI号

import fitz  # PyMuPDF
import re
import os# 正则表达式匹配 DOI 号
doi_pattern = re.compile(r'https?://(?:dx\.)?doi\.org/10\.\d{4}/[^/\s]+')# 检查 PDF 是否包含 DOI 号
has_doi = False
doi_numbers = []# PDF 文件路径
pdf_path = r"/data2/ljsang/0106/0725_Self-organization-of-plasticity-and-specialization-in-a-primi_2022_Cell-Syst.pdfπÇÉσö»Σ╕ǵ╖ÿσ«¥σ║ùΘô║∩╝ÜΦë╛τ▒│σ¡ªτñ╛πÇæ.pdf"# 使用 fitz 打开 PDF 文件
pdf_document = fitz.open(pdf_path)# 遍历每一页
for page_num in range(len(pdf_document)):page = pdf_document.load_page(page_num)  # 加载页面text = page.get_text()  # 提取文本内容# 检查文本中是否包含 DOI 号if text:dois = doi_pattern.findall(text)if dois:has_doi = Truedoi_numbers.extend(dois)# 输出结果
print("DOI 号列表:", doi_numbers)
print("是否包含 DOI 号:", has_doi)
关键字:北京定制公交app_南宁网站seo排名优化_广告平台网站有哪些_企业网站多少钱一年

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: