PDF 提取表格到 Excel(含扫描版),断网批量可用 📅 2026/7/3 1:08:25 大家好这里是办公智能体广场。最近过分的研究了下PDF提取表格到Excel里面的技术无论是扫描版图片PDF 还是 文字可编辑版PDF 。今天就总结下方案与教程可以在断网环境将一批PDF里面的表格数据提取到Excel。一、需求分析我准备了几个PDF 其中一个PDF 有63页 然后在第61页处有一个表格如图所示然后还准备了另外一个扫描类型图片的PDF , 素材来自于公开网络。打开如图需要将上面的PDF 提取所有的表格得到xlsx我直接先放上面两个图的提取结果示意图二、实现方案一小白上手打开鲸闲办公智能体广场找到 “PDF 提取表格到Excel”如图注意可断网使用获取 宫中浩气 “老罗软件”。然后将所有的PDF 进行输入如图这里我需要说明一些设置参数的意义。识别页范围如果不填就是会识别PDF所有的页如果页比较多就会消耗时间较长尽量设置表格所在的页。合并跨页表格有的表格可能跨了PDF的页了 勾选这个就会智能去合并成一个表格到Excel的一个表单里面。二次加工设置参数这个就是已经OCR扫描完成后对Excel表格进行一些处理相当于清理脏数据等比如下面设置输出结果输出结果一个PDF对于一个Excel文件PDF的每一页都是一个表单Sheet没有表格的页不会提取出来如图所示三、实现方案二Python脚本用 Python 做 PDF / 图片批量抽表入 Excel对经常要整理发票、对账单、扫描报表、截图表格的人来说是个很实用的路子。优势可批量处理大量文件适合成百上千份材料对扫描件、截图、拍照表格比纯文本抽取更友好支持 PDF 和常见图片格式走同一套流程本地运行文件不出本机适合内部资料不修改原文件只在输出目录生成 Excel劣势需要一定 Python 基础首次要装依赖并下载模型复杂版式、无边框表格、模糊扫描件可能需要人工核对合并单元格、嵌套表头等结构导出后往往还要再整理大批量高清 PDF 耗时较长CPU/GPU 压力较大下面是一个简单的脚本示例批量读取目录下的 PDF / 图片识别表格并导出 Excel。import os from pathlib import Path from paddlex import create_pipeline # 总目录可放多个子文件夹 input_root rpath\to\your\files # 输出目录 output_root rpath\to\your\output Path(output_root).mkdir(parentsTrue, exist_okTrue) # 支持的输入格式 SUPPORTED_EXT {.pdf, .png, .jpg, .jpeg, .bmp, .webp, .tif, .tiff} # 创建 PaddleX 表格识别流水线首次运行会自动下载模型 pipeline create_pipeline(pipelinetable_recognition) def process_file(file_path: Path): ext file_path.suffix.lower() if ext not in SUPPORTED_EXT: print(f跳过不支持的文件{file_path}) return print(f识别中{file_path}) # predict 支持单张图片PDF 会按页识别 results pipeline.predict(str(file_path)) out_dir Path(output_root) / file_path.stem out_dir.mkdir(parentsTrue, exist_okTrue) for i, res in enumerate(results): # 每个识别结果保存为一个 Excel具体 API 以当前 PaddleX 版本为准 xlsx_path out_dir / ftable_{i 1}.xlsx res.save_to_excel(str(xlsx_path)) print(f - {xlsx_path}) def walk_files(root: Path): for path in root.rglob(*): if path.is_file(): process_file(path) if __name__ __main__: walk_files(Path(input_root)) print(所有文件处理完成)四、总结两份 PDF 都测过了63 页可编辑版表格在第 61 页和扫描版都能批量抽成 xlsx。不想折腾环境用智能体就行记得填页码范围、跨页表格按需勾选导出后不满意再用二次加工清理。材料多、要自定义规则再上 Python 脚本。两种都本地跑原文件不动。复杂版式别全信抽完抽检几份就够。日常发票、对账单、报表归档这套流程基本够用。