Qt阅读器-OCR识别 📅 2026/7/1 1:35:22 1. 功能概述OCR识别功能用于在阅读器中补充扫描件或图片型页面的文本能力。系统优先使用文档原生文本层当页面包含大面积图片、整页图片或图片型扫描区域时自动触发 AI OCR将图片内容识别为可检索、可定位的文本并回填到文档内容模型中。该功能主要服务于阅读、检索、合同审查和文档问答等场景。它的目标不是替代原生文本提取而是在文本层缺失时尽可能恢复页面内容保证后续分析链路可用。2. 功能目标识别 PDF/OFD 中的扫描页、纯图片页或大面积图片页。将 OCR 结果转换为页面文本和定位锚点。根据页面中的图片区域判断是否需要识别避免仅靠字符数量或字符质量推断扫描页。支持按页自动处理并在界面中展示进度、状态和错误提示。保证 OCR 结果可回溯到原页面位置便于高亮和跳转。3. 适用范围当前版本适用于PDF 文档。OFD 文档。需要补全文本的扫描件、截图页或图片型页面。4. 处理流程4.1 文本与图片区域分析系统先读取文档原生文本层同时分析页面中是否存在图片内容以及图片在页面中的大致位置和占用范围。页面图片分析主要关注页面是否包含图片。图片是否占据页面主要区域。图片是否接近整页扫描图。图片是否只是小图标、印章、装饰图等辅助元素。4.2 页面图片判断当满足以下条件之一时页面会被判定为可能需要 OCR页面存在大面积图片对象。页面图片区域覆盖率较高。页面存在接近整页的图片对象。页面没有可提取文本但检测到有效图片区域。当前自动判断不再以字符数量、替换字符比例或可打印字符比例作为主要触发条件。小图标、印章、装饰图片等小面积图片不应单独触发 OCR。4.3 触发 OCR当 OCR 策略允许时系统会将页面渲染为图片调用 AI OCR 服务识别页面内容。4.4 结果解析OCR 服务返回结构化识别结果系统解析其中的文本块、坐标和置信度并过滤无效块。4.5 回填文档识别结果会被合并回文档模型生成页面文本。生成 OCR 来源的文本锚点。将识别框映射回页面坐标。5. 核心功能5.1 自动识别扫描页系统根据页面图片对象和图片区域覆盖情况自动判断页面是否需要 OCR减少对正常文本页和仅含小图片页面的无谓调用。5.2 AI OCR 识别对需要识别的页面系统将页面图片发送给 OCR 识别服务获取结构化识别结果。5.3 识别结果结构OCR 结果以页面级结果返回主要包含页面索引。渲染倍率。文本块列表。每个文本块包含文本内容。图片坐标框。置信度。5.4 文本锚点定位OCR 文本会被转换成页面内锚点便于后续高亮命中内容。跳转到原文位置。与审查、问答、检索功能联动。5.5 进度与状态提示识别过程中界面会显示正在发送识别请求。正在识别某页。识别完成。识别失败原因。6. OCR 策略系统支持三种策略Never不触发 OCR。AutoWhenNeeded页面质量不足时自动触发 OCR。Always对页面统一触发 OCR。默认推荐AutoWhenNeeded既能覆盖扫描件又能避免对正常文本页重复处理。7. 识别结果内容7.1 页面内容页面内容包含页面索引。文本内容。文本锚点列表。页面图片区域信息。是否需要 OCR。质量原因说明。页面图片信息包含是否存在图片。图片所在页面区域。图片占页面的大致比例。7.2 OCR 页面结果OCR 页面结果主要包含页面位置。识别出的文本块。文本块在页面图片中的位置。识别可信度。7.3 OCR 文本块文本块包含文本内容。文本所在图片区域。识别可信度。