ChartArena：跨语言、场景与格式的图表解析基准测试

📅 2026/6/26 20:27:49

来源HuggingFace Daily Papers社区热门论文原文https://arxiv.org/abs/2606.01348英文题目ChartArena Benchmarking Chart Parsing across Languages Scenarios and FormatsChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族包括数字图表与流程图等结构并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程并设计了格式无关的评估协议将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示前沿闭源模型如Gemini 3.1 Pro领先开源系统正快速追赶文档解析模型在数字图表上表现尚可但在图表结构上明显不足专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。论文速读这篇论文先处理的是一个很具体的工程问题ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它不是单纯往 benchmark 上追分而是在把一个系统里的薄弱环节拆开。如果把全文压成一条线就是先定义问题再给方法最后看系统后果。这篇论文到底在说什么ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族包括数字图表与流程图等结构并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程并设计了格式无关的评估协议将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示前沿闭源模型如Gemini 3.1 Pro领先开源系统正快速追赶文档解析模型在数字图表上表现尚可但在图表结构上明显不足专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。它覆盖了八种图表家族包括数字图表与流程图等结构并针对数字渲染、打印照片和手绘照片三种场景进行评估。这个判断很重要因为它说明作者并不是在“换个说法讲老问题”而是在改问题边界。技术启示这类工作最值得关注的地方不是分数本身而是它在提醒我们真正能进生产的方案通常都得过三关能解释、能复现、能落地。如果一个方法只在离线评测里好看但说不清代价和约束那它通常还没走到系统层。行业启示如果你在做开发、产品或者企业 AI 项目这类工作更重要的是帮你判断该继续堆模型还是该去改数据、训练、检索、评估和服务链路。很多时候真正的增益不来自“再大一点”而是来自把任务、数据和执行链路重新拆一遍。结尾这篇文章更适合当成一个信号看方向对了后面的工程化空间才会真正打开。如果你觉得多模型切换 Q、工具订阅的流程太繁琐,也可以试试我们的「胜算云」平台,一站式搞定AI创作与开发相关需求。官网:https://www.shengsuanyun.com/?fromCH_5VQOF8WB

新闻详情

相关阅读

SARR：针对对称物体姿态估计的连续唯一旋转表示方法

PotatoNV终极指南：5分钟掌握华为设备Bootloader解锁完整方案

sguard_limit：解决腾讯游戏卡顿的终极方案，3分钟实现性能翻倍

GEO优化技术架构与传统搜索引擎优化的本质区别

校园二手交易平台系统

阴阳师自动化脚本终极指南：智能游戏管家解放你的双手

IDEA终极摸鱼阅读神器：Thief-Book插件完整使用指南

低度多项式框架：从BBP相变到社区检测的计算复杂性下界

QMCDecode：解锁QQ音乐加密音频的macOS专业解密工具

计算机毕业设计之基于Java的流浪动物收养系统设计与开发

技术线上面试代码写完就以为通关？留学生利用黑盒测试自证风控「蒸汽教育分享」

暗黑2存档编辑器终极指南：5分钟快速掌握d2s-editor完整使用教程

3个步骤让小爱音箱变身AI语音助手：MiGPT深度体验指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用