作为 OpenCompass 司南大模型评测体系三大核心模块之一的评测工具链体系 CompassKit 近日迎来重大更新!
本次更新主要集中在 OpenCompass 大语言模型评测工具,主要带来了以下几大新功能,欢迎大家使用!
- 基于 pip 的一键安装,支持多推理后端版本
- 支持评测集自动下载,无需复杂配置即可快速评测
- 兼容 OpenAI 标准接口,支持 vLLM 和 LMDeploy 推理后端
- 提供进阶评测能力(主观评测、长文本评测、代码解释器评测)
OpenCompass 大语言模型评测工具开源链接:
https://github.com/open-compass/opencompass
官方网站:https://opencompass.org.cn/home
用户文档:https://opencompass.readthedocs.io/en/latest/
接下来就带大家一起来了解下新功能的使用方法!
一键式丝滑安装
OpenCompass 正式支持基于 PyPI 包安装的方式进行评测,告别繁琐的配置流程,现在仅需在命令行中输入两行代码即可开始你的第一次大模型评测之旅。
# pip 安装
pip install opencompass
# 进行示例任务评测
opencompass --models hf_internlm2_5_1_8b_chat --datasets demo_gsm8k_chat_gen
此外,针对不同用户的需求,我们提供了多样化的安装选项。无论你是需要处理复杂数据集的研究人员,还是希望使用推理后端加速评测的专业人士,或是希望利用外部 API 进行模型评测的开发者,OpenCompass 都能满足您的需求。
OpenCompass 现已支持 vLLM 和 LMDeploy 不同推理后端的安装方式。
# 安装基于LMDeploy推理后端的环境pip install "opencompass[lmdeploy]"# 安装基于vLLM推理后端的环境pip install "opencompass[vllm]"
评测数据集自动下载
OpenCompass 联合 ModelScope 为国内用户提供多样化的数据下载途径。用户可以选择从 OpenCompass 存储服务器或 ModelScope 平台自动下载数据集,现已支持 MMLU、CMMLU、GSM8k、BBH 等主流评测数据集,未来还将持续扩充数据集种类与数量。一键下载,轻松获取,让您的评测之路更加顺畅!
OpenAI 标准接口评测
OpenCompass 现已支持 OpenAI 标准接口评测。您可以通过 LMDeploy、vLLM 或其他方式部署标准 OpenAI 接口模型服务,并在 OpenCompass 中轻松启动评测。这种方式实现了模型服务与评测服务的解耦,极大地提高了模型部署与评测的灵活性与效率。通过标准化接口,模型与平台之间的交互变得更加流畅,有效减少了因兼容性问题带来的困扰。
使用推理后端加速评测
未来进一步提高评测效率,OpenCompass 集成了 LMDeploy 和 vLLM 作为推理后端,用户可以通过 -a lmdeploy 或者 -a vllm 来使用推理后端大幅提升评测效率。
未来 OpenCompass 也将会进一步集成更多社区流行的推理后端,如 SGLang/Ollama 等。
更多使用细节可以参考:
https://opencompass.readthedocs.io/zh-cn/latest/advanced_guides/accelerator_intro.html
进阶评测
除了标准的客观评测,OpenCompass 也引入了多个进阶能力维度,如主观评测、代码解释器评测以及大海捞针评测等。
主观评测
主观评测作为模型评测的重要部分,往往反映了模型对人类 instruction 的理解后的遵循与表达能力,与用户的主观体验息息相关。目前 OpenCompass 已支持多个社区里主要流行的主观测试集,包括 Alignbench、MT-Bench、 MT-Bench-101、AlpacaEval、 WildBench、Arenahard、FoFo 等,从中英文、多轮对话等方面测试模型的主观表达能力。用户只需要在配置文件中指定好待测模型即可一键启动主观评测。
更多主观评测介绍可参考:
https://opencompass.readthedocs.io/zh-cn/latest/advanced_guides/subjective_evaluation.html
代码解释器评测
使用代码工具来辅助解决各类实际问题,也是目前大模型应用的典型场景,ChatGPT 中也引入了代码解释器能力。OpenCompass 团队面向代码解释器能力推出了 CIBench,涵盖数据科学的多个常用软件,如 numpy、pandas、opencv、matplotlib 等,在任务设置上构建了多轮连续对话,同时支持 Oracle 和端到端两种模式,引入了多种评价指标。
CIBench 评测集介绍
CIBench 端到端评测和 Oracle 评测模式介绍
更多信息可参考:
https://github.com/open-compass/CIBench
大海捞针评测
OpenCompass 现已支持了超过 1百万上下文的大海捞针评测,基于团队自研的 NeedleBench 支持单针检索,多针检索和多针推理等多种任务。基于 LMDeploy 的高效推理能力,可以轻松完成超长上下文下的大海捞针评测。
NeedleBench 数据集介绍
更多信息可参考:
https://opencompass.readthedocs.io/zh-cn/latest/advanced_guides/needleinahaystack_eval.html
社区共建
OpenCompass 的发展离不开社区的支持,欢迎大家将大模型评测方向上的最新前沿成果集成到 OpenCompass 开源算法库。我们也将一如既往地将最前沿的评测技术持续贡献给社区,支持产业界和学术界的模型研发和探索。
欢迎在 OpenCompass 评测工具链增加新的评测集: https://opencompass.readthedocs.io/en/latest/advanced_guides/new_dataset.html
欢迎贡献您的的评测集到评测集社区:
https://hub.opencompass.org.cn/home