国产模型“伪SOTA”警示录:当Qwen2.5在CMMLU刷出86.3分,其真实政务问答准确率为何骤降至61.7%?(附prompt隔离实验报告)
更多请点击:
https://intelliparadigm.com
第一章:国产模型“伪SOTA”警示录:当Qwen2.5在CMMLU刷出86.3分,其真实政务问答准确率为何骤降至61.7%?(附prompt隔离实验报告) 在通用多任务理解基准…
2026/7/1 13:55:38