Does In-IDE Calibration of Large Language Models work at Scale? 📅 2026/7/4 4:37:24 一、文章主要内容总结本文围绕IDE中大型语言模型(LLM)的置信度校准问题展开研究,从技术实现和人机交互设计两个核心维度,探究校准在实际场景中的规模化有效性,核心内容如下:研究背景:LLM集成到IDE(如GitHub Copilot、JetBrains Junie)后显著提升开发效率,但生成代码可能存在错误、不安全等问题,且LLM原生置信度校准不佳(常对错误生成过度自信),需通过校准优化置信度与开发者接受行为的一致性,并设计合理的置信度呈现方式。核心研究问题(RQ):RQ1:校准后的置信度是否比原始置信度更能与真实开发行为(如代码接受率)相关联?RQ2:针对特定用户或项目的个性化校准是否比通用校准效果更好?RQ3:开发者期望IDE中如何呈现可靠性信号?研究方法与数据:技术层面:开发可扩展校准框架CalibrateCC,基于Platt-scaling方法训练通用校准器、语言特定校准器及自适应校准器;分析2400多万条真实开发交互数据(覆盖Java、Python、Kotlin等语言,来自75万+设备)。设计层面:通过3位专业设计师的场景化设计、5位开发者的半结构化访谈、153位专业开发者的问卷调查,探究可靠性信号的最优呈现方式。关键发现:RQ1:通用校准器虽能降低校