大语言模型性能分数被高估:一种新方法揭示真相 在当今人工智能蓬勃发展的时代,大语言模型(LLMs)如ChatGPT等已经成为人们关注的焦点。它们在自然语言处理任务中的表现常常通过各种性能分数来衡量。然而,新的研究表明,这些性能分数可能存在被高估的情况,一种新方法正逐渐揭示其中的真相。 一直以来,大语