什么是“涌现能力”?

什么是“涌现能力”?
匿名|2023-07-31 08:36:26

什么是涌现能力.jpg


  “涌现能力”(英文emergent ability)指的是在小型模型中并不存在,但在大型模型中“突然出现”的能力,其中包括常识推理、问答、翻译、摘要等。如果仅依靠小型模型的能力做线性外推,往往无法预测出“涌现能力”的出现及其强度。“涌现能力”是大型语言模型(LLM)具有的重要新能力之一,也是大型语言模型带来的一项根本性变化。


  “涌现能力”之所以重要,不仅因为它是大型语言模型出现后才有的新能力,而且由大型语言模型涌现出来的多数是非常重要的能力。例如,常识推理能力一直是人工智能领域的重大难题,而大型语言模型的出现使得常识推理取得了重大进展。另外,大型语言模型还有机会进一步获得更多能力。


  尽管表面上看来,语言模型只是在预测下一个词元(token),但当模型足够大,神经网络模型(transformer)技术的建模能力足够强时,基于内部表示的推理能力就会出现。因此,模型会呈现出与规模较小时完全不同的行为,涌现全新的能力。


  一旦“推理”能力涌现,“思维链提示”(英文Chain of Thought Prompting)策略就可以用来解决多步推理的难题。因此,“涌现能力”的出现,是大型语言模型带来的一项根本性变化。这是一种全新的人工智能技术范式。


  随着大型语言模型技术越来越受欢迎,我们可以期待它带来更多的惊喜,特别是考虑到大型语言模型带来的关键新能力,有关专家所预测的语言智能黄金时代很可能会成为现实。


  文/吴汶燕(作者单位:同济大学软件学院)


本文属原作者授权投稿专栏,须取得本网站的书面授权,未经授权严禁转载或用于其它商业用途

等你来答