Skip to main content
  1. 论文/

大型语言模型中的涌现类比推理能力

·11824 words·24 mins
大型语言模型 类比推理 零样本学习 人类认知 抽象模式归纳 GPT-3 流体智力 深度学习 矩阵推理任务
Table of Contents

✏️ Taylor Webb
✏️ Keith J. Holyoak
✏️ Hongjing Lu

要点总结
#

研究背景和问题:类比推理是人类智能和创造力的核心能力,尤其是在面对新问题时,人类能够通过类比熟悉的场景找到解决方案。近年来,随着大型语言模型(LLMs)的发展,研究者们开始探讨这些模型是否能够在零样本(即未经直接训练)的情况下进行类比推理。本文通过一系列实验,直接比较了人类和GPT-3在多种类比任务中的表现,特别是基于Raven标准渐进矩阵的非视觉矩阵推理任务。

方法论和贡献:研究团队设计了一系列文本类比的实验任务,包括数字矩阵推理、字母串类比、四词类比和故事类比。实验结果表明,GPT-3在大多数任务中表现出色,甚至在某些情况下超越了人类的表现。特别是在数字矩阵推理任务中,GPT-3在没有直接训练的情况下,表现出了强大的抽象模式归纳能力。此外,GPT-3在字母串类比和四词类比任务中也表现出了与人类相似的推理模式。这些结果表明,大型语言模型如GPT-3已经具备了零样本解决广泛类比问题的能力。

关键要点
#

论文重要性
#

这项研究的意义在于,它展示了大型语言模型如GPT-3在零样本推理任务中的潜力,尤其是在类比推理这一被认为是人类智能核心的领域。研究结果表明,尽管这些模型没有经过专门的训练,但它们已经能够通过大规模的数据学习到类比推理的能力。这与当前的研究趋势——探索人工智能的泛化能力——密切相关。未来的研究方向可以进一步探讨这些模型如何在没有人类生成数据的情况下发展出类似的推理能力,以及如何将这些能力与视觉处理等其他认知能力相结合。


图表分析
#

GPT-3与人类在不同任务上的表现对比
#

🔼 该图表展示了GPT-3大型语言模型和人类在四种不同类型的类比推理任务中的表现对比,包括矩阵推理、字母串类比、词语类比和故事类比。图表以柱状图形式呈现,蓝色代表GPT-3的表现,浅蓝色代表人类的表现,每个柱状图的高度表示在相应任务上的平均准确率。此外,图中还显示了散点图,表示个体在特定任务中的表现,误差线则表示标准误差。从图中可以看出,GPT-3在大多数任务中都表现出色,尤其是在矩阵推理、字母串类比和词语类比任务中,其平均准确率均高于人类。在矩阵推理任务中,GPT-3的平均准确率约为0.8,而人类约为0.6。字母串类比任务中,GPT-3和人类的平均准确率均在0.5左右。词语类比任务中,GPT-3的平均准确率约为0.9,而人类略低于0.8。值得注意的是,故事类比任务中,人类的表现优于GPT-3,平均准确率约为0.8,而GPT-3约为0.7。尽管GPT-3在故事类比任务中表现稍逊,但其整体表现仍令人印象深刻,特别是考虑到GPT-3是在零样本学习的情况下进行这些任务的。这意味着它没有接受任何针对特定任务的直接训练。这个图表揭示了大型语言模型在抽象推理能力方面取得了显著进展,但在某些高阶认知任务(如涉及复杂叙事和情境理解的故事类比)中,人类仍然具有优势。总的来说,这个图表说明了GPT-3在类比推理方面的能力,这有助于我们进一步理解大型语言模型的潜在能力,以及它们在多大程度上能模拟人类的认知过程。

更多图表分析

图2a:视觉矩阵推理题示例
#

🔼 该图展示了一个典型的视觉矩阵推理问题,类似于 Raven’s 标准渐进矩阵。矩阵由一个 3x3 的网格构成,其中每个单元格包含不同数量和形状的图形。目标是根据前两行和前两列的逻辑,推断出第三行第三列缺失的图形。具体来说,本题的规则包括:每行中图形的数量保持一致(例如,第一行是单图形,第二行是双图形),并且颜色和形状在每列中遵循“分布 3”的规则,这意味着每列包含三种不同的颜色(白色、黑色、灰色)和三种不同的形状(三角形、圆形、正方形)。为了正确完成矩阵,需要将上述规则应用于每一行和每一列,推导出缺失单元格必须包含两个白色正方形。该图突出了解决矩阵推理问题所必需的抽象推理能力。它显示了视觉元素之间如何通过规则化的逻辑相互关联,并通过这些规则来解决问题。尽管这里的问题是一个简单的示例,但它说明了矩阵推理任务背后的基本原理。人类和 AI 模型在解决此类问题时都需要进行模式识别、逻辑推理和抽象思维。该图表明,矩阵推理依赖于对视觉元素属性和空间排列的抽象理解。

GPT-3与人类在数字矩阵问题上的表现对比
#

🔼 该图表展示了GPT-3和人类在数字矩阵推理问题上的表现对比,该任务模仿了Raven的渐进矩阵。图a和图b分别显示了两种评估模式下的准确率,其中图a是生成式回答的准确率,图b是多项选择的准确率。在两种模式下,GPT-3在所有问题类型(单规则、双规则、三规则和逻辑)上均优于人类。图c、d和e进一步细分了问题类型。图c比较了在双规则问题中是否包含“递进”规则的影响,显示包含该规则使问题更难。图d显示,在三规则问题中,唯一规则的数量越多,问题越难。图e显示,逻辑问题在元素空间对齐时比元素置换时更容易。总的来说,图表表明GPT-3不仅在数字矩阵问题上超越了人类,而且其表现模式也与人类的认知特点相似,例如对关系复杂性敏感,且空间对齐有助于问题的解决。这些结果表明,大型语言模型可能已经具备了基本的抽象推理能力,类似于人类。误差条表示标准差或置信区间,具体取决于图表。图表清晰地表明了GPT-3在解决抽象推理问题上的强大能力,尤其是在没有经过直接训练的情况下。这为大型语言模型的涌现能力提供了有力的证据,并引发了关于人工智能与人类智能之间差异的重要思考。

人类在不同类型矩阵推理问题上的表现
#

🔼 该图表比较了人类在两种不同类型的矩阵推理问题上的多项选择准确率。图表横轴表示问题类型,包括 1 规则、2 规则、3 规则和逻辑问题;纵轴表示多项选择的准确率。图表使用两种颜色表示数据:深红色表示在 Raven’s Standard Progressive Matrices (SPM)上的表现,浅蓝色表示在 Digit Matrices 上的表现。误差条表示标准误差。从整体来看,SPM 和 Digit Matrices 的表现模式非常相似,这表明这两种问题类型可能涉及到类似的认知过程。对于这两种矩阵类型,准确率随着规则数量的增加而降低,表明随着问题复杂性的增加,解决问题的难度也随之增加。1 规则问题的准确率最高,而 3 规则和逻辑问题的准确率明显较低。此外,SPM 的表现略微高于 Digit Matrices,尽管在某些问题类型中差距并不显著。这些发现支持了这样的观点:尽管 Digit Matrices 任务避免了传统 SPM 任务所涉及的视觉处理,但它们仍然可以有效评估核心推理能力。结果表明,人类在抽象规则推理和视觉输入处理方面具有相似的优势和局限性。此图表强调了抽象推理在不同任务中的一致性模式,即使任务涉及不同的呈现方式。误差条的存在表明了数据变异性。总而言之,此图表表明,无论是传统视觉测试还是基于文本的测试,人类在解决复杂的规则推理问题时都面临相似的挑战。

Letter string transformations
#

🔼 该图展示了在字母字符串类比问题中使用的六种转换类型。每种类型都描述了从源字符串到目标字符串的具体变化。这些转换包括:

  1. 序列扩展(Extend sequence): 在源字符串’abcd’的基础上,目标字符串在末尾增加一个字母,形成’abcde’。
  2. 后继(Successor): 源字符串’abcd’的最后一个字母被其后继字母替换,得到目标字符串’abce’。
  3. 前驱(Predecessor): 源字符串’bcde’的第一个字母被其前驱字母替换,得到目标字符串’acde’。
  4. 删除冗余字母(Remove redundant letter): 源字符串’abbcde’中重复的’b’被删除,生成目标字符串’abcde’。
  5. 修复字母顺序(Fix alphabetic sequence): 源字符串’abcwe’中位置不正确的字母’w’被替换为正确的字母’d’,形成’abcde’。
  6. 排序(Sort): 源字符串’adcbe’中的字母被排序,得到目标字符串’abcde’。

这些转换类型用于生成各种不同复杂度的类比问题,以评估模型在抽象推理方面的能力。特别关注了模型如何处理和应用这些不同的转换规则。这些转换类型涵盖了字符序列中常见的操作,从简单的前后字母调整到复杂的排序和字母修复,提供了测试模型理解和应用这些规则的全面测试。通过这些不同的操作,可以评估模型对字母序列抽象模式的掌握程度,以及处理不同类型变化的能力。这些规则的设计旨在探索模型在面对不同复杂度和逻辑转换时的表现,帮助理解其在类比推理方面的能力和局限性。

字母字符串类比问题
#

🔼 该图表展示了字母字符串类比问题中的两种泛化类型,分别是字母到数字的泛化和反向顺序泛化。在字母到数字的泛化示例中,原始的字母序列 “abcd” 通过将最后一个字母变为它的后继字母而转换为 “abce”。目标序列 “1234” 需要应用相同的转换逻辑,根据此规则,应将序列最后一个数字的后继数字4转换为5,得出“1235”。在反向顺序泛化示例中,原始字母序列的转换方式仍然是将最后一个字母替换为其后继字母。目标字母序列“lkji”的转换规则应为:将目标序列的排列反转,然后,将反转后的最后一个字母,即 i,替换为它的前一个字母,即 h。因此,结果为“lkjh”。这些例子突出了类比推理中重表示的重要性,其中初始问题表示被修改以便于发现类比。这些问题类型旨在评估模型在不同泛化规则下进行推理的能力,例如应用于数字而非字母,或应用反向顺序规则。这种灵活的概括能力对类比推理至关重要,也是人类认知能力的核心体现。此图表着重演示了在解决类比推理问题时,理解和应用抽象转换规则以及泛化这些规则到新情境的能力。

Letter String Generalizations
#

🔼 该图展示了四种不同的字母字符串类比问题的泛化类型。每种类型都包括一个从源字符串到目标字符串的转换规则,以及需要应用该规则的新目标字符串。目的是确定目标字符串中缺少的部分。

  1. 分组(Grouping): 在这种类型中,源字符串 ‘a b c d’ 转换为 ‘a b c e’,其中最后一个字母增加了一个位置。目标字符串 ‘j j k k l l’ 需要应用相同的规则。正确的答案应为 ‘j j k k l m’,也就是在最后的双字母组中将 ‘l’ 变为 ‘m’。

  2. 更长的目标(Longer target):源字符串 ‘a b c d’ 转换为 ‘a b c e’,最后一个字母递增。目标字符串 ‘i j k l m n o p’ 需要应用相同的规则,也就是将最后一个字母递增,因此答案为 ‘i j k l m n o q’。

  3. 交错干扰项(Interleaved distractor):源字符串 ‘a b c d’ 转换为 ‘a b c e’,目标字符串 ‘j x k x l x’ 需要应用相同的规则。在这种情况下,字母 ‘x’ 是干扰项,应该被忽略。因此,答案应为 ‘j x k x l y’,也就是将 ‘l’ 变为 ‘y’。

  4. 更大的间隔(Larger interval):源字符串 ‘a b c d’ 转换为 ‘a b c e’,其中字母的间隔为1。目标字符串 ‘i k m o’ 中的字母间隔为2。需要应用相同的规则,也就是将最后一个字母递增,因此答案为 ‘i k m q’。这些例子的主要目标是展示在字母字符串类比问题中,如何使用不同的泛化方式将一个转换规则推广到新的字母序列中。这些问题测试的是受试者或AI模型识别模式、应用规则和概括抽象关系的能力。通过调整泛化类型,可以评估模型处理不同复杂性的类比问题的能力,比如分组、改变长度或间隔。图中呈现的问题类型是该论文用于评估GPT-3等大型语言模型类比推理能力的样例。

通过分析这些问题,可以评估模型是否能够理解抽象的模式,并将这些模式应用到新情况下,这在类比推理和问题解决中至关重要。此外,通过不同的泛化类型来测试,可以更全面的了解模型的抽象推理能力,并有助于理解其成功和失败之处。

GPT-3与人类在字母序列类比任务中的表现对比
#

🔼 这张图表展示了GPT-3和人类在字母序列类比任务中的表现对比。该任务包括多种不同的变换类型(如扩展序列、后继变换、前驱变换、移除冗余字母、修复字母顺序、排序)和泛化类型(如字母到数字、分组、更长的目标序列、反转顺序、交错干扰项和更大的间隔)。图表被分为四个子图,分别表示不同类型的题目。

子图 a 显示了随着泛化数量的增加,GPT-3 和人类的生成准确率都呈现下降趋势,表明无论是模型还是人类,在面对更复杂的泛化问题时都会遇到困难。GPT-3 在所有泛化数量上的表现都优于人类,尤其是在零泛化的情况下。

子图 b 细分了零泛化问题下的不同转换类型,可以看出 GPT-3 在“扩展序列”、“后继”和“前驱”等简单转换上表现优异,但在“移除冗余字母”、“修复字母顺序”和“排序”等稍复杂的转换上,与人类的差距缩小。这表明 GPT-3 在处理简单模式识别方面可能更具优势,而在涉及更复杂规则的推理方面仍然存在提升空间。

子图 c 分析了一泛化问题中不同泛化类型的表现。可以看到,字母到数字的泛化相对容易,而涉及更复杂变换(如反转顺序、交错干扰项、更大的间隔)的泛化则更具挑战性,模型的准确率均显著下降。GPT-3 在所有的泛化类型上的表现均优于人类,尤其是在“字母到数字”和“分组”上。

子图 d 展示了实词概念问题的表现。GPT-3 在“扩展序列”、“后继”和“前驱”等概念转换上表现出色,但在排序任务上的表现显著低于其他类型,也低于人类的表现。这可能是由于排序问题需要更复杂的推理能力,而模型在这种类型的问题上不如人类。

总而言之,该图表展示了 GPT-3 在字母序列类比任务中表现出强大的抽象能力和模式识别能力,在大多数情况下都优于人类。然而,图表也揭示了 GPT-3 在处理复杂规则、实词概念排序上的局限性,这为未来的模型改进提供了方向。

GPT-3和人类在四项类比任务中的表现
#

🔼 该图表展示了大型语言模型GPT-3与人类在四项不同类比任务中的表现对比。这些任务旨在评估模型在不同语义关系和问题结构下的类比推理能力。图表 a 展示了在UCLA语言类比测试(VAT)中的表现,测试中涵盖了类别(Categorical)、功能(Function)、反义词(Antonym)和同义词(Synonym)等关系。GPT-3在此任务中表现优异,在所有关系类型中均达到或超过人类水平。图表 b 展示了在Sternberg & Nigro (1980)数据集上的表现,该数据集包括了类别、功能、反义词、同义词以及线性顺序(Linear)等关系。GPT-3在这些关系类型中的表现也与人类参与者相当,甚至略有超出。图表 c 显示了GPT-3在SAT类比问题中的表现,结果表明GPT-3显著超过了高中生在SAT考试中的平均水平。图表 d 展示了在Jones et al. (2022)数据集上的表现,该数据集包括了类别、组合(Compositional)和因果(Causal)关系,并区分类比项之间的语义距离(Near, Far)。在语义距离较近的类比问题上,GPT-3与人类表现相当,但在语义距离较远的类比问题上,GPT-3表现略逊于人类。总体而言,这些图表表明,GPT-3在多项类比推理任务中都展现出了强大的能力,尤其是在那些需要识别明确语义关系的任务中,其表现往往优于人类,但在理解语义关联较为复杂或抽象的问题中仍有提升空间。此外,图中黑色横线表示随机猜测的准确率水平(0.5),用以对比模型和人类的实际表现水平。误差条表示标准误差范围。

故事类比结果
#

🔼 该图展示了GPT-3和人类在故事类比任务中的表现。任务分为近类比(Near analogy)和远类比(Far analogy)两种情况。近类比是指目标故事与源故事具有相似的实体和关系,而远类比则涉及不同的实体,但保持相似的关系。柱状图显示了GPT-3和人类在这两种情况下的准确率。在近类比任务中,GPT-3的准确率约为75%,而人类的准确率约为90%。在远类比任务中,GPT-3的准确率下降到约65%,而人类的准确率保持在85%左右。误差条代表了标准误差。点状散点代表了每个被试的准确率。灰色水平线代表随机表现的基准线(50%)。图表表明,尽管GPT-3在近类比任务中的表现尚可,但在远类比任务中,其性能明显不如人类,这可能表明GPT-3在处理抽象和跨领域的类比推理时存在困难。总的来说,人类在两个条件下都明显优于GPT-3。此外,该图还显示了每个参与者数据点的散点图。这些点分布在每个柱状图的顶部附近,表明大多数参与者能够正确解决问题,但是也存在一些参与者数据比较分散,这可能是由于个人能力差异或测试过程中的干扰。该图揭示了大型语言模型在类比推理方面的局限性,尤其是在处理远距离和抽象的类比时,这表明人类认知在理解和映射复杂关系方面具有更强的能力。

GPT-3 各变体在数字矩阵上的生成准确率
#

🔼 该图表展示了不同 GPT-3 模型变体在解决数字矩阵问题时的生成准确率,并与人类的表现进行了对比。横轴表示问题类型,包括单规则(1-rule)、双规则(2-rule)、三规则(3-rule)以及逻辑(Logic)问题。纵轴表示生成准确率,即模型生成正确答案的比例。图例中,不同的颜色代表不同的模型变体:GPT-3 (davinci)、GPT-3 (code-davinci-002)、GPT-3 (text-davinci-002)、GPT-3 (text-davinci-003),以及人类的表现。从图中可以看出,GPT-3 的不同模型变体在单规则问题上的表现非常出色,准确率接近100%,且彼此之间差异不大。随着问题复杂度的增加,即从双规则到三规则,以及逻辑问题,各模型变体的准确率均有所下降,但 text-davinci-003 变体在大多数情况下表现最佳,特别是在逻辑问题上显著优于其他变体和人类。值得注意的是,code-davinci-002 在简单规则问题上的表现接近其他 GPT-3 变体,但在逻辑问题上的表现最差。人类在所有问题类型上的表现均不如 text-davinci-003 模型,但在单规则和双规则问题上的准确率也较高,在逻辑问题上的表现略好于 code-davinci-002。误差棒表示每个模型或人类在不同问题上的准确率的标准差,可以观察到三规则和逻辑问题上的误差棒相对较长,表明这些问题的难度更高,各个模型变体的表现也更不稳定。整体而言,该图表突出了 GPT-3 模型在处理抽象推理任务上的强大能力,特别是经过微调的 text-davinci-003 变体,其在多个复杂问题类型上均超越了人类的表现,但也显示了模型在不同问题上的差异和潜在的局限性。这一结果为探究大型语言模型(LLM)的推理能力提供了重要的数据支持,并揭示了模型训练方式和架构对性能的显著影响。

不同GPT-3模型在字母串类比任务中的表现
#

🔼 该图表展示了不同版本的GPT-3模型(davinci, code-davinci-002, text-davinci-002, text-davinci-003)以及人类在字母串类比任务中的表现。横轴表示概括的数量(0到3),纵轴表示生成准确率。从图表中可以看出,随着概括数量的增加,所有模型和人类的准确率都呈现下降趋势,这表明类比任务的难度随着概括数量的增加而增加。在没有概括的情况下(概括数量为0),GPT-3的多个版本都表现出较高的准确率,特别是text-davinci-003版本,其准确率接近0.75,与人类的0.6左右的准确率相比,具有明显优势。code-davinci-002在0概括和1概括的情况下表现也相对较好。当概括数量为1时,所有模型的准确率均有所下降。text-davinci-003和text-davinci-002模型仍保持相对较高的水平,而davinci和code-davinci-002模型以及人类的表现相对较差。当概括数量增加到2和3时,所有模型的准确率继续下降,但 text-davinci-003 模型依然保持着较好的性能。总的来说,text-davinci-003模型在不同概括程度下均表现出最佳性能,表明该模型在处理需要抽象推理的类比任务时具有更强的能力。这可能归因于该模型采用了RLHF(强化学习与人类反馈)技术,这有助于模型更好地理解和执行类比推理任务。而code-davinci-002 模型在没有概括的情况下表现突出,这可能是因为其在代码训练过程中学习到了较强的模式识别能力。其他模型和人类的表现则相对不稳定,表明人类在高度概括性的任务中也面临挑战。该图强调了大型语言模型在类比推理任务中的能力,并揭示了不同模型架构和训练方法对模型性能的影响。text-davinci-003模型优异的表现可能意味着大型语言模型在解决需要抽象思维和模式识别的问题方面具有巨大潜力。

不同模型在四项词汇类比任务中的准确率
#

🔼 该图表展示了不同 GPT-3 模型变体和人类在四项词汇类比任务中的准确率对比。这些任务包括:分类(Categorical)、功能(Function)、反义词(Antonym)和同义词(Synonym)。图表以柱状图形式呈现,每个任务类别下有五个柱状条,分别代表不同的模型和人类的表现。从整体来看,GPT-3 的 text-davinci-003 版本在大多数任务中表现最佳,尤其是在分类任务中几乎达到了完美的准确率,并且在其他任务中的准确率也明显高于其他模型。code-davinci-002 模型在分类任务中表现较差,但在其他任务中表现相对较好,这表明该模型在代码训练上获得的优势并未完全转化为词汇类比的能力。text-davinci-002 模型和原始的 davinci 模型在各任务中的表现则较为均衡,但都略逊于 text-davinci-003。值得注意的是,人类的平均表现在分类、功能和同义词任务中都高于 code-davinci-002 模型,但在反义词任务中则略逊于 code-davinci-002 和 text-davinci-003。这可能暗示,人类在处理反义关系时,可能使用了与模型不同的策略。误差条显示,分类和功能任务的得分差异较小,而反义词和同义词任务的误差则较大,这表明后两者的难度可能更高。水平灰线代表一个基准,位于 0.5 的准确率水平。所有模型的表现都明显高于这一水平,表明它们在这些任务中都具备一定的推理能力。总的来说,图表清晰地显示了 GPT-3 模型在词汇类比任务中的能力,特别突出了 text-davinci-003 版本在这些任务中的优异表现,其表现甚至在某些任务中超越了人类的平均水平。这些结果有力地支持了大型语言模型在理解和推理能力方面的潜力。

GPT-3和人类在矩阵推理问题上的表现
#

🔼 这张图表对比了GPT-3模型和人类在不同类型的数字矩阵推理问题上的表现。图a展示了在生成式回答场景下,不同规则复杂度问题(从1规则到5规则)的准确率。我们可以观察到,GPT-3在所有类型的矩阵推理问题上的准确率都与人类相近,甚至略高于人类。这表明GPT-3在处理抽象模式和逻辑推理方面具有较强的能力。误差条代表了标准误差,这说明了结果的可靠性。图b则更加细致地展示了在1规则问题中,不同规则类型(恒定、分布、递进)的准确率。在这里,GPT-3和人类在恒定和分布规则下的准确率都接近100%。然而,当规则类型为递进时,GPT-3的准确率显著下降,但依然高于人类。这表明递进规则对GPT-3和人类而言都具有挑战性,但GPT-3在处理这类问题时仍然表现出一定的优势。柱状图的颜色代表了不同的参与者,蓝色代表GPT-3,浅蓝色代表人类,这使得我们可以清晰地对比两者的表现。总的来说,该图表有力地支持了文章的主要论点,即大型语言模型(如GPT-3)在零样本学习条件下,拥有强大的抽象模式归纳能力,并且在某些情况下可以媲美甚至超越人类的表现。这为我们进一步研究人工智能的认知能力提供了重要的依据。研究结果强调了GPT-3在复杂问题解决上的潜力,同时也揭示了人类认知过程的某些特点。

GPT-3 和人类在不同提示下的字母串类比任务表现
#

🔼 该图表展示了 GPT-3 和人类在不同提示条件下解决字母串类比问题的表现。图 a 显示了在没有提示的情况下,随着泛化次数的增加,GPT-3 和人类的生成准确率均下降,且 GPT-3 在泛化次数为 0 时表现略优于人类,但随着泛化次数的增加,二者的差异逐渐缩小。图 b 显示在句子格式提示下,GPT-3 和人类的表现也随着泛化次数的增加而下降,GPT-3 在泛化次数为 0 时的表现略优于人类,但在其他泛化次数下两者差异不大。两个子图中,GPT-3在0次泛化时表现最好,表明模型更擅长处理简单的、直接的类比任务。随着泛化次数的增加,模型的表现显著下降,表明模型在处理复杂的抽象关系时存在一定的局限性。人类的表现也呈现相似趋势,只是在0次泛化时不如GPT-3,随着泛化次数增加,人类表现的下降相对平缓。图表还显示,不同的提示方式对 GPT-3 的表现有一定影响,在句子格式下,GPT-3的表现与人类更为接近。总的来说,图表说明 GPT-3 虽在简单类比任务中表现出色,但在处理更抽象的类比时能力仍有提升空间,且提示方式会对模型的性能产生影响,这表明模型对输入形式的敏感性。同时,人类和GPT-3在面对复杂类比时的表现都呈下降趋势,可能体现了人类认知能力在处理抽象概念时的一些共性。

故事类比结果
#

🔼 该图表展示了在故事类比任务中,GPT-3、GPT-4 和人类参与者的表现对比。任务要求参与者识别两个目标故事中哪一个与源故事更相似,涉及近类比和远类比两种情境。图表横轴分为近类比(Near analogy)和远类比(Far analogy),纵轴是准确率(Accuracy)。GPT-3 在近类比情境中表现较好,准确率约为 0.75 左右,但在远类比情境中表现较差,准确率略高于 0.6。GPT-4 在两类情境中均表现出显著的进步,近类比准确率接近 1,远类比准确率约为 0.75。而人类在近类比和远类比任务中均表现出较高水平的准确率,在近类比中接近 0.95,远类比约为 0.85。图表中的误差线代表了平均值的标准误差,点代表了单个参与者的准确率。虚线水平线代表了随机水平的性能(0.5)。由此可见,GPT-3 在远类比任务中表现与人类存在明显差距,而 GPT-4 的性能显著提升,但仍未完全达到人类水平。这表明大型语言模型在理解深层语义关系和进行跨领域推理方面仍存在改进空间。人类在远类比中的表现优于 GPT-3 和 GPT-4,体现了人类在处理抽象和复杂关系上的优势。此图说明了模型在处理复杂认知任务(如类比推理)时仍有进一步提升的空间,特别是在需要理解抽象和高阶关系的时候。

深度解读
#

类比推理能力
#

大语言模型(LLMs)在类比推理任务中表现出色,尤其是在零样本(zero-shot)任务中。论文通过一系列实验,比较了GPT-3与人类在多种类比任务中的表现,发现GPT-3在大多数情况下能够匹配甚至超越人类的表现。特别是在基于文本的矩阵推理任务中,GPT-3表现尤为突出,尽管它从未接受过此类任务的直接训练。这种能力表明,GPT-3已经具备了通过类比推理解决广泛问题的能力。然而,尽管GPT-3在形式上表现出与人类相似的推理模式,但其推理机制是否与人类相同仍是一个未解之谜。论文指出,GPT-3的类比推理能力可能源于其庞大的训练数据,而不是通过明确的类比训练获得的。

矩阵推理任务
#

论文设计了一种基于文本的矩阵推理任务(Digit Matrices),模拟了Raven的标准渐进矩阵(SPM)的结构。通过这一任务,GPT-3在零样本条件下表现出色,超越了人类参与者的平均表现。GPT-3不仅在整体表现上优于人类,还在不同问题类型中表现出与人类相似的错误模式。例如,GPT-3在处理涉及多个规则的问题时,表现与人类一样,随着规则数量的增加,难度也随之增加。此外,GPT-3对空间对齐的逻辑问题表现更好,这与人类在视觉类比任务中的表现一致。这些结果表明,GPT-3已经具备了类似于人类的抽象规则归纳能力,尽管它无法处理视觉输入。

字母串类比
#

字母串类比任务测试了GPT-3在抽象关系推理中的表现。通过设计一系列复杂的字母串变换问题,论文发现GPT-3在零样本条件下表现优于人类参与者。GPT-3不仅能够处理简单的字母变换,还能处理涉及分组、逆序和插入干扰项等复杂变换。此外,GPT-3在处理从字母到现实世界概念的类比时也表现出色,表明它已经发展出了一种抽象的“后继”概念,能够灵活地在不同领域之间进行类比推理。然而,GPT-3的表现对问题的格式较为敏感,提示其推理能力可能依赖于输入的特定形式。

故事类比
#

故事类比任务测试了GPT-3在复杂事件中的类比推理能力。通过比较两个故事之间的因果关系,GPT-3表现出对高阶关系的敏感性,尤其是在近类比(near analogy)条件下,GPT-3能够准确识别出与源故事共享因果关系的目标故事。然而,在远类比(far analogy)条件下,GPT-3的表现不如人类,表明其在跨领域类比推理中仍存在局限性。尽管如此,GPT-4在这一任务中表现出更强的能力,提示随着模型规模的扩大,其对因果关系的敏感性可能会进一步增强

未来研究方向
#

论文提出了未来研究的几个重要方向。首先,需要进一步探索GPT-3的类比推理机制,尤其是其是否具备类似于人类的显式关系表示能力。其次,未来的研究可以尝试将GPT-3的推理能力与视觉处理相结合,以测试其在多模态任务中的表现。此外,GPT-3在物理推理任务中的表现较差,提示未来的研究可以探索如何增强模型对物理世界的理解。最后,论文指出,尽管GPT-3在类比推理任务中表现出色,但其推理能力是否与人类相同仍是一个开放性问题,未来的研究可以进一步探讨大语言模型与人类认知之间的异同。

完整论文
#