Skip to main content
  1. 论文/

大语言模型在结构化输出方面表现如何?评估大语言模型结构化输出能力的基准

·6159 words·13 mins
大语言模型 结构化输出能力 基准数据集 问答交互 因果图
Table of Contents

✏️ Yu Liu
✏️ Duantengchuan Li
✏️ Kaili Wang
✏️ Zhuoran Xiong
✏️ Fobo Shi
✏️ Jian Wang
✏️ Bing Li
✏️ Bo Hang

要点总结
#

现有的基准测试大多关注大语言模型(LLMs)的通用或特定领域能力,而忽略了其生成结构化输出的能力。本文提出了SoEval基准,旨在评估LLMs生成JSON、XML和列表等结构化输出的能力。SoEval包含3.7K个中英文条目,涵盖20个主题的13种结构化输出任务。实验表明,尽管当前主流LLMs在结构化输出方面存在不足,但GPT-4在此方面表现最佳,平均得分为0.4,比次优模型高出24%。同时,当前主流模型在英文任务上的表现优于中文任务。

本文通过分析提示的结构,构建了提示的因果图,并基于此设计了SoEval基准。基准的构建过程包括定义常见的结构化输出形式、生成相应的正则表达式,并通过结合结构相关和任务相关的指令生成最终提示。实验结果表明,GPT-4在结构化输出任务中表现最佳,尤其是在JSON和XML格式任务中表现出色。本文还开源了SoEval数据集和基准构建代码,为未来的研究提供了重要参考。

关键要点
#

论文重要性
#

这项研究填补了现有基准测试在评估大语言模型结构化输出能力方面的空白。随着LLMs在各行业的广泛应用,生成结构化输出的能力变得尤为重要。SoEval基准不仅为研究人员提供了一个标准化的评估工具,还为LLMs的改进提供了明确的方向。未来研究可以基于此基准进一步优化模型的结构化输出能力,特别是在多语言和复杂任务中的应用。


图表分析
#

不同LLM的结构化输出能力
#

🔼 该图表展示了不同大型语言模型(LLMs)在结构化输出任务上的平均得分。横轴代表不同的LLM模型,纵轴表示平均得分,得分越低代表模型在结构化输出任务上的表现越好。图表清晰地对比了各模型在处理结构化输出任务时的性能差异。结果显示,GPT-4模型取得了最低的平均得分,约为0.4,表明其在结构化输出方面具有显著优势。这可能是由于GPT-4在训练过程中对复杂指令的理解和执行能力更强。其他模型,如Llama系列和Qwen系列,得分相对较高,表明它们在生成结构化输出时仍有改进空间。值得注意的是,GPT-3.5-Turbo的得分约为0.53,虽然不如GPT-4,但仍然表现出较好的结构化输出能力。该图表的数据清晰地表明,不同的LLM模型在结构化输出任务上的表现存在显著差异,这也突出了评估LLM在特定任务类型上的重要性,而不仅仅是整体性能。结构化输出是LLM在许多实际应用中的一个关键环节,这些结果为未来LLM的开发和应用提供了重要参考,并突出了进一步优化模型结构化输出能力的必要性。研究人员和开发者可以根据这些结果,选择最适合其特定需求的LLM模型,并推动模型在结构化输出方面的进一步优化。

更多图表分析

LLM输出格式示例
#

🔼 这张图展示了大型语言模型 (LLM) 在处理结构化输出时的三种不同响应示例。用户提出的指令要求模型列出主要的时尚趋势及其起源,并采用特定的格式:{趋势1 = 起源1, 趋势2 = 起源2, …}。第一个响应示例未能按指定的格式输出,而是采用了编号列表的形式,因此被标记为“未按指定格式输出”。第二个响应示例虽然正确地输出了指定的格式,但包含了冗余信息,如“In summary…”等,因此被标记为“格式正确,但冗余”。第三个响应示例完全符合要求,以指定格式输出了时尚趋势及其起源,没有包含任何冗余信息,因此被标记为“格式正确,不冗余,节省token”。

这张图旨在说明,即使是功能强大的语言模型,在处理结构化输出时也可能存在差异。有些模型可能难以精确遵循特定的格式要求,或者可能产生不必要的冗余信息。这凸显了在评估LLM时,不仅要考虑其内容的正确性,还要考虑其输出格式的精确性以及信息的简洁性。为了提高LLM在实际应用中的效率,需要一种能够准确评估其结构化输出能力的基准测试。

总的来说,该图强调了在实际应用场景中,LLM结构化输出的准确性和简洁性至关重要,特别是在软件开发等需要精确格式化输出的场合。为了减少错误和提高效率,需要更加精细的评估方法和训练策略。

Prompt示例及其构成
#

🔼 该图展示了一个用于指导大型语言模型(LLM)生成结构化输出的示例prompt。这个prompt被分解为几个关键部分,目的是为了清晰地说明如何构建一个有效的指令,以获得符合特定格式的响应。图中展示了task-related instruction (T),即“总结所提供段落的要点”,结构相关指令(S),“以格式‘1.[总结点], 2.[总结点], 等’显示项目”,以及input(In),其中包含了需要被总结的文本内容。“P”部分是结合了任务指令和结构指令的完整prompt,它指示模型在总结段落要点的同时,要以指定的编号列表形式展示。此示例强调了在prompt工程中,将任务指令和结构指令明确分开的重要性,这不仅能够更精准地控制模型的输出格式,也有助于提高模型生成的结构化内容的质量。该图体现了通过精心设计的prompt来引导LLM生成特定格式内容的核心思想。通过分解prompt的组成部分,我们可以更清晰地理解如何有效地利用LLM来执行需要结构化输出的任务。

不同LLMs的平均得分
#

🔼 该图展示了不同大型语言模型(LLMs)在结构化输出任务上的平均得分。这是一个柱状图,横轴表示不同的模型,纵轴表示平均得分,得分越低表示模型性能越好。从图中可以看出,GPT-4模型的平均得分最低,为0.40,表明其在结构化输出方面表现最佳。GPT-4o模型得分为0.45,表现同样出色。GPT-3.5-turbo得分为0.53,也展现了良好的性能。其他模型,如Qwen系列的72b、14b和7b,以及Llama系列的2-70b、2-13b、2-7b,其得分均高于0.5,表明这些模型在结构化输出方面的能力相对较弱。Baichuan系列的2-13b和2-7b的得分分别为0.75和0.75,Chatglm3-6b的得分为0.72,Llama_3_8b得分为0.59。这些结果表明,在结构化输出任务中,并非模型越大性能越好,例如Llama系列的模型,虽然参数量大,但在该任务上表现不如GPT系列。同时,可以看出,各模型在结构化输出能力上存在显著差异,表明需要针对不同类型的任务进行模型优化。此外,该图还强调了在评估LLMs时,结构化输出能力是一个重要的维度,不应被忽视。该图为研究人员提供了直接的比较数据,有助于选择合适的模型,并为未来LLMs的改进方向提供了参考。

LLM 中英文任务平均得分
#

🔼 该图表展示了不同大型语言模型(LLM)在中文和英文任务上的平均得分。图表分为两个部分,分别对应中文任务(a)和英文任务(b)。平均得分越低表示模型在结构化输出任务上的表现越好。在中文任务中,Llama 2-7B 模型的得分最高,约为 0.93,其次是 Llama 2-13B,得分约为 0.91。而 GPT-4 模型在中文任务中表现最佳,得分约为 0.60。在英文任务中,GPT-4 模型的表现同样优异,得分约为 0.25,是所有模型中最低的。GPT-4o 模型在英文任务中也表现出色,得分约为 0.27。Llama 系列模型在英文任务中的得分相对较高,其中 Llama 2-7B 的得分最高,约为 0.75。整体而言,这些结果表明,GPT-4 模型在结构化输出任务上表现最为出色,无论是在中文还是英文任务中。此外,所有模型在英文任务上的表现普遍优于中文任务,这可能反映了模型在训练数据中对英文的侧重,或是英文语言结构更适合结构化输出任务。

从数据趋势来看,Llama 系列模型在中文任务中的表现较差,而在英文任务中有所提升,但仍然不如 GPT 系列模型。Baichuan 和 Qwen 系列模型在两种语言中的表现均居中。ChatGLM3-6B 在两种语言中的表现均比较平稳,没有显著的优劣势。这些结果强调了模型在不同语言任务中的表现差异,并揭示了在结构化输出能力方面,模型性能可能受到语言类型的影响。因此,未来的模型训练应更多关注跨语言的性能一致性。

关键对比方面,GPT-4 模型在两种语言中均明显优于其他模型,展示了其在结构化输出任务上的卓越能力。Llama 系列模型在中文任务中的表现较差,但在英文任务中有显著提升,这反映了其在不同语言上的性能差异。不同规模的模型之间也存在差异,例如 Llama 2-13B 模型并没有明显优于 Llama 2-7B 模型。这些对比表明,模型架构和训练方法对结构化输出能力至关重要,仅通过扩大模型规模并不总是能带来更好的性能。

LLM在结构化输出类型上的表现
#

🔼 该图表展示了多个大型语言模型(LLM)在不同结构化输出类型上的性能表现。图表以热力图的形式呈现,其中横轴代表不同的结构化输出类型,包括属性图、流程图、格式修改、标题与副标题、JSON格式、键值对、列表、问答、表格、时间线、三元组、URL参数以及XML格式。纵轴则列出了参与评估的各个LLM模型,如qwen系列、llama系列、baichuan系列、GPT系列以及ChatGLM3。图表中,颜色越深(紫色)表示模型的表现越好,颜色越浅(黄色)则表示模型的表现较差。具体来看,GPT-4模型在多种结构化输出类型上均展现出卓越的性能,特别是在JSON格式和XML格式的输出上,表现明显优于其他模型,这与其强大的指令理解和遵循能力有关。而Llama系列模型在这些特定格式上的表现相对较弱,尤其是在需要精确结构化输出的任务中,这可能与其更侧重于对话和文本生成有关。Qwen系列和Baichuan系列模型在不同类型的输出上表现各异,部分模型在特定类型的输出上表现出较强的能力,例如Qwen-72B在“列表”和“表格”类型输出上表现较好,但整体而言,GPT-4和GPT-4o在大多数类型上都展现出更强的结构化输出能力。此外,ChatGLM3-6B模型在所有结构化输出类型上的表现都相对较为稳定,但与最优模型相比仍存在差距。从整体上看,该图清晰地揭示了不同LLM模型在结构化输出方面的能力差异,尤其凸显了GPT-4系列模型在处理复杂结构化输出任务时的优势。这表明,模型在训练时对结构化输出的关注程度和优化策略是影响其在该任务上表现的重要因素。

LLM在不同任务主题上的表现
#

🔼 该热力图展示了不同大型语言模型(LLM)在各个任务主题上的性能表现。颜色越深,表示模型在该主题上的表现越好,分数越低。例如,GPT-4 和 GPT-4o 在大多数主题中都表现出色,颜色较深,这表明它们在处理不同类型的任务时具有更强的能力,尤其是在“科学与技术”、“环境研究”等强调准确性和事实性的领域。而Llama系列模型,虽然在其他基准测试中表现良好,但在本图中颜色相对较浅,这表明它们在处理这些特定领域的结构化输出方面能力稍逊。此外,不同模型的表现随着任务主题的变化而波动,这突显了模型在处理不同类型任务时的复杂性和差异。诸如“社会科学”、“人权”等主题对于所有模型来说都更具挑战性,分数普遍较高,表明这些主题的抽象性和复杂性给模型带来了更大的困难。有趣的是,一些较小模型(如Qwen-7b)在某些主题上表现出相当的竞争力,这表明模型大小并非性能的唯一决定因素。总的来说,该图表为我们提供了一个详细的视角,让我们了解不同模型在处理各种任务主题时的优缺点,为未来的模型改进和特定应用场景的选择提供了有价值的参考。此图表的数据源于SoEval基准测试数据集,其中包含了13种结构化输出类型和20个不同的任务主题,旨在全面评估LLM的结构化输出能力。评估指标为匹配正则表达式的长度与输出总长度之比,较低的分数表示较好的性能。

深度解读
#

结构化输出评估
#

本文提出了一个名为SoEval的基准测试,专门用于评估大型语言模型(LLMs)生成结构化输出的能力。结构化输出,如JSON、XML和列表,在实际应用中至关重要,尤其是在软件开发、数据分析和自动化报告等领域。然而,现有的基准测试大多关注模型的通用能力或特定领域能力,忽略了结构化输出的重要性。SoEval基准测试包含3.7K个条目,涵盖13种结构化输出任务和20个任务主题,旨在填补这一评估空白。实验结果表明,尽管当前主流LLMs在结构化输出方面存在不足,但GPT-4在这一领域表现优异,平均得分为0.4,比次优模型高出24%。此外,模型在英文任务上的表现优于中文任务,表明语言复杂性对模型输出能力有显著影响。SoEval的开源数据集和代码为未来的研究提供了宝贵的资源,有助于推动LLMs在结构化输出能力上的进一步改进。

GPT-4领先
#

在SoEval基准测试中,GPT-4在生成结构化输出方面表现最为出色,平均得分为0.4,显著优于其他模型。GPT-4的优势在于其先进的训练方法和对复杂指令的细致理解,使其能够更好地遵循结构化输出的格式要求。相比之下,Llama系列模型在对话优化方面表现出色,但在结构化输出任务中表现不佳,Llama 2-13B和Llama 2-7B的得分分别为0.83和0.81。这表明,模型的对话优化能力并不直接转化为结构化输出的能力。此外,Baichuan和Qwen系列模型在结构化输出任务中表现中等,Qwen 7B得分为0.72。这些结果表明,生成结构化输出是LLMs中一项独特的技能,需要在未来的模型训练中特别关注。

中英文任务差异
#

实验结果显示,LLMs在中文任务中的表现普遍不如英文任务。中文任务的复杂性,如语法结构和词汇多样性,使得模型在生成结构化输出时面临更大的挑战。例如,Llama 2-7B在中文任务中的得分为0.93,而在英文任务中表现更好。相比之下,GPT-4在英文任务中表现出色,得分为0.27,展示了其在处理英文结构化输出任务中的卓越能力。这种差异表明,模型在特定语言数据集上的训练对其生成结构化输出的能力有显著影响。未来的研究应更加注重多语言数据集的使用,以提高模型在不同语言任务中的表现。

数据集构建
#

SoEval数据集的构建采用了模块化和自动化的方法,利用GPT-4.0生成初始数据集,并通过正则表达式定义结构化输出格式。数据集生成过程包括选择高需求的结构化输出类型、生成正则表达式、构建任务相关和结构相关的指令,并最终通过人工审核确保数据质量。这种方法的优势在于能够快速生成多样化的任务提示,显著减少了手动工作量。数据集的扩展性是其另一大亮点,研究人员可以通过定义新的结构化输出格式和任务主题,轻松扩展数据集。此外,SoEval数据集的开源代码和数据集为社区提供了便利,确保了其长期可用性和广泛的应用前景。

未来研究方向
#

本文指出了未来研究的几个重要方向,首先是扩展结构化输出格式的覆盖范围,当前的SoEval数据集主要涵盖了13种格式,未来可以进一步增加更多复杂和多样化的格式。其次,多语言支持是另一个关键方向,当前的模型在中文任务中的表现不如英文任务,未来的研究应更加注重多语言数据集的构建和模型训练。此外,任务的复杂性也需要进一步提升,当前的SoEval任务虽然涵盖了多个领域,但部分任务的复杂性不足以反映真实应用场景的需求。未来的研究可以通过引入更复杂的任务和场景,进一步测试和提升LLMs的结构化输出能力。最后,模型的鲁棒性和泛化能力也是未来研究的重要方向,特别是在面对意外输入或新场景时,模型的表现需要进一步提升。

完整论文
#