Skip to main content
  1. 论文/

大模型驱动的学术文本挖掘——推理端指令策略构建及能力评测

·4417 words·9 mins
大模型 学术文本挖掘 指令工程 能力评测 文本分类 信息抽取 文本推理 文本生成
Table of Contents

✏️ 陆伟
✏️ 刘寅鹏
✏️ 石湘
✏️ 刘家伟
✏️ 程齐凯
✏️ 黄永
✏️ 汪磊

要点总结
#

研究背景与问题:大型语言模型(LLM)在任务理解和指令遵循方面表现出色,能够通过简单指令完成复杂任务。然而,科技文献分析领域尚未系统研究大模型的指令工程技术和能力边界。本文以学术文本挖掘为切入点,设计了推理端指令策略,构建了涵盖文本分类、信息抽取、文本推理和文本生成四大能力维度的评测框架,并选取了7个国内外主流指令调优模型进行实验。

方法论与贡献:本文通过上下文学习、思维链推理等指令策略,评估了大模型在学术文本挖掘任务中的表现。实验结果表明,少样本和思维链策略在分类任务上效果不显著,但在抽取和生成任务上表现良好。千亿级参数的大模型经过指令引导,能够接近深度学习模型的效果,但十亿级或百亿级模型的指令策略存在明显上限。本文为大模型在科技情报领域的深层嵌入提供了实践参考。

关键要点
#

论文重要性
#

研究价值:本文通过系统评测大模型在学术文本挖掘中的表现,揭示了不同参数规模模型的能力边界,为科技情报领域的大模型应用提供了重要参考。研究影响力:本文的实验结果表明,千亿级大模型在复杂任务上表现优异,但十亿级或百亿级模型仍需调优。未来方向:未来研究可进一步探索大模型在科技情报领域的调优策略,推动其在信息抽取、文本生成等任务中的深层应用。


图表分析
#

大模型驱动的学术文本挖掘框架
#

🔼 该图展示了大模型驱动的学术文本挖掘框架,框架的核心在于如何利用大模型进行学术文本的挖掘。整个框架分为两个主要部分:调优端和推理端。调优端主要关注如何通过参数高效微调策略(如LoRA、P-tuning、P-tuning v2)将通用大模型适配到特定领域,例如科技情报领域。这个过程涉及使用如RCT-20K这样的数据集来训练或微调模型,以便更好地处理该领域的任务。推理端则是在不调整模型参数的情况下,通过指令工程技术(如上下文学习和思维链推理)来挖掘模型蕴含的知识。在推理端,指令模板被用来引导模型生成期望的输出。例如,通过少样本学习提供一些示例,并辅以详细的指令,可以指导模型完成摘要句功能识别任务。此外,思维链推理策略也被引入,以帮助模型逐步推理得出结论。图中展示了摘要句功能识别任务的实例,其中,一个具体的句子被输入模型,模型的输出是对该句子结构功能的判断,比如“这句话的结构功能是结果”。总的来说,该图清晰地展示了大模型在学术文本挖掘中的应用框架,以及如何通过调优和推理策略来利用大模型的能力。该框架强调了推理端指令策略的重要性,通过精准的自然语言指令,可以激活大模型在特定领域的专业知识。同时,该框架也指出了模型微调的必要性,以保证模型在特定任务上的性能。

更多图表分析

大模型学术文本挖掘框架
#

🔼 该图展示了大模型驱动的学术文本挖掘框架,其核心在于通过指令工程技术,在不调整模型参数的前提下,挖掘大模型在学术文本挖掘任务上的潜力。该框架主要包含四个步骤:选择指令模板、编写任务描述、选择样本示例和构建思维链。第一步,选择指令模板时,针对不同的模型(如GLM、ERNIE、GPT、LLaMA系列),选择与其适配的指令模板,以确保模型能够更好地遵循指令。第二步,编写任务描述时,需要明确任务的目标、输出类型、输出内容限制以及输出格式限制,以便引导模型生成符合要求的结构化或半结构化文本。第三步,选择样本示例时,遵循代表性原则,根据任务类型选择合适的样本,如对于分类任务,应包含所有标签的数据样例;对于抽取任务,应包含所有类型实体的句子。若不添加样本,则构成零样本策略;少量示例则构成单样本和少样本策略。第四步,构建思维链时,对于推理类任务,可以采用零样本思维链和少样本思维链。零样本思维链通过在任务描述中添加“请你一步一步思考”等提示,引导模型逐步推理;少样本思维链则在零样本思维链的基础上,提供正确的推理示例,以便模型学习正确的推理过程。整个框架的目标是通过精心设计的指令,从模型参数中挖掘解决科技情报领域问题的专业能力,而无需调整模型参数。这为大模型在科技情报领域的应用提供了新的思路。

大模型学术文本挖掘专业能力评测框架
#

🔼 该图展示了大模型学术文本挖掘专业能力评测框架,该框架从能力域、任务域和指标域三个维度构建。在能力域上,该框架将学术文本挖掘能力划分为文本分类、信息抽取、文本推理和文本生成四个方面。在任务域上,文本分类包括摘要句功能分类、章节功能识别和引文功能识别三个任务;信息抽取对应科技实体抽取;文本推理对应科技文本推理;文本生成对应关键词生成。在指标域上,摘要句功能分类和章节功能识别采用加权宏平均F1值作为评估指标,引文功能识别采用宏平均F1值,科技实体抽取采用微平均F1值,科技文本推理采用准确率,关键词生成采用宏平均F1@5。总体而言,该框架旨在多角度评估大模型在学术文本挖掘方面的能力,覆盖了从文本理解到信息提取再到文本生成等多个环节,为深入分析大模型在科技情报领域的应用提供了重要参考。这个框架结构清晰,能够帮助研究者系统地评估不同大模型在各个任务上的表现,从而揭示大模型在学术文本挖掘中的优势和不足。通过这样的框架,可以更有效地指导大模型在科技情报领域的应用和优化。

大模型科技文本实体抽取指标F1提升率
#

🔼 该图展示了不同大模型在科技文本实体抽取任务中,使用单样本和少样本策略相对于零样本策略的微平均F1值提升率。横轴为不同的大模型,纵轴为F1值的提升率(百分比)。图中包含两组柱状图,分别代表单样本提升率和少样本提升率。从图中可以看出,不同模型在增加样本后,实体抽取性能的提升幅度差异显著。Alpaca-7B模型在单样本和少样本设定下,F1值提升率分别达到了356.99%和799.46%,这表明对于参数规模较小的模型,增加少量样本可以显著提高其信息抽取能力。相比之下,GPT-3.5-turbo、GPT-4和ERNIE Bot等参数规模更大的模型,其提升率相对较低,基本都在20%以下,甚至GPT-3.5-turbo在单样本下的性能还略有下降,这可能是因为这些大模型本身具备较强的零样本学习能力,而少量样本所能提供的额外信息相对有限。另外值得关注的是,ChatGLM和ChatGLM2 在少样本策略下提升率分别达到了300.00%和295.68%,说明样本对于这类模型的效果显著。总的来说,图表揭示了样本数量对不同规模大模型在信息抽取任务上的影响差异,对于参数较小的模型,少样本学习能够带来显著的性能提升,但对于参数规模较大的模型,提升效果相对较小,甚至可能出现负优化。

大模型在不同样本设定下的能力值
#

🔼 该图展示了不同大模型在零样本和少样本设定下的学术文本挖掘能力值,该能力值是通过对模型在不同任务上的核心指标进行归一化处理得到的。图中横轴表示六种学术文本挖掘任务:摘要句功能分类、章节功能识别、引文功能识别、科技实体抽取、科技文本推理和关键词生成。纵轴表示不同的模型,包括Alpaca-7B, Alpaca-13B, ChatGLM-6B, ChatGLM2-6B, GPT-3.5-turbo, GPT-4和ERNIE Bot。图a展示了零样本设定下的能力值,图b展示了少样本设定下的能力值。颜色深浅代表数值大小,颜色越深,对应的模型在该任务上的能力越强。在零样本设定下,GPT-4模型在大多数任务上都表现出最强的能力,其能力值接近1。其他模型的能力值则相对较低,其中Alpaca-7B和Alpaca-13B的表现最弱,在许多任务上能力值接近0.1。在少样本设定下,模型整体能力值有所提升。GPT-4依然是表现最好的模型,其能力值在各任务上均接近1。ERNIE Bot模型在少样本设定下关键词生成任务上表现突出,能力值接近1,超越了GPT-4的表现。相比之下,Alpaca-7B, Alpaca-13B, 和ChatGLM-6B在少样本设定下能力值提升幅度较小。总体来看,该图表明了模型参数规模对学术文本挖掘能力的重要性,千亿级参数的模型(GPT-4,ERNIE Bot)在不同设定下均表现出明显优势,并且随着样本增加,小模型的性能也会提高。此外,通过对比零样本和少样本设定下的能力值,可以观察到在大多数任务中,增加少量的样本示例能够提高大模型的表现,尤其是在对复杂任务,如实体抽取和关键词生成等,更有效。

深度解读
#

指令策略优化
#

本文探讨了大模型在学术文本挖掘任务中的指令策略优化问题,提出了少样本学习思维链推理等策略。实验表明,少样本学习在分类任务中效果不显著,但在信息抽取和文本生成等复杂任务中表现良好。思维链推理则显著提升了模型在推理任务中的表现,尤其是在千亿级参数规模的模型中,准确率提升了14.25%。然而,对于十亿级或百亿级参数规模的模型,指令策略的效果存在明显上限。未来研究应进一步探索如何通过调优端的参数适配,提升模型在科技情报领域的专业能力。

模型能力评测
#

本文构建了一个涵盖文本分类信息抽取文本推理文本生成四个能力维度的学术文本挖掘评测框架。实验结果表明,千亿级参数规模的大模型在指令引导下表现优异,尤其是在推理任务中,GPT-4的准确率达到了55.44%。然而,与传统深度学习模型相比,大模型在推理端的表现仍然较弱,尤其是在关键词生成任务中,F1@5指标仅为11.90%,远低于微调后的T5-Large模型的55.8%。未来研究应结合调优端的参数微调,进一步提升大模型在科技情报领域的专业能力。

推理端与调优端
#

本文提出了大模型在学术文本挖掘中的推理端指令策略调优端微调策略。推理端通过上下文学习思维链推理等策略,挖掘大模型的知识潜力;调优端则通过LoRAP-tuning v2等参数高效微调策略,将大模型的通用能力适配为特定领域的专业能力。实验表明,推理端的指令策略在千亿级参数规模的模型中表现良好,但在十亿级或百亿级参数规模的模型中效果有限。未来研究应结合调优端的参数微调,实现大模型在科技情报领域的深层嵌入。

未来研究方向
#

本文指出了大模型在科技情报领域的未来研究方向。首先,应进一步探索大模型的指令调优策略人类意图对齐策略,提升模型的专业能力。其次,应构建科技情报细粒度解析平台,提供端到端的科技文献智能服务。此外,还需研究大模型在低资源场景下的应用,探索如何通过外部知识库扩展模型输入,提升模型在复杂任务中的表现。这些研究方向将为大模型在科技情报领域的广泛应用提供理论支持和实践指导。

模型参数规模
#

本文研究了不同参数规模的大模型在学术文本挖掘任务中的表现。实验表明,千亿级参数规模的模型(如GPT-4)在推理任务中表现优异,准确率达到了55.44%,而十亿级参数规模的模型(如Alpaca-7B)在复杂任务中的表现较差。随着模型参数规模的增大,上下文学习能力显著增强,尤其是在少样本设定下,模型的表现显著提升。然而,对于十亿级或百亿级参数规模的模型,推理端的指令策略效果有限,未来研究应结合调优端的参数微调,提升模型在科技情报领域的专业能力。

完整论文
#