Skip to main content
  1. 论文/

大型语言模型在预测神经科学结果方面超越人类专家

·4674 words·10 mins
大型语言模型 神经科学 预测实验 BrainBench BrainGPT 科学文献 人类专家 信息处理 科学发现 机器学习
Table of Contents

✏️ Xiaoliang Luo
✏️ Akilles Rechardt
✏️ Guangzhi Sun
✏️ Kevin K. Nejad
✏️ Felipe Yáñez
✏️ Bati Yilmaz
✏️ Kangjoo Lee
✏️ Alexandra O. Cohen
✏️ Valentina Borghesani
✏️ Anton Pashkov
✏️ Daniele Marinazzo
✏️ Jonathan Nicholas
✏️ Alessandro Salatiello
✏️ Ilia Sucholutsky
✏️ Pasquale Minervini
✏️ Sepehr Razavi
✏️ Roberta Rocca
✏️ Elkhan Yusifov
✏️ Tereza Okalova
✏️ Nianlong Gu
✏️ Martin Ferianc
✏️ Mikail Khona
✏️ Kaustubh R. Patil
✏️ Pui-Shee Lee
✏️ Rui Mata
✏️ Nicholas E. Myers
✏️ Jennifer K. Bizley
✏️ Sebastian Musslick
✏️ Isil Poyraz Bilgin
✏️ Guiomar Niso
✏️ Justin M. Ales
✏️ Michael Gaebler
✏️ N. Apurva Ratan Murty
✏️ Leyla Loued-Khenissi
✏️ Anna Behler
✏️ Chloe M. Hall
✏️ Jessica Dafflon
✏️ Sherry Dongqi Bao
✏️ Bradley C. Love

要点总结
#

随着科学文献的指数级增长,人类科学家难以跟上所有相关研究的步伐。神经科学作为一个跨学科领域,研究结果往往分散在成千上万的文献中,且单个研究可能存在噪声或不可重复性。这使得预测实验结果对人类专家来说极具挑战性。为了解决这一问题,研究者提出了利用大型语言模型(LLMs)来整合科学文献中的信息,并预测实验结果的可能性。

研究者开发了BrainBench,一个用于评估LLMs预测神经科学实验结果能力的基准测试。通过对比LLMs和人类专家在BrainBench上的表现,研究发现LLMs在预测实验结果方面显著优于人类专家,平均准确率达到81.4%,而人类专家的平均准确率为63.4%。特别是经过神经科学文献微调的LLM(BrainGPT)表现更为出色。LLMs的高置信度预测往往更准确,这表明未来LLMs可以辅助人类科学家进行科学发现。

关键要点
#

论文重要性
#

这项研究展示了大型语言模型在科学预测中的巨大潜力,特别是在神经科学等知识密集型领域。LLMs能够整合大量文献中的信息,并从中提取出潜在的规律,从而做出比人类专家更准确的预测。这不仅能够加速科学发现的进程,还可能改变科学研究的方式。未来,LLMs可以作为科学家的助手,帮助设计实验、预测结果,甚至发现新的研究方向。此外,该研究还为其他领域的AI应用提供了模板,展示了如何通过微调和基准测试来提升模型的性能。


图表分析
#

LLM评估任务类型
#

🔼 该图展示了两种不同类型的评估任务:回顾性任务和前瞻性任务。图a描绘了一个典型的回顾性评估场景,其中一位老师正在向学生提问,问题是关于“葛底斯堡演说”的发表年份,选项是1862年或1863年。这种类型的任务旨在测试模型对历史事实的记忆和检索能力。相比之下,图b则呈现了一个前瞻性的预测任务场景,两位乒乓球运动员正在比赛,问题是预测下一轮谁更有可能获胜。这种任务要求模型基于过去的表现和相关信息进行推断和预测。该图清晰地表明,传统的评估方法(如MMLU、PubMedQA和MedMCQA)主要关注回顾性任务,而BrainBench则专注于前瞻性任务,评估LLM在预测神经科学实验结果方面的能力。这两种任务类型的对比强调了BrainBench的创新性,它旨在检验LLM能否在科学领域进行前瞻性的推断,而非仅仅是对已知信息的检索。这种前瞻性能力对于科学发现至关重要,因为科学发现往往需要基于现有知识预测新的实验结果。

更多图表分析

BrainBench评估流程
#

🔼 该图展示了BrainBench测试框架的评估流程,这是一个用于评估神经科学预测能力的前瞻性基准。在图中,我们可以看到该测试框架的核心组成部分。首先,在左侧,五个圆圈代表了神经科学的五个主要研究领域:行为/认知、细胞/分子、系统/回路、疾病神经生物学以及发育/可塑性/修复。这表明BrainBench的评估范围涵盖了神经科学的各个方面。接着,中间部分是“前瞻性评估”框架,它包括一个抽象的神经科学研究摘要,该摘要包含背景信息和实验方法。这个摘要被修改成两个版本:原始版本(Finding A)和修改版本(Finding B),二者在结果部分存在差异。评估过程中,神经科学家和大型语言模型(LLMs)的任务是从这两个版本中选择正确的原始版本。在右侧,图示展示了人类专家和LLMs的评估方式。人类专家通过调整滑块来表示其选择的信心和专业知识水平,而LLMs则是基于对两个摘要的困惑度(Perplexity)进行判断,选择困惑度较低的版本作为其预测结果。图中还展示了困惑度的计算结果示例,以及LLMs的置信度计算方式,即两个摘要困惑度之间的差异。整体来看,该图清晰地展示了BrainBench的测试设计,强调了其评估前瞻性预测能力以及比较人类专家和LLMs在神经科学预测方面的表现的关键特点。这个框架通过提供一致的测试流程,为评估LLMs在神经科学领域的潜力提供了有效工具。

LLMs 与人类专家在BrainBench上的表现
#

🔼 该图表由三个子图组成,分别展示了大型语言模型(LLMs)与人类专家在BrainBench测试中的表现,以及测试用例在不同神经科学子领域的分布情况和参与测试的人类专家构成。子图a使用柱状图比较了不同LLMs和人类专家在BrainBench上的准确率。可以看出,所有LLMs的平均准确率显著高于人类专家,这表明LLMs在预测神经科学研究结果方面具有更强的能力。同时,子图a中还显示,基础模型(如Galactica、Falcon、Llama 2和Mistral)的表现普遍优于经过聊天优化的模型,这表明针对自然语言对话进行优化的LLM可能在科学推理任务中表现较差。蓝色虚线和阴影区域表示人类专家的平均准确率和标准误差。子图b使用饼图和雷达图显示了BrainBench测试用例在五个神经科学子领域的分布情况。饼图显示,行为/认知领域的测试用例占比最高,其次是系统/回路、神经疾病和细胞/分子领域。雷达图比较了LLMs和人类专家在各个子领域的平均准确率,可见LLMs在各个子领域均优于人类专家。子图c使用柱状图显示了参与测试的人类专家的学术背景分布情况以及他们在BrainBench测试中的准确率。可以看出,博士生、博士后研究员和教职人员是参与测试的主要人群,他们的准确率相对接近。总体而言,该图表清晰地展示了LLMs在预测神经科学结果方面的优势,并表明了它们在科学研究中应用的潜力。

准确率与置信度校准
#

🔼 该图表展示了人类专家和多个大型语言模型(LLMs)在BrainBench测试中的准确率与置信度之间的关系。图表以柱状图和线性回归线的形式呈现,横轴代表置信度(从低到高),纵轴表示准确率。每个子图代表一个特定的模型或人类专家组,其中柱状图显示了不同置信度区间内的平均准确率,而黑色斜线则表示这些数据点拟合的线性回归线。 从整体上看,图表揭示了一个重要模式:无论是人类专家还是LLMs,当他们对自己的预测更有信心时,其准确率也倾向于更高。这种正相关关系通过回归线的正斜率得以体现,表明这些系统在预测其正确性方面是经过校准的。不同的模型,如Galactica、Falcon、Llama和Mistral系列,都呈现出相似的趋势,这表明大型语言模型在不同的架构和规模下,均能有效地评估其预测的可靠性。 值得注意的是,图表不仅比较了不同模型的性能,也突出了人类专家与机器模型之间的相似之处。所有模型和人类专家都展示了随着置信度增加,准确率也随之提高的趋势,但具体表现各有差异,例如,有些模型在低置信度时仍能保持较高的准确率。此外,不同模型的斜率和散点分布存在细微差别,这可能反映了它们在处理不确定性时的不同方式。该图为理解LLM和人类在预测结果时的置信度提供了直观的依据,并验证了LLM作为科学研究辅助工具的潜力。

LLM微调前后性能对比
#

🔼 该图表展示了大型语言模型(LLM)在微调前后在神经科学知识方面的性能变化。图a为柱状图,对比了模型微调前后的准确率。微调前,模型的准确率为83%,微调后提升至86%,提升了3%。这表明通过在神经科学文献上进行微调,模型在预测神经科学研究结果方面的性能得到了有效提升。图b为密度图,展示了模型在微调前后对正确答案的困惑度(PPL)分布。微调前的PPL分布较为分散,峰值位于PPL值较高的区域,表明模型对神经科学内容理解不足,预测结果的不确定性较高。而微调后,PPL分布向左移动,峰值更加集中在较低的PPL值区域,表明微调后的模型对神经科学文献的理解更加深入,能够更加准确地预测研究结果,其预测结果的不确定性也显著降低。整体而言,这张图清晰地展示了通过LoRA方法,利用神经科学领域的知识对预训练的LLM进行微调,能够显著提升模型在该领域的预测性能和对相关内容的理解能力,同时也显示了LLM在特定领域知识学习上的巨大潜力。

深度解读
#

LLM预测优势
#

本论文通过创建BrainBench这一前瞻性基准测试,评估了大型语言模型(LLMs)在预测神经科学实验结果方面的能力。研究发现,LLMs在预测实验结果的准确性上显著超越了人类专家,平均准确率达到81.4%,而人类专家的平均准确率仅为63.4%。这一结果表明,LLMs能够通过整合大量科学文献中的信息,捕捉到神经科学研究的潜在模式,从而做出更为准确的预测。LLMs的优势在于其能够处理海量且噪声较大的数据,并通过自监督学习生成统计模型,预测未来的实验结果。此外,LLMs在预测时表现出较高的置信度,且其高置信度预测的准确性也更高,这为未来LLMs在科学发现中的辅助作用提供了有力支持。

BrainGPT表现
#

论文中提出的BrainGPT是基于Mistral-7B模型,通过低秩适应(LoRA)技术在神经科学文献上进行微调的LLM。BrainGPT在BrainBench上的表现比未微调的模型提升了3%,显示出其在神经科学领域的专业化能力。LoRA技术通过引入低秩适配器矩阵,仅训练少量参数,便显著提升了模型在特定领域的表现。这一结果表明,LLMs可以通过领域特定的微调,进一步提升其在科学预测中的表现。此外,BrainGPT的成功也为未来在神经科学领域开发更多专业化LLMs提供了参考,展示了LLMs在科学研究和发现中的巨大潜力。

前瞻性基准
#

论文提出的BrainBench是一个前瞻性基准测试,旨在评估LLMs在预测神经科学实验结果方面的能力。与传统的回顾性基准测试不同,BrainBench要求模型从两个版本的摘要中选择正确的实验结果,这一任务更具挑战性,因为它要求模型具备对未来实验结果的预测能力。研究发现,LLMs在这一任务上的表现优于人类专家,尤其是在整合摘要中的背景和方法信息时,LLMs的表现尤为突出。BrainBench的成功不仅为评估LLMs的前瞻性能力提供了新工具,还为未来在其他知识密集型领域开发类似基准测试提供了模板

LLM与人类互补
#

论文指出,LLMs与人类专家在预测神经科学实验结果时表现出互补性。虽然LLMs在整体准确性上优于人类专家,但人类专家在某些特定领域的知识和经验仍然具有不可替代的价值。研究发现,LLMs和人类专家在面对不同难度的测试项目时,表现出的困难点并不完全一致,这种互补性为未来构建人机协作的科学发现系统提供了可能性。通过结合LLMs的高效数据处理能力和人类专家的领域知识,科学研究的效率和准确性有望得到进一步提升。

未来研究方向
#

论文提出了多个未来研究方向,其中最值得关注的是如何进一步提升LLMs在科学预测中的表现。首先,可以通过持续更新LLMs的训练数据,确保其能够跟上科学文献的快速增长。其次,可以探索更多领域特定的微调技术,如LoRA,以提升LLMs在特定领域的表现。此外,未来的研究还可以关注如何将LLMs与检索增强生成(Retrieval-Augmented Generation)等技术结合,进一步提升其在科学发现中的实用性。这些研究方向的探索将为LLMs在科学领域的广泛应用奠定基础,并推动科学研究的自动化和智能化发展。

完整论文
#