Skip to main content
  1. 论文/

利用最大化区分掩码实现忠实问答的机器阅读

·3793 words·8 mins
机器阅读问答 忠实性 最大化区分掩码 语言知识 世界知识 证据 事实性 预训练语言模型
Table of Contents

✏️ Dong Li
✏️ Jintao Tang
✏️ Pancheng Wang
✏️ Shasha Li
✏️ Ting Wang

要点总结
#

尽管大型语言模型(LLMs)在问答任务中取得了显著进展,但如何提高模型的忠实性和事实准确性仍然是一个重要挑战。 本文通过对比语言知识和世界知识,发现语言知识相对稳定,而世界知识中的一部分则不稳定。因此,作者提出了一种新的概念——不依赖外部不稳定世界知识的可回答性(AUKE),并基于此定义了证据的概念,用于评估问答系统的忠实性。通过自动化和人工结合的方法,作者扩展了两个中文问答数据集CMRCFF和DRCDFF,以支持基于证据的忠实性评估。

为了减少不稳定世界知识对模型输出的影响,本文提出了最大化区分掩码(MDM)方法。 MDM通过屏蔽最具区分度的词,减少模型对不稳定世界知识的依赖,从而提高模型的事实性和忠实性。实验结果表明,MDM方法在微调和少样本设置下均能有效提升模型的性能。特别是在知识冲突的情况下,MDM方法能够显著提高模型对文本知识的忠实性,确保模型输出与给定文本一致。

关键要点
#

论文重要性
#

本文的研究对于提升问答系统的忠实性和事实准确性具有重要意义。 随着大型语言模型的广泛应用,模型输出的可靠性和可信度成为关键问题。本文提出的AUKE概念和MDM方法为评估和提升模型忠实性提供了新的思路和工具。特别是在知识冲突的情况下,MDM方法能够有效减少模型对不稳定世界知识的依赖,确保模型输出与给定文本一致。未来研究可以进一步探索如何自动区分语言知识、稳定世界知识和不稳定世界知识,从而实现更精确的掩码策略。


图表分析
#

语言知识和世界知识示例
#

🔼 图 1 展示了语言知识和世界知识的例子。文章指出语言知识通常不涉及对客观世界的理解,而世界知识是对客观世界的认知。语言知识是人们有效理解和使用语言所必需的,包括语法、语义、语用等语言特有的要素。世界知识则是在相同知识背景下有效交流所必需的,包括个人经验、文化背景、社会互动、科学知识等。虽然两者界限模糊,但语言知识相对稳定,而世界知识既有稳定部分也有动态部分,并会随着世界发展和人类认知的改变而变化。图中示例表明,‘A is B’这类结构中的‘is’和疑问句中的‘?’属于语言知识,而对“足球运动员”的理解和认知属于世界知识。图例强调了语言知识和世界知识在问答任务中的作用,并指出世界知识又可以分为稳定和不稳定的部分。其中,关于过去、个人和不涉及价值判断的世界知识通常比较稳定,而关于现在、集体和涉及价值判断的世界知识则更易变化。这种区分对于理解问答系统的可靠性至关重要,因为模型应该尽可能利用文章中的文本知识,而非依赖预训练模型中可能不准确或过时的参数化知识。

更多图表分析

知识类型示例图
#

🔼 这张图表展示了语言知识和世界知识的示例,并通过一系列陈述和逻辑推导,阐述了它们在自然语言理解中的作用。图表主要分为三个区域,用红蓝渐变色区分,左侧为世界知识的真假判断,中间为世界知识的事实陈述,右侧为语言知识的逻辑推导和语法符号。左侧列举了关于人物、事物和国家的一些陈述,其中一些被打上了“X”表示错误,一些打上了勾表示正确,以此表明世界知识的真伪需要根据客观事实判断;中间部分列举了一些客观事实的陈述,如太阳系行星数量、食物属性、物理定律以及职业等,这些陈述构成世界知识的一部分;右侧区域展示了语法的符号、时间方位词、以及一系列逻辑推导,例如“A is B & Is A B ? → Yes”等。这个区域旨在说明语言知识的运用,包括语法和逻辑的结构。图表的核心思想是通过对比这三个区域,强调世界知识与语言知识的区别与联系。世界知识涉及对客观世界的认知,并且会随着时间变化。而语言知识则是一种相对稳定的系统,包括语法和逻辑规则。这种区分对于自然语言处理任务至关重要,有助于模型更好地区分和利用不同类型的知识,从而更准确地理解和生成语言,并且减少因为使用不可靠的世界知识而产生的错误。图表清晰地展示了语言和世界知识的概念,可以有效地帮助读者理解这两种知识类型在信息处理中的作用和区别。

MDM算法示例
#

🔼 该图展示了最大化区分掩码(MDM)算法的工作流程。该算法旨在通过选择性地掩盖文本中的某些词语,以减少模型对预训练语言模型中不稳定世界知识的依赖,从而提高问答系统的准确性和可靠性。该流程从原始段落和问题开始,首先过滤掉常见的停用词和逻辑词汇,然后计算剩余词语的 TF-IDF 值,以确定最具区分度的词语。图中展示了“雨润集团”如何被选为掩码词的过程。具体来说,步骤1筛选出语言知识相关的词汇;步骤2从段落和问题中提取短语;步骤3筛选出段落和问题共有的短语;步骤4计算这些短语的TF-IDF值;步骤5利用计算出的TF-IDF值筛选出掩码词,并用符号替换原文中的掩码词,从而获得新的段落和问题。在图示的例子中,“雨润”被选择作为掩码词,并在新的段落和问题中被替换为。这种方法鼓励模型更加依赖于段落中的文本知识,而不是其预训练参数中可能不准确或过时的世界知识。通过这种方式,MDM 算法试图引导模型给出更忠实于给定文本的答案,从而增强其回答的可靠性。该图清楚地展示了该算法的每一步操作,突出了其在提高问答系统性能方面的关键作用。通过对文本中关键信息的掩码,该方法不仅提高了答案的准确性,还增加了模型对文本上下文的依赖,使其对知识冲突的情况处理得更加稳健。这一系列步骤都表明该方法旨在通过减少对外部世界知识的依赖,来提升模型的性能和可靠性。

M-F实验模板示例
#

🔼 该图展示了M-F实验的提示模板示例,其中包含了英文和中文两种语言的说明。模板的核心思想是要求模型根据给定的文章(Passage)和问题(Question),抽取出文章中片段作为答案(Answer),并提供答案的出处(Source),即支持答案的原文片段。在英文部分,给出了李呈瑞的例子,说明了如何根据文章内容回答问题。中文部分则给出了相同的提示,并用李呈瑞和苏镜宇的例子进行说明。从示例中可以看到,模型被要求从文章中提取关键信息作为答案,并明确指出答案在文章中的位置,这强调了答案的抽取性和可追溯性。通过这种方式,模型不仅需要给出答案,还要提供证据来支持答案的真实性。这种方法鼓励模型减少外部知识的干扰,更加依赖于文章本身的信息来完成问答任务。这样的设计有助于评估模型的忠实性(faithfulness),确保其答案来源于给定的文本内容,而非模型本身的知识或推测。该模板的应用旨在提高问答系统的可靠性和透明度,使得用户可以更好地理解模型的推理过程。

深度解读
#

AUKE与证据
#

论文提出了AUKE(Answerable without relying on unstable world knowledge external to the passage)的概念,用于判断一个问题是否可以在不依赖预训练语言模型中的不稳定世界知识的情况下回答。基于AUKE,论文进一步定义了证据(evidence),即支持AUKE的最简子串。通过引入证据,论文提出了一种新的QAMR任务的忠实性评估指标。证据的引入不仅帮助用户判断答案的可信度,还为模型的忠实性评估提供了量化标准。论文还通过自动化和人工结合的方法,扩展了CMRC 2018和DRCD数据集,生成了支持证据标注的CMRCFF和DRCDFF数据集,为后续的忠实性研究提供了数据支持。

MDM方法
#

为了减少模型对不稳定世界知识的依赖,论文提出了**最大化区分掩码(Maximizing Discrimination Masking, MDM)**方法。MDM通过掩码具有最高区分度的词语,避免模型依赖预训练语言模型中的不稳定世界知识。MDM的核心思想是通过掩码操作,迫使模型更多地依赖文本中的语言知识和稳定世界知识。实验结果表明,MDM方法在微调和少样本设置下均能有效提高模型的事实性和忠实性。特别是在知识冲突的情况下,MDM显著提高了模型对文本的忠实性,减少了模型对不稳定世界知识的依赖。

知识冲突
#

论文通过实验研究了模型在知识冲突情况下的表现,即当预训练语言模型中的参数化知识与文本中的知识不一致时,模型的回答是否忠实于文本。实验结果表明,尽管模型在大多数情况下能够忠实于文本,但在某些情况下,模型仍然会优先依赖预训练语言模型中的不稳定世界知识。通过MDM方法,模型在知识冲突情况下的忠实性得到了显著提升,几乎在所有测试案例中都能够忠实于文本。这表明MDM方法在减少模型对不稳定世界知识的依赖方面具有显著效果。

忠实性评估
#

论文提出了一种基于证据的忠实性评估方法,用于衡量模型输出是否忠实于给定的文本。忠实性评估不仅关注答案的准确性,还关注模型是否能够提供支持答案的证据。通过引入证据,用户可以在最小成本下判断模型输出的可信度。实验结果表明,要求模型输出证据不仅有助于忠实性评估,还能提高模型的事实性。特别是在MDM方法的加持下,模型在忠实性和事实性评估中的表现均有所提升。这表明,证据的引入和MDM方法的结合为QAMR任务的忠实性评估提供了一种有效的解决方案。

未来研究方向
#

论文指出了未来研究的几个方向,其中最值得关注的是如何自动区分语言知识、稳定世界知识和不稳定世界知识。由于这三者之间的界限模糊,目前仍然依赖人工判断。未来的研究可以探索更精确的掩码方法,以减少对不稳定世界知识的依赖,同时避免对稳定世界知识和语言知识的过度掩码。此外,如何进一步提高模型在知识冲突情况下的忠实性也是一个重要的研究方向。通过更精细的掩码策略和更强大的语言模型,未来的研究有望在QAMR任务中实现更高的忠实性和事实性。

完整论文
#