要点总结 #
随着智能体在人类生活中的应用越来越广泛,可解释性成为了提升人类与智能体互动信任和效率的关键因素。然而,当前的可解释性研究缺乏标准化的评估方法,导致不同方法的效果难以比较。本文通过一项大规模用户研究(n=286),首次全面评估了多种可解释性方法(如特征重要性、决策树、反事实推理等)对人类与智能体互动的影响。研究结果表明,可解释性与信任、社会能力和任务表现显著相关,尤其是反事实解释和基于案例的解释被认为更具可解释性。
本文提出了一个新的问卷来衡量人类对可解释性的主观评价,并通过因子分析将其简化为三个维度:透明度、可用性和可模拟性。研究还发现,置信度分数在可解释性方面表现最差,而反事实解释则显著优于无解释的情况。这些发现为未来的可解释性研究提供了重要指导,强调了在设计和评估可解释性方法时,标准化评估工具的重要性。
关键要点 #
论文重要性 #
这项研究为可解释性人工智能(xAI)领域提供了重要的实证数据,揭示了不同可解释性方法对人类与智能体互动的影响。研究结果表明,可解释性不仅能够提升人类对智能体的信任和社会能力感知,还能改善任务表现。这些发现为未来的xAI系统设计提供了指导,尤其是在需要人类与智能体紧密合作的领域(如医疗、自动驾驶等)。此外,本文提出的可解释性问卷为未来的研究提供了标准化的评估工具,有助于推动xAI领域的进一步发展。
图表分析 #
研究流程图 #
🔼 该图是一个流程图,概述了该研究的实验设计。流程从左到右依次为:1. 筛选、人口统计和预热阶段:参与者首先完成筛选,提供人口统计信息,并进行预热练习,旨在让他们熟悉研究环境和任务。2. 条件分配:参与者被随机分配到八种不同的解释性人工智能(xAI)方法中的一种,其中包括决策树、反事实解释、模板语言、特征重要性、概率分数、众包解释、基于案例的解释以及无解释。3. xAI辅助问卷:参与者根据所分配的条件,在虚拟机器人的辅助下完成问卷,这个过程中会给出问题情境描述、机器人建议以及不同形式的解释。参与者同时需要对机器人建议的理解程度和认同度进行评分。4. 信任、感知和xAI调查:最后,参与者完成关于信任、感知和xAI的调查问卷,以评估不同xAI方法对信任度、感知和社会能力的影响。整个实验流程旨在评估不同xAI方法在人类与人工智能互动中的影响。图中用不同的颜色表示不同的xAI方法,并用箭头连接不同的步骤,清晰地展示了整个研究的实验流程。这个流程设计确保了在控制其他变量的前提下,可以比较不同xAI方法对用户的影响。具体来说,它首先确保参与者熟悉实验环境和任务,然后通过随机分配来减少偏差,最后通过调查问卷收集数据来评估不同方法的有效性。研究者使用该流程旨在量化不同xAI方法对信任、绩效、及社会认知的影响,并对比各种xAI方法在实际使用中的效果。
更多图表分析
不同解释方法示例 #
🔼 本图展示了论文中使用的七种不同的可解释人工智能(XAI)方法,以及一个无解释的基线条件。每种方法都旨在以不同的方式解释人工智能的决策过程,以帮助用户理解。具体来说,这些方法包括:
- 众包解释(Crowd Sourced): 这种方法以自然语言的形式展示专家对答案的意见,如“85%的专家选择了攻击者”。
- 模板化语言(Templated Language): 这种方法提供一个简洁的自然语言解释,指出模型决策的关键因素,如“我将球员的加速度纳入考虑,以决定球员是攻击者”。
- 反事实解释(Counterfactual): 这种方法描述了改变输入会导致的不同决策结果,例如“如果球员的力量和跳跃能力有所提高,我会建议选择防守队员”。
- 基于案例的解释(Case Based): 此方法展示了与当前情况相似的训练数据示例,从而使用户了解模型如何进行分类。
- 概率分数(Probability Scores): 此方法以表格形式列出每个答案选项的概率,以显示模型的不确定性。
- 决策树(Decision Tree): 这是一种图形化流程图,展示了“真/假”检查的级联,可用于推导决策路径。
- 特征重要性(Feature Importance): 此方法列出了输入样本中对分类最重要的特征,以及对应的分数。
这些不同的解释方法,旨在通过不同的方式提高用户对人工智能决策的理解和信任。其中,概率分数被证明是最难理解的方式,而基于语言和案例的解释方式更容易被用户接受。研究结果表明,可解释的AI方法可以有效地提高人类对人工智能的信任,并对人机协同的性能产生积极影响。

不同解释性方法与性能关系 #
🔼 这张图表展示了研究中不同解释性人工智能(xAI)方法对人类与代理互动的影响。它由四个子图组成,分别探讨了解释性(Explainability)、信任(Trust)、社交能力(Godspeed)以及正确答案数量(Number Correct)之间的关系。 子图(a)显示了解释性与社交能力之间的关系,使用Godspeed量表来衡量。可以看到,随着解释性评分的增加,社交能力评分也呈现上升趋势,相关系数R=0.43,且p值小于0.0001,表明二者之间存在显著的正相关关系。图中的散点表示不同xAI条件下参与者给出的具体评分,并用不同颜色进行了区分。 子图(b)展示了解释性与信任之间的关系。类似于子图(a),信任评分随着解释性评分的增加而上升,相关系数R=0.56,p值小于0.0001,再次表明了显著的正相关关系。这意味着,参与者对解释性更高的系统也更信任。 子图(c)考察了解释性与任务表现(正确答案数量)之间的关系。图表显示,随着解释性评分的增加,正确答案的数量也略有上升的趋势。相关系数R=0.15,p值为0.01,表明二者之间存在微弱但显著的正相关性。 子图(d)显示了信任与任务表现(正确答案数量)之间的关系,相关系数R=0.15,p值为0.012,也呈现出微弱但显著的正相关性。 总的来说,这张图表表明,解释性在人类与AI的互动中扮演着关键角色。提高解释性不仅能够提升用户对系统的信任感,还能使用户对系统的社交能力感知更佳,并且略微提高任务表现。然而,需要注意的是,即使在解释性评分较低的情况下,任务的正确率也有一定的波动范围,表明正确率的影响因素是多方面的,解释性并不是唯一的决定性因素。此外,不同xAI方法(如特征重要性、决策树、自然语言等)在图表中通过不同颜色表示,但这些方法在四个子图中的分布较为分散,暗示了不同xAI方法在这些指标上的表现存在差异,但这种差异并不足以导致显著的统计差异,该研究的重点是解释性对其他指标的相关性而不是不同方法之间的差异。这些发现强调了在设计人机交互系统时,应充分考虑AI的解释性,以建立更可靠、更有效的AI系统。

xAI 评分对比 #
🔼 该图展示了不同解释性人工智能(xAI)方法在用户评分上的差异。横轴代表不同的xAI方法,包括反事实解释(Counterfactual)、案例解释(Case Based)、模板语言解释(Templated Language)、特征重要性解释(Feature Importance)、众包解释(Crowd Sourced)、决策树解释(Decision Tree)、无解释(Nothing)以及概率分数解释(Probability Scores)。纵轴是xAI的评分,代表用户对这些解释方法的理解程度和认可度。图中每个柱状图的高度表示相应xAI方法的平均评分,误差条表示评分的标准差。星号(*)表示统计显著性差异,其中一个星号表示p<0.05,三个星号表示p<0.001。从图中可以看出,反事实解释(Counterfactual)获得的xAI评分最高,显著高于无解释(Nothing)和概率分数解释(Probability Scores)方法。案例解释(Case Based)、模板语言解释(Templated Language)、特征重要性解释(Feature Importance)和众包解释(Crowd Sourced)的得分也相对较高,但彼此之间没有显著差异。决策树解释(Decision Tree)的得分略低于上述几种方法,但仍显著高于概率分数解释(Probability Scores)。概率分数解释(Probability Scores)的得分最低,显著低于所有其他方法,表明用户对这种解释方式的理解度最差。值得注意的是,无解释(Nothing)条件下用户的评分也高于概率分数解释,这可能表明仅提供数字概率的方式对用户理解帮助不大,甚至可能产生负面影响。总的来说,自然语言解释和案例解释对用户来说更容易理解和接受,而纯数字或表格形式的概率解释则效果较差。此图的结果支持了研究中提出的观点,即不同的xAI方法在用户体验和理解上存在显著差异,强调了选择合适xAI方法的重要性。

不同解释方法下的可解释性得分 #
🔼 该图为堆叠柱状图,展示了在不同可解释人工智能(XAI)方法下,用户对透明度、可模拟性和可用性的评分。横轴代表不同的XAI方法,包括反事实解释(Counterfactual)、基于案例的解释(Case Based)、模板化语言解释(Templated Language)、特征重要性解释(Feature Importance)、众包解释(Crowd Sourced)、决策树解释(Decision Tree)、无解释(Nothing)以及概率分数解释(Probability Scores)。纵轴表示“Reduced xAI Score”,即简化后的XAI问卷得分,得分越高代表可解释性越强。每个柱状图被分成三部分,分别代表透明度(蓝色)、可模拟性(棕色)和可用性(绿色)的得分。柱状图上方星号(*)表示在统计学上存在显著性差异。从图中可以观察到,反事实解释在透明度、可模拟性和可用性方面均获得了较高的评分,总分最高。基于案例的解释和模板化语言解释也表现出较好的可解释性。而概率分数解释在所有维度上的得分都显著低于其他方法,其总分也是最低的,表明用户认为概率分数作为一种解释方法的可解释性最差。此外,虽然“无解释”方法在透明度和可模拟性上得分较低,但其可用性得分与其他部分方法相当,这可能表明用户在没有明确解释的情况下,仍然能够根据自己的理解完成任务。值得注意的是,反事实解释和概率分数解释之间存在显著差异。反事实解释通过提供与当前决策不同的假设情景,让用户更容易理解模型的决策逻辑,从而提高了透明度、可模拟性和可用性。相反,概率分数解释仅仅显示了模型对每个答案的置信度,并没有提供足够的信息来解释模型是如何做出决策的,因此可解释性最差。这表明,仅仅提供模型输出的置信度并不能有效提高用户的理解能力。此图支持了论文中提出的观点,即并非所有XAI方法都能有效地提高用户的理解和信任,强调了选择合适的XAI方法的重要性。对于需要向用户解释模型决策逻辑的应用场景,反事实解释、基于案例的解释和模板化语言解释可能是更好的选择,而概率分数解释则应慎重使用。未来的研究可以进一步探索不同XAI方法在不同应用场景下的效果,并开发更有效的用户友好型可解释性方法。

不同解释方法的可理解性和一致性 #
🔼 该图表展示了在用户研究中,不同解释方法对可理解性和用户与代理一致性的影响。图(a)显示了不同解释方法的可理解性评分,其中横轴代表不同的解释条件,纵轴代表可理解性评分。我们可以清晰地看到,‘概率分数’(Probability Scores)条件的可理解性评分显著低于其他所有条件,这表明用户对直接呈现概率分数的方式理解起来较为困难。此外,‘无解释’(Nothing)条件的可理解性也较低,但优于’概率分数’条件。相比之下,‘基于案例’(Case Based)和’众包’(Crowd Sourced)条件的可理解性评分最高,表明用户更倾向于理解基于案例和由众包形式提供的解释。图(b)则展示了不同解释条件下的用户与代理的一致性评分,‘决策树’(Decision Tree)条件的一致性评分略高于’特征重要性’(Feature Importance)条件,但总体而言,各条件之间的差异并不显著。
图表中的星号表示统计显著性差异,其中***代表p<0.001,**代表p<0.01,*代表p<0.05。从图中可以看出,‘概率分数’条件与几乎所有其他条件都存在显著差异,这进一步印证了其解释效果较差的结论。反之,‘基于案例’和’众包’条件不仅在可理解性上表现出色,且与用户的理解度更高,这意味着在设计人机交互系统时,应尽量避免使用直接的概率分数作为解释,而更多地采用用户容易理解的自然语言或案例形式。该图表强调了可理解性在解释性人工智能中的重要性,并提供了在选择解释方法时需要考虑的关键因素。

xAI方法与信任度,社交能力的相关性 #
🔼 该研究旨在评估不同可解释人工智能(xAI)方法对人机协作中信任、社会能力和性能的影响。研究采用了多种xAI方法,包括模板语言、反事实解释、决策树、概率评分、众包解释、基于案例的推理以及特征重要性,并与没有解释的基线条件进行对比。研究结果表明,解释性与信任度(p < 0.0001)、社会能力(p < 0.0001)和性能(p = 0.01)均显著相关。此外,反事实解释被评为比概率评分更具解释性(p < 0.01)。研究还提出了一个用于衡量人类参与者对解释性的感知的调查问卷,该问卷与人机协作指标相关。 从图表来看,不同的xAI方法在信任度和社交能力方面表现出一定的差异。具体而言,案例推理方法在信任度和社交能力方面表现略优于其他方法。值得注意的是,概率分数方法在解释性方面显著低于其他方法,这表明仅提供概率信息可能不足以帮助用户理解人工智能的决策过程。反事实解释也被证明具有较高的解释性,这表明提供“如果…会怎样”的假设情境有助于用户更好地理解决策背后的逻辑。 研究的关键发现是,可解释性对人机协作至关重要。提高解释性不仅能增强用户对系统的信任,还能提高用户对系统的理解和接受程度,从而提升团队的整体表现。此外,该研究提出的问卷为未来研究提供了一种量化评估解释性的工具,这将有助于推动xAI领域的发展。总的来说,这项研究为如何设计更有效、更值得信赖的人工智能系统提供了有价值的见解,并强调了在人机协作中考虑人类认知的关键性。

理解度与同意度散点图 #
🔼 该图为理解度与同意度散点图,展示了不同解释方法下用户对智能体建议的理解程度和同意程度之间的关系。图中每个点代表一个用户在特定解释方法下的理解度和同意度评分。横轴代表用户对智能体解释的理解程度(Understandability),纵轴代表用户对智能体建议的同意程度(Agreement)。散点图上的点根据不同的解释方法进行了颜色编码,例如,‘Probability Scores’用深蓝色表示,‘Counterfactual’用绿色表示,‘Feature Importance’用紫色表示等等。整体来看,图中数据点呈现明显的正相关关系,拟合的回归线表示理解度和同意度之间存在较强的正向线性关系,相关系数 R 为 0.79,且统计显著(p < 0.0001)。这表明用户对智能体解释的理解程度越高,他们越倾向于同意智能体的建议。散点图中的点分布较为分散,表明即使在理解度相似的情况下,用户的同意度也会存在差异,这可能受到个人偏好或其他因素的影响。颜色编码的点显示,不同解释方法下,理解度和同意度的分布范围略有不同,但总体趋势是相似的。例如,虽然’Probability Scores’(深蓝色)的点大多集中在较低的理解度和同意度区域,但仍有一些点分布在较高区域。‘Counterfactual’(绿色)和’Templated Language’(棕色)的点则相对分布较均匀,涵盖了不同理解度和同意度水平。该图强调了理解度在影响用户对智能体信任和接受度方面的重要性,暗示了设计清晰易懂的解释方法对提升人机协作效率至关重要。此外,需要进一步分析不同解释方法在理解度和同意度上的差异,以优化解释方法的选择和设计。

深度解读 #
xAI与信任 #
本论文通过大规模用户研究(n=286)首次量化了**可解释人工智能(xAI)**对人与代理团队中信任的影响。研究发现,xAI的可解释性与用户对代理的信任度显著相关(p < 0.0001)。具体而言,用户认为解释性越强的代理越值得信任。然而,研究也发现,不同的xAI方法在信任度上没有显著差异,这意味着无论使用哪种解释方法,用户对代理的信任度都保持相对一致。这一发现挑战了传统观点,即某些解释方法(如自然语言解释)可能比其他方法(如决策树)更值得信赖。未来的研究应进一步探讨如何通过个性化解释方法来增强用户信任,尤其是在不同领域和应用场景中。
xAI与性能 #
论文通过实验发现,xAI的可解释性与任务完成准确性显著相关(p = 0.01)。具体而言,用户在使用解释性更强的代理时,任务完成的准确性更高。此外,信任度与任务准确性也呈正相关(p = 0.012),这表明用户对代理的信任度越高,任务表现越好。然而,研究并未发现不同xAI方法在任务完成时间上的显著差异,这表明增加解释性并不会显著降低任务效率。这一发现为xAI的实际应用提供了重要启示:在保持效率的同时,增加解释性可以显著提升任务表现。未来的研究可以进一步探讨如何在复杂任务中优化xAI的解释性,以最大化性能提升。
xAI与社会感知 #
研究还发现,xAI的可解释性与用户对代理的社会能力感知显著相关(p < 0.0001)。具体而言,用户认为解释性越强的代理在社会能力(如友好性、智能性等方面)表现越好。然而,不同xAI方法在社会能力感知上没有显著差异,这表明代理的外观和沟通方式可能比解释方法本身对社会感知的影响更大。这一发现为未来的xAI设计提供了重要启示:在提升解释性的同时,代理的外观和沟通方式也应得到重视,以进一步增强用户对代理的积极感知。未来的研究可以进一步探讨如何通过多模态交互(如语音、表情等)来增强代理的社会能力感知。
xAI方法比较 #
论文通过对比七种不同的xAI方法(包括案例推理、决策树、特征重要性、概率分数、反事实解释、自然语言解释和众包解释),发现概率分数方法在解释性上显著低于其他方法(p < 0.01)。具体而言,用户认为概率分数提供的解释不够直观,难以理解。相比之下,反事实解释和自然语言解释在解释性上表现最佳,用户认为这些方法更容易理解和使用。这一发现为xAI的设计提供了重要指导:在设计解释方法时,应优先考虑用户的理解能力,避免使用过于复杂或抽象的解释形式。未来的研究可以进一步探讨如何优化概率分数等方法的解释性,使其更符合用户的需求。
未来研究方向 #
论文提出了多个未来研究方向,其中最重要的是如何通过个性化解释方法来增强用户信任和任务表现。研究指出,当前的xAI方法在信任度和任务表现上没有显著差异,这表明未来的xAI系统可能需要根据用户的偏好和需求进行个性化设计。此外,如何减少用户对代理的过度依赖也是一个重要的研究方向。研究发现,即使用户不同意代理的建议,他们仍然可能接受错误的建议,这表明xAI系统需要设计机制来提醒用户代理的局限性。未来的研究还应进一步验证论文提出的xAI调查问卷,以确保其在不同领域和用户群体中的普适性。
完整论文 #



































