要点总结 #
面部表情的动态性在情感感知研究中至关重要,但真实视频的标准化和操控存在困难。动态变形虽然可以控制面部运动,但缺乏自然的面部动态。本研究比较了真实视频、动态变形和深度伪造三种方式生成的面部表情,探讨人类如何感知这些表情。结果表明,动态变形的表情被认为强度较低,且在某些情感(如快乐和悲伤)中显得不够真实,而深度伪造与真实视频的表现相似。
研究通过实验发现,深度伪造技术在情感表达的自然性和强度上与真实视频表现相似,而动态变形则被认为不够自然。深度伪造能够捕捉到自然的面部运动,使其成为面部感知研究中更具潜力的替代方案。此外,研究还使用ChatGPT对参与者的定性数据进行分析,发现动态变形被认为比深度伪造和真实视频更不自然。这些发现支持了深度伪造在情感感知研究中的潜在应用价值。
关键要点 #
论文重要性 #
这项研究为情感感知研究提供了新的工具和方法,表明深度伪造技术能够有效替代真实视频,提供更可控的实验刺激。深度伪造的广泛应用可能对广告、政治和社会媒体等领域产生深远影响,尤其是在情感表达的真实性和可信度方面。未来研究可以进一步探索深度伪造在复杂情感表达中的应用,并关注其在跨文化背景下的表现。
图表分析 #
不同 Deepfake 方法对比 #
🔼 该图展示了四种不同的面部替换方法,用于生成Deepfake视频,分别是“局部面部交换”,“整体面部交换”,“整体头部替换”和“木偶式Deepfake”。这些方法在替换面部的范围和方式上有所不同,通过不同的颜色区域进行了标记。第一种方法 “局部面部交换” 仅替换了眼睛和嘴巴周围的面部区域;第二种方法 “整体面部交换” 替换了整个面部,但保留了头发和颈部等周围区域;第三种方法 “整体头部替换” 替换了整个头部,包括了面部、头发和部分颈部;第四种方法 “木偶式Deepfake” 方法则替换了整个头部,包括头发、颈部和肩膀,并采用更自然的过渡方式,使得替换后的头部与身体融合的更好。本图旨在说明在Deepfake技术中,面部替换的不同方法对最终生成效果的影响,并为读者直观地展示了不同方法在操作和视觉上的差异。该图有助于读者理解各种Deepfake方法的原理和应用场景。它也强调了在生成 Deepfake 时,选择合适的替换方法非常重要,因为不同的方法会影响Deepfake的真实感和可信度。研究者可以根据研究需求选择合适的方法来生成Deepfake,例如,研究面部表情时可以采用“木偶式 Deepfake”,以确保面部和颈部的协调性,研究面部特征时可以选择“整体面部交换”或“局部面部交换”,以更精确地控制替换区域。
更多图表分析
动态人脸表情生成示意图 #
🔼 该图为动态人脸表情生成的示意图,展示了从初始帧(First frame)到最终帧(Last frame)的表情变化过程。图中通过绿色标记点标出了人脸的关键特征点,这些点在后续的表情动态变形中起到定位作用。第一帧显示了人脸的初始中性表情,最后帧则表现出恐惧的表情。中间帧“Frame 10/20” 展示了表情变化过程中的一个过渡状态。三帧分别被标注为“First frame”,“Frame 10/20”和“Last frame”。
图中虚线箭头表示动态变形的路径,即从初始帧到最终帧的过渡。这种动态变形技术旨在通过在两个静态图像之间插入中间帧来模拟真实的面部表情变化,常用于心理学研究中,以探究人们如何感知和识别动态表情。 然而,研究表明,这种方法生成的动态变形表情可能缺乏自然性,与真实视频中的表情存在差异。这促使研究者探索更先进的技术,如深度伪造,来生成更逼真的动态人脸表情。该图清晰地展示了动态变形过程的基本原理,为理解相关研究提供了直观的视觉参考。

Deepfake生成流程示意图 #
🔼 该图展示了论文中使用的“puppetry” deepfake的生成过程。此图由三个并排的图像构成,分别标记为“Source 5th frame”(源第五帧)、“Destination 5th frame”(目标第五帧)和“Deepfake 5th frame”(Deepfake第五帧)。顶部的两个图像分别代表用于生成deepfake的源视频和目标视频的第五帧,它们均显示了同一个年轻女性的面部,但表情和光线条件略有不同。源图像中的女性面部朝前,表情较为放松,目标图像中的女性则呈现出轻微的笑容,颜色偏蓝。底部的图像是生成的deepfake,它采用了源图像中女性的面部特征,并将其与目标图像中的表情和动态特征结合。这三张图像之间用虚线连接,表明了deepfake生成的过程,即通过源图像的面部信息和目标图像的动态信息生成新的deepfake图像。图中的标签框清晰地标识了每个图像的角色和来源,有助于理解整个deepfake的生成过程。此图是论文中描述deepfake技术如何用于实验的重要辅助,有助于理解该研究方法。该图主要用于说明,作者是如何使用源视频和目标视频来生成最终用于实验的deepfake视频,展示了deepfake技术的具体应用以及如何确保其自然度。通过这种方式,研究者旨在创建能够尽可能真实地模拟人类表情的动态面部刺激,以便进行更准确的情绪感知研究。此图有助于读者理解deepfake生成的过程,有助于后续对实验结果的分析和理解。此图对理解论文中关于deepfake技术使用以及验证该技术在情绪感知研究中的有效性具有重要意义。

实验流程示意图 #
🔼 该图为实验流程示意图,展示了实验中每个试次的具体步骤和时间轴。整个试次从一个持续 400 毫秒的注视点开始,该注视点以一个加号“+”的形式呈现。随后,呈现一个静态的中性面孔图像,持续 200 毫秒。接下来,播放一个动态的面部表情序列,持续 800 毫秒,展示表情从开始到高潮的演变过程。该动态序列之后,呈现一个静态的峰值表情图像,持续 200 毫秒。紧接着,参与者需要对所呈现的面部表情进行两项评分。首先,参与者需要评估表情的强度,使用一个五点李克特量表,从“完全不强 (1)”到“非常强 (5)”,中间点为“中等 (3)”。其次,参与者需要评估表情的真实性,同样使用一个五点李克特量表,从“不真实 (1)”到“非常真实 (5)”,中间点为“有些真实 (3)”。两个量表均使用不同的颜色渐变方案,以区分其评分,这有助于参与者更直观地理解每个选项的含义。整个实验流程旨在探索参与者对不同面部表情的感知,特别是表情的强度和真实性。通过这种精确控制的实验设计,研究者可以量化不同类型表情刺激对人类情绪感知的影响,并研究不同表情在动态呈现时的差异性。

不同表情强度评分 #
🔼 该图展示了在不同情绪(愤怒、恐惧、快乐、悲伤)下,参与者对不同类型的动态面部表情刺激(视频V、动态变形M、深度伪造D)的强度评分。评分标准为1到5,其中1代表“非常弱”,5代表“非常强”。图表以箱线图形式呈现,每个箱线图的中心线代表中位数,箱子的上下边缘代表第一四分位数和第三四分位数,须线代表数据的范围,分布图展示了数据的分布情况。
分析显示,对于所有情绪,动态变形(M)的强度评分均低于视频(V)和深度伪造(D)。具体来说,在恐惧、快乐和悲伤情绪下,视频(V)和深度伪造(D)的评分显著高于动态变形(M),且视频和深度伪造之间没有显著差异。对于愤怒情绪,视频(V)的评分显著高于动态变形(M),而深度伪造(D)和动态变形(M)之间则没有显著差异,但从均值来看,深度伪造的均值略高于动态变形。
该图的主要发现是,动态变形在模拟真实情绪表达的强度方面不如视频和深度伪造。视频和深度伪造在强度表现上相对接近,表明深度伪造在模拟情绪表达强度上具有较好的效果。此外,该图还显示了不同情绪的强度感知差异,恐惧情绪被感知为强度最高的,其次是快乐、愤怒,最后是悲伤。图中的星号(*)和双星号(**)分别表示p<0.05和p<0.01,指示了统计显著性差异。

不同情绪下不同显示类型的真实感评分 #
🔼 该图表展示了在四种不同情绪(愤怒、恐惧、快乐和悲伤)下,三种不同显示类型(视频、动态变形和深度伪造)的情绪真实感评分。评分范围从1(非常不真实)到5(非常真实)。图表使用了箱线图和密度图相结合的方式,其中箱线图展示了数据的四分位数、中位数和异常值,密度图则显示了数据的分布情况。每个情绪类别下都并列显示了三种显示类型的评分情况,颜色分别用绿色(视频),橙色(动态变形),和紫色(深度伪造)表示。结果显示,在快乐和悲伤两种情绪下,视频和深度伪造的真实感评分显著高于动态变形(用**标识)。具体而言,对于快乐情绪,视频和深度伪造的评分都集中在4附近,而动态变形的评分则略低,主要集中在3左右。悲伤情绪也呈现相似的模式,视频和深度伪造的评分高于动态变形。然而,在愤怒和恐惧情绪下,三种显示类型之间的评分差异并不显著,所有显示类型的评分都相对较低且分布较广。这表明,对于快乐和悲伤这种更易于识别的正面情绪,深度伪造技术在模拟真实表情方面表现出更好的效果,而对于愤怒和恐惧等负面情绪,深度伪造和动态变形与视频在真实感方面没有显著差异。该图清晰地展示了不同情绪和显示类型对情绪真实感评分的影响,为研究人员提供了有价值的见解。

三种类型人脸视频的参与者评价 #
🔼 该图表以树状图的形式展示了参与者在观看三种不同类型的人脸视频(视频录制、深度伪造和动态变形)后,对其感知到的不同特征的评价。每个图框代表一种视频类型,内部的不同颜色和大小的方块则代表了参与者对该视频类型所提及的不同主题和子主题。方块的大小与该主题出现的频率或重要性相关。在“视频录制”部分,最显著的是“Nothing unusual”(没有不寻常)占据了最大面积,表明许多参与者认为视频录制正常,没有发现异常之处。其他被提及的主题包括“Emotion”(情感)和“Genuine”(真实),表明参与者认为视频中的情感是真实的和自然的。“Real Videos”(真实视频)和“Natural”(自然)也强调了视频的真实性。同时,也有部分参与者注意到“Temporal”(时间性)和“Repetition”(重复),表明对视频速度和重复播放的关注。“深度伪造”部分也以“Nothing unusual”为主导,但比“视频录制”部分的占比稍小。 “Edited”(编辑)、“Filter”(滤镜)、“Contrast”(对比度)和“Colour”(色彩)等视觉元素相关的主题也占据了一定的比例,表明参与者更多地关注到了深度伪造视频在视觉上的修改和调整。“Real Videos”(真实视频)的存在表明部分参与者认为深度伪造视频是真实的。“Speed”(速度)和“Repetition”也被提及,类似于“视频录制”。在“动态变形”部分,“Not Real Videos”(不是真实视频)占据了显著位置,表明参与者能明显感知到动态变形视频的非真实性。“Unnatural Movement”(不自然的运动)、“Morph”(变形)和“Computer Generated”(计算机生成)等主题突出显示了动态变形视频的人工感。此外,参与者还关注到了“Mouth”(嘴部)以及“Filter”(滤镜)和“Repetition”等其他视觉和时间相关特征。总体而言,该图清晰地展示了参与者对于不同视频类型感知的差异。视频录制被认为是最自然和真实的,深度伪造虽然也相对真实但伴随着一些视觉修改的关注,而动态变形则明显被视为人工产物。这些发现支持了论文的主要论点,即深度伪造能够比动态变形更好地模拟真实的面部表情,从而在情感感知研究中作为视频的有效替代品。

深度解读 #
深度伪造与情感 #
本研究探讨了深度伪造(Deepfake)技术在情感感知研究中的应用潜力。深度伪造能够生成高度逼真的动态面部表情,与真实视频相比,参与者在感知情感的强度和真实性上几乎没有差异。这表明深度伪造技术可以作为一种标准化的刺激类型,用于情感感知研究。深度伪造的优势在于其能够捕捉自然的面部运动,而传统的动态变形(Dynamic Morphs)则无法做到这一点。动态变形虽然能够控制表情的过渡速度和时间,但其线性运动模式被认为不够自然,导致参与者感知到的情感强度和真实性较低。深度伪造技术的应用前景广阔,尤其是在需要高度可控且逼真的面部表情的研究中。然而,深度伪造技术的使用也带来了伦理问题,尤其是在政治、广告和社交媒体中的潜在滥用风险。未来的研究应进一步探讨深度伪造技术在不同文化背景下的适用性,以及其在复杂情感表达中的表现。
动态变形局限 #
动态变形(Dynamic Morphs)作为一种替代真实视频的面部表情生成方法,存在显著的局限性。动态变形的线性运动模式无法捕捉自然的面部表情变化,导致参与者感知到的情感强度和真实性较低。特别是对于快乐和悲伤的表情,动态变形被认为不如真实视频和深度伪造逼真。动态变形的局限性主要体现在其无法模拟真实面部表情的非线性运动,例如眨眼和面部特征的异步运动。这种局限性使得动态变形在情感感知研究中的应用受到限制。尽管动态变形在控制实验变量方面具有优势,但其生成的表情被认为不够自然,难以引发与真实视频相同的社会反应。未来的研究应考虑使用更先进的技术,如深度伪造,以生成更逼真的动态面部表情,从而提高情感感知研究的准确性和可靠性。
情感真实性 #
本研究通过对比真实视频、动态变形和深度伪造,探讨了不同刺激类型在情感真实性上的表现。参与者普遍认为深度伪造和真实视频在情感真实性上没有显著差异,而动态变形则被认为不够真实。特别是对于快乐和悲伤的表情,动态变形的真实性评分显著低于深度伪造和真实视频。情感真实性的感知与面部表情的自然运动密切相关,深度伪造能够捕捉到真实面部表情的细微变化,而动态变形则无法做到这一点。此外,参与者对动态变形的感知往往带有“计算机生成”的标签,这表明动态变形的生成方式影响了其情感真实性的感知。未来的研究应进一步探讨不同情感类型在真实性感知上的差异,尤其是那些与社会互动密切相关的情感,如快乐和悲伤。同时,研究还应关注深度伪造技术在复杂情感表达中的应用潜力,以及其在跨文化研究中的表现。
深度伪造检测 #
深度伪造技术的逼真性使其在情感感知研究中具有重要应用价值,但也带来了检测和识别的挑战。研究表明,高质量的深度伪造视频难以被人类识别,尤其是在没有明确提示的情况下,参与者往往无法区分深度伪造和真实视频。深度伪造的检测依赖于对视频中细微异常的识别,例如面部与身体运动的不一致、皮肤色调的差异以及面部边缘的模糊。然而,随着技术的进步,这些异常变得越来越难以察觉。深度伪造检测的研究不仅对情感感知研究具有重要意义,还对防止深度伪造在政治、广告和社交媒体中的滥用具有实际应用价值。未来的研究应进一步开发更有效的深度伪造检测技术,并结合人工智能和大数据分析,以提高检测的准确性和效率。同时,研究还应关注深度伪造技术在不同文化背景下的表现,以及其在复杂情感表达中的应用潜力。
未来研究方向 #
本研究为深度伪造技术在情感感知研究中的应用提供了初步证据,但也指出了未来研究的多个方向。首先,未来的研究应进一步探讨深度伪造技术在复杂情感表达中的应用,例如包含眨眼和头部运动的动态表情。其次,研究应关注深度伪造技术在不同文化背景下的表现,尤其是非西方文化中的情感表达。此外,深度伪造技术的伦理问题也应成为未来研究的重点,尤其是在政治、广告和社交媒体中的潜在滥用风险。未来的研究还应结合人工智能和大数据分析,开发更有效的深度伪造检测技术,以提高检测的准确性和效率。最后,研究应关注深度伪造技术在跨学科研究中的应用潜力,例如在神经科学、心理学和社会学等领域中的应用。通过多学科的合作,深度伪造技术有望为情感感知研究提供更丰富的数据和更深入的理解。
完整论文 #
















