要点总结 #
研究背景与问题:随着ChatGPT等大型语言模型(LLM)的广泛应用,企业开始利用LLM辅助创意工作,如广告文案创作。然而,如何有效利用LLM提升业务成果仍不明确。本研究通过实验探讨了两种LLM协作模式——LLM作为“代笔”和“回音板”——对广告创作质量的影响。实验邀请了专家和非专家用户,分别在有无LLM协助的情况下创作广告文案,并通过社交媒体广告点击量衡量广告质量。
方法论与贡献:研究发现,LLM作为“回音板”显著提升了非专家用户的广告质量,使其文案与专家创作的文案在语义上更为接近。然而,LLM作为“代笔”对专家用户产生了负面影响,导致广告质量下降。文本分析表明,LLM作为“代笔”时会产生“锚定效应”,限制了用户的创造力。研究为LLM在创意任务中的应用提供了实践指导,强调了协作模式与用户专业水平的匹配重要性。
关键要点 #
论文重要性 #
这项研究揭示了LLM在不同协作模式下对创意任务的影响,尤其是对专家和非专家用户的差异化效果。 研究结果表明,LLM作为“回音板”能够有效帮助非专家用户提升广告创作质量,缩小与专家用户的差距。然而,LLM作为“代笔”对专家用户产生了负面影响,提示企业在使用LLM时需谨慎选择协作模式。研究为LLM在创意任务中的应用提供了实践指导,强调了协作模式与用户专业水平的匹配重要性。 未来研究可进一步探讨如何克服“锚定效应”,并探索LLM在其他创意领域(如艺术、音乐等)的应用。
图表分析 #
不同条件下专家和非专家的平均广告点击量 #
🔼 该图表展示了在不同人机协作模式下,专家和非专家所创建广告的平均点击量。横轴代表了三种不同的实验条件:不使用AI(No-AI)、使用AI作为“出谋划策者”(Sounding board)和使用AI作为“代笔者”(Ghostwriter)。纵轴则表示广告的平均点击次数,并辅以95%的置信区间以展示数据的可靠性。从图中可以观察到几个关键发现:首先,在不使用AI的对照组(No-AI)中,专家的广告点击量明显高于非专家,这表明专业知识在广告效果中起着重要作用。其次,对于非专家而言,使用AI作为“出谋划策者”显著提升了广告点击量,使其表现接近专家的水平。然而,当AI被用作“代笔者”时,非专家的广告点击量反而有所下降。对于专家而言,使用AI作为“出谋划策者”并没有带来明显的提升,而使用AI作为“代笔者”则导致其广告点击量显著降低,甚至低于非专家。这些结果揭示了人机协作模式与用户专业知识水平之间的复杂交互作用。AI作为“出谋划策者”可以为非专家提供有价值的反馈和改进方向,帮助他们提升广告质量;而AI作为“代笔者”则可能限制了专家的创造力,导致广告效果下降。这一结果强调了在人机协作中,需要根据用户类型和任务性质选择合适的协作模式,以最大程度地发挥AI的辅助作用,并避免其潜在的负面影响。此外,值得注意的是,专家的表现具有天花板效应,即AI的辅助作用可能无法超越专家本身的能力边界。
更多图表分析
不同LLM模式下广告语义差异 #
🔼 该图展示了在不同的LLM(大型语言模型)辅助模式下,广告文案的语义差异。横轴代表三种不同的实验条件:No-AI(无AI辅助)、Sounding board(LLM作为反馈提供者)和Ghostwriter(LLM作为文案生成器)。纵轴表示余弦距离,用于衡量广告文案的语义差异程度。每个黑点代表一个参与者生成的广告文案与其所在组别中心点的语义距离。箱线图则显示了各组别语义距离的分布情况。结果显示,No-AI组的广告文案具有最大的语义差异,表明在没有AI辅助的情况下,参与者创作的广告文案在语义上更加多样化。Sounding board组的语义差异居中,意味着在LLM提供反馈的辅助下,参与者所创作的广告文案具有一定的多样性,但较无辅助组有所降低。Ghostwriter组的语义差异最小,表明当LLM主导文案生成时,参与者创作的广告文案在语义上趋于一致,呈现出较高的同质性。图中显著性标注“p<0.0001”表明各组间的语义差异具有统计学上的显著性,进一步支持了结论。这一结果暗示在创意工作中,直接依赖LLM生成内容可能会限制文案的原创性和多样性,而利用LLM提供反馈可能在一定程度上保留多样性。该发现对于理解和优化人与AI在创意内容生成领域的协作模式具有重要的实践意义,提示在创意任务中应谨慎使用LLM的“代笔”功能,而适当采用其“智囊”作用,以鼓励更具创新性的内容产生。

LLM对语义差异的影响 #
🔼 该图展示了在不同LLM协作模式下,广告文案的语义差异情况。图中使用了箱线图和散点图的组合形式,纵轴表示余弦距离,即衡量不同广告文案在语义空间中的差异程度。横轴表示两种不同的LLM使用情境:Sounding board(作为“智囊团”,提供反馈)和Ghostwriter(作为“代笔”,直接生成内容)。从图中可以看出,Ghostwriter组的语义距离明显低于Sounding board组,且具有统计学意义上的显著性(p<0.01)。这意味着在Ghostwriter模式下,用户生成的广告文案在语义上更为相似,集中在较小的范围,表现出较小的创意差异。相反,在Sounding board模式下,用户的广告文案语义差异性更大,创意表达更多元。图中的每一个点代表一篇具体的广告文案,而箱线图则展示了数据的分布情况,包括中位数、四分位数以及异常值。该图直观地反映了使用LLM作为Ghostwriter可能导致的锚定效应:即用户更倾向于遵循LLM生成的初始文本,导致最终产出的广告文案趋于同质化。而使用LLM作为Sounding board则鼓励了更多样化的创意产出,因为用户主要依赖自身创意,并结合LLM的反馈来迭代优化,因而产生更高语义差异的文本。因此,该图支持了研究中关于不同LLM使用模式影响创造力的观点,即在创造性任务中,直接依赖LLM生成内容可能限制用户的创新,而以反馈形式使用则能更好地激发创意。

LLM 对广告语义差异的影响 #
🔼 该图展示了在不同条件下,广告文案的语义差异程度。横轴表示三种实验条件:No-AI(无AI辅助)、Sounding board(AI作为顾问)和Ghostwriter(AI作为代笔者)。纵轴表示每个广告文案与该组内其他广告文案的平均语义距离,距离越大代表文案语义差异越大。图中的每个点代表一个广告文案的语义距离,箱线图则展示了每组的平均语义距离及其分布情况。结果显示,在无AI辅助的条件下,广告文案的语义差异最大,即文案内容更加多样化。而使用AI作为代笔者时,广告文案的语义差异最小,表明这些文案在内容上更加趋同。从图中可以观察到,No-AI组的语义差异明显高于其他两组,而Ghostwriter组的语义差异明显低于Sounding board组。显著性检验显示,No-AI组的语义差异显著高于Sounding board组(p < 0.01),且显著高于Ghostwriter组(p < 0.01)。Sounding board组的语义差异也显著高于Ghostwriter组(p<0.05)。这个结果表明,当使用AI作为代笔者时,用户可能会受到AI生成内容的锚定效应影响,导致文案内容趋同。这种现象在“Ghostwriter”组中尤其明显,他们生成的内容彼此之间语义距离更近,表明创意输出的同质化程度更高。相反,没有AI干预的对照组则展现出更大的语义差异,说明参与者在没有AI帮助的情况下能够产生更具多样化的创意内容。Sounding board虽然会引导用户,但仍然会比ghostwriter产生更多样化的输出。

不同条件下广告的感知创造力 #
🔼 该图为箱线图,展示了在不同实验条件下,即“无AI”、“作为讨论板的AI”和“作为代笔的AI”三种情况下,广告文案的感知创造力评分分布。纵轴表示感知创造力的评分,数值越高表示创造力越高。图中每个点代表一个广告文案的评分,箱体表示数据的四分位数范围,中间的线代表中位数。分析结果表明,在“无AI”条件下,广告的感知创造力分布较为分散,但中位数略高于其他组。在“作为讨论板的AI”条件下,评分分布与“无AI”条件相似,中位数也相近,表明这种模式并没有显著提高广告文案的创造力。而“作为代笔的AI”条件下,评分整体偏低且分布更为集中,中位数明显低于其他两组,这表明在这种模式下,广告的创造力可能受到限制。统计检验显示,“无AI”条件和“作为讨论板的AI”条件之间在感知创造力上没有显著差异(p > 0.1),而“作为代笔的AI”条件与“无AI”条件存在显著差异(p < 0.05),表示代笔模式显著降低了广告的感知创造力。结合论文内容,本图结果表明,使用AI作为讨论板并不能提升广告的创造力,而使用AI作为代笔反而会显著降低广告的创造力。这可能是因为代笔模式下用户容易受到AI生成内容的锚定效应影响,导致创作思维受限。与此相对,讨论板模式虽然不能直接提升创造力,但可能通过提高用户执行能力来间接提升广告质量。整体而言,此图支持了论文的核心论点,即AI的协作模式对创意工作的结果具有显著影响,不恰当的协作模式可能会适得其反。

图1:不同条件和用户专业知识的平均广告点击量 (95% CI) #
🔼 本图展示了在不同的实验条件下,专家和非专家用户制作的广告所获得的平均点击量。横轴代表了三个不同的实验条件:对照组(No-AI),使用LLM作为“提供反馈”(Sounding Board)和使用LLM作为“代笔者”(Ghostwriter)。纵轴显示了广告的平均点击次数,以及95%置信区间。从图中可以看出,对于非专家用户来说,使用LLM作为“提供反馈”可以显著提高广告的点击量,高于未使用LLM的对照组。但对于专家用户来说,并没有观察到LLM作为“提供反馈”带来的显著提升,他们的表现和对照组相似。更有趣的是,使用LLM作为“代笔者”反而对专家用户的广告点击量产生了负面影响,他们的广告点击量甚至低于对照组的专家用户。而非专家用户在“代笔者”条件下,表现虽略低于“提供反馈”,但没有显著低于对照组。这一发现表明,LLM的运用方式对不同类型的用户有不同的影响。对于非专业用户来说,LLM作为“提供反馈”可以提供有价值的建议,从而帮助他们提高广告效果;然而,对于专家用户而言,LLM作为“代笔者”可能会限制其创造力,导致表现反而下降。这突出了人与AI协作时,选择合适的协作模式的重要性,以及考虑用户专业知识水平的必要性。总的来说,这张图强调了LLM在商业应用中需要谨慎对待,并非所有情况下LLM的直接参与都能带来积极成果,相反,不当的利用反而会限制用户的创造潜力。

Mean Ad Clicks by Conditions and User Expertise #
🔼 该图展示了在不同用户专业水平和人机协作模式下,广告点击量的平均值,并提供了95%的置信区间。从图中可以观察到,对于非专业用户而言,当使用LLM作为“提词板”时,广告的平均点击量明显高于对照组,表明这种协作模式对非专业用户有显著的提升效果。然而,当非专业用户使用LLM作为“代笔者”时,广告点击量与对照组相比并无显著差异。对于专业用户而言,情况则截然相反。使用LLM作为“提词板”并没有带来任何明显的优势,其广告点击量与对照组的专业用户几乎持平。更令人惊讶的是,当专业用户使用LLM作为“代笔者”时,广告点击量反而显著低于对照组,说明这种协作模式对专业用户产生了负面影响。总而言之,此图清晰地展示了人机协作模式与用户专业水平之间的复杂关系,强调了在不同情境下选择合适的协作模式的重要性。进一步的研究可能需要深入探讨这些观察到的现象背后的具体机制,以更好地理解如何有效地利用LLM来提高广告效果,特别是针对不同专业水平的用户。

不同条件下广告展示量密度分布 #
🔼 该图为不同实验条件下广告展示量的密度分布图,横轴代表广告展示量,纵轴代表密度。图中包含三条密度曲线,分别用红色、绿色和蓝色表示,分别对应No-AI(控制组)、Sounding Board(以LLM为顾问)和Ghostwriter(以LLM为代笔者)三个实验组的广告展示量分布情况。从整体趋势来看,三条曲线的峰值都大致位于400附近,表明大多数广告的展示量集中在这一范围。然而,它们在分布的形态上略有差异。具体来看,No-AI组的曲线(红色)相对较窄,表明其广告展示量更加集中;Sounding Board组的曲线(绿色)稍宽一些,而Ghostwriter组的曲线(蓝色)则最为宽阔,并且在低展示量和高展示量区域都有更高的密度,显示出更大的波动性。三组的广告展示量分布均较为均匀,没有明显的偏移或偏态分布,因此,可以推断在广告投放过程中,各组的广告曝光量分布基本均匀,没有出现严重的偏差,从而保证了实验的公平性。此外,虽然图表表明Ghostwriter组的广告展示量分布较广,但整体上三组的展示量密度峰值基本一致,这排除了实验结果受到广告展示量偏差的影响的可能性。因此,广告展示量作为实验的无关变量,没有对实验结果产生干扰。总的来说,该图表提供了实验数据基础的一个重要验证,增强了研究结果的可靠性。

Mean Ad Clicks by Conditions and User Expertise #
🔼 该图表展示了在不同条件下,专家和非专家用户所创作的广告的平均点击次数。横轴代表不同的实验条件:No-AI(无人工智能辅助)、Sounding board(将人工智能作为“智囊团”)和Ghostwriter(将人工智能作为“代笔者”)。纵轴表示广告的平均点击次数,数值越高表示广告效果越好。图中的误差线表示95%的置信区间,用于衡量平均值的可靠性。研究结果清晰地表明,不同的用户类型在不同的AI辅助模式下表现出显著差异。具体而言,对于非专家用户,使用Sounding board模式显著提高了广告的点击次数,这表明AI作为智囊团的角色能够有效地帮助非专家改进其广告文案。而对于专家用户,使用Ghostwriter模式反而降低了广告的点击次数,这意味着在创意任务中,过度依赖AI代笔可能会对专家的表现产生负面影响。同时,专家在没有AI辅助的情况下仍然表现出了较高的广告点击率。该图表的结果强调了AI协作模式和用户专业知识之间的复杂相互作用。对于非专家而言,AI的反馈和指导作用可能是有益的,而对于专家而言,过度依赖AI的自动生成功能可能会抑制其自身的创造力。这些发现对于如何有效地将AI工具应用于商业环境中的创意工作具有重要的指导意义。该图表清晰地传达了研究结果,并为进一步深入分析AI辅助模式对用户表现的具体影响提供了有力的支持。

Mean Ad Clicks by Conditions and User Expertise #
🔼 图 1 展示了不同条件下,专家和非专家用户广告点击量的平均值及 95% 置信区间。图中清晰地显示了不同的人机协作模式对广告点击量的影响,以及这种影响如何因用户专业知识水平而异。具体而言,当非专家使用 LLM 作为“发声板”时,他们的广告点击量显著提高,表明这种协作方式有助于非专家提升广告质量。然而,对于专家用户,使用 LLM 作为“代笔者”反而导致广告效果下降,这可能与“锚定效应”有关。此图强调了人机协作模式与用户专业知识水平之间复杂的相互作用,对理解如何在创意工作中有效利用 LLM 提供了重要见解。
从数据来看,非专家在“发声板”模式下的广告点击量显著高于对照组的非专家,这表明 LLM 在提供反馈和指导方面对新手有积极的促进作用。另一方面,专家在“代笔者”模式下的广告点击量低于对照组的专家,这暗示直接使用 LLM 生成内容可能会限制专家用户的创造力,可能导致生成的广告缺乏原创性或个性化。图中误差条提供了对数据不确定性的衡量,有助于评估结果的统计显著性。
总的来说,这个图表支持了论文的主要论点,即不同的人机协作模式对用户的影响不同,并且用户的专业知识水平在决定 LLM 的有效性方面起着关键作用。这些发现对企业如何在其营销和创意工作流程中部署 LLM 具有重要的实践意义。图表清晰地表明,不是所有 LLM 的使用方式都能带来积极的效果,需要根据用户类型和任务性质选择合适的协作模式。

深度解读 #
协作模式影响 #
本论文通过实验探讨了人类与大型语言模型(LLM)在创意任务中的协作模式对广告效果的影响。研究发现,不同的协作模式对不同类型的用户产生了显著不同的效果。具体而言,将LLM作为“反馈板”(sounding board)使用时,非专家用户的广告质量显著提升,广告点击量增加。然而,将LLM作为“代笔人”(ghostwriter)使用时,专家用户的广告效果反而下降。这种差异主要归因于锚定效应,即专家用户在使用LLM生成的初始内容时,难以突破LLM提供的框架,导致广告创意受限。相比之下,非专家用户通过LLM的反馈能够更好地调整和改进广告内容,从而缩小与专家用户的差距。这一发现为企业在实际应用中如何选择LLM协作模式提供了重要参考。
锚定效应 #
论文深入探讨了LLM在创意任务中的锚定效应(anchoring effect)。当LLM作为代笔人时,用户容易依赖LLM生成的初始内容,导致广告创意的多样性降低。实验结果表明,使用LLM作为代笔人的用户组,其广告内容的语义差异显著低于其他组,表明用户倾向于遵循LLM的初始输出,缺乏进一步的创新。这种锚定效应在专家用户中尤为明显,因为专家用户原本具备较高的创意能力,但LLM的介入反而限制了他们的发挥。这一发现揭示了LLM在创意任务中的潜在风险,即过度依赖LLM可能导致创意输出的同质化,进而影响广告的最终效果。
用户技能差异 #
论文强调了用户技能水平在LLM协作中的重要性。非专家用户通过LLM的反馈能够显著提升广告质量,而专家用户则未能从LLM的使用中获益。这一现象可以通过“天花板效应”来解释,即专家用户已经具备较高的广告创作能力,LLM的反馈无法进一步提升其表现。相比之下,非专家用户通过LLM的反馈能够学习到专家级的广告创作技巧,从而缩小与专家用户的差距。这一发现为企业提供了重要的管理启示:LLM的使用应根据员工的技能水平进行差异化部署,非专家用户可以通过LLM快速提升技能,而专家用户则可能需要更高级的定制化AI工具。
广告创意与执行 #
论文还探讨了LLM在广告创意与执行过程中的不同作用。LLM的使用虽然能够提升广告的执行质量(如语言表达和结构优化),但并未显著提升广告的创意水平。实验结果表明,使用LLM作为反馈板的用户组在广告执行方面表现更好,但其广告的创意评分并未显著高于对照组。相反,使用LLM作为代笔人的用户组,其广告的创意评分甚至低于对照组。这一发现表明,LLM在创意任务中的作用更多体现在执行层面,而非创意本身。企业在使用LLM时应明确其优势与局限,避免过度依赖LLM来提升创意输出。
未来研究方向 #
论文提出了未来研究的多个方向。首先,如何克服LLM在创意任务中的锚定效应是一个重要的研究课题。可能的解决方案包括提供LLM使用培训,帮助用户更好地识别和避免锚定效应。其次,未来的研究可以进一步探讨LLM的温度参数(temperature)与用户技能水平之间的交互作用,以优化LLM在不同情境下的表现。此外,LLM在其他创意领域(如艺术、音乐和视频生成)中的应用也值得深入研究,以验证协作模式的普适性。最后,企业可以考虑开发基于领域特定数据的LLM,以更好地满足专家用户的需求。这些研究方向将为LLM在创意任务中的进一步应用提供理论支持。
完整论文 #





















































