Skip to main content
  1. 论文/

AI聊天机器人对众包开放式调查问题回答的威胁

·6739 words·14 mins
氢能 调查研究 ChatGPT 人工智能 公众认知
Table of Contents

✏️ Frederic Traylor

要点总结
#

研究背景与问题:随着大型语言模型(如ChatGPT)的普及,研究人员发现这些AI工具可能被用于生成虚假的开放式调查回答,从而威胁到在线调查数据的真实性。传统的筛选方法(如封闭式问题和手动检查)难以有效检测这些AI生成的回答。本研究通过比较管理面板样本(N = 834)和Amazon Mechanical Turk(MTurk)样本(N = 1166),探讨了AI生成回答的普遍性及其对数据质量的影响。

方法论与贡献:研究通过手动和计算分析,评估了MTurk和管理面板样本中回答的质量。结果显示,MTurk样本中的回答更长、更复杂,且与AI生成回答的相似性显著高于管理面板样本。传统的筛选方法(如注意力检查和IP地址筛查)未能有效减少AI生成回答的比例。研究建议未来的调查设计应结合结构变化和改进的检测方法,以减少虚假回答的影响。

关键要点
#

论文重要性
#

这项研究揭示了AI生成回答对在线调查数据的潜在威胁,尤其是在开放式问题中。随着AI工具的普及,研究人员需要改进调查设计和检测方法,以确保数据的真实性和可靠性。 这一发现不仅对能源和气候技术的研究有重要影响,也为未来在线调查的设计提供了新的方向。未来的研究可以进一步探索如何有效预防和检测AI生成回答,并评估这些方法在不同文化和语言背景下的适用性。


图表分析
#

样本比较
#

🔼 该表格(Table 1)对比了来自MTurk(Amazon Mechanical Turk)和Panel(一个非概率在线调查小组)的受访者在开放式问题回答上的质量差异。数据包括了手编码指标(如“AI怀疑”,“AI复制”,“事实或陈述”,“抄袭”,“不相关或填充内容”),计算指标(如字符数,可读性,与AI文本的相关性)和基本统计数据。MTurk样本的回答平均字符数更多,可读性也更高(平均10年级),而Panel样本则平均字符数更少,可读性也较低(平均6年级)。

结果表明,MTurk的回答更有可能被人类编码员怀疑为由AI生成,或者直接从大型语言模型复制(7.5%和4.4%,而Panel样本分别为0.8%和0.2%)。计算相关性分数也支持这一发现,MTurk的回答与Bard、Bing AI和ChatGPT的平均相似度显著高于Panel的回答。此外,MTurk的回答更有可能包含事实而非问题,且抄袭情况更为普遍。Panel样本中不相关内容的比例略高于MTurk样本。

这些数据表明,虽然MTurk样本在某些方面看起来“更高质量”,例如更长的回答和更高的可读性,但实际上它们更有可能是由AI生成的,并且包含了更多的抄袭内容。表格底部的注释指出了测试统计量是用于比较MTurk和Panel样本的双样本t检验或卡方检验,并强调了粗体p值表示显著性水平为α=.05。

更多图表分析

样本比较表
#

🔼 表1比较了MTurk和Panel两个样本在各种指标上的表现。该表提供了多个维度的统计数据,包括字符数、问号数、可读性、时间、有效回复的比例以及AI生成和抄袭回复的比例。MTurk样本的回复平均长度为86个字符,可读性为10年级水平,而Panel样本的回复平均长度为30个字符,可读性为6年级水平。此外,MTurk样本中有7.5%的回复被怀疑为AI生成,4.4%被怀疑为AI抄袭,而Panel样本的这两个比例分别为0.8%和0.2%。MTurk样本的回复与Google Bard、Bing AI和ChatGPT的平均相关性分别为0.34、0.29和0.34,明显高于Panel样本的相关性,后者的相关性分别为0.20、0.17和0.19。这些差异在统计学上均显著(p<0.001)。此外,MTurk样本中被标记为事实陈述的回复比例为43%,而Panel样本为18%。被标记为抄袭的回复在MTurk样本中占36%,在Panel样本中仅占0.1%。总的来说,MTurk样本的回复质量较低,更可能是由AI生成或抄袭,而Panel样本的回复则更倾向于由真人撰写。这些发现揭示了众包平台中AI生成回复的普遍性以及对研究结果的潜在影响。表格还显示了标准化时间,MTurk 样本平均值为 0.00,而 Panel 样本平均值为 0.05,表明 MTurk 参与者完成调查的速度更快,这可能与他们使用 LLM 回答有关。

MTurk与Panel样本比较
#

🔼 该表格比较了来自 Amazon Mechanical Turk (MTurk) 和在线调查小组 (Panel) 两个样本的调查结果,旨在研究 AI 聊天机器人对在线调查数据质量的影响。表格展示了两个样本在多个维度上的差异,包括文本特征、人工编码结果和计算相似度得分。

在文本特征方面,MTurk 样本的回答明显更长,平均字符数为 86 个,而 Panel 样本仅为 30 个。同时,MTurk 样本的回答复杂度也更高,平均可读性为 10 年级水平,而 Panel 样本为 6 年级水平。这些差异表明 MTurk 样本的回答在表面上看起来更加精致和复杂。

人工编码的结果显示,MTurk 样本中有 7.5% 的回答被怀疑是由 AI 生成,4.4% 的回答直接抄袭自 AI 示例,而 Panel 样本的相应比例分别为 0.8% 和 0.2%,差距显著。此外,MTurk 样本更有可能提供事实性陈述而非问题(43%),且存在更高的抄袭率(36%),相比之下,Panel 样本的这两个比例分别为 18% 和 0.1%。这些人工编码的发现暗示 MTurk 样本中存在更高比例的非真实回答。

计算相似度得分进一步支持了这一结论。MTurk 样本的回答与 Google Bard、Bing AI 和 ChatGPT 生成的文本的平均相关性分别为 0.34、0.29 和 0.34,远高于 Panel 样本的 0.20、0.17 和 0.19。这表明 MTurk 样本的回答在词汇和频率分布上与 AI 生成的文本更相似,表明它们更有可能来自 AI 聊天机器人。

此外,表格还显示,MTurk 样本中有效回答的比例为 31%,而 Panel 样本为 63%。尽管 MTurk 样本在文本长度和复杂度上表现更佳,但它们的真实性和可靠性值得怀疑。

总之,表格清晰地展示了 MTurk 样本与 Panel 样本在回答质量和真实性上的差异,强调了在在线调查中识别和处理 AI 聊天机器人生成回答的重要性。这些发现对使用众包数据进行研究的学者具有重要意义。

MTurk和Panel样本对比
#

🔼 表1展示了MTurk样本和Panel样本在人工编码和计算指标上的总体比较。数据显示,MTurk样本的回复更长,平均字符数为86个,阅读难度约为10年级水平,而Panel样本的平均字符数为30个,阅读难度为6年级水平。此外,MTurk样本被人工编码判定为由AI生成的可能性更高(7.5%),直接复制AI内容的可能性也更高(4.4%),而Panel样本的这两个比例分别为0.8%和0.2%。计算相关性得分也支持了这一观点:MTurk样本与Bard、Bing AI和ChatGPT的平均相似度分别为0.34、0.29和0.34,而Panel样本的相似度则远低于此,分别为0.20、0.17和0.19。所有这些差异的t检验都具有统计显著性,p<0.001。除了AI生成的回应,MTurk样本还更有可能提供不真诚的回应:43%的MTurk回应被识别为事实陈述而非问题,36%被判定为抄袭或重复。Panel样本的这些比例仅为18%和0.1%。不过,Panel样本在回复中提供不相关内容的可能性更高,为19%,而MTurk样本为16%。总体而言,MTurk样本的文本质量明显低于Panel样本,且更容易受到AI生成内容的污染。研究结果表明,在在线调查中使用开放式问题时,需要警惕AI生成回复带来的潜在风险。

样本比较
#

🔼 表1展示了MTurk和Panel两个样本在手编码和计算指标上的总体比较。MTurk样本的回答平均长度为86个字符,可读性为10年级水平,而Panel样本的回答平均长度为30个字符,可读性为6年级水平,这表明MTurk样本的回答更长且更复杂。此外,MTurk样本中被人工编码员怀疑为AI生成的比例为7.5%,直接复制自LLM的比例为4.4%,而Panel样本中这两个比例分别为0.8%和0.2%,这表明MTurk样本更可能包含AI生成的内容。计算相关性得分也支持了这一点:MTurk样本的回答与Bard、Bing AI和ChatGPT的平均相似度分别为0.34、0.29和0.34,而Panel样本的相似度则低得多,分别为0.20、0.17和0.19。t检验表明这些差异在α=0.001水平上具有统计显著性。除了AI生成的答案外,MTurk样本还更倾向于提供不真诚的回答:43%的回答被识别为事实而非问题,36%被识别为抄袭或重复。在Panel样本中,这些比例仅为18%和0.1%。有趣的是,Panel样本的回答更倾向于提供不相关的内容,比例为19%,而MTurk样本为16%。这些发现表明,MTurk样本不仅更容易受到AI生成内容的渗透,还更容易包含其他形式的低质量回答。表1中的数据是研究的核心发现之一,清晰地展示了不同来源样本在回答质量上的差异,为后续的分析奠定了基础。

样本比较
#

🔼 该表格展示了MTurk(亚马逊土耳其机器人)样本和Panel样本在各种指标上的比较。数据显示,MTurk样本的回答在多个方面与Panel样本存在显著差异。MTurk样本的回答平均字符数为86个,而Panel样本仅为30个,表明MTurk样本的回答更长。阅读难度方面,MTurk样本的平均弗莱士-金凯德阅读等级为10级,而Panel样本为6级,表明MTurk样本的回答使用了更复杂的语言。此外,MTurk样本被人工编码员怀疑为AI生成的比例为7.5%,而Panel样本仅为0.8%。直接从LLM复制的比例在MTurk样本中为4.4%,而Panel样本仅为0.2%。这些结果暗示MTurk样本可能存在更高比例的AI生成或复制的回答。在内容方面,MTurk样本的回答更有可能提供事实陈述而非问题(43%),并且有36%被认为是抄袭或重复的,而Panel样本的这两个比例分别为18%和0.1%。然而,Panel样本在提供不相关内容的比例上高于MTurk(19%比16%)。在与LLM的文本相似性方面,MTurk样本与谷歌Bard、Bing AI和ChatGPT的平均相关性分别为0.34、0.29和0.34,而Panel样本则分别为0.20、0.17和0.19。这些相关性差异也支持了MTurk样本更可能受到AI影响的观点。总体而言,这些统计检验结果表明,与Panel样本相比,MTurk样本在回答的长度、复杂性、AI生成或复制的比例以及与LLM的相似性方面均更高。这些差异揭示了在众包数据中存在AI生成回复的风险,并强调了进行适当筛选和分析的必要性。

MTurk与Panel样本的比较
#

🔼 本表(Table 1)对比了来自 Amazon Mechanical Turk (MTurk) 和在线调查小组 (Panel) 两个不同样本的调查数据,并从多个维度分析了二者之间的差异。这些维度包括文本的长度、复杂性、AI 生成的可能性以及回答的真实性等。关键发现如下:

  1. 文本特征: MTurk 样本的回答平均字符数(86)显著高于 Panel 样本(30),且其回答的复杂程度(通过 Flesch-Kincaid 阅读等级衡量)也更高,平均为 10 年级,而 Panel 样本为 6 年级。这表明 MTurk 样本的回答更长且使用了更为复杂的语言。

  2. AI 生成嫌疑: MTurk 样本中被怀疑由 AI 生成或直接复制自 AI 的回答比例(分别为 7.5% 和 4.4%)远高于 Panel 样本(分别为 0.8% 和 0.2%)。此外,MTurk 样本的回答与三个大型语言模型(Bard、Bing AI 和 ChatGPT)的文本相似度也显著高于 Panel 样本,平均相关系数分别为 0.34, 0.29, 和 0.34, 而 Panel 样本的相关系数分别为 0.20, 0.17, 和 0.19。这些数据强烈暗示,MTurk 样本更有可能使用了 AI 工具来生成回答。

  3. 回答的真实性: MTurk 样本中提供事实而非问题或抄袭/重复的回答比例分别为 43% 和 36%,显著高于 Panel 样本的 18% 和 0.1%。这反映出 MTurk 样本可能为了快速完成任务而生成或复制内容,而 Panel 样本的回答更为认真和原创。

  4. 其他: 虽然 MTurk 样本在许多方面表现出较低的质量,但 Panel 样本在无关内容或填充性回答的比例上(19%)略高于 MTurk 样本(16%)。有效回复的比例在 MTurk 中显著更低 (31%),而在 Panel 中则为 63%。标准化时间度量显示,MTurk的标准化时间接近于 0,而Panel则为 0.05。

总的来说,此表清楚地显示了 MTurk 样本在数据质量方面存在严重问题,其回答更可能由 AI 生成、抄袭或提供无关信息。传统的数据质量检查手段不足以解决这个问题,需要进一步的改进和措施来保证在线调查数据的可靠性。

六个指标的样本比较
#

🔼 该图表展示了三个不同调查样本在六个指标上的比较:字符数、问题数、Flesch-Kincaid 阅读等级、与 Bard 的 Pearson 相关性、与 Bing 的 Pearson 相关性以及与 ChatGPT 的 Pearson 相关性。这三个样本分别是 MTurk 失败组(MT: Fail,n=790)、MTurk 通过组(MT: Pass,n=376)和 Panel 组(n=834)。图表采用箱线图的形式,其中每个箱子表示数据的四分位数范围,箱子内的菱形标记表示均值,离群点以点表示。在字符数方面,MTurk 失败组和通过组的分布相似,均值较高,而 Panel 组的字符数分布明显较低。问题数方面,三个组的均值和分布都比较接近,但 MTurk 通过组的上限略高。Flesch-Kincaid 阅读等级方面,MTurk 失败组和通过组的等级较高,而 Panel 组的阅读等级较低。与 Bard、Bing 和 ChatGPT 的 Pearson 相关性方面,MTurk 的两个组的平均相关性都高于 Panel 组。这些结果表明,MTurk 样本的回复在长度、复杂性和与大型语言模型的相似性方面高于 Panel 样本。此外,即使在经过数据质量筛选后,MTurk 的通过组仍然表现出与失败组相似的特征,这表明传统的质量控制方法不足以检测出大型语言模型生成的内容。从视觉效果来看,该图表清晰地展示了不同组之间的差异,并支持了研究论文的主要论点,即 MTurk 样本中的回复更可能受到大型语言模型的影响。

深度解读
#

AI威胁调查
#

本文探讨了**大型语言模型(LLM)**如ChatGPT对开放式调查问卷的潜在威胁。传统的封闭式问题和元数据分析虽然可以筛选出不认真或虚假的受访者,但LLM能够生成看似合理的回答,从而规避这些检测手段。通过对氢能源问题的调查,研究发现,来自Amazon Mechanical Turk(MTurk)的受访者回答质量看似更高,但实际上更可能由AI生成。这一发现表明,未来的调查设计需要进行结构性调整,以防止虚假回答,并改进检测方法。此外,研究还指出,LLM生成的回答虽然格式规范,但缺乏多样性和深度,可能无法真正代表公众的多样化观点。

氢能源认知
#

氢能源作为一种潜在的清洁能源,具有广泛的应用前景,但公众对其认知度较低。研究发现,公众对氢能源的了解有限,且存在对爆炸等安全问题的担忧。通过开放式问题,研究人员能够捕捉到公众对氢能源的疑问和担忧,这些信息对于氢能源技术的推广和公众沟通至关重要。然而,由于公众对氢能源的认知不足,调查结果容易受到误导信息的影响。例如,一些受访者将氢能源与水力压裂技术混淆,导致了对氢能源的负面看法。因此,未来的研究应更加注重公众教育,确保信息的准确传达,以避免误解和偏见。

众包样本质量
#

随着传统随机拨号调查的响应率下降,研究人员越来越多地依赖众包平台(如MTurk)进行数据收集。尽管众包样本具有成本低、数据收集速度快的优势,但其样本质量和代表性存在显著问题。研究发现,MTurk受访者通常更年轻、受教育程度更高,且具有更强的互联网使用能力,这导致样本与普通公众存在偏差。此外,低报酬激励了受访者快速完成调查,进一步降低了数据质量。尽管众包样本在实验处理效应上与高质量样本相似,但其低质量回答的噪音降低了研究结果的可靠性。因此,未来的研究需要更加谨慎地使用众包样本,并开发更有效的筛选机制。

检测AI生成回答
#

本文提出了一种结合人工编码和计算相似度的方法来检测AI生成的回答。通过比较受访者回答与LLM生成回答的相似度,研究发现,MTurk样本的回答与AI生成回答的相似度显著高于传统调查面板样本。尽管传统的注意力检查和数据质量筛选方法能够剔除部分不认真的受访者,但它们无法有效检测出AI生成的回答。研究还发现,AI生成的回答通常更长、更复杂,且格式更为规范,这使得它们更容易通过传统的筛选机制。因此,未来的研究需要开发更先进的检测工具,以应对AI生成回答的挑战

未来研究方向
#

本文指出了几个值得进一步研究的方向,包括如何预防和检测AI生成的回答,以及如何改进调查设计以提高数据质量。首先,未来的研究可以尝试限制受访者在文本框中复制粘贴内容,并明确要求他们不要使用AI工具。其次,研究人员可以通过提供非经济激励(如呼吁受访者的利他主义或激发他们对调查主题的兴趣)来减少AI生成回答的使用。此外,未来的研究还应探索如何在保护数据质量的同时,确保调查的多样性和代表性。最后,研究还呼吁对AI生成回答的伦理问题进行更深入的探讨,以确保调查结果的公正性和可靠性。

完整论文
#