要点总结 #
研究背景与问题:随着传统民意调查成本的上升和响应率的下降,研究人员开始探索使用大型语言模型(LLMs)生成合成数据来替代人类调查数据的可能性。ChatGPT等LLMs能够生成看似合理的响应,但其作为“合成数据”的准确性和可靠性尚不明确。本文通过让ChatGPT模拟不同“角色”并回答关于11个社会政治群体的情感温度计问题,评估其生成的合成数据与2016-2020年美国国家选举研究(ANES)基准数据的匹配程度。
方法论与贡献:研究发现,ChatGPT生成的平均情感温度计分数与ANES基准数据接近,但在统计推断上不可靠。合成数据的响应变异较小,回归系数与ANES数据存在显著差异。此外,研究还发现,合成数据的分布对提示词的微小变化敏感,且同一提示在不同时间段生成的响应差异显著。这些发现引发了对LLM生成合成数据的质量、可靠性和可重复性的严重担忧。
关键要点 #
论文重要性 #
这项研究揭示了LLM生成合成数据在公共舆论研究中的局限性。尽管ChatGPT在生成平均响应方面表现良好,但其在统计推断上的不可靠性和对提示词的敏感性引发了对其作为人类调查数据替代品的担忧。研究结果强调了在依赖合成数据之前,需要进一步验证其准确性和可靠性。此外,研究还指出了LLM生成数据的可重复性问题,这对社会科学研究的透明性和可验证性提出了挑战。未来研究应探索如何改进LLM的训练和提示工程,以提高合成数据的质量,并考虑其伦理影响。
图表分析 #
不同数据来源的情感温度计得分均值和标准差 #
🔼 图1展示了使用美国国家选举研究(ANES)的真实数据以及ChatGPT生成的合成数据,针对不同社会政治群体的情感温度计得分的均值和标准差。图中的数据点分别代表了对不同群体(例如民主党、共和党、黑人、白人等)的平均情感温度计评分,以及评分的标准差,用于衡量数据分散程度。该图的主要目的是比较由大型语言模型(LLM)生成的合成数据与真实调查数据之间的相似性和差异。结果显示,ChatGPT生成的合成数据在均值方面与真实数据大致匹配,即合成数据平均情感温度计得分与ANES数据相近。然而,合成数据的标准差通常显著小于真实数据。这意味着ChatGPT生成的反应在情感上缺乏多样性,其情感表达范围较为局限,相较于人类的真实反应更加集中。这种差异对社会科学研究具有重要意义,因为真实世界中人类的观点和情感表达往往存在显著差异,这种差异性正是许多社会科学研究的关键。该图表明,尽管LLM在生成平均值方面具有一定能力,但其在复现数据变异性方面存在明显不足,这引发了人们对使用LLM生成合成数据进行社会科学研究的可靠性的担忧。
更多图表分析
LLM和ANES温度计比较 #
🔼 该图表为“LLM和ANES温度计比较”,展示了针对不同目标群体,由美国国家选举研究(ANES)和ChatGPT 3.5生成的感情温度计评分的平均值和标准差。图表中,横轴代表感情温度计评分,范围从0到100,其中0表示冷淡,100表示热情。纵轴列出了12个目标群体,包括犹太人、白人、黑人、亚裔美国人、基督徒、同性恋者、穆斯林、保守派、自由派、民主党、共和党。对于每个群体,图表都显示了来自ANES数据的平均值(红色三角形)以及95%置信区间(红色阴影条),以及来自ChatGPT 3.5生成的合成数据的平均值(黑色圆点)和标准差(黑色横线)。
主要发现是,虽然ChatGPT生成的平均值在大多数情况下与ANES数据接近,但其标准差明显小于ANES数据。具体来说,ChatGPT 对不同群体的感觉温度计评分的变异性较小,尤其是在种族和宗教群体方面。例如,对于“黑人美国人”、“穆斯林”等群体,ChatGPT的响应范围相对集中,而ANES数据的范围更广。这意味着ChatGPT可能无法像人类受访者那样捕捉到公众意见的真实差异性。此外,对于自由派和保守派,ChatGPT的温度计得分略有偏离,显示出过度自信的倾向。整体而言,图表表明,虽然ChatGPT在恢复整体平均值方面表现良好,但其对公众意见分布的模拟存在局限性,且对特定群体的偏见可能被隐藏在总体平均数中,从而导致研究人员对政治态度产生误导性的理解。这说明了在将大型语言模型用作人类调查数据的替代品时,需要谨慎对待,因为它们的合成数据可能无法准确反映人类意见的真实复杂性。

LLM和ANES温度计比较 #
🔼 该图表展示了使用大型语言模型(LLM,此处特指ChatGPT 3.5)生成的合成数据与美国国家选举研究(ANES)的真实调查数据在情感温度计上的对比。图表按受访者的党派认同(民主党、独立人士和共和党)以及种族(西班牙裔、非西班牙裔黑人和非西班牙裔白人)进行分组,并在每个组内展示了对不同目标群体(民主党、自由主义者、保守主义者和共和党)的情感温度计得分。每个小图内的点代表平均得分,水平线表示标准差。红色三角形代表ANES数据,黑色圆点代表ChatGPT 3.5生成的合成数据。
主要观察结果如下:对于所有党派和种族群体,ChatGPT的平均得分与ANES的平均得分大致接近,表明LLM在恢复总体平均值方面表现良好。然而,ChatGPT的得分变化幅度通常比ANES数据小,特别是在种族和宗教群体的情感评分中,这暗示LLM生成的合成数据可能低估了真实人类反应中的变异性。例如,对于西班牙裔民主党人,ANES数据在对自由主义者的情感温度计得分显示出更大的不确定性(标准差较宽),而ChatGPT则显示的范围更窄。同时,对于共和党人来说,无论是什么种族,对民主党和自由主义者都表现出更低的温度计评分,而对共和党和保守主义者则表现出更高评分。总的来说,虽然ChatGPT能够生成与ANES调查数据平均值接近的合成数据,但其在变异性方面的不足值得关注,这可能会影响统计推断的准确性。该图强调了LLM在模拟复杂社会态度时的局限性,并突出了使用此类合成数据时需要谨慎。

回归系数比较图 #
🔼 这张图表展示了使用美国国家选举研究(ANES)数据和ChatGPT合成数据进行回归分析后得到的系数估计值的比较。图表分为九个子图,每个子图代表一个预测变量(如党派认同、意识形态、教育程度等),横轴表示使用ANES数据得到的系数估计值,纵轴表示使用ChatGPT合成数据得到的系数估计值。图中的每个点代表一个具体的回归系数,颜色区分了该系数在两个数据集中是否存在显著差异(p<0.05)。理想情况下,如果合成数据完全匹配真实数据,所有的点应该都落在45度线上,表示两个数据源得到的估计值完全一致。
从图表中可以看出,党派认同(Party ID)和意识形态(Ideology)的估计值相对接近45度线,表明在这两个预测变量上,合成数据与真实数据的结果较为一致。然而,其他变量(如教育程度、年龄、种族、性别等)的估计值则偏离45度线较远,尤其是一些点位于非对角象限,表示使用合成数据得到的系数符号与真实数据相反。这说明在这些变量上,合成数据不能很好地复制真实数据中变量与结果之间的关系。例如,在收入(Income)和新闻兴趣(News Interest)变量上,很多系数估计值显著不同,且分布较为分散,表明合成数据在这两个方面表现较差。
此外,图表中黑色的点表示在统计上存在显著差异的系数,分布在45度线周围。这表明即使在一些看似一致的变量上,合成数据与真实数据之间的差异也是存在的,且这些差异可能导致研究结论的偏差。总的来说,该图表有力地证明了使用ChatGPT合成数据在回归分析中可能会导致不准确甚至相反的结论,并强调了在社会科学研究中应谨慎使用此类数据。

不同提示词下的平均绝对误差 #
🔼 该图展示了在不同的提示词下,使用大型语言模型(LLM)预测美国人对不同社会群体的“情感温度计”评分时产生的平均绝对误差(MAE)。图表分为三个子图,分别代表民主党人、独立人士和共和党人。每个子图内,纵轴列出了不同的社会群体(例如,共和党、自由主义者、民主党等),横轴表示预测的MAE值。图例中,黑色的点和误差线代表使用完整提示词(包括人口统计和政治特征)时的MAE,灰色的点代表仅使用人口统计特征或仅使用政治特征时的MAE。
从图中可以看出,当提示词中仅包含人口统计特征时,预测误差显著增大,尤其是在政治立场更鲜明的群体中(如政党、意识形态团体和性少数群体)。相比之下,仅使用政治特征或同时使用所有特征的提示词则能产生相对较低的误差。例如,对于民主党人来说,如果提示词中不包含政治特征,对共和党、自由主义者、民主党、保守主义者、穆斯林和同性恋的预测误差会明显增加;而对于种族和宗教群体(如白人、黑人、基督徒、犹太人等)的误差则没有那么显著的差异。独立人士和共和党人的结果也呈现类似趋势,但对不同群体的预测误差程度有所不同。总之,提示词中包含政治信息对于减少预测误差至关重要,这说明LLM在生成合成数据时对政治背景高度敏感。
此外,图中还展示了由黑点和误差线表示的完整提示词的结果。这些误差线表示预测中的不确定性,并且与图表的其他部分进行比较时,这些不确定性相对较小,这表明,尽管提示词的选择会影响性能,但完整提示词能产生更稳定的预测结果。图表强调了使用LLM生成合成数据时,提示词的选择至关重要,并展示了不同提示词可能如何影响预测结果,尤其是在预测社会和政治群体的态度时。这表明在没有明确的政治背景的情况下,LLM可能会难以模拟某些社会群体的态度,并强调了在研究中小心使用LLM的必要性。

不同时间段的LLM数据比较 #
🔼 该图为散点图,展示了在不同时间段(2023年4月、6月、7月)使用相同提示词从大型语言模型(LLM)中生成的合成数据之间的差异。横轴代表2023年4月生成的数据,纵轴分别代表2023年6月和7月生成的数据,每个点代表特定情感温度计得分的观测数量,点的大小代表观测数量的多少,虚线表示完全一致的基准线(斜率为1)。图表分为两个子图,左侧比较了4月和6月的数据,右侧比较了4月和7月的数据。两个子图均显示了数据点分布的离散性,并没有完全落在完全一致的基准线上,说明模型在不同时间生成的数据并不完全相同。左图拟合的回归线斜率为0.93,表明6月份的数据相对于4月份的数据略微趋于平缓。右图拟合的回归线斜率为0.75,表明7月份的数据相对于4月份的数据发生了较为明显的均值回归,低值得分升高,高值得分降低。这表明随着时间的推移,即使使用相同的提示,模型输出的数据也会发生变化,这突出了使用LLM生成合成数据的潜在问题,即其结果的稳定性和可重复性受到模型更新和潜在算法调整的影响。研究人员在使用这种数据进行研究时,应考虑这种时间敏感性,并需要对数据结果进行谨慎解释。

深度解读 #
LLM数据可靠性 #
本论文探讨了使用大型语言模型(LLM)生成合成调查数据的可靠性问题。研究发现,尽管ChatGPT生成的合成数据在总体平均值上与真实调查数据(如ANES)接近,但在统计推断方面存在显著问题。 具体而言,合成数据的响应变异较小,回归系数与真实数据相比存在显著差异,48%的系数在统计上显著不同,其中32%的系数符号甚至相反。这表明,LLM生成的合成数据在捕捉复杂的社会科学关联时表现不佳,尤其是在涉及高阶关系时。此外,合成数据对提示词的微小变化和模型更新非常敏感,进一步削弱了其可靠性和可重复性。 这些发现对依赖LLM生成合成数据的研究提出了严重警告,尤其是在需要精确统计推断的领域。
提示词敏感性 #
论文揭示了LLM生成合成数据对提示词的敏感性。研究发现,提示词的微小变化会显著影响合成数据的分布和准确性。 例如,当提示词仅包含受访者的政治特征时,合成数据的准确性较高;而当提示词仅包含人口统计特征时,误差显著增加,尤其是对政治敏感群体的情感温度评分。这种敏感性不仅影响数据的准确性,还增加了研究中的自由度问题,使得研究结果的可重复性受到挑战。 此外,提示词的变化还可能导致研究者在不同情境下得出不一致的结论,进一步凸显了LLM生成数据的局限性。
模型更新影响 #
论文还探讨了LLM模型更新对合成数据的影响。研究发现,即使使用相同的提示词,不同时间生成的合成数据也会因模型更新而产生显著差异。 例如,2023年4月和7月生成的合成数据在情感温度评分上存在明显差异,尤其是在极端评分上,7月的数据表现出均值回归的趋势。这种变化不仅影响了数据的可重复性,还使得研究者难以在长期研究中保持一致性。 此外,由于LLM的闭源性,研究者无法准确了解模型更新的具体内容及其对数据生成的影响,进一步加剧了合成数据的不可控性。
合成数据局限性 #
论文深入分析了LLM生成合成数据的局限性。尽管LLM在生成总体平均值上表现良好,但在捕捉复杂的社会科学关联时表现不佳。 例如,合成数据在情感极化和党派偏见方面的表现与真实数据存在显著差异,尤其是在涉及特定群体(如非裔共和党人)时,合成数据表现出更强的极端性。此外,合成数据的方差较小,导致其在统计推断中的可靠性不足。 这些局限性不仅影响了合成数据的实用性,还使得其在社会科学研究中的应用前景受到质疑。未来的研究需要进一步探索如何改进LLM的训练和提示工程,以提高合成数据的准确性和可靠性。
未来研究方向 #
论文提出了未来研究的几个重要方向。首先,研究者需要进一步探索如何通过提示工程和微调LLM来生成更具代表性的合成数据。 其次,如何在不同情境下验证合成数据的通用性也是一个关键问题。此外,论文还提出了关于合成数据伦理问题的讨论,特别是在使用LLM替代人类受访者时,如何确保数据的透明性和可解释性。 最后,研究者需要开发新的方法来评估合成数据的质量,尤其是在缺乏真实数据的情况下。这些研究方向的探索将为LLM在社会科学中的应用提供新的思路和工具,同时也为未来的研究提出了更高的要求。
完整论文 #















