要点总结 #
随着大数据时代的到来,社交媒体上的短文本为社会科学研究提供了丰富的个体内部状态信息。然而,手动编码的局限性使得大规模文本分析变得困难。本文旨在评估多种自动文本分析方法在近似人类编码方面的表现,涵盖了动机、规范、情感和立场等四个编码任务。研究发现,尽管常用词典在识别罕见类别时表现良好,但其误报率较高。相比之下,基于手动编码数据训练的大型语言模型在所有案例研究中表现最佳。
本文还评估了像GPT-4这样的生成式语言模型在零样本分类任务中的表现。尽管这些模型在某些任务中表现出潜力,但其性能仍不及基于手动数据训练的模型。研究讨论了不同模型的优缺点,并探讨了模型复杂性与性能之间的权衡。本文为社会科学研究者提供了在大规模文本数据挖掘中的最佳实践建议,帮助他们选择适合的文本分析方法。
关键要点 #
论文重要性 #
本研究为社会科学研究者提供了在大规模文本数据挖掘中的最佳实践建议,帮助他们选择适合的文本分析方法。随着社交媒体和在线平台的普及,短文本数据成为研究个体内部状态的重要资源。本文不仅揭示了不同文本挖掘方法的优缺点,还探讨了模型复杂性与性能之间的权衡,为未来的研究提供了方向。研究结果表明,大型语言模型在推断个体内部状态方面具有显著优势,但生成式模型的误报问题仍需进一步解决。未来的研究可以结合多种方法,进一步提升文本分析的准确性和可靠性。
图表分析 #
文本表示方法示例 #
🔼 该图展示了文本数据在自然语言处理中常用的几种表示方法。图表分为四个部分,分别展示了:(A) 文本的词列表形式,(B) 离散文本表示(文档-词项矩阵),(C) 分布式文本表示(词嵌入),以及 (D) 分布式文本表示(文档嵌入)。
(A) 部分列出了三个文本示例及其对应的词列表,展示了原始文本如何被分解为单独的词。每个文本都显示了其包含的所有词,为后续的数值化处理奠定了基础。
(B) 部分则展示了如何通过文档-词项矩阵(DTM)来表示文本。DTM 是一个稀疏矩阵,每一行代表一个文档,每一列代表一个词项。矩阵中的值表示该词项在对应文档中出现的次数。例如,文本1中“fox”、“jump”和“the”都出现了1次,文本2中“jump”和“the”出现1次,文本3中只有“jump”出现1次。这种表示方法简单直接,但忽略了词语之间的语义联系和语序信息。
(C) 部分介绍了词嵌入的概念,即将每个词映射到一个高维向量空间中。在这个空间中,语义相似的词彼此靠近。表格中列出了“fox”,“jump”和“the”这三个词在三维空间中的坐标,展示了词嵌入如何将词语转化为数值向量。这种表示方法能够捕捉词语的语义信息,提高模型的表现。
(D) 部分展示了文档嵌入,即将整个文本映射到一个高维向量空间。每个文档在这个空间中都有一个唯一的向量表示,可以用于比较文档之间的语义相似度。表格中列出了文本1、2和3在三维空间中的坐标。这种方法能够捕捉整个文本的语义信息,适用于文档分类、聚类等任务。
总的来说,这张图清晰地展示了从原始文本到数值向量的几种转换方式,这些转换是后续进行文本分析和机器学习的基础。从简单的词列表到复杂的分布式向量表示,每一种方法都适用于不同的场景,并有其各自的优缺点。该图为读者理解文本表示的概念提供了直观的参考。
更多图表分析
模型性能评估流程示意图 #
🔼 该图表展示了用于评估文本挖掘模型性能的流程,该流程包括以下几个主要步骤:
(a) 初始数据准备阶段:在这一阶段,研究人员首先需要选取一部分文本进行手动编码。这些手动编码的文本将作为后续模型训练和评估的基准。图中以灰色矩形表示“手动编码”部分,而下方浅灰色部分则代表“未手动编码”的文本数据。
(b) 数据分割与最终验证阶段:此阶段将手动编码的数据划分为两个子集:训练数据集和保留数据集。训练数据集用于训练不同的文本挖掘模型,而保留数据集则用于评估这些模型的最终性能。图中深灰色部分代表训练数据集,浅灰色部分代表保留数据集。
(c) 交叉验证阶段:为了更稳健地评估模型性能,研究者采用了10折交叉验证方法。该方法将训练数据进一步划分为10个子集,每次选择一个子集作为验证集,其余9个子集作为训练集,重复此过程10次。通过这种方式,可以减少因数据划分带来的偏差,更准确地评估模型的泛化能力。图中以一系列交叉分割的矩形展示了交叉验证的流程。
在完成10折交叉验证后,研究者会选择在交叉验证中表现最佳的模型,并用该模型在整个训练数据集上进行训练。最后,在保留数据集上评估该模型在最终任务中的表现。这样的流程确保了模型评估的科学性和可靠性,减少了过拟合的风险,并为后续将训练好的模型应用于新的、未标记的数据集提供了依据。该图清楚地概括了整个模型评估的关键步骤和数据流向,为理解文章的方法论提供了重要的视觉参考。

模型性能比较 #
🔼 该图表展示了不同文本挖掘方法在识别真阳性(True Positives)和避免假阳性(False Positives)方面的表现。图表分为上下两部分,上部分(A)展示了各模型识别出的真阳性数量,下部分(B)展示了各模型产生的假阳性数量。数据来源于四个不同的数据集:Feedback data, Election data, Reddit data 和 Hate speech data。在真阳性方面,我们可以看到,对于 Feedback data,最佳的监督学习模型 (Best SML) 识别出的真阳性数量最多,接近人工编码的结果。而在 Election data、Reddit data 和 Hate speech data 中,人工编码方法识别出的真阳性数量最多,其他模型均有不同程度的差距。在假阳性方面,最佳的预制词典 (Best RMD) 模型在所有数据集中都产生了大量的假阳性,特别是 Reddit data。最佳的定制词典模型 (Best CMD) 的假阳性结果有所减少,但仍高于最佳的监督学习模型 (Best SML)。最佳的零样本分类模型 (Best zero-shot) 在假阳性方面的情况不尽相同,在 Feedback data 和 Election data 中,假阳性结果最多,高于其他模型,而在 Reddit data 和 Hate speech data 中则有所改进。总的来说,该图表强调了不同文本挖掘方法在识别真阳性和避免假阳性方面的差异。虽然一些模型,如最佳的监督学习模型在识别真阳性方面表现较好,但假阳性的问题仍然存在,特别是预制词典方法。这些结果表明,在选择文本挖掘方法时,需要仔细权衡真阳性和假阳性的结果,并根据具体的研究任务和数据特点进行选择。人工编码虽然能得到最多的真阳性,但成本高昂,因此需要结合实际情况选择合适的模型。

不同字典方法在四个数据集上的性能表现 #
🔼 该图表展示了不同字典方法在四个数据集上的性能表现,使用微平均 F-score 作为评估指标。图表横轴为不同的字典方法,纵轴为微平均 F-score,每个数据集分别绘制了三种字典方法的性能表现。四个数据集分别是反馈数据(Feedback data), 选举数据(Election data), Reddit 数据(Reddit data) 和仇恨言论数据(Hate speech data)。每种方法使用箱线图显示性能分布。对于反馈数据,RMD (Ready-Made Dictionary) ‘Dictionary 1’ 的 F-score 约为0.33, CMD (Custom-Made Dictionary) ‘Dictionary 2’ 的 F-score 约为 0.54,CMD ‘Dictionary 3’ 的 F-score 约为0.48。在选举数据集中,RMD ‘Dictionary 1’ 的 F-score 约为 0.49,CMD ‘Dictionary 2’ 的 F-score 约为0.36, CMD ‘Dictionary 3’ 的 F-score 约为 0.48。Reddit 数据集中,RMD ‘Dictionary 1’ 的 F-score 约为 0.37, CMD ‘Dictionary 2’ 的 F-score 约为 0.49,CMD ‘Dictionary 3’ 的 F-score 约为 0.50。对于仇恨言论数据,RMD ‘Dictionary 1’ 的 F-score 约为 0.62,CMD ‘Dictionary 2’ 的 F-score 约为0.81,CMD ‘Dictionary 3’ 的 F-score 约为 0.85。总的来说,CMD 方法在大多数情况下都优于 RMD 方法,并且自定义字典方法 (CMD) 的性能差异不大。在仇恨言论数据集中,所有字典方法表现都明显好于其他数据集,这可能是因为该数据集的分类任务相对明确。该图展示了在不同文本分析任务中,选择合适的字典方法的重要性,以及自定义字典可能带来的性能提升。

不同SML方法在四个数据集上的性能 #
🔼 该图表展示了不同监督机器学习(SML)方法在四个不同数据集上的微平均F1分数表现。这些数据集分别是Feedback data, Election data, Reddit data 和 Hate speech data。图表清晰地展示了各种SML模型,包括逻辑回归(Logistic regression)、随机森林(Random Forest)、多标签随机森林(Multilabel Random Forest)、支持向量机(SVM)、BERT、RoBERTa 和 BERTweet,在不同数据集上的表现差异。从图中我们可以观察到以下几个关键点:
-
性能排序: 在所有四个数据集中,基于Transformer架构的模型(BERT、RoBERTa和BERTweet)通常表现优于传统的机器学习方法(如逻辑回归、随机森林和SVM)。尤其是在Feedback和Reddit数据集中,Transformer模型显示出明显的优势。
-
模型之间的比较: RoBERTa 模型在大多数情况下表现最佳,特别是在Feedback 和Election数据集中。BERT 和 BERTweet 的表现紧随其后,但通常略逊于RoBERTa。这表明,在自然语言处理任务中,使用针对特定任务和数据进行预训练的模型可以带来性能提升。
-
数据集的影响: 不同的数据集对模型的性能有显著影响。例如,在Hate speech数据集中,所有模型的表现都相对较高,这可能是因为该数据集的文本特征更易于模型学习。而在Feedback 和Reddit数据集中,模型之间的性能差距较为明显。
-
传统方法的局限性: 传统的机器学习模型,如逻辑回归、随机森林和SVM,虽然在某些数据集上表现尚可,但整体上性能不如Transformer模型。这进一步验证了深度学习在自然语言处理任务中的优势。
-
多标签随机森林的表现: 多标签随机森林(Multilabel Random Forest)在处理多标签分类问题时,在Election 数据集上表现出一些优势,但在其他数据集上并没有显著提升。
总的来说,图表清晰地展示了各种SML模型在不同文本数据集上的表现。在大多数情况下,基于Transformer架构的模型(特别是RoBERTa)提供了最佳性能,突显了这些模型在自然语言处理中的有效性。

不同SML方法在四个数据集上的子集准确率 #
🔼 该图表展示了不同监督机器学习(SML)方法在四个数据集上的性能表现,使用子集准确率作为评估指标。子集准确率衡量的是模型在多标签分类任务中正确预测所有标签的文本的比例。图表分为三个面板,分别对应三个数据集:反馈数据(Feedback data),选举数据(Election data)和Reddit数据(Reddit data)。每个面板内,横轴表示不同的SML方法,包括逻辑回归(Logistic regression)、随机森林(Random Forest)、多标签随机森林(Multilabel Random Forest)、支持向量机(SVM)、BERT、RoBERTa和BERTweet。纵轴表示子集准确率,数值越高表示模型性能越好。具体来看,对于反馈数据,BERT、RoBERTa和BERTweet这三个基于Transformer的模型表现明显优于其他传统机器学习方法,其中RoBERTa表现最佳。选举数据和Reddit数据也呈现类似的趋势,基于Transformer的模型总体上优于其他方法。值得注意的是,多标签随机森林在处理具有多标签的数据时,并没有明显优于传统的随机森林,这可能与数据集中标签共现模式的复杂程度有关。逻辑回归模型在三个数据集上的表现都相对较差,说明该模型在处理复杂分类任务时能力有限。SVM模型的表现略高于逻辑回归,但仍显著低于Transformer模型。图表中的箱线图显示了每个方法在多次交叉验证中的性能分布情况。每个箱子的上下边界分别表示第一四分位数和第三四分位数,中间的横线表示中位数,而胡须表示数据的范围。每个箱线图中的点代表每次交叉验证的准确率得分。每个数据集的性能分布差异也显示了模型对于不同类型文本数据的敏感性。总而言之,该图表明,在这些数据集上,特别是对于复杂的多标签分类任务,基于Transformer的预训练语言模型(如BERT、RoBERTa和BERTweet)通常比传统的机器学习方法表现更好。

不同零样本分类模型在四个数据集上的表现 #
🔼 该图展示了不同的零样本分类模型在四个不同数据集上的性能表现,使用微平均F1分数作为评估指标。这四个数据集分别是“Feedback data”、“Election data”、“Reddit data”和“Hate speech data”。对于每个数据集,图表中比较了GPT-3.5和GPT-4两个模型的性能。整体而言,GPT-4在大多数数据集上的表现优于GPT-3.5,但在“Reddit data”上,两者性能接近。
具体来看,“Feedback data”中,GPT-4的F1分数略高于GPT-3.5;“Election data”中,GPT-4的F1分数明显高于GPT-3.5;在“Reddit data”中,两者的微平均F1分数非常接近;而在“Hate speech data”中,GPT-4的性能显著高于GPT-3.5。值得注意的是,在“Hate speech data”中,GPT-4的微平均F1分数接近0.9,显示出在该任务上具有很强的分类能力。
这些结果表明,在零样本分类任务中,模型性能会因任务和数据集而异。虽然GPT-4通常表现更优,但其改进程度在不同数据集中有所不同。在情感分类(如Reddit数据)等任务中,GPT-4与GPT-3.5之间的差距可能较小,而在更具挑战性的任务(如Hate speech data)中,差距则较为明显。此外,此图也强调了零样本学习方法在不同数据集上的有效性差异,为研究者提供了选择合适模型的参考。
从整体趋势来看,GPT-4在大多数情况下优于GPT-3.5,这也说明了模型在不断迭代过程中,性能的持续提升。然而,针对不同性质的数据集,具体模型的选择还需根据实际情况进行分析和决策,不能一概而论。

不同预处理的字典方法性能 #
🔼 该图表展示了在四种不同的数据集上,两种自定义字典(Dictionary 2和Dictionary 3)在不同预处理组合下的性能表现,使用微平均F1分数作为评估指标。横轴表示使用的字典类型(Dictionary 2和Dictionary 3),纵轴表示微平均F1分数,范围从0.2到0.8。图例部分显示了四种预处理组合,分别为:无词形还原且无停用词移除、无词形还原但有停用词移除、有词形还原但无停用词移除、有词形还原且有停用词移除。在“反馈数据”中,Dictionary 3 在所有预处理组合中都表现出较高的F1分数,且词形还原和停用词移除的组合效果最佳,而 Dictionary 2 相对较差。在“选举数据”中,Dictionary 3 在所有预处理组合下都优于 Dictionary 2,且有停用词移除的处理方式性能较高。在“Reddit数据”中,Dictionary 3 的性能普遍优于 Dictionary 2。有停用词移除且无词形还原的组合效果最佳。在“仇恨言论数据”中,所有预处理组合下,Dictionary 3 的表现均优于 Dictionary 2,且两者F1值都较高,预处理对结果影响较小。总的来看,Dictionary 3 在所有四个数据集上的性能都相对较好,且在大多数情况下,停用词移除对字典的性能有提升作用。词形还原的影响则因数据集而异。不同预处理组合对性能的影响程度因数据集而异,在“反馈数据”和“选举数据”中表现较为明显。图表强调了数据预处理对文本分类任务的重要性,并建议根据具体数据集和任务选择合适的预处理步骤。该图表对研究人员在选择文本挖掘方法时具有参考价值,特别是对于自定义字典方法的预处理选择提供了具体依据。

不同预处理方式对 SML 模型性能的影响 #
🔼 该图表展示了不同预处理组合对各种监督机器学习(SML)模型性能的影响,使用了四个不同的数据集:反馈数据、选举数据、Reddit 数据和仇恨言论数据。这些模型包括逻辑回归、随机森林(RF)、多标签随机森林和支持向量机(SVM)。
图表的核心内容是比较不同文本预处理步骤如何影响这些模型的微平均 F1 分数。预处理步骤主要包括是否进行词形还原(lemmatization)和是否去除停用词(stop word removal)。图例中,蓝色方块表示不进行词形还原且不去除停用词,红色圆点表示不进行词形还原但去除停用词,黄色三角形表示进行词形还原但不去除停用词,绿色菱形表示既进行词形还原又去除停用词。
从图中可以看出,对于反馈数据,随机森林模型在不同的预处理组合下表现相对稳定,而逻辑回归和 SVM 模型则略有波动。在选举数据集中,模型间的差异相对较小,而多标签随机森林模型略优于其他模型。Reddit 数据集中,所有模型的性能均相对较低且波动较小。对于仇恨言论数据集,随机森林和多标签随机森林模型在所有预处理组合下都表现出相当高的性能,且优于逻辑回归和 SVM 模型。
整体来看,在大多数情况下,添加词形还原步骤可以略微提升模型性能,但去除停用词的影响更为显著,并且在不同模型中的表现不太一样。预处理步骤对模型性能的影响并非绝对,可能取决于具体的数据集和模型。但总的来说,随机森林和多标签随机森林模型在所有数据集中都表现出相对较好的性能,尤其是对于仇恨言论数据集,这两个模型表现出惊人的优势。而逻辑回归和SVM模型表现出相对的弱势。
该图表展示了预处理步骤对文本分类任务的重要性,强调了在实际应用中对不同预处理方法进行实验的重要性。总的来说,预处理的选择会对模型性能产生一定影响,但在特定任务和模型下影响的大小有所不同。值得注意的是,虽然不同的预处理组合会对 F1 分数产生影响,但是影响的程度通常是微小的,尤其是在监督机器学习分类方法中。

反馈数据各类别性能 #
🔼 该图表展示了在反馈数据集中,不同文本挖掘方法在各个类别上的性能表现,包括类别特征、真阳性数量和假阳性数量。图表分为三个部分:(A) 类别特征,展示了每个类别的编码比例(% coded for)和Fleiss’ Kappa值,反映了类别的出现频率和编码者之间的一致性。(B) 真阳性,显示了不同模型正确识别出的文本数量,体现模型在识别特定类别时的能力。(C) 假阳性,显示了模型错误标记为特定类别的文本数量,反映模型的过度泛化程度。在类别特征方面,可以观察到不同类别的出现频率差异较大,“分享客观事实” (Share facts) 占比最高,而“联系卖家” (Reach out to the seller) 和“避免伤害卖家” (Avoid harming the seller) 等类别占比非常低,这直接影响了后续模型的识别难度。Fleiss’ kappa 值同样显示了不同类别间编码一致性的差异。在真阳性方面,RoBERTa模型(Best SML)在多数类别上表现最佳,尤其是“奖励或惩罚卖家” (Reward or punish the seller),但也有部分类别识别不足,如“联系卖家”和“帮助卖家” (Help the seller)。自定义字典 (CMD) 在一些类别上表现出了竞争力,尤其是对稀有类别的识别。零样本学习模型(Best zero-shot)在真阳性数量上整体表现不佳。在假阳性方面,RMD(现成词典)表现最差,产生了大量的误判,特别是“联系卖家”和“帮助卖家”类别。自定义字典的误判数量相对较低,而RoBERTa模型和人工编码的误判数量更少。零样本学习模型(Best zero-shot)在假阳性数量上也较高,表明其在精确分类方面存在挑战。总的来说,该图表展示了不同文本挖掘方法在处理多类别分类问题时的优势和不足。RoBERTa模型在真阳性识别上表现出色,但可能牺牲了对罕见类别的识别能力;自定义词典在识别罕见类别方面有优势,但可能导致较高的误判率。零样本学习模型尽管方便易用,但其准确性和稳定性还有待提高。因此,在实际应用中,应根据具体需求选择合适的模型,并可能需要结合多种方法来获得最佳效果。此图也说明了人工编码依旧是gold standard, 其他方法尚不能完全取代人工编码。

深度解读 #
文本挖掘方法 #
本文系统评估了多种自动文本分析方法在短文本中的应用,特别是如何通过这些方法从在线帖子中推断个体的内部状态。研究发现,常用的词典方法在识别不常见类别时表现良好,但与其他方法相比,误报率较高。 相比之下,基于手动编码数据训练的大型语言模型在所有案例研究中表现最佳。然而,某些情况下,简单的方法也能达到几乎相同的性能。此外,本文还评估了像 GPT-4 这样的前沿生成语言模型在零样本分类任务中的表现。尽管这些模型表现出了潜力,但其性能仍不及基于手动分析数据训练的模型。这些发现为社会科学研究者提供了关于如何在大规模文本数据中提取有价值见解的实践建议。
模型性能对比 #
本文通过四个案例研究,对比了不同文本挖掘方法的性能。结果显示,经过微调的 Transformer 模型(如 RoBERTa)在大多数任务中表现最佳,尤其是在处理复杂的编码任务时。 相比之下,词典方法(如自定义词典)在某些任务中表现较好,但误报率较高。零样本分类方法(如 GPT-4)虽然在某些任务中表现良好,但在大多数情况下仍不及微调模型。这些结果表明,模型的选择应根据具体任务的需求进行权衡,尤其是在处理复杂的内部状态推断时,微调模型可能是最佳选择。
零样本分类潜力 #
本文探讨了零样本分类方法在文本挖掘中的潜力,特别是使用 GPT-4 等生成模型进行零样本分类的表现。尽管这些模型在某些任务中表现出了良好的性能,但其误报率较高,尤其是在处理复杂的内部状态推断时。 研究还指出,通过调整提示词或提供少量示例(少样本学习),可以进一步提高零样本分类的性能。然而,零样本分类的透明度和可解释性较低,研究者在使用这些方法时需要谨慎,并结合手动编码数据进行验证。
词典方法的局限性 #
本文详细探讨了词典方法在文本挖掘中的局限性。尽管自定义词典在某些任务中表现较好,但其误报率较高,尤其是在处理短文本和复杂编码任务时。 相比之下,预定义词典(如 LIWC)在特定领域表现良好,但在跨领域应用时效果不佳。研究建议,在使用词典方法时,应结合手动编码数据进行验证,并考虑使用更复杂的模型(如 Transformer)来提高分类的准确性。
未来研究方向 #
本文指出了未来研究的几个方向,特别是在文本挖掘和自然语言处理领域。首先,未来的研究可以进一步探索如何提高零样本分类的性能,尤其是在处理复杂的内部状态推断时。 其次,研究者可以尝试结合多种方法(如词典方法与分布式表示)来提高分类的准确性。此外,未来的研究还应关注如何提高模型的透明度和可解释性,尤其是在使用生成模型时。最后,研究者应继续探索如何将文本挖掘方法与其他数据源(如问卷或实验数据)结合,以进一步提高推断的准确性。
完整论文 #





















