利用开放大型语言模型进行多语言政策主题分类：巴别塔机器方法

Table of Contents

✏️ Miklós Sebok

✏️ Akos Máté

✏️ Orsolya Ring

✏️ Viktor Kovacs

✏️ Richard Lehoczki

要点总结
#

研究背景与问题：在人工智能时代，社会科学研究正受到技术进步的深刻影响。自然语言处理（NLP）作为信息技术与语言学的交叉领域，旨在为文本分类等任务提供自动化解决方案。尽管已有研究尝试用机器学习替代人工编码，但在比较政治学领域，如《比较议程项目》（CAP），仍依赖大规模人工编码。本文提出了一种基于多语言大语言模型（LLMs）的自动化分类工具——CAP Babel Machine，旨在为CAP任务提供一种低成本、高可靠性的替代方案。

方法论与贡献：CAP Babel Machine 使用多语言 XLM-RoBERTa 大语言模型，能够为多种语言和领域（如媒体或议会演讲）生成最先进的分类结果。在41个语言-领域对中，24个模型的加权宏F1得分超过0.75，其中6个甚至超过0.90。结果表明，CAP Babel Machine 在有效性和可靠性上可以替代人工编码，且成本更低。此外，该研究设计具有扩展性，能够通过引入新模型、新语言和新数据集进行微调，未来有望在更多比较分类问题中取代人工编码。

关键要点
#

论文重要性
#

这项研究的意义在于：CAP Babel Machine 提供了一种低成本、高可靠性的自动化分类工具，能够显著减少人工编码的时间和成本。其影响力体现在：它不仅能够替代人工编码，还为未来的多语言、多领域分类任务提供了可扩展的解决方案。与当前研究趋势的关联：随着大语言模型的广泛应用，自动化文本分类正成为社会科学研究的重要工具。未来研究方向包括进一步优化模型性能、扩展语言和领域覆盖范围，以及探索其在其他分类任务中的应用。

图表分析
#

各语言领域的数据分布
#

🔼 该图展示了不同语言在各个数据领域中的分布情况，横轴表示领域份额，纵轴是不同语言及其对应的领域。图中每个水平条形代表一个特定语言在特定领域的数据量占比，条形越长，表示该语言在该领域的数据越多。例如，英语（English）的数据分布较为广泛，涵盖了媒体（Media）、议会发言（Parl. speech）、立法（Legislative）、行政演讲（Exec. speech）、行政命令（Exec. order）、政党宣言（Party manifesto）以及司法（Judiciary）等多个领域，其中立法领域的数据量占比最高。相比之下，其他语言的数据分布则相对集中在少数几个领域。匈牙利语（Hungarian）在议会发言、立法、行政演讲、预算（Budget）和公众意见（Public opinion）等领域有数据，但主要集中在议会发言领域。丹麦语（Danish）的数据则主要集中在议会发言领域。德语（German）的数据主要集中在媒体和政党宣言。法语（French）的数据则主要分布在立法、行政演讲、行政命令和政党宣言。意大利语（Italian）的数据分布在社交媒体（Social media）、议会发言和立法。葡萄牙语（Portuguese）的数据则集中在立法、行政演讲和行政命令。西班牙语（Spanish）主要分布在媒体、议会发言、立法、行政演讲、行政命令和政党宣言。荷兰语（Dutch）数据在媒体、社交媒体、议会发言、立法、行政演讲和行政命令等领域有分布。总的来说，这张图清晰地展示了各个语言在不同领域的数据分布差异，突出了英语数据覆盖范围最广，而其他语言则各有侧重，这有助于理解数据来源的多样性和潜在的分析偏倚。

更多图表分析

Pooled数据集中类别分布
#

🔼 该图表展示了在用于大型语言模型微调的汇总数据集中，各个政策主题类别的分布情况。这是一个水平条形图，横轴表示类别比例（以百分比表示），纵轴列出了各个政策类别。图表清晰地显示了数据集中各类别的相对频率，为理解模型训练的偏向性和数据分布提供了关键信息。

图中，“None”类别占比最高，约为12.5%，其次是“政府”类别，占比略低于10%。这表明数据集中有相当一部分是不属于任何政策类别的文档或者数据，以及大量与政府相关的文档。“法律与犯罪”，“宏观经济”，“国际事务”和“卫生”等类别也相对较多，占比在5%到7.5%之间。紧随其后的是“国内商业”，“国防”和“教育”，这些类别的占比大约在4%到5%之间。“交通运输”、“公共土地”、“劳工”和“福利”等类别的占比则稍低，接近3%到4%。“农业”、“环境”和“民权”的占比在2%到3%之间。“科技”、“住房”、“文化”和“能源”等类别的比例较低，大约在1%到2%之间。“对外贸易”和“移民”的比例最低，接近0%。

图表整体呈现出明显的类别分布不均衡现象。“None”和“政府”类别明显高于其他类别，而许多类别的占比都低于2%。这种不平衡可能会对模型的性能产生影响，特别是在那些代表性不足的类别中。这需要研究人员在模型训练过程中加以注意，可能需要采取一些策略来解决数据不平衡的问题，例如类别加权或数据增强等方法。这张图表是理解数据分布和模型训练的关键，为进一步的分析和改进提供了重要的背景信息。

CAP Babel Machine流程图
#

🔼 该图描绘了 CAP Babel Machine 的流程图，展示了用户上传数据到系统进行政策主题分类的完整过程。整个流程可以概括为以下几个步骤：

用户提交 (1)：用户首先通过 Web 应用程序提交表单，包含待分类的文本数据。
数据上传 (2)：Web 应用程序在接收到用户提交后，会进行文件有效性检查，如果通过，则将原始文件（raw file）和元数据（metadata.csv）发送到云存储。
云存储触发 (3)：云存储接收到新数据后，会触发一个云事件，启动后续的数据处理。
队列处理 (4)：一个 CSV 文件发送器函数将上传的文件添加到任务队列中。
API 接收任务 (5)：虚拟机的 API 接收来自任务队列的预测任务。
模型选择 (6)：根据任务需求，系统自动选择合适的预训练语言模型。
预测过程 (7)：选定的模型对文本数据进行预测，并输出预测结果。
API 调用 (8)：虚拟机启动器或 API 调用器函数负责执行预测过程。
结果通知 (9)：系统通过电子邮件向用户发送预测结果。
用户获取结果 (10)：用户可以通过 Web 应用程序访问输出文件。

此流程图清晰地展示了 CAP Babel Machine 如何自动化地处理用户上传的文本数据，利用预训练的语言模型进行政策主题分类，并将结果反馈给用户的整个过程。该图强调了系统的模块化设计，云存储和虚拟机协同工作，保证了流程的效率和可靠性。流程中的数字标号也方便理解每一步骤的顺序和关系。

预测模型选择决策流程图
#

🔼 该图为预测模型选择的决策流程图，展示了用户如何使用CAP Babel Machine进行政策主题分类的自动化过程。流程起始于用户成功上传数据集至CAP Babel Machine。系统首先检查上传数据的语言是否被支持。如果语言不支持，系统将使用“Pooled model”，即在所有语言和领域数据上训练的通用模型进行预测。如果语言被支持，则进入下一个决策环节。在此环节，系统会比较语言特定模型和语言领域模型的加权宏F1得分。加权宏F1是衡量模型在不平衡数据集上的性能指标。系统会选择具有更高F1得分的模型。如果语言领域模型具有更高的得分，则使用该模型进行预测；反之，则使用语言特定模型进行预测。整个流程旨在确保根据数据的特定特征，选择最适合的模型进行预测，从而提高分类的准确性和效率。该流程图清晰地展现了CAP Babel Machine如何根据用户输入动态选择合适的模型，以最大化预测性能。这种设计体现了机器学习模型在处理不同类型数据时的灵活性和适应性，为用户提供了高效且可靠的自动化文本分类工具。

不同语言模型性能对比
#

🔼 该图表展示了在不同语言上，使用 pooled 模型（即混合所有语言数据训练的模型）和 language-specific 模型（即针对特定语言单独训练的模型）进行政策主题分类的性能对比，评估指标为加权宏平均 F1 分数。从图表中可以清晰地看到，针对特定语言训练的模型在绝大多数情况下均优于使用混合数据训练的模型。例如，针对匈牙利语的 language-specific 模型，F1 分数从 pooled 模型的 0.3 提升至 0.83，提升幅度显著。类似的提升也出现在西班牙语、英语、德语等其他语言上。图表横轴代表不同的语言，包括匈牙利语、西班牙语、英语、德语、法语、意大利语、葡萄牙语、荷兰语和丹麦语。纵轴表示 F1 分数，范围从 0 到 0.9。每种语言都有两列柱状图，紫色代表 pooled 模型的性能，绿色代表 language-specific 模型的性能。结果显示，除英语外，其他所有语言的 language-specific 模型性能都明显高于 pooled 模型。英语的 pooled 模型 F1 分数为 0.59，而 language-specific 模型为 0.62，提升较小，但仍优于 pooled 模型。荷兰语和丹麦语的 language-specific 模型获得了最高的 F1 分数，分别为 0.83 和 0.91。该图表强调了针对特定语言进行模型训练的重要性，尤其是对于多语言政策主题分类任务而言。pooled 模型虽然可以利用所有语言的数据进行训练，但其性能通常不如针对特定语言进行精细调整的模型。这表明不同语言之间的文本特征和政策主题表达方式存在差异，需要针对性地进行模型训练才能获得更好的分类效果。图表清晰地展示了 language-specific 模型在多语言环境下的优势，并为后续的多语言文本分类模型训练提供了重要的启示。

微观F1分数分布
#

🔼 该图展示了跨不同CAP主题的微观F1分数分布及其对应的中位数。图中的每个水平条形代表一个特定的政策主题，从“宏观经济学”到“无政策内容”，总共22个类别。每个条形上的紫色区域表示微观F1分数的分布密度，可以理解为该主题下模型预测准确性的概率分布。紫色的“山峰”越高，意味着在该F1分数附近的模型表现更为集中。条形上的黑色菱形标记则代表该主题的微观F1分数的中位数。图中还包含一条垂直的参考线，指示所有主题中位数F1分数的平均值。从整体来看，大多数主题的F1分数分布集中在0.75附近，这与文章中设定的“研究级”结果标准相符。然而，不同主题之间的分布形状和中位数存在差异，揭示了模型在不同政策领域的预测表现有所不同。例如，“卫生”主题的F1分数分布相对均匀，而“公共土地”则呈现长尾分布，可能表明模型在该主题上的表现存在更大的变异性。“对外贸易”的分布则是多峰的，表明模型在该主题的预测上可能存在多个较为集中的表现水平。这些差异可能源于不同主题的复杂性、数据质量、以及主题之间的概念重叠等因素。此外，垂直参考线大约位于0.70到0.80之间，显示模型在整体上的平均表现接近“研究级”。图表还提供了不同政策主题的预测性能的详细视图，强调了尽管整体性能良好，但在特定主题上仍需改进。例如，“文化”和“无政策内容”的分布较其他类别更加分散，可能意味着这些类别的模型预测性能不佳，或训练数据质量和数量不足。总而言之，这张图表为我们提供了跨不同政策领域，模型分类性能的细致评估，为进一步的模型改进和研究方向提供了有益的参考。

丹麦数据的混淆矩阵
#

🔼 该图为丹麦语数据集的混淆矩阵，展示了模型在分类时产生的错误标签情况。矩阵的行代表真实标签，列代表预测标签。颜色越深，表示该组合的错误分类次数越多。从图中可以看出，大部分单元格颜色较浅，说明模型的分类错误主要集中在少数类别对上。对角线上的单元格（表示正确分类）在此图中被排除，只显示了错误分类，因此我们可以清楚地看到哪些类别更容易被混淆。具体来说，矩阵中颜色较深的区域主要出现在一些特定的类别对之间，这表明模型在区分这些类别时存在困难。例如，可以看到真实标签为某个值时，模型倾向于将其误判为其他特定标签，这种模式揭示了模型在这些类别之间的边界不清晰。同时，也存在部分类别较少被误判，表明模型对其区分度较高。此图的主要目的是诊断模型在类别分类中的薄弱环节。通过分析这些模式，研究人员可以进一步改进模型的训练数据或模型结构，以提高其在特定类别上的分类精度。例如，可以考虑增加容易混淆的类别的数据，或调整模型以更好地学习这些类别的特征。整体来看，混淆矩阵提供了一个细致的视角，有助于理解模型性能的细节，并为后续的改进提供方向。

语言领域数据占比与模型性能关系
#

🔼 该图表展示了不同语言和领域的数据集占比与其对应的模型性能之间的关系。横轴表示特定领域在相应语言数据集中的占比，纵轴表示模型的加权宏平均F1分数，这是一个衡量模型性能的指标。每个点代表一个特定的语言-领域组合。图中还包括一条拟合线和阴影区域，表示这些点的大致趋势和置信区间。从图中可以看出，大部分点的F1分数都在0.7到0.9之间，表明模型的性能相对较好。然而，也存在一些离群值，例如“西班牙-议会演讲”的F1分数较低，约为0.4，而“匈牙利-预算”的F1分数接近1.0。拟合线略微向上倾斜，表明模型性能可能与领域数据占比存在一定的正相关关系，但这种相关性并不强。图中的阴影部分表示拟合线的不确定性范围，说明在不同领域数据占比下，模型的性能存在一定的波动。值得注意的是，一些数据占比很小的组合仍然取得了较高的F1分数，例如“荷兰-媒体”和“葡萄牙-立法”，这说明模型性能不仅仅取决于数据占比，可能还受到其他因素的影响，例如数据质量和领域特性。总的来说，这张图表呈现了语言领域数据占比对模型性能的影响，并突出了在多语言环境下训练模型时需要考虑的复杂因素。

深度解读
#

多语言政策分类
#

本文提出了一种基于多语言XLM-RoBERTa大语言模型的自动化政策主题分类系统——CAP Babel Machine。该系统能够根据比较议程项目（CAP）的21个主要政策主题对输入文件进行自动分类。通过使用多语言模型，CAP Babel Machine在多个语言和领域（如媒体或议会演讲）中达到了最先进的分类效果。在41个语言-领域对中，24个模型的加权宏观F1分数超过了0.75，其中6个甚至超过了0.90。这表明，CAP Babel Machine在有效性和可靠性方面可以替代人工编码，且成本更低。该系统的设计具有显著的扩展潜力，可以通过引入新模型、覆盖更多语言和添加新数据集进行微调，进一步提升其性能。

模型性能提升
#

尽管CAP Babel Machine在多语言政策分类任务中表现出色，但在某些情况下，模型的性能仍然低于预期。提升模型性能的最直接方法是增加微调数据的数量和质量。然而，本文的研究表明，数据量并非唯一决定因素，数据质量同样至关重要。例如，在匈牙利媒体数据的实验中，移除低质量数据后，模型的加权宏观F1分数从0.49提升至0.69。此外，通过引入语言-领域对模型，模型的性能得到了显著提升，尤其是在立法和行政命令领域，平均加权宏观F1分数分别达到了0.86和0.80。未来的研究可以进一步探索如何通过数据清洗、超参数调优和集成学习等技术进一步提升模型的分类精度。

外部有效性验证
#

为了验证CAP Babel Machine的通用性，本文将其应用于比较宣言项目（MARPOR）的数据分类任务。尽管MARPO的类别系统更为复杂（56个类别），CAP Babel Machine在未经额外建模工作的情况下，仍然取得了加权宏观F1分数超过0.60的表现。这表明，该系统的分类流程具有广泛的应用潜力，尤其是在有足够训练数据的情况下。未来的研究可以通过增加训练数据和优化模型参数，进一步提升其在其他分类任务中的表现。此外，CAP Babel Machine的前端设计允许用户选择不同的分类任务和代码本，这为其在其他领域的应用提供了便利。

成本效益分析
#

本文对基于LLM的自动化分类系统与人工编码的成本进行了详细对比。对于5000个观察值的项目，LLM系统的总成本为5800美元，耗时73天；而人工编码的成本为6501美元，耗时71天。对于更大规模的项目（10万个观察值），LLM系统的成本为100800美元，耗时1260天，而人工编码的成本则高达6503美元，耗时71天。随着项目规模的扩大，LLM系统的成本效益优势愈发明显。此外，LLM系统的可靠性达到了100%，且能够快速生成分类结果，这使其在大规模数据分类任务中具有显著优势。未来的研究可以进一步探索如何通过优化计算资源和模型部署，进一步降低LLM系统的成本。

未来研究方向
#

本文提出了多个未来研究方向，以进一步提升CAP Babel Machine的性能和应用范围。首先，可以通过引入更多的微调数据，尤其是高质量的数据，来提升模型的分类精度。其次，可以探索如何通过超参数调优和集成学习等技术，进一步提升模型的性能。第三，未来的研究可以尝试引入主动学习机制，通过选择表现最差的类别进行人工验证，并将新标注的数据整合到训练集中，从而提升模型的整体性能。此外，CAP Babel Machine的设计具有广泛的扩展潜力，未来的研究可以将其应用于更多的分类任务和领域，如法律文本分类、社交媒体分析等。这些研究方向的探索将为多语言政策分类领域带来新的突破。

要点总结 #

关键要点 #

论文重要性 #

图表分析 #

各语言领域的数据分布 #

Pooled数据集中类别分布 #

CAP Babel Machine流程图 #

预测模型选择决策流程图 #

不同语言模型性能对比 #

微观F1分数分布 #

丹麦数据的混淆矩阵 #

语言领域数据占比与模型性能关系 #

深度解读 #

多语言政策分类 #

模型性能提升 #

外部有效性验证 #

成本效益分析 #

未来研究方向 #

完整论文 #