Skip to main content
  1. 论文/

Weak-PMLC: 基于极弱监督的大规模多标签政策分类框架

·6282 words·13 mins
自然语言处理 弱监督 政策文本分类 领域特定预训练 多标签分类 伪标签生成 语言模型 政策平台 电子政务
Table of Contents

✏️ Jiufeng Zhao
✏️ Rui Song
✏️ Chitao Yue
✏️ Zhenxin Wang
✏️ Hao Xu

要点总结
#

随着电子政务的发展,中国政府需要自动分类大量政策文本。然而,现有的政策分类方法通常依赖于大量标注数据,获取这些数据既昂贵又耗时。为了解决这一问题,本文提出了 Weak-PMLC,一种基于极弱监督的大规模多标签政策分类框架。该框架仅使用类别名称,无需任何标注文档,通过预训练语言模型生成与类别名称语义相关的种子词,并利用这些种子词生成大量伪标签数据,用于训练高性能的分类模型。

Weak-PMLC 的核心贡献在于其创新的极弱监督方法。首先,通过对未标注的政策语料库进行领域特定的预训练,扩展了语言模型的知识。接着,利用该模型生成与类别名称语义相关的种子词,并基于这些种子词生成伪标签数据。实验表明,Weak-PMLC 在两个新构建的政策数据集上达到了约 90% 的 F1 分数,比现有的弱监督方法提升了 4%,甚至与一些监督方法表现相当。此外,Weak-PMLC 还展示了其在公共数据集上的广泛适用性,进一步验证了其有效性。

关键要点
#

论文重要性
#

Weak-PMLC 的研究具有重要意义,因为它解决了政策分类任务中标注数据获取困难的问题。通过极弱监督的方法,Weak-PMLC 能够在不依赖大量标注数据的情况下,生成高质量的分类模型。这不仅降低了政策分类的成本,还为未来的弱监督学习研究提供了新的思路。此外,Weak-PMLC 的成功应用表明,类别名称作为一种廉价的监督信号,可以在其他文本分类任务中发挥重要作用,推动自然语言处理领域的进一步发展。未来的研究可以探索如何进一步优化伪标签生成过程,或结合半监督学习方法,进一步提升模型性能。


图表分析
#

Weak-PMLC框架概述
#

🔼 本图展示了Weak-PMLC框架的整体流程,该框架用于基于极弱监督的多标签政策分类。整个流程分为三个主要步骤。首先,利用领域相关的无标签文本数据对预训练语言模型(LM)进行持续预训练,使其从通用领域适应特定政策领域。这一步骤旨在捕获政策文本中的特定语义信息,从而提升模型对政策文本的理解能力。其次,使用经过领域预训练的LM为每个类别构建种子词汇表。具体而言,通过掩码语言模型(MLM)预测标签名称的同义词,收集高频词,并结合去除停用词等方法,最终构建每个类别的代表性种子词汇表。这些种子词汇表用于后续的伪标签生成。最后,基于种子词汇表的信息,为无标签政策生成伪标签,形成伪训练集。然后,利用该伪训练集训练最终的文本分类器。图中清晰地展示了数据和信息在各个步骤之间的流动,以及各步骤之间的逻辑关系。整个框架的设计目标是在没有人工标注数据的情况下,仅利用类别标签名称实现高效的政策分类,从而解决人工标注成本高、难以获取大规模高质量标签数据的问题。此框架创新性地结合了领域预训练和种子词汇引导的伪标签生成方法,为政策文本分类提供了一种新的解决方案,并为其他类似领域的文本分类任务提供了借鉴。

更多图表分析

长春市和吉林市政策平台主题分类
#

🔼 这张图展示了中国长春市和吉林市两个城市的在线政策平台的组织结构。每个平台都使用主题标签来分类政策,并在视觉上用蓝色突出显示,这些标签在图中由红色框指示。长春市的平台(图 a)展示了更广泛的分类,包括农业、工业、商业、市场监管、城乡建设、科技、文化和卫生等领域,每个领域都包括具体的政策子类别。吉林市的平台(图 b)分类则更为精炼,涵盖教育、科技、工业、公共安全、民政、司法、财政、人力资源、自然资源和生态环境等领域。两张图都展示了政府部门如何在在线平台上组织和呈现政策信息。这些分类是为了帮助公众快速找到与其需求相关的政策。通过这样的可视化,可以明显看出各个政府部门对政策分类的关注点有所不同,也反映了各地政策的侧重点有所区别,这为后续研究政策分类和跨部门检索提供了参考。

Weak-PMLC框架概述
#

🔼 该图展示了Weak-PMLC框架的整体流程,该框架旨在利用极弱监督进行多标签政策分类。框架的核心思想是仅依赖标签名称,而非标注数据进行模型训练。整个流程可分为三个主要阶段:第一阶段,使用领域特定的无标签文本数据对预训练的WoBERT模型进行再训练,以使其更适应政策文本的特性。具体来说,首先使用通用的预训练WoBERT模型,然后使用无标签的政策文本数据集进行进一步的领域特定预训练,以获得更适合该领域语言特征的模型。第二阶段,利用领域特定的预训练WoBERT模型为每个类别构建种子词汇表。这一步通过掩码语言模型(MLM)预测标签名称的同义词,并选择高质量的词汇作为种子词,这些种子词在语义上与标签名称相关。例如,图中显示了“教育”、“法律”和“节日”等标签名称,以及它们对应的种子词汇示例,如“学校”、“学生”、“律师”和“中国新年”。第三阶段,基于种子词信息为无标签语料库生成伪标签,从而构建伪训练集。如果一篇政策文本包含一个或多个类别的种子词,则使用相应的标签对该文本进行标记。最后,使用生成的伪训练集训练最终的文本分类器。该分类器也使用了领域特定的预训练WoBERT模型,并添加了一个密集的sigmoid层,用于生成每个标签的概率。通过这种方法,Weak-PMLC框架可以在没有人工标注数据的情况下,仅使用标签名称进行多标签政策分类,有效地降低了人力成本,提高了分类效率。该框架的核心创新之处在于利用领域特定的预训练和种子词汇表,有效地桥接了标签名称和政策文本之间的语义鸿沟。

标签种子词汇构建示例
#

🔼 该图展示了标签种子词汇构建过程的一个示例。核心思想是利用预训练的WoBERT模型,通过Masked Language Model(MLM)来预测与标签名称在语义上相关的词汇,从而构建标签的种子词汇。图中展示了两个标签示例:“教育”和“野生动物”。首先,输入文本中与标签名对应的词被[MASK]标记替换,例如文本“学生在[MASK]上接受[MASK]保护”。随后,利用预训练的WoBERT模型对该文本进行编码,并使用MLM头预测[MASK]位置上可能出现的词。对于“教育”标签,MLM预测的top-50个词汇包括教育、知识、文化、学习等,对于“野生动物”标签,预测的top-50个词汇包括野生动物、动物、熊猫、老虎、鸟类等。通过这种方式,可以捕获到与标签名语义相关的词汇。接下来,如果每个标签的词汇匹配数量超过了5个,就会进一步构建种子词汇。最终,每个标签会形成一组种子词汇,如“教育:教育、学习、大学、学校、学生…”和“野生动物:野生动物、动物、熊猫、老虎、鸟类…”等。这些种子词汇将用于后续的伪标签生成和模型训练。该图清楚地说明了如何利用预训练模型和MLM来提取与标签语义相关的关键词,从而为后续的弱监督学习提供基础。

Weak-PMLC分类器结构图
#

🔼 该图展示了 Weak-PMLC 框架中使用的分类器结构。该分类器基于一个领域特定的预训练 WoBERT 编码器。该编码器接收文本输入,例如“[CLS] Science and [MASK] are primary …”,其中“[MASK]”表示需要预测的掩码词。编码器为每个输入标记生成上下文相关的嵌入向量。这些向量之后会被送入一个前馈神经网络,该网络后接一个 Sigmoid 激活函数层。Sigmoid 层的输出是对每个预定义类别(如“High and new technology”,“Education”和“Talent”)的预测概率,其中类别预测结果用 0 或 1 表示,代表该文本是否属于该类别。整个模型的目的是利用 WoBERT 编码器学习到的领域特定知识,结合前馈神经网络和 Sigmoid 层进行多标签分类,从而在极弱监督条件下实现高效的政策文本分类。图中的箭头表示数据流的方向,体现了数据从输入到最终分类概率的转换过程,展示了 Weak-PMLC 如何利用预训练模型进行文本分类。此结构设计允许模型有效地处理多标签分类问题,其中一个文档可能属于多个类别,同时利用预训练模型的强大表达能力来提升分类效果。这种方法在缺少大量标注数据的情况下尤为重要。

政策数据集中标签的统计信息
#

🔼 这张图表展示了在两个城市(长春和吉林)的政策数据集中,不同类别标签下的政策数量统计。每个子图代表一个城市的数据集,图中的蓝色柱状表示该类别下的总政策数量,橙色柱状则表示该类别下包含种子词的政策数量。从图中可以看出,不同类别下的政策数量差异显著。例如,在长春市的数据集中,“工业”类别的政策总数最多,超过了3500个,而“法律”和“林业”类别的政策数量相对较少,但都超过了1000个。在吉林市的数据集中,“保险”类别的政策总数最多,超过2000个,而“工业”和“法律”类别的政策数量相对较少。此外,几乎每个类别中,包含种子词的政策数量都低于该类别的总政策数,这表明模型通过种子词覆盖政策的能力还有提升空间。两个城市数据集的整体分布趋势相似,但每个具体类别的数量差异又体现了不同城市在政策发布和关注重点上的差异性。这种不平衡的数据分布对于模型训练提出了挑战,可能需要采用特定的方法来处理,以避免模型偏向于数量较多的类别。通过分析这些统计信息,我们可以更好地理解政策数据集的构成,从而为后续的政策分类和分析工作提供参考。

不同种子词数量的 F1 值
#

🔼 该图表展示了在不同数量的种子词下,Weak-PMLC模型在Changchun和Jilin数据集上的性能表现。横轴表示每个类别使用的种子词数量,从1到8不等。纵轴表示模型的 Micro-F1 和 Macro-F1 分数,用于衡量模型的整体性能,以及对不平衡数据集的分类表现。在 Changchun 数据集中,随着种子词数量的增加,模型的 Micro-F1 和 Macro-F1 分数均呈现上升趋势,并在种子词数量为 5 时达到峰值,分别为 0.9073 和 0.8535。随后,当种子词数量超过 5 时,性能开始下降。Jilin 数据集也观察到类似的趋势,性能在种子词数量为 5 时达到最高,Micro-F1 为 0.8876,Macro-F1 为 0.8597。值得注意的是,Micro-F1 分数通常高于 Macro-F1 分数,表明模型在每个样本上的平均表现较好,但对少数类别的区分能力稍逊。两个数据集的性能曲线都表明,使用过少或过多的种子词都会降低模型的分类能力。这可能是因为少量种子词无法完全覆盖类别的语义空间,而过多种子词则可能引入噪声或模糊类别之间的界限。种子词数量为 5 时达到最佳性能,这表明模型在此时达到最佳的平衡,既能充分利用语义信息,又能减少噪声的影响。该图表强调了在弱监督学习中,种子词选择的重要性,以及如何通过实验找到最佳的种子词数量。研究人员可以通过此类图表分析,优化模型的性能。

不同标记数据量下的 WoBERT 表现
#

🔼 该图表展示了在Changchun市和Jilin市数据集上,监督学习模型WoBERT的Micro-F1分数随着每类别标注文档数量变化的情况。图表分为(a)和(b)两个子图,分别对应Changchun市和Jilin市数据集。横轴表示每类别的标注文档数量,从20到130不等,纵轴表示Micro-F1分数。图中蓝色实线表示WoBERT模型的性能,橙色虚线表示Weak-PMLC模型的性能作为对比基准。\n\n在Changchun市数据集(图a)上,WoBERT的性能随着标注文档数量的增加而稳步提升。当每类别标注文档数量为20时,Micro-F1分数约为0.81,随着标注数据增加,模型性能逐渐提升,当每类别标注文档达到130时,WoBERT的Micro-F1分数约为0.91。与Weak-PMLC的基准线相比,WoBERT在标注数据量较小时性能低于Weak-PMLC,在数据量增加到100以上时才逐渐接近并超过Weak-PMLC的性能。\n\n在Jilin市数据集(图b)上,WoBERT模型的性能也呈现出与Changchun市数据集相似的趋势。当每类别标注文档数量为20时,Micro-F1分数约为0.81,随着标注数据量的增加,WoBERT的性能逐渐提升,当每类别标注文档达到130时,WoBERT的Micro-F1分数约为0.91。与Weak-PMLC的基准线相比,WoBERT模型在数据量较少时性能不如Weak-PMLC,只有在数据量达到100以上时才逐渐超过Weak-PMLC的性能。\n\n总的来说,这两个图表表明,当标注数据量较少时,Weak-PMLC方法无需标注数据也能达到与监督学习模型相近甚至更好的性能。随着标注数据量增加,监督学习模型WoBERT的性能才逐渐追赶上Weak-PMLC模型。这突出了在标注数据稀缺的情况下,Weak-PMLC这类弱监督方法的实用性和价值。

深度解读
#

弱监督分类
#

本文提出了一种基于极弱监督的大规模多标签政策分类框架(Weak-PMLC),该框架仅依赖于每个类别的标签名称,而不需要任何标注文档。传统的政策分类方法通常依赖于大量标注数据,而Weak-PMLC通过预训练语言模型(LM)生成与标签名称语义相关的种子词,并利用这些种子词生成伪标签数据来训练高性能的分类模型。这种方法的创新之处在于它极大地减少了人工标注的成本,同时通过领域特定的预训练语言模型提高了分类的准确性。实验结果表明,Weak-PMLC在两个新构建的数据集上达到了约90%的F1分数,比现有的弱监督方法提高了4%。此外,Weak-PMLC的性能甚至与一些监督模型相当,展示了其在政策分类任务中的巨大潜力。

领域特定预训练
#

本文通过领域特定的预训练语言模型(LM)来提升政策分类的性能。传统的预训练语言模型通常在通用语料库上进行训练,缺乏对特定领域的理解。为了解决这一问题,Weak-PMLC在未标注的政策语料库上对LM进行进一步的预训练,使其能够更好地捕捉政策文本的语义信息。实验结果表明,领域特定的预训练显著提高了模型的性能,尤其是在处理政策文本中的专有名词和领域特定术语时。这种领域适应性的预训练方法不仅提高了分类的准确性,还为其他领域特定的自然语言处理任务提供了新的思路

伪标签生成
#

Weak-PMLC通过种子词信息生成伪标签数据,用于训练分类模型。伪标签的质量直接影响分类模型的性能,因此本文提出了一种基于计数的简单但有效的伪标签生成方法。具体来说,如果政策文本中包含某个类别的种子词,则该政策被标记为该类别。实验结果表明,这种伪标签生成方法能够覆盖大多数未标注的政策文本,并且生成的伪标签具有较高的准确性。尽管该方法依赖于种子词的频率,但其简单性和高效性使其在政策分类任务中表现出色。此外,本文还通过人工提取关键词的方式验证了伪标签生成方法的有效性,进一步证明了该方法的可靠性。

多标签分类
#

本文提出的Weak-PMLC框架支持多标签政策分类,这与传统的单标签分类方法相比具有显著优势。政策文本通常涉及多个主题,因此多标签分类能够更准确地反映政策的复杂性。Weak-PMLC通过生成与多个类别相关的伪标签,能够同时为政策文本分配多个标签。实验结果表明,Weak-PMLC在多标签分类任务中表现优异,尤其是在处理不平衡数据集时,能够有效地覆盖少数类别。这种多标签分类方法不仅提高了政策分类的准确性,还为其他多标签文本分类任务提供了新的解决方案

未来研究方向
#

本文指出了未来研究的几个方向,其中最值得关注的是如何利用标签之间的相关性来进一步提升分类性能。例如,某些标签(如“娱乐与体育活动”和“教育”)在政策文本中经常同时出现,挖掘这些标签之间的依赖关系可以帮助模型更准确地进行多标签分类。此外,未来的研究还可以探索无监督的政策分类方法,即由机器自动生成类别标签名称并自动分类文档,从而进一步减少对人工标注的依赖。最后,本文提出的Weak-PMLC框架可以与其他半监督学习方法结合,利用高置信度的伪标签来训练半监督模型,从而进一步提升分类性能。

完整论文
#