提示调优判别式语言模型用于层次文本分类

Table of Contents

✏️ Jaco du Toit

✏️ Marcel Dunaiski

要点总结
#

**层次文本分类（HTC）是自然语言处理中的一个重要任务，旨在将文本文档分类到层次化的类别结构中。近年来，预训练语言模型（PLMs）和层次结构信息的结合成为解决HTC任务的主流方法。然而，传统的微调方法在预训练和微调阶段之间存在差距，导致模型无法充分利用PLM的知识。为了解决这一问题，提示调优方法被提出，通过将下游任务转化为PLM的预训练任务来缩小这一差距。本文在此基础上，进一步提出了层次感知提示调优（HPTD）**方法，专门针对判别式PLMs进行优化。

HPTD方法通过将HTC任务注入到判别式PLMs的替换标记检测（RTD）预训练任务中，显著提升了模型的性能。具体来说，HPTD通过层次感知提示和类表示的结合，减少了预训练和微调之间的差距。此外，本文还提出了多项改进，包括为同一层次的类表示分配相同的位置ID，以及为每个类使用可学习的嵌入表示，从而在输入序列中为文本标记留出更多空间。实验结果表明，HPTD在三个常用基准数据集中的两个上表现优于当前最先进的方法，并且在低资源环境下也表现出色。

关键要点
#

论文重要性
#

这项研究的重要性在于，它提出了一种新的层次感知提示调优方法，显著提升了层次文本分类任务的性能。HPTD方法不仅减少了预训练和微调之间的差距，还通过改进提示调优方法，使得模型能够处理更大规模的层次结构分类任务。这项研究的影响在于它为未来的层次文本分类任务提供了新的思路，尤其是在低资源环境下，HPTD表现出色，展示了其在实际应用中的潜力。未来的研究可以进一步探索如何将HPTD方法应用于其他类型的预训练语言模型，以及如何优化其在更复杂层次结构中的表现。

图表分析
#

HPTD模型架构图
#

🔼 该图展示了论文中提出的 HPTD (Hierarchy-aware Prompt Tuning for Discriminative PLMs) 模型的整体架构。该架构的核心思想是将分层文本分类任务转化为判别式预训练语言模型（Discriminative PLM）的替换标记检测 (RTD) 任务。输入序列首先通过嵌入层转化为向量表示，包括文本的嵌入向量 (X)，层级提示的嵌入向量（p_i,v）和类别表示的嵌入向量 (c_i,j)。文本嵌入向量 (X) 来自输入文本的 tokens x1, x2, …, xT。层次提示的嵌入向量 (p_1,1 到 p_K,V) 表示在不同层级的提示信息。类别表示的嵌入向量 (c_1,1 到 c_K,NK) 表示每个层级的类别。这些嵌入向量随后被送入判别式 PLM，该 PLM 基于 RTD 任务生成每个类别 tokens 的输出分数 dC_i,j。最后，这些分数通过损失函数 L 来优化模型参数。整个架构旨在通过模仿 PLM 的预训练任务，更好地利用 PLM 的知识，从而提高分层文本分类的性能。图中清晰地展示了数据如何在模型中流动，从输入文本到最终的分类输出分数，并突出了 HPTD 模型的关键组成部分，即嵌入层、判别式 PLM 和损失函数。

更多图表分析

层级提示嵌入过程示意图
#

🔼 该图展示了层级提示嵌入的初始化过程，这是论文提出的 HPTD 方法的关键组成部分。图中，层级结构由多个节点表示，每个节点代表一个类别，节点之间的连线表示类别之间的父子关系。为了引入层级信息，作者为每一层引入了虚拟节点 P1 到 PK，这些节点通过虚线连接到对应层的所有类别节点。每个类别节点的初始嵌入由其类别名称的词嵌入平均值得到。虚拟节点的嵌入则被随机初始化。接下来，一个图注意力网络 (GAT) 用于聚合信息。GAT 接收图结构和节点嵌入作为输入，并输出每个虚拟节点的嵌入表示，即图中的 P1,1 到 PK,1。这些虚拟节点的输出最终被用作每一层级提示的初始嵌入。从图中可以看出，每一层的虚拟节点都与该层的所有类别节点相连，确保了每个虚拟节点能够捕获其对应层的所有信息。这种连接方式有助于模型理解不同层级之间的关系，并有效地利用层次结构信息。此外，GAT 的使用允许模型自适应地学习每个虚拟节点的重要性，从而更好地捕获层级之间的语义联系。这种层次化的提示机制是 HPTD 方法的核心创新之一，它允许模型在处理分层文本分类任务时，更好地利用层次结构信息，从而提高分类性能。该图清晰地展示了如何将层级信息编码成可学习的嵌入，并将其融入到模型的输入中，为后续的分类任务提供了坚实的基础。

各层级性能表现
#

🔼 该图表展示了HPTD-ELECTRA和HPTD-DeBERTaV3两种模型在三个基准数据集（WOS、RCV1-V2和NYT）上，针对不同层级的文本分类任务的性能表现。图表采用柱状图和折线图结合的方式，柱状图表示模型在每个层级上的Micro-F1和Macro-F1得分，折线图表示每个层级平均训练实例数。其中，(a)和(b)分别显示了WOS数据集上两个层级的Micro-F1和Macro-F1得分及平均训练实例数，(c)和(d)显示了RCV1-V2数据集上四个层级的Micro-F1和Macro-F1得分及平均训练实例数，(e)和(f)显示了NYT数据集上八个层级的Micro-F1和Macro-F1得分及平均训练实例数。整体而言，图表揭示了模型性能与每个层级平均训练实例数之间的相关性。在WOS数据集上，从第一层到第二层，随着训练实例数量的减少，Micro-F1和Macro-F1得分显著下降。在RCV1-V2数据集上，也观察到类似的趋势，但HPTD-ELECTRA模型在第二和第三层的表现优于HPTD-DeBERTaV3，而HPTD-DeBERTaV3模型在只有单个类别的第四层表现出色。在NYT数据集上，随着层级的增加，平均训练实例数逐渐减少，模型性能也随之下降，但第八层的表现略低于预期，可能是由于该层只有两个类别导致性能方差较大。这些结果表明，模型在训练数据较少的情况下，难以准确分类低层级的类别，且Macro-F1得分更容易受到训练数据量变化的影响。此外，图表清晰地展示了不同模型在不同层级上的性能差异，为进一步优化模型提供了重要参考。

低资源场景下各层级的表现
#

🔼 该图表展示了在低资源（仅使用10%训练数据）情况下，HPTD-ELECTRA和HPTD-DeBERTaV3模型在三个基准数据集（WOS、RCV1-V2、NYT）的各个层级上的性能表现。图表分为六个子图，分别对应Micro-F1和Macro-F1在三个数据集上的结果。每个子图都以柱状图的形式展示了两个模型在各层级上的F1得分，并使用折线图展示了各层级平均训练样本数量。

在WOS数据集中，无论是Micro-F1还是Macro-F1，模型在Level 1的表现都明显高于Level 2，且随着层级加深，训练样本数量急剧下降。在RCV1-V2数据集中，Micro-F1和Macro-F1的整体趋势相似，均随着层级的深入而下降，但在Level 4时，由于只有一个类别，HPTD-DeBERTaV3模型的表现下降，而HPTD-ELECTRA在Level 2和3上表现更好。在NYT数据集中，两个模型的Micro-F1和Macro-F1均呈现随着层级深入而下降的趋势，但Level 8的性能最低，尽管其平均训练样本数量高于Level 3到7。

整体而言，图表表明，在低资源情况下，模型的性能与各层级的平均训练样本数量紧密相关。样本数量较少的层级通常表现较差。该图表支持了文章的发现，即提出的方法在低资源环境下，特别是对于那些在训练数据中出现较少的类别，性能会有所下降。图表清晰地展示了在低资源环境中，模型在不同层级上的表现差异，为进一步改进和分析模型的鲁棒性提供了关键信息。

深度解读
#

提示调优创新
#

本文提出了一种名为**层次感知提示调优（HPTD）**的新方法，旨在通过将层次文本分类（HTC）任务注入到判别式预训练语言模型（PLM）的替换令牌检测（RTD）任务中，提升分类性能。HPTD的核心创新在于通过提示调优（Prompt Tuning）将下游任务转化为预训练任务的形式，从而减少预训练与微调之间的差距。具体来说，HPTD通过层次感知提示（Hierarchy-aware Prompts）将层次结构信息融入输入序列，使得模型能够更好地利用层次分类结构。此外，HPTD还改进了传统的提示调优方法，通过为同一层次中的类别分配相同的位置ID，并引入可学习的类别嵌入表示，显著提高了输入序列中文本令牌的可用空间。这种改进使得HPTD能够处理更大规模的层次分类任务，并在多个基准数据集上取得了优于现有方法的性能。然而，HPTD的局限性在于其依赖于RTD预训练任务，因此无法直接应用于使用其他预训练任务的PLM。

层次结构编码
#

本文通过**图注意力网络（GAT）**对层次分类结构进行编码，并将其融入判别式PLM的提示调优过程中。具体来说，HPTD为每个层次创建虚拟节点，并通过GAT聚合层次结构中的类别信息，生成层次感知的提示嵌入。这种层次结构编码方法使得模型能够在分类过程中更好地利用层次信息，从而提升分类性能。实验结果表明，HPTD在具有复杂层次结构的数据集（如NYT）上表现尤为突出，进一步验证了层次结构编码的有效性。然而，随着层次结构的深度和类别数量的增加，HPTD的计算复杂度也会显著增加，这限制了其在极大规模层次分类任务中的应用。未来的研究可以探索更高效的层次结构编码方法，以进一步扩展HPTD的适用范围。

判别式PLM优势
#

本文通过实验验证了判别式PLM（如ELECTRA和DeBERTaV3）在层次文本分类任务中的优势。与传统的MLM预训练任务不同，判别式PLM使用RTD任务进行预训练，能够更有效地区分原始令牌和替换令牌。HPTD通过将HTC任务转化为RTD任务的形式，充分利用了判别式PLM的预训练知识，从而在多个基准数据集上取得了优于现有方法的结果。特别是DeBERTaV3，由于其改进的注意力机制和梯度解耦嵌入共享方法，在大多数实验中表现优于ELECTRA。然而，在低资源设置下，ELECTRA在某些数据集上的表现优于DeBERTaV3，这表明不同判别式PLM在不同任务场景下可能具有各自的优势。未来的研究可以进一步探索判别式PLM在其他NLP任务中的应用潜力。

阈值选择策略
#

本文对比了多种阈值选择策略对HTC任务性能的影响。实验结果表明，固定阈值（γ=0.5）在大多数情况下能够取得最佳的Micro-F1分数，而按类别调优的阈值选择策略则能够显著提升Macro-F1分数。这一发现表明，固定阈值适用于需要准确分类多数类别的任务，而按类别调优的阈值则更适合需要平衡所有类别分类性能的任务。此外，本文还通过自举法（Bootstrapping）对阈值选择进行了优化，进一步验证了不同阈值选择策略的鲁棒性。这些结果为未来HTC任务中的阈值选择提供了重要的参考依据。然而，阈值选择策略的效果可能因数据集的不同而有所差异，未来的研究可以探索更灵活的阈值选择方法，以适应不同任务的需求。

低资源场景分析
#

本文通过模拟低资源场景，评估了HPTD在训练数据有限情况下的鲁棒性。实验结果表明，HPTD在低资源设置下仍能保持较高的分类性能，特别是在层次结构的较高层次上表现尤为突出。然而，随着层次结构的加深和类别数量的增加，低资源场景下的分类性能显著下降，尤其是在类别训练实例较少的情况下。这一现象表明，HPTD在处理低资源任务时仍面临一定的挑战，特别是在层次结构的较低层次上。未来的研究可以探索更有效的低资源学习方法，例如数据增强或迁移学习，以进一步提升HPTD在低资源场景下的性能。此外，本文还发现，非分层随机采样方法可能导致某些类别的训练实例过少，从而影响分类性能，因此未来的研究可以探索更合理的采样策略。

要点总结 #

关键要点 #

论文重要性 #

图表分析 #

HPTD模型架构图 #

层级提示嵌入过程示意图 #

各层级性能表现 #

低资源场景下各层级的表现 #

深度解读 #

提示调优创新 #

层次结构编码 #

判别式PLM优势 #

阈值选择策略 #

低资源场景分析 #

完整论文 #