Skip to main content
  1. 论文/

Patentnet: 使用基于深度学习的语言理解进行专利文档的多标签分类

·6274 words·13 mins
专利分类 多标签文本分类 预训练语言模型 BERT XLNet RoBERTa ELECTRA 深度学习 自然语言处理
Table of Contents

✏️ Arousha Haghighian Roudsari
✏️ Jafar Afshar
✏️ Wookey Lee
✏️ Suan Lee

要点总结
#

专利分类是一项耗时且复杂的任务,传统上由领域专家完成。随着专利数量的增加和文档复杂性的提升,自动化分类变得尤为重要。专利文本通常包含大量专业术语和多词表达,且分类任务涉及大量标签,使得问题更加复杂。本文旨在通过微调预训练语言模型(如BERT、XLNet、RoBERTa和ELECTRA)来解决这些问题,并与现有的深度学习模型进行比较。

本文的主要贡献包括:1)微调并比较了多种预训练语言模型在多标签专利分类任务中的表现;2)展示了预训练语言模型在专利分类任务中的优越性;3)探讨了不同词嵌入对基线模型性能的影响;4)使用多种评估指标对实验结果进行了全面评估。实验结果表明,XLNet在专利文本分类任务中表现最佳,达到了新的最先进水平。

关键要点
#

论文重要性
#

这项研究的重要性在于它展示了预训练语言模型在专利分类任务中的巨大潜力。 专利分类是专利管理和分析的基础步骤,自动化分类可以显著提高效率并减少人为错误。随着专利数量的快速增长,传统方法已无法满足需求。本文的研究不仅为专利分类提供了新的解决方案,还为未来的专利分析任务(如专利检索和侵权检测)奠定了基础。此外,本文的研究结果也为其他多标签分类任务提供了参考,尤其是在处理复杂文本数据时。未来的研究可以进一步探索如何利用这些模型处理专利分类中的层次结构和数据不平衡问题。


图表分析
#

ELECTRA预训练模型概述
#

🔼 该图表展示了ELECTRA预训练语言模型的工作流程。ELECTRA模型采用了一种称为“替换令牌检测 (RTD)” 的方法进行预训练,与BERT等模型的掩码语言建模(MLM)有所不同。图示中,输入文本首先被送入一个生成器模型(Generator),这个生成器模型类似于BERT,通过随机掩码部分输入文本中的词语,并尝试预测这些被掩码的词语。例如,“original original replaced original original”文本中,“replaced”一词被生成器模型预测替换。接着,原始输入文本与经过生成器修改的文本被送入一个判别器模型(Discriminator)。判别器模型的任务是判断输入文本中的每一个词语是否是被生成器替换过的。图中的箭头指示了数据流动的方向,清晰地展示了生成器和判别器之间的互动关系。这种双模型结构使得ELECTRA模型在学习语言表征时更具效率,因为它不仅需要预测掩码词,还需要辨别所有词是否被替换,这有助于模型更精细地理解文本。该图简洁明了地阐述了ELECTRA模型的核心机制,为理解其工作原理提供了直观的视觉辅助,并与文章中对ELECTRA模型的描述相互印证,有助于读者深入理解其与其它预训练模型的差异之处。该图表的呈现形式有助于读者快速理解复杂的模型架构,是对文章的有力补充。

更多图表分析

ELECTRA的RTD概述
#

🔼 该图描绘了ELECTRA预训练语言模型中替换令牌检测(RTD)的流程。该过程包含两个核心组件:一个生成器(Generator)和一个判别器(Discriminator)。生成器的作用类似于BERT中的掩码语言模型,它接收带有[MASK]标记的输入序列,然后尝试预测这些被掩盖的词。图中清晰地展示了原始句子“the chef cooked the meal”是如何被处理的:部分词被[MASK]标记替换,如“the [MASK] cooked [MASK] the meal”。生成器的任务就是根据上下文恢复这些被掩盖的词,生成器生成的新词如“the chef ate the meal”。 随后,生成器生成的句子被送入判别器(Discriminator),判别器的目标是判断输入序列中的每个词是否为原始词或由生成器替换的词。在图中,判别器对每个词进行评估,输出结果是每个词是否为原始词(original)或被替换词(replaced)。这不同于BERT,BERT只预测被掩盖的词,而ELECTRA的判别器则对所有词进行评估,能够更有效地利用输入信息。 图中,每个词都以黄色矩形框表示,箭头则表示信息流动的方向。蓝色方块代表生成器,绿色方块代表判别器。这种清晰的视觉呈现有助于理解ELECTRA的RTD过程,它通过判别器对整个句子进行更全面的分析,从而实现更有效的模型训练。

预训练模型微调流程
#

🔼 该图描绘了使用预训练语言模型进行多标签专利分类的详细流程。整体流程分为数据预处理、预训练语言模型处理和微调三个主要部分。首先,在数据预处理阶段,原始专利文本(如p1, p2等)被转化为模型可接受的格式。这一过程包括:1)分词(Tokenize):将原始文本分解为词、子词或符号等更小的单元;2)添加特殊标记(Add special tokens):插入如[CLS]和[SEP]等特殊标记,以帮助模型理解文本结构;3)转换为ID(Convert tokens to ids):将标记转换为预训练模型词汇表中的索引;4)填充或截断(Pad or truncate):将所有输入序列调整为统一长度。同时,专利对应的标签(如“H04J”, “G01R”)也被编码为二进制向量。接下来,预处理后的数据进入预训练语言模型,如BERT、RoBERTa、XLNet和ELECTRA。这些模型将输入文本映射到高维向量空间,提取文本特征。值得注意的是,每个模型在处理序列时都会用到特殊的[CLS]标记,该标记通常用于表示整个序列的聚合特征,其输出的向量维度记为H。最后,在微调阶段,预训练模型的参数与新添加的全连接层一起进行端到端训练。全连接层的权重矩阵为W,其输出维度为标签数量m。该层接收来自预训练模型[CLS]标记的输出向量,并生成一个m维的逻辑输出向量,用于预测每个标签的概率。整个微调过程旨在优化模型参数,使其能够更好地适应专利分类任务,并准确地预测每个专利文档的多个相关标签。图中还展示了不同专利文档经过处理后,形成可供模型训练的输入格式。该图清晰地展现了如何利用预训练模型和微调方法来解决多标签专利分类问题,并对该领域的研究人员具有参考价值。

数据集词数分布
#

🔼 该图表展示了两个专利数据集(USPTO-2M和M-Patent)中专利文档的词数分布情况。图(a)对应USPTO-2M数据集,图(b)对应M-Patent数据集。横轴代表词数,纵轴代表具有相应词数的文档数量。在USPTO-2M数据集中,文档词数呈现右偏分布,大部分文档的词数集中在100到200之间,平均词数为118,中位数为119,最大值为514,最小值为10。M-Patent数据集的词数分布则相对集中,多数文档词数在50到100之间,平均词数为75,中位数为71,最大值为371,最小值为5。图中的红色虚线表示截断词数位置。USPTO-2M数据集的截断词数为100,而M-Patent数据集的截断词数为128。这些截断值被用于后续实验中,即只使用每个文档的前100或128个词。这些分布图揭示了两个数据集的文本长度特征,为后续的文本处理和模型训练提供了参考。这两个数据集的词数分布的差异可能需要不同的预处理策略,并且在选择合适的模型时也需要考虑。

M-patent 数据集上预训练语言模型的性能
#

🔼 该图表由三部分组成,分别展示了在 M-patent 数据集上,不同预训练语言模型(包括 ELECTRA, XLNet, BERT, RoBERTa)的性能表现。图 (a) 显示了标签排序平均精度 (LRAP) 随着训练步数 (global_step) 的变化。可以看到,所有模型的 LRAP 值都随着训练步数的增加而迅速上升,最终趋于平稳。其中,XLNet 的表现略优于其他模型,在训练后期 LRAP 值稍高。图 (b) 显示了评估损失 (eval_loss) 随着训练步数 (step) 的变化。所有模型的评估损失都随着训练步数的增加而迅速下降,表明模型在训练过程中不断优化。在训练初期,ELECTRA 的损失值略高,但随后迅速下降并与其他模型趋于一致。图 (c) 显示了全局训练步数 (global_step) 与训练时间(分钟)之间的关系。可以看出,XLNet 的训练时间明显长于其他模型,这与文章中 XLNet 的计算复杂度较高相符。RoBERTa 和 ELECTRA 模型的训练时间则相对较短且较为接近。总体而言,该图表清晰地展示了不同预训练语言模型在 M-patent 数据集上的训练过程和性能表现,为选择合适的模型提供了依据。其中,XLNet 在 LRAP 上表现稍好,但在训练时间上耗时较长,需要在实际应用中权衡。

不同阈值下的性能表现
#

🔼 该图表展示了XLNet模型在USPTO-2M数据集(上方)和M-patent数据集(下方)上,微平均精确率(Micro-Precision)、微平均召回率(Micro-Recall)和微平均F1分数(Micro-F1)随阈值变化的趋势。横轴表示阈值,从0.1到0.9变化。纵轴表示性能指标的值,范围从0到1。在USPTO-2M数据集中,微平均精确率随着阈值的增加而单调递增,从0.1阈值时的约0.6上升到0.9阈值时的接近1.0。微平均召回率则呈现相反的趋势,随着阈值的增加而单调递减,从0.1阈值时的约0.7下降到0.9阈值时的约0.2。微平均F1分数在0.2附近达到峰值,约为0.65,之后随着阈值的增加而下降。在M-patent数据集中,微平均精确率也随着阈值的增加而单调递增,但增长速度相对较慢,从0.1阈值时的约0.6上升到0.9阈值时的约0.9。微平均召回率随着阈值的增加而单调递减,从0.1阈值时的约0.8下降到0.9阈值时的约0.5。微平均F1分数在0.3附近达到峰值,约为0.75,之后随着阈值的增加而缓慢下降。这两个图表共同表明,阈值的选择对模型的性能有显著影响。在较低的阈值下,模型倾向于预测更多的正例,从而提高了召回率但降低了精确率。在较高的阈值下,模型倾向于预测更少的正例,从而提高了精确率但降低了召回率。F1分数是精确率和召回率的调和平均,其峰值出现在精确率和召回率达到平衡的位置。因此,根据不同的应用场景,需要权衡精确率和召回率,选择合适的阈值,以达到最佳的性能表现。例如,在需要尽可能找到所有相关专利的场景中,可以选择较低的阈值,而在需要避免错误分类的场景中,可以选择较高的阈值。从图表可以看出,两个数据集的最佳F1分数对应的阈值并不相同,因此在实际应用中,需要根据具体的数据集进行调整。

不同模型在不同专利部分上的性能比较
#

🔼 该图表展示了在M-patent数据集上,使用不同的预训练语言模型(BERT、XLNet、RoBERTa和ELECTRA)对专利的不同部分(标题+摘要、描述、权利要求)进行分类时的性能比较。图表分为三个子图:(a) 微平均精确率(Micro Precision),(b) 微平均召回率(Micro Recall),和 (c) 微平均F1值(Micro F1)。每个子图中的柱状图分别显示了每个模型在三种不同专利部分上的性能表现。从微平均精确率来看,所有模型在标题+摘要上的表现均优于仅使用描述或权利要求。具体而言,XLNet在标题+摘要上的微平均精确率最高,接近0.8,其次是RoBERTa和ELECTRA,而BERT略低。在微平均召回率方面,所有模型在标题+摘要上的表现明显高于其他两个部分,且整体召回率相对较低。XLNet再次在标题+摘要上表现最佳,但与RoBERTa和ELECTRA的差距不大。BERT的召回率最低。在微平均F1值方面,同样地,所有模型在标题+摘要上的性能最好,XLNet略微领先,而BERT的F1值略低。图表清晰地表明,对于专利分类任务,使用标题和摘要部分作为输入能够提供最佳的分类性能。此外,XLNet模型在所有三个指标上均表现出色,证明其在处理专利文本时具有优越的性能。这些结果支持了论文中关于预训练语言模型有效性的论点,并强调了选择合适的专利部分进行分类的重要性。总的来说,此图提供了有力的证据,证明在专利分类任务中,标题和摘要是更优的选择。

深度解读
#

专利分类挑战
#

专利分类是一个复杂且耗时的任务,传统上由领域专家完成。然而,随着专利申请数量的增加和文档复杂性的提升,自动化分类变得尤为重要。专利文本通常包含大量专业术语和多词表达,且同一词汇在不同技术领域可能具有不同的含义,这增加了分类的难度。此外,专利分类是一个多标签分类问题,标签数量庞大且分布不均衡,进一步加剧了问题的复杂性。传统文本处理方法如TF-IDF和Bag-of-Words在处理专利文本时表现不佳,因为它们无法有效捕捉专利文本中的语义和上下文信息。深度学习方法,尤其是基于预训练语言模型的微调,为专利分类提供了新的解决方案。通过引入BERT、XLNet、RoBERTa和ELECTRA等预训练模型,研究者能够更好地理解专利文本的复杂语言结构,从而提升分类性能。

预训练模型优势
#

预训练语言模型在专利分类任务中展现了显著的优势。BERT、XLNet、RoBERTa和ELECTRA等模型通过在大规模文本语料上进行预训练,能够捕捉丰富的上下文信息,从而在专利分类任务中表现出色。特别是XLNet,由于其采用了排列语言建模(Permutation Language Modeling)的预训练目标,能够更好地处理专利文本中的多词表达和复杂语义结构。实验结果表明,XLNet在多个评估指标上均达到了新的最优性能,尤其是在多标签分类任务中的F1分数和标签排序平均精度(LRAP)上表现突出。预训练模型的成功在于其能够自动提取专利文本中的高层次特征,避免了传统方法中繁琐的手工特征提取过程。此外,这些模型还能够处理专利文本中的多义词问题,进一步提升了分类的准确性。

数据集与评估
#

本文使用了两个公开的专利数据集USPTO-2M和M-patent进行实验。USPTO-2M数据集包含近200万条专利文档,而M-patent数据集则是一个较小的子集,专注于IPC分类的子类级别。为了确保实验的公平性,研究者对数据集进行了预处理,包括去除缺失标签的文档和低频标签。在评估指标方面,本文采用了多种适合多标签分类任务的指标,如微平均F1分数、覆盖率误差(Coverage Error)和标签排序平均精度(LRAP)。这些指标能够更好地反映模型在多标签分类任务中的表现,尤其是在标签分布不均衡的情况下。实验结果表明,预训练语言模型在所有评估指标上均优于传统的深度学习方法,尤其是在XLNet模型上,分类性能达到了新的最优水平。

未来研究方向
#

尽管预训练语言模型在专利分类任务中取得了显著进展,但仍有许多未来研究方向值得探索。首先,如何更好地利用专利文档的层次结构进行分类是一个重要的研究方向。当前的分类任务主要集中在IPC的子类级别,而未来的研究可以进一步探索如何在更细粒度的分类级别上提升性能。其次,专利数据的标签分布不均衡问题仍然是一个挑战,未来的研究可以结合不平衡学习技术来提升模型在少数类标签上的表现。此外,如何将预训练语言模型与其他专利分析任务(如专利生成、专利检索等)结合,也是一个值得探索的方向。最后,随着新的预训练模型(如GPT-3)的出现,如何将这些模型应用于专利领域,进一步提升分类性能,也是未来研究的重要课题。

模型比较与局限
#

本文对多种预训练语言模型和传统深度学习方法进行了详细比较。实验结果表明,XLNet在专利分类任务中表现最佳,尤其是在处理长文本和多标签分类任务时,XLNet的排列语言建模目标使其能够更好地捕捉专利文本中的复杂语义结构。然而,XLNet的训练时间较长,尤其是在大规模数据集上,训练时间几乎是其他模型的两倍。此外,尽管预训练模型在分类性能上表现出色,但其计算资源需求较高,尤其是在处理大规模专利数据时,可能需要更多的计算资源。未来的研究可以探索如何通过模型压缩和加速技术,降低预训练模型的计算成本,使其更适合在实际应用中部署

完整论文
#