Skip to main content
  1. 论文/

科学中的语义与关系空间:用于文章向量化的深度学习模型

·7715 words·16 mins
嵌入 科学学 深度学习 图神经网络 语义空间 关系空间
Table of Contents

✏️ Diego Kozlowski
✏️ Jennifer Dusdal
✏️ Jun Pang
✏️ Andreas Zilian

要点总结
#

随着科学文献数量的指数增长,手动分析已无法应对。本文提出使用深度学习技术,特别是自然语言处理(NLP)和图神经网络(GNN),来自动化文献分析。NLP用于构建文献的语义空间,捕捉文本内容的相关性;而GNN则用于构建关系空间,反映科学社区的社会实践。通过这两种方法,研究能够揭示科学文献中的复杂模式,帮助研究者更好地理解科学研究的演变。

本文通过实验展示了不同深度学习模型在科学文献分析中的表现。结果表明,NLP能够有效编码文献的语义信息,而GNN则能够捕捉文献之间的引用关系。研究还发现,BERT模型在语义编码方面表现最佳,而GCN模型在链接预测任务中表现最优。这些发现为科学研究的自动化分析提供了新的工具,并展示了深度学习在科学文献分析中的潜力。

关键要点
#

论文重要性
#

这项研究为科学文献的自动化分析提供了新的工具,特别是在处理大规模文献时,深度学习技术能够显著提高分析效率。通过揭示文献中的语义和关系模式,研究不仅帮助科学家更好地理解科学研究的演变,还为未来的研究方向提供了新的视角。此外,研究还展示了如何利用深度学习模型捕捉科学社区中的社会关系,这对于理解科学合作和引用行为具有重要意义。未来的研究可以进一步探索这些模型在其他学科中的应用,并解决当前模型中的潜在偏见问题。


图表分析
#

数据集中期刊的统计信息
#

🔼 该表格展示了论文数据集中各个期刊的详细统计信息。表格中列出了每个期刊的名称、所属领域、检索到的文章数量、平均被引次数、最大被引次数以及首次和最后一次出版年份。其中,研究领域被划分为管理学、图书馆与信息科学、科学史与科学哲学、以及其他社会科学四个类别。从数据来看,不同领域的期刊在文章数量、平均被引次数等方面存在显著差异。例如,《科学史和科学哲学研究》等期刊的平均被引次数明显低于《研究政策》等期刊,这可能反映了不同学科的引用习惯差异。此外,该表格还揭示了各个期刊的出版时间范围,有的期刊的出版历史可以追溯到上世纪中期,而有些则相对较新。这些数据有助于研究人员了解科学知识生产的结构和模式,为更深入的分析提供了基础。通过比较不同期刊的数据,研究人员可以洞察不同领域的学术影响力、发展趋势以及研究主题的偏好。

更多图表分析

文章引用网络的度分布
#

🔼 该图展示了文章引用网络的度分布,横轴表示节点的度(即一个节点连接的边的数量),纵轴表示具有相应度的节点的频率。图中的点代表实际数据,而蓝线表示拟合的幂律分布,公式为 y = ax^(-3.5),周围的灰色阴影区域表示拟合的不确定性范围。

从图中可以看出,大部分节点的度较低,随着度的增加,节点出现的频率迅速下降,符合幂律分布的特征。这种分布表明,在文章引用网络中,少数文章被大量引用,而大多数文章被引用的次数较少,体现了学术界的“富者更富”的现象。幂律指数-3.5表示引用网络中的长尾效应,少数高引用文章对整个网络结构具有重要影响。

该图为理解学术论文引用网络提供了重要的可视化信息,有助于研究者认识论文引用行为中的模式和规律,对网络科学、信息科学等领域具有重要意义。此外,这种度分布特征也为网络建模和分析提供了实证基础,可以用来检验不同网络模型的适用性。

图 2 GNN 编码器-解码器框架
#

🔼 图2展示了用于构建研究文章关系空间的图神经网络(GNN)的编码器-解码器框架。这个框架的核心目标是学习文章的低维向量表示,从而揭示文章之间的引用关系。框架由两部分构成:编码器(Encoder)和解码器(Decoder)。编码器接收文章的特征和引文网络结构作为输入,并将它们映射到低维潜在空间(Z)中。这个潜在空间中的向量表示旨在捕捉文章的关键信息,如主题、作者、机构等,并能体现文章在引文网络中的位置和连接关系。解码器则利用这些低维表示来重建原始引文网络结构,即预测文章之间是否存在引用关系。通过最小化重建损失,模型可以学习到能够准确反映文章关系的嵌入表示。图2的流程图清晰地展示了数据是如何从原始文章和引文网络输入,经过编码器压缩为低维表示,再通过解码器重建为引文网络的。这种方式不仅能够有效地处理复杂的网络数据,还能在无需手动特征工程的情况下,自动提取出对预测引文关系至关重要的特征。GNN模型的多样性在于其编码器部分,文中讨论了多种编码器结构,例如GCN、GraphSAGE、GIN、GAT、AGNN和GraphUNet,每种结构都以不同的方式处理图数据,从而捕获不同的网络属性和关系。通过这种方法,该研究能够在科学研究文章领域,将复杂的引文网络转化为可分析和理解的向量表示,从而为进一步分析科学知识的结构和社会模式提供新的视角。这种基于深度学习的图嵌入方法为科技计量学研究带来了新的可能性,例如研究科学合作、知识传播和引文模式的动态变化。

图2 编码器-解码器框架
#

🔼 图2展示了一个用于图神经网络(GNN)的编码器-解码器框架。该框架是用于生成节点嵌入的常见方法,特别是在无监督学习中。编码器(ENC)负责将节点的特征和网络结构映射到一个低维的表示空间,这个空间中的每个节点都由一个向量表示。解码器(DEC)则试图基于这些低维向量重建原始的网络结构。图中的箭头表示信息流动的方向:从输入数据到低维表示,再从低维表示到重建的结构。具体来说,编码器接受节点特征和网络结构作为输入,并通过一系列的变换(例如卷积操作)生成低维的节点嵌入(Z)。解码器则使用这些嵌入,通过计算节点对之间的关系(例如内积),来生成一个重构的邻接矩阵(Â)。这个框架的目标是训练编码器,使得解码器能够尽可能准确地重建原始的网络结构。损失函数(L)被定义为重构的邻接矩阵和真实的邻接矩阵之间的差异,模型通过最小化这个损失函数来学习有效的节点嵌入。这个过程允许模型在无监督的情况下,学习节点在网络中的结构性特征,并且使得相似结构的节点在嵌入空间中彼此靠近。这种框架在各种网络分析任务中都非常有用,例如链接预测和节点分类等。通过调整编码器和解码器的结构,可以适应不同类型的网络和任务。

各领域主题相对重要性
#

🔼 该图为柱状图,展示了在科学的科学(Science of Science)研究领域中,不同主题在不同学科分类中的相对重要性。图中横轴代表不同的主题(Topic),纵轴代表相对重要性(Relative Importance)。整个图表被划分为四个子图,分别对应四个学科领域:历史与哲学(History and Philosophy),图书馆与信息科学(Library and Information Sciences),管理学(Management)以及其他社会科学(Other Social Sciences)。

在历史与哲学领域,主题 5 具有最高的相对重要性,其次是主题 15 和主题 19。这表明在该领域中,这些主题是讨论的重点。在图书馆与信息科学领域,主题 9 的相对重要性最高,其次是主题 4 和 13,说明这些是该学科领域的核心议题。管理学领域中,主题 1 占据了显著的地位,其次是主题 10,这表明该领域的研究重点集中在这些主题上。在其他社会科学领域,主题 5 和 8 的相对重要性较高,此外主题 14 和 20 也较为重要,显示了该领域主题的多样性。

每个子图中,不同颜色的柱状图代表了不同的主题,而柱状图的高度则代表了该主题在对应学科领域中的相对重要性。图中的数值标签标明了主题的编号,方便读者进行比对和参考。总体来看,此图清晰地展示了各学科领域在科学的科学研究中所关注的不同主题及其相对重要程度,有助于理解不同学科在这一跨学科领域中的研究焦点和侧重点,以及主题在不同学科之间的分布情况。这个图表表明,不同的学科领域在科学的科学研究中侧重不同的主题,反映了该领域的学科交叉性和复杂性。各学科之间的差异也表明了科学的科学研究是一个多角度和多层次的研究领域。

GNN Embedding T-SNE 投影
#

🔼 该图为使用图神经网络(GNN)嵌入方法生成的文章的二维 T-SNE 投影图。图中的每个点代表一篇科学论文,点的颜色对应论文发表的期刊,点的大小则表示该论文的被引次数。图中使用了椭圆来标示每个期刊文章分布的范围。颜色图例显示了各个期刊的颜色编码,包括《Scientometrics》、《Journal of Informetrics》、《Research Policy》、《Science and Public Policy》、《Research Evaluation》、《Public Understanding of Science》、《Synthese》和《Studies in History and Philosophy of Science》。图中点的尺寸大小与引文次数呈正相关,点越大,表示文章被引次数越多。该图的主要目的是展示GNN模型如何在低维空间中表示学术文章,并揭示不同期刊文章之间的关系和分布模式。图中显示,不同期刊的文章在嵌入空间中有一定的聚集现象,这表明GNN模型能够捕捉到期刊之间的差异。此外,被引次数较高的文章在图中呈现一定的分布模式,表明引用次数信息对GNN模型的嵌入结果有影响。总而言之,该图清晰地呈现了GNN嵌入方法的应用,以及论文在嵌入空间中的分布特征,为理解学术论文的结构和关系提供了可视化工具。本图的结果表明,GNN模型能够根据论文的引用模式和网络结构,有效地将论文映射到低维空间中,且不同期刊的文章在嵌入空间中呈现出一定的聚集效应,这说明该方法在揭示学术文献之间的关系方面具有潜力。高引文章在图的特定区域聚集,进一步说明了GNN模型捕捉到了文章引用的重要性。

语义嵌入的 T-SNE 投影
#

🔼 该图展示了三种不同的文本嵌入方法(Doc2Vec、LDA 和 BERT)在科学研究论文上的 T-SNE 投影结果,并按照期刊和被引次数进行了着色和大小标注。图中的每个点代表一篇研究论文,点的颜色代表论文所属的期刊,点的大小则反映了论文的被引次数。同时,使用椭圆标出了每个期刊的主要分布范围,有助于观察同一期刊的论文在嵌入空间中的聚集情况。

首先,Doc2Vec 的结果显示,所有的论文点均匀分布在一个圆形区域内,没有明显的聚类现象,表明该方法无法有效区分不同期刊或被引次数不同的论文。这可能是因为 Doc2Vec 在小数据集上的表现不佳,无法充分学习到论文的有效表示。其次,LDA 方法的结果显示,不同领域的论文有了一定的区分,例如,历史与哲学领域的论文位于左侧,管理学领域的论文位于右侧,其他领域的论文则位于中间。但各个期刊之间的界限并不明显,存在较多重叠。最后,BERT 模型的结果显示,论文的区分度明显提升,各个领域的论文在图中呈现出清晰的聚类,每个期刊的论文也显示出明显的聚集效应。特别是,历史与哲学领域的论文在左侧形成了一个独立的集群,管理学、图书馆与信息科学以及其他社会科学领域的论文则在图中部分重叠,并根据期刊进行了更细致的划分。被引次数高的论文在 BERT 模型的结果中显示出更显著的聚集效应。例如,在图的上方,Research Policy 期刊被引次数较高的论文聚集在一起,在 Scientometrics 期刊中也是如此。

总的来说,BERT 模型的表现明显优于 Doc2Vec 和 LDA 模型,能够更好地捕捉论文之间的语义关系。这一结果支持了该研究论文的主要观点,即预训练的语言模型在科学研究论文的嵌入表示上具有显著优势。这表明 BERT 模型能够更好地提取和保留论文中的重要信息,为后续的深入分析提供了更有价值的表示。

论文合作模式相似度
#

🔼 该图表展示了在不同模型下,论文合作模式与论文相似度之间的关系。图表分为三个部分,分别对应GNN、LDA和BERT三种模型。横纵坐标代表论文的合作模式,A代表单作者,B代表同一机构内的合作,C代表同一国家不同机构的合作,D代表国际合作。每个小方格的颜色代表对应合作模式下,两篇论文的平均余弦相似度,颜色越亮表示相似度越高。GNN图(a)显示国际合作(D)的文章在研究政策和科学计量学期刊中都具有最高的相似性,而单作者文章(A)的相似性最低。这表明GNN模型能够捕捉到国际合作论文在引文网络中的中心地位,与其高引用率相一致。LDA图(b)和BERT图(c)则显示,同一期刊内的论文具有较高的相似性,表明这些模型更侧重于语义内容而非合作模式。此外,BERT图(c)中,研究政策期刊的文章倾向于聚集在一起,而科学计量学期刊的文章则更分散,这可能反映了不同期刊的主题差异。此图揭示了不同模型在捕捉论文合作模式和相似度方面的差异,GNN模型侧重于引文网络中的关系,而LDA和BERT则侧重于语义内容。这强调了选择合适的模型以匹配研究问题的重要性。

国家在GNN和BERT嵌入空间的相似性
#

🔼 该图展示了不同国家在GNN(横轴)和BERT(纵轴)嵌入空间中的平均相似度。横轴代表基于引文网络的结构关系,纵轴代表基于文本内容的语义关系。每个点代表一个国家,颜色表示其所属的大洲,点的大小代表论文被引用的数量。从图中可以看出,英语国家,西欧和东亚国家在两个嵌入空间中都处于中心位置,表明这些国家在科学研究中具有较强的语义相似性和结构影响力。相比之下,非洲,南美和东欧的一些国家则分布在图的边缘,可能表明它们的科学研究在语义或网络结构上与中心国家存在差异。例如,乌拉圭在BERT空间中与其他国家的相似度非常高(接近0.95),这说明其研究主题与大多数国家相似,但其在GNN空间中的相似度较低(小于-0.35),表明其研究在引文网络结构中与其他国家有所不同。值得注意的是,BERT相似度普遍高于0.8,说明大多数国家在研究内容方面有很强的相似性。而GNN相似度的范围较广(-0.5到0.5),表明在引文网络结构中,国家之间的差距较大。这种差异揭示了科学研究中存在的不平等,一些国家的研究可能在学术界获得的关注和认可度更高。此外,图中的点的大小与国家的被引次数相关,较大的点表示被引次数较高,这进一步印证了引文数量与中心地位之间的联系。该图的分析还受限于数据来源的偏差,主要侧重于英语和西方导向的期刊,可能低估了其他地区和语言的科学产出。在未来的研究中,纳入更广泛的期刊和数据源,可以提供更全面的全球科学格局视图。整体而言,该图通过对语义和结构嵌入空间的比较,揭示了全球科学研究中的中心-边缘模式,强调了在分析中考虑多种维度的重要性。

期刊在ISIS-Journal of Informetrics维度上的余弦相似度
#

🔼 该图展示了在BERT和GNN两种模型下,不同期刊在以《ISIS》和《Journal of Informetrics》为两极定义的维度上的余弦相似度。该分析旨在揭示期刊在量化与质性研究、以及历史研究之间的分布差异。图表横轴为期刊名称,纵轴展示了期刊在特定维度上的投影。点的颜色代表期刊所属的领域(历史与哲学、图书馆与信息科学、管理学、其他社会科学),点的大小代表期刊的平均被引次数。在BERT模型中,可以看到《Journal of Informetrics》位于一端,而《British Journal for the History of Science》位于另一端,这表明BERT模型能够较好地区分量化研究和历史研究的期刊。在GNN模型中,情况则有所不同,两个图书馆信息科学领域的期刊聚集在中间位置,表明GNN模型更侧重于期刊间的引用关系而非主题内容。BERT模型的结果显示,管理学和图书馆信息学领域的期刊更接近《Journal of Informetrics》,而历史和哲学领域的期刊则更靠近《ISIS》。其他社会科学的期刊则分布在这两个极端之间。这种分布模式支持了文章的主要观点,即文本嵌入能够捕捉语义信息,而网络嵌入则反映了期刊的引文结构。此外,点的尺寸大小表示平均引文量,也暗示了在特定期刊上,高引用论文倾向于出现在相似的维度区域中。综合来看,BERT模型似乎更适合捕捉期刊的知识和方法论差异,而GNN模型则更适合反映期刊之间的引用关系。该图对理解学术领域内知识生产的结构和分布提供了有价值的见解,尤其是量化与质性研究之间、以及历史研究之间的区别。

深度解读
#

语义与关系空间
#

本文探讨了如何利用深度学习模型构建科学文献的语义和关系空间。语义空间通过自然语言处理(NLP)技术,如Doc2Vec和BERT,捕捉文献的文本内容,而关系空间则通过图神经网络(GNN)捕捉文献之间的引用网络和社会关系。研究表明,NLP能够有效编码文献的语义信息,而GNN则能够捕捉到科学社区中的社会结构和引用模式。这种双重空间的构建为科学文献的分析提供了新的视角,尤其是在处理大规模文献时,能够自动提取出文献之间的复杂关系。然而,这种方法的局限性在于,GNN模型可能会引入算法偏差,尤其是在处理引用网络时,可能会强化现有的不平等现象。未来的研究需要进一步探讨如何减少这些偏差,并扩展模型的应用范围。

深度学习模型
#

本文详细介绍了如何利用深度学习模型,特别是图神经网络(GNN)和自然语言处理(NLP)模型,来构建科学文献的嵌入表示。GNN通过引用网络和元数据特征,能够捕捉文献之间的结构关系,而NLP模型则通过文本内容生成语义嵌入。实验结果表明,GNN在链接预测任务中表现优异,尤其是在结合BERT嵌入时,能够显著提高预测精度。然而,NLP模型在处理文档级嵌入时,尤其是Doc2Vec,表现不如预期,这可能是因为其需要大量数据进行训练。相比之下,BERT模型由于其预训练的优势,能够更好地捕捉文档的语义信息。这些发现为未来的研究提供了方向,尤其是在如何结合文本和网络数据方面,深度学习模型具有巨大的潜力。

合作模式分析
#

本文通过嵌入模型分析了科学文献中的合作模式。研究发现,国际合作的文献在嵌入空间中具有更高的相似性,而单作者文献则位于嵌入空间的边缘。这种模式与文献的引用率密切相关,国际合作的文献通常具有更高的引用率。通过GNN模型,研究者能够捕捉到这种合作模式的结构特征,而NLP模型则未能有效编码这些信息。这表明,GNN模型在处理社会关系时具有独特的优势,尤其是在分析科学社区中的合作网络时。未来的研究可以进一步探讨如何利用这些嵌入模型来优化科学合作网络,尤其是在跨学科和跨国家的合作中。

马太效应
#

本文通过嵌入模型验证了科学中的马太效应,即高引用文献更容易被再次引用。研究发现,GNN模型能够有效捕捉到这一现象,高引用文献在嵌入空间中具有更高的Frobenius范数,表明其在网络结构中的中心地位。相比之下,NLP模型未能有效编码这一现象。这表明,GNN模型在处理引用网络时,能够捕捉到科学中的不平等现象,尤其是在引用分布方面。这一发现为未来的研究提供了新的视角,尤其是在如何利用嵌入模型来分析和减少科学中的不平等现象方面,具有重要的应用价值。

国家层面分析
#

本文通过嵌入模型分析了不同国家在科学文献中的表现。研究发现,英语国家欧洲国家在科学文献的生产和引用中占据中心地位,而南美非洲国家则处于边缘位置。这种分布与文献的语义内容无关,而是反映了科学社区中的引用不平等现象。通过GNN模型,研究者能够捕捉到这种国家层面的引用模式,而NLP模型则未能有效编码这些信息。这表明,GNN模型在处理科学社区中的社会结构时具有独特的优势,尤其是在分析全球科学生产的不平等现象时。未来的研究可以进一步探讨如何利用这些嵌入模型来优化全球科学合作网络,尤其是在减少引用不平等方面。

完整论文
#