Skip to main content
  1. 论文/

通过大型语言模型分析Reddit评论绘制大不列颠的语义足迹

·6978 words·14 mins
方言地理学 语义学 社交媒体 自然语言处理 地理信息系统 地理数据科学 地理感知 地理标记 地理信息提取 地理语义分析
Table of Contents

✏️ Cillian Berragan
✏️ Alex Singleton
✏️ Alessia Calafiore
✏️ Jeremy Morley

要点总结
#

研究背景与问题:社交媒体数据在地理研究中的应用引发了人们对“地方”概念的重新关注。传统的方言研究主要关注词汇差异,但忽略了语言中嵌入的地理和文化信息。本文通过分析Reddit评论中的位置提及,探讨了如何通过自然语言处理技术捕捉这些信息,揭示不同地区的语义差异。

方法论与贡献:本文使用大型语言模型(LLM)对英国相关Reddit评论进行语义分析,生成了每个地区的“语义足迹”。这些足迹通过空间自相关分析,展示了英国不同地区的语义差异,尤其是伦敦、威尔士和苏格兰的语义足迹与其他地区显著不同。研究结果表明,语言中的语义信息能够反映地理和文化的差异,为理解地区身份提供了新的视角。

关键要点
#

论文重要性
#

这项研究的重要性在于,它通过分析社交媒体中的语言数据,揭示了语言如何反映地理和文化的差异。这不仅为地理学研究提供了新的工具,还为理解地区身份和文化差异提供了新的视角。未来研究可以进一步探索其他社交媒体平台的数据,或扩展到全球范围内的语义分析,以揭示更广泛的地理和文化模式。


图表分析
#

各地区语义足迹的聚类
#

🔼 该图展示了英国各地方行政区(LAD)的语义足迹聚类结果,通过UMAP降维到二维空间。图中每个点代表一个LAD,颜色表示不同的聚类。结果显示,英国大致可以分为三个语义区域:集群0主要对应英格兰,集群1对应伦敦及其周边地区,集群2对应苏格兰和威尔士。值得注意的是,威尔士和苏格兰内部的一些主要城市,如卡迪夫、格拉斯哥和爱丁堡,与英格兰的LADs属于同一集群,表明这些城市与英格兰其他地区在语义上更为相似。这种现象可能反映了主要城市在文化和经济上与更广阔的地区联系更为紧密。伦敦及其周边地区则形成了一个独特的集群,这可能与其在全球范围内的经济和文化地位有关。此外,图中的聚类结果与英国的行政边界,如威尔士和苏格兰的国界,有一定的吻合,这表明社会媒体文本中的语言模式可以反映出地理区域的特点。总的来说,该图展示了基于语义信息的区域划分,揭示了英国不同地区的语言和文化差异,并为理解地方身份与语言表达之间的关系提供了重要的见解。

更多图表分析

LAD语义嵌入聚类
#

🔼 图2(a)展示了通过UMAP降维后的363个地方行政区(LAD)的Transformer嵌入聚类结果。这些聚类表明,具有相似语义属性的区域被归为一类。从空间分布来看,这些聚类大致与英国的三个主要区域相对应:0号簇主要对应英格兰,1号簇对应伦敦及其周边地区,而2号簇则主要对应苏格兰和威尔士。在威尔士和苏格兰出现的少数0号簇区域主要是一些主要的城市中心,如卡迪夫、格拉斯哥和爱丁堡。总体而言,这些聚类在地理上呈现出明显的区域性,甚至与威尔士和苏格兰的边界大致吻合。这与过去的研究发现的“边界效应”相似,即地理标签推文的词汇相似性通常与行政边界相关。

与方言不同,这里的语义嵌入的地理关联性是该研究的一个新发现。结果表明,即使没有地理标签或地名等先验地理信息,与地点相关的普通文本也具有地理特征。苏格兰和威尔士边界处的聚类明显变化支持了该研究的假设,即社交媒体文本中存在的乡土地理包含了有助于民族认同的成分。值得注意的是,威尔士和苏格兰的主要城市与英格兰的LAD共享一个聚类,这表明这些地点在语义上与英国其他地区联系更为紧密。这反映了主要城市的性质,因为它们倾向于在更广泛的地理范围内共享更强的物理地理联系和文化联系。1号簇出现在伦敦周围地区,表明该区域相对于英国其他地区的独特性,可能与伦敦的全球影响力、旅游业和商业有关。经济差异是伦敦地区特有的另一个重要因素,高昂的生活成本导致了“伦敦津贴”的出现。总体而言,结果表明,通过分析社交媒体文本的语义信息,可以捕捉到英国不同地区的独特特征,并与民族认同相联系。

语义足迹生成流程图
#

🔼 该图展示了从Reddit评论语料库生成区域语义足迹的流程。首先,从Reddit评论中提取包含地点名称的文本,形成语料库,并通过预训练的语言模型生成每个评论的句子嵌入(sentence embeddings),这一步骤旨在将文本转换为机器可理解的数值向量。接下来,对同一地点提及的所有评论的嵌入向量进行平均池化(mean-pool),形成该地点的语义足迹,这可以理解为该地点在所有评论中语义特征的综合表示。然后,按照地方行政区划(Local Authority District, LAD)对这些地点语义足迹再次进行平均池化,最终形成每个LAD的语义足迹。整个过程通过数据处理流程和一系列步骤将原始文本数据转化为可用于分析的数值形式,从而允许研究者比较不同地区在语义上的差异。从图中可以看到,整个流程分为四个主要步骤:语料库构建、句子嵌入生成、地点语义足迹形成和区域语义足迹形成。图中还提供了“I live in London”作为示例评论,以及地点名称、LAD和span在数据处理中的具体表示,有助于理解整个流程的运作方式。最终产出的区域语义足迹可以用于进一步的地理空间分析,如聚类分析和空间自相关分析,以揭示英国各地在语义上的差异和关联,这对于理解区域认同、文化差异和地理空间模式具有重要意义。

英国语义足迹聚类图
#

🔼 该图展示了通过对英国Reddit评论进行大型语言模型分析得出的语义足迹聚类结果。图中不同的颜色代表不同的语义聚类,这些聚类基于地方行政区(Local Authority District, LAD)的语义相似性得出。具体而言,蓝色(0)聚类主要覆盖英格兰地区,橙色(1)聚类集中在伦敦及其周边地区,绿色(2)聚类则主要覆盖苏格兰和威尔士地区。该图的突出发现是,尽管没有使用地理标签或明确的地理信息,评论的语义内容仍然显示出明显的地域模式。苏格兰和威尔士的边界清晰可见,显示这些地区的语义特征与英格兰不同。伦敦地区也表现出与其他区域不同的语义特征,这可能反映了伦敦独特的文化和社会经济特征。此外,卡迪夫、格拉斯哥和爱丁堡等主要城市与英格兰的聚类更接近,表明城市可能存在更强的语义连通性,这与之前关于城市之间共享提及的研究相符。总的来说,该图强调了社交媒体文本中的语义信息可以揭示区域差异,并支持了地方文化和认同感可以在语言中反映的观点,即使这种语言并没有明确的地理标记。

英国各地语义足迹聚类
#

🔼 该图表展示了英国各地地方行政区(LAD)语义足迹的聚类分析结果。图 (a) 通过 UMAP 降维技术将 363 个 LAD 的语义嵌入可视化为二维散点图,其中每个点代表一个 LAD,颜色表示通过层次聚类方法识别出的不同语义聚类。蓝色聚类主要对应英格兰地区,绿色聚类则涵盖苏格兰和威尔士,而橙色聚类则集中在伦敦及其周边区域。图 (b) 以堆叠条形图的形式展示了每个行政区域(RGN22NM)内不同语义聚类的比例,直观地显示了各区域内语义足迹的分布情况。例如,苏格兰和威尔士主要由绿色聚类组成,而伦敦则主要由橙色聚类主导,进一步佐证了各区域间语义的差异。英格兰的各个区域,虽然主要以蓝色聚类为主,但也包含少部分绿色和橙色,表明其语义足迹的复杂性。这些结果表明,即使没有使用地理标签或地名,通过分析社交媒体文本的语义信息,也能够揭示英国各地在文化、话题和语言使用上的差异。此图表有力地证明了语义足迹的概念,揭示了人们如何通过网络表达和分享对于不同地区的独特认知和观点,并与行政边界产生了有趣的关联。

Moran’s I 分析图
#

🔼 该图展示了通过 UMAP 降维后的语义足迹的两个维度(蓝色和橙色)与其空间滞后值之间的关系,并计算了莫兰指数(Moran’s I)和余弦相似度。横轴表示标准化后的 PCA 嵌入值,纵轴表示滞后标准化 PCA 嵌入值。蓝色点和橙色叉分别代表两个不同的维度。图中的直线是拟合的回归线,用于帮助观察数据的趋势。蓝色维度的莫兰指数为 0.31,橙色维度的莫兰指数为 0.39,表明两个维度均呈现出正向空间自相关性,即邻近地区的语义足迹相似度较高。两个维度之间的余弦相似度为 -0.11,表明这两个维度捕捉了不同的语义特征。这种分析有助于理解地理位置与语义表达之间的关系。图中莫兰指数的计算表明,邻近区域的语义足迹往往更为相似,这支持了研究中提出的地理空间与语义关联的假设。两个维度的差异以及余弦相似度的负值,说明不同维度可能反映了不同的语义侧面,这些侧面在空间上具有不同的分布模式,值得进一步研究。总而言之,此图表提供了关于语义足迹空间分布的重要信息,揭示了地理位置与文本语义之间的复杂关系,支持了研究中关于社会媒体文本中的地理和语义关联的论点。此外,正向空间自相关性证明了语义信息在地理空间上的聚集性,而负余弦相似度则强调了多维分析的必要性。

空间自相关指标图
#

🔼 该图展示了英国各地的地方自相关指标(LISA)分析结果,分为两个维度(Dim 0和Dim 1)进行展示。图(a)和(d)分别展示了使用均匀流形逼近和投影(UMAP)降维后的两个维度上的嵌入值。UMAP 是一种降维方法,用于将高维数据转换为低维空间,以便于可视化和分析。颜色深浅表示嵌入值的大小,用于展示英国各地在两个维度上的语义差异。

图(b)和(e)展示了局部莫兰指数I的值,用于衡量局部空间自相关性。颜色从深绿到白色到深棕,表示从负到正的空间自相关强度。正值表示相似值聚集,负值表示不相似值聚集。该图揭示了英国各地区在语义上的空间相关性强度。

图(c)和(f)为局部自相关指标,用不同的颜色标记出了显著的空间自相关区域(p<0.05)。红色(HH)表示高值区域周围也是高值区域,绿色(LL)表示低值区域周围也是低值区域,灰色(HL/LH)表示高值区域周围是低值区域或低值区域周围是高值区域。通过该图可以观察到,在维度0中,伦敦地区表现出显著的高-高聚类(HH),而爱丁堡表现出高-低/低-高聚类(HL/LH),在维度1中,格拉斯哥表现出高-低/低-高聚类,英格兰南部和西南部则呈现低-低聚类(LL)。这些结果表明,英国不同地区在语义上的空间分布存在显著差异。

总体而言,该图展示了使用大型语言模型分析Reddit评论在英国各地产生的语义足迹的空间自相关性。分析结果表明,英国各地的语义特征存在明显的空间聚集效应,并揭示了不同地区在语义上的独特性和相互关系。这些发现对于理解英国的区域文化差异和地理特性具有重要意义,并为进一步研究社会媒体数据和地理空间分析提供了有价值的参考。

英国各区域语义足迹
#

🔼 该图展示了英国不同区域的语义足迹,通过颜色深浅表示区域内语义的相似程度或强度。每个子图代表一个特定的行政区域,如“西北”、“约克郡和亨伯”、“西南”、“西米德兰兹”、“东米德兰兹”、“英格兰东部”、“东南”、“东北”、“苏格兰”、“威尔士”和“伦敦”,以及一个显示平均值的“平均”图。颜色由浅到深变化,通常深色区域表示在该区域内,Reddit评论的语义表示与其他区域有明显的差异,可能反映了该区域独特的文化、话题或社会经济特征。例如,“伦敦”区域的颜色最深,表明其语义足迹与英国其他地区显著不同,可能反映了伦敦作为首都和国际化大都市的独特地位。苏格兰和威尔士的颜色也较深,暗示这两个地区在语言和文化上具有更强的内部一致性,并与英格兰其他地区存在差异。图中“平均”图表提供了一个整体的视觉参考,展示了所有区域的平均语义特征,作为比较的基准。各区域内部的颜色分布可能反映了区域内部语义表达的细微差异。这些视觉化的语义足迹有助于理解英国不同地区的文化和语言多样性,以及这些差异如何通过社交媒体上的在线讨论体现出来。该图与研究中提出的语义足迹概念相符,即社交媒体文本中的语言使用反映了特定地理位置的独特特征。

色彩梯度图
#

🔼 该图表为一个水平的色彩梯度条,从左到右颜色由深紫色渐变至黄色。图表的下方标有刻度,数值范围从 -2.0 到 2.5。该图表似乎是一个色阶图例,通常用于表示连续数值变量在可视化中的映射关系,例如热力图或地图等。左侧的深紫色通常代表较低的值,而右侧的黄色则代表较高的值,中间的颜色如蓝色和绿色则代表中间值。此颜色梯度在数据可视化中非常常见,可以清晰地展示数据的分布和变化趋势。此图并未提供具体的数据信息,而是一个用于视觉编码的参考。在实际应用中,需要将该颜色梯度与实际数据值相匹配,以解读图中不同区域所代表的数值大小。例如,在热力图中,如果一个区域呈现黄色,则代表该区域对应的数据值较高;若呈现深紫色,则代表对应的数据值较低。此外,色阶的均匀性有助于用户更容易地感知数据的变化,同时避免了因颜色选择不当导致的数据误读。总而言之,这张图表是一个辅助解释的视觉元素,其作用在于让读者理解颜色与数据值之间的映射关系,以便更好地理解使用该颜色梯度进行数据可视化的其他图表。在学术论文中,色阶图例经常用于数据分析和展示,尤其是在空间数据分析中,这种图例通常会用于可视化数据热点、强度或其他连续变量。

各地区身份认同分类
#

🔼 该图展示了英国不同地区在零样本分类任务中,被大型语言模型(LLM)识别为不同国家/地区身份的置信度。横轴代表置信度值,纵轴为英国各行政区域,包括伦敦、英格兰的各个区域(东南、东英格兰、西北、约克郡和亨伯、东米德兰、西米德兰、东北、西南)以及威尔士和苏格兰。图中使用了四种颜色表示不同的身份认同:绿色代表“英国人”,橙色代表“英格兰人”,蓝色代表“苏格兰人”,红色代表“威尔士人”。每个点代表该地区在该身份认同下的平均置信度,线段表示标准误差。虚线分隔了英格兰地区和苏格兰及威尔士地区。结果显示,英格兰地区的评论通常被归类为“英国人”的置信度高于“英格兰人”,说明英格兰的地区更多地与英国的整体身份相关联。苏格兰和威尔士的评论则更倾向于被分类为“苏格兰人”和“威尔士人”,这表明这两个地区有更强的民族认同感。伦敦的评论在“英国人”和“英格兰人”两种身份认同上都具有较高的置信度,体现了其独特的文化和地理位置。此图表明,通过分析社交媒体文本,大型语言模型能够捕捉到英国各地区的身份认同差异,且这些差异与实际的政治和文化边界具有一致性。同时,该图也体现了不同地区身份认同的复杂性和多样性。

深度解读
#

语义足迹
#

本文通过分析Reddit评论中的地理位置提及,提出了语义足迹的概念,用于捕捉不同地区的语义信息。语义足迹是通过大型语言模型(LLM)生成的句子嵌入,能够反映用户对特定地点的文化、话题和感知。研究发现,语义足迹在空间上表现出自相关性,尤其是在威尔士和苏格兰的边界处形成了明显的聚类。伦敦、威尔士和苏格兰的语义足迹与英国其他地区显著不同,表明这些地区的文化和身份认同在语言中得到了体现。语义足迹的提出为地理学研究提供了一种新的视角,能够通过社交媒体数据捕捉到传统地理学方法难以获取的“自下而上”的地理知识。然而,这种方法也存在局限性,例如数据来源的偏差和语言模型的局限性,未来的研究可以进一步优化模型并扩展数据集。

语言模型应用
#

本文利用**大型语言模型(LLM)**对Reddit评论进行语义分析,生成了句子嵌入,捕捉了文本中的上下文语义信息。与传统的词汇分析方法不同,LLM能够捕捉到更细微的语义差异,例如不同地区对“餐厅”这一话题的讨论方式。通过这种方法,研究者能够生成每个地区的语义足迹,并进行空间自相关分析。LLM的应用使得语义分析更加精确,尤其是在捕捉地区文化和身份认同方面表现出色。然而,LLM的复杂性也带来了挑战,例如嵌入的可解释性较低,难以直接提取出具体的语义特征。未来的研究可以探索如何提高嵌入的可解释性,并结合其他数据源进行验证。

地理自相关性
#

通过Moran’s I指标,本文量化了语义足迹的空间自相关性,发现语义信息在邻近地区之间表现出较高的相似性。威尔士和苏格兰的语义足迹表现出强烈的空间自相关性,与行政边界高度吻合。伦敦及其周边地区也表现出独特的语义特征,与其他地区形成明显差异。这种空间自相关性表明,语义信息能够捕捉到地区之间的文化和身份认同差异。然而,英格兰内部的语义自相关性较低,表明其地区间的文化差异较大。这一发现为理解英国各地区的地理和文化差异提供了新的视角,未来的研究可以进一步探讨语义自相关性与地区经济、社会因素之间的关系。

国家身份认同
#

本文通过零样本分类任务,利用LLM对Reddit评论进行国家身份认同的分析。研究发现,苏格兰和威尔士的评论更倾向于与各自的国家身份相关联,而英格兰的评论则更倾向于与“英国”身份相关联。伦敦的评论在“英国”和“英格兰”身份上表现出较高的置信度,表明其作为首都的特殊地位。这一发现与传统的定性研究结果一致,表明LLM能够捕捉到文本中的隐含身份认同信息。然而,LLM的分类结果可能受到训练数据的偏差影响,未来的研究可以结合更多的定性数据来验证这些发现。

未来研究方向
#

本文为未来的研究提供了多个方向,首先是优化语义足迹的生成方法,例如结合更多的数据源和更复杂的语言模型。其次,可以进一步探讨语义足迹与地区经济、社会因素之间的关系,例如如何通过语义信息预测地区的经济发展趋势。此外,未来的研究可以扩展到其他国家或地区,验证语义足迹在不同文化背景下的适用性。最后,研究者可以探索如何提高语义嵌入的可解释性,使其能够更直观地反映地区的文化和身份认同。这些研究方向将为地理学和语言学的交叉领域带来新的突破,并为政策制定者提供有价值的参考。

完整论文
#