Skip to main content
  1. 论文/

从听觉到视觉:通过声景到图像生成人工智能连接听觉和视觉场所感知

·8691 words·18 mins
声景 街景图像 场所感 稳定扩散 生成式人工智能 大语言模型 多感官体验 地理空间数据科学 环境心理学 城市设计与规划
Table of Contents

✏️ Yonggai Zhuang
✏️ Yuhao Kang
✏️ Teng Fei
✏️ Meng Bian
✏️ Yunyan Du

要点总结
#

研究背景与问题:人类通过多种感官体验世界,但现有的定量地理学研究主要关注视觉感知,忽视了听觉感知的重要性。尽管声景(soundscape)在塑造人类情感和空间感知中起着重要作用,但由于声学环境的复杂性,如何直观地表达声景仍然是一个挑战。此外,现有的研究很少将听觉和视觉感知结合起来,以全面理解人类对地方的感知。为了填补这些空白,本文提出了一种基于生成式人工智能的声景到图像扩散模型,旨在通过生成街景图像来可视化声景。

方法论与贡献:本文提出了一个声景到图像扩散模型,该模型通过将声景转换为高维语义音频向量,并利用低分辨率扩散模型和超分辨率扩散模型,将这些向量转化为视觉表示。研究通过机器和人类评估验证了模型的有效性,证明生成的街景图像与人类对声景的常见感知一致,并准确捕捉了原始声景中的关键街道元素。该研究展示了声景如何提供足够的视觉信息,推动了生成式人工智能与人文地理学的交叉研究,丰富了地理空间数据科学和人工智能的研究。

关键要点
#

论文重要性
#

这项研究的重要性在于它首次将听觉与视觉感知结合起来,为理解人类多感官体验提供了新的工具。 通过生成式人工智能技术,研究不仅填补了现有文献中的空白,还为城市设计、环境心理学和人类地理学等领域提供了新的研究方向。未来,该模型可以进一步优化,应用于更广泛的多感官数据生成,推动人类与环境关系的深入研究。


图表分析
#

模型框架图
#

🔼 该图展示了本研究提出的计算框架,用于将街景声音转化为视觉图像。整个框架主要由四个步骤构成:数据收集、声音特征处理、声音到图像的扩散模型以及评估。首先,研究人员从YouTube收集了包含视觉和听觉信息的街景视频。接着,对音频文件进行处理,将其转换为高维语义向量,以便输入到后续的稳定扩散模型中。然后,研究人员设计了一个声音到图像的扩散模型,该模型能够关联听觉和视觉感知,并根据声音生成对应的街景图像。最后,通过机器评估和人工评估来检验模型的性能。具体来说,数据收集环节涉及从YouTube上选取带有清晰街景和声音的视频,并将其分割成10秒的音频-图像对;声音特征处理阶段对音频数据进行短时傅里叶变换和梅尔滤波,并将其转换为768维的特征向量;声音到图像的扩散模型则基于Imagen模型进行改进,利用音频特征向量生成低分辨率图像,并通过超分辨率扩散模型生成高分辨率图像;模型评估环节包括基于损失函数的机器评估,基于街景元素的图像相似性评估,以及定性和定量的人工评估。该图清晰地呈现了整个框架的流程,并为读者理解研究方法提供了直观的参考。

更多图表分析

Soundscape-to-Image 模型框架图
#

🔼 该图展示了研究中提出的 Soundscape-to-Image Diffusion 模型框架。整个框架由四个主要步骤构成:数据收集、声音特征处理、Soundscape-to-Image Diffusion 模型训练以及模型评估。首先,研究人员从YouTube等平台收集包含街道场景和声音的视频数据。这些数据被分割成10秒的片段,提取相应的音频和图像,形成音频-图像对的数据集。接着,音频数据通过音频编码器转化为高维语义音频向量,为后续的图像生成提供输入。核心步骤是训练 Soundscape-to-Image Diffusion 模型,该模型包含一个低分辨率扩散模型和一个超分辨率扩散模型。低分辨率扩散模型将音频向量转化为低分辨率图像,而超分辨率扩散模型则进一步将低分辨率图像提升为高分辨率图像。该模型通过学习音频与图像之间的关联,实现从声音到图像的转换。最后,研究人员使用多种方法对模型进行评估,包括基于机器学习的损失函数计算和街景元素分析,以及基于人类主观判断的定性和定量评估。该框架旨在探索声音环境与视觉环境之间的联系,将抽象的声音转化为具体的图像,以此揭示人类多感官体验与环境之间的互动关系。此框架展现了从声音到图像的生成过程,体现了多模态数据处理和深度学习模型在环境感知领域的应用。

Soundscape-to-Image 模型框架
#

🔼 该图展示了论文中提出的 Soundscape-to-Image Diffusion 模型的整体框架。这个框架的核心是将街道环境的音频信息转换为视觉图像,从而探索人类听觉和视觉体验之间的关联。框架分为四个主要步骤:数据收集、声音特征处理、Soundscape-to-Image Diffusion 模型构建以及模型评估。在数据收集阶段,研究者收集了包含街道场景和声音的视频,并将其分割为音频-图像对。接着,音频数据经过处理,转换为高维语义音频向量。这些向量作为输入,被送入Soundscape-to-Image Diffusion 模型中。该模型包含一个低分辨率扩散模型和一个超分辨率扩散模型,通过迭代过程,从音频向量生成相应的低分辨率和高分辨率街景图像。最后,模型通过机器学习指标(如损失函数和元素级相似性)以及人类评估进行性能评估。该框架体现了利用深度学习方法将多模态数据进行转换和融合的思想,为研究人类对环境的多感官体验提供了一种新的方法。通过这个框架,研究者能够探索声音如何影响我们对环境的视觉感知,为城市规划、环境心理学等领域带来新的启示。

整个框架的设计思路是从现实场景中的多模态数据出发,通过先进的深度学习技术,实现跨模态信息的转换。这体现了在人工智能研究中,逐渐重视多模态数据融合的趋势。通过这种方式,研究者不仅能够深入了解人类感知环境的复杂性,也为未来的环境感知和交互研究提供了新的思路。此外,该研究成果还展示了生成式人工智能在人类环境感知研究中的巨大潜力,为未来的研究方向开辟了新的路径,例如结合强化学习和人类反馈来优化生成图像的质量,以及拓展研究的街道元素。

模型框架示意图
#

🔼 该图为研究中提出的计算框架的示意图,展示了如何将街景声音转化为视觉图像的过程。整个框架包含四个主要步骤:数据收集、声音特征处理、声音到图像的扩散模型训练以及模型评估。首先,研究人员收集了来自YouTube的街景视频,这些视频同时包含视觉和听觉信息。然后,对音频文件进行处理,将其转化为高维语义音频向量。接着,将这些音频向量输入到声音到图像的扩散模型中,该模型能够将声音信息转化为相应的视觉图像。该模型由一个低分辨率扩散模型和一个超分辨率扩散模型构成,它们能够逐步将音频向量转化为高质量的街景图像。最后,通过基于机器和以人为中心的评估方法来评估生成图像的质量。该框架的目标是探索声音环境的视觉表达方式,并将听觉和视觉感知联系起来,以理解人类对地方的多感官体验。图中详细描述了从原始视频数据到最终生成图像的整个流程,这对于理解研究的核心方法至关重要。

研究的计算框架图
#

🔼 该图展示了本研究提出的计算框架,旨在通过声音景观生成街景图像。框架的核心流程包括四个主要步骤:数据收集、声音景观处理、声音景观到图像的转换以及评估。首先,在数据收集阶段,研究人员收集了街道的听觉声音景观和相应的街景图像,并将这些数据分为训练集和验证集。其次,在声音景观处理阶段,收集到的音频数据被转换成高维语义音频向量,并通过音频编码器进行处理。接着,在声音景观到图像的转换阶段,研究人员开发了一个包括低分辨率扩散模型和超分辨率扩散模型的框架。该模型利用处理后的音频向量,并通过 U-Net 结构进行转换,生成低分辨率图像,随后通过超分辨率扩散模型进一步生成高分辨率街景图像。最后,在评估阶段,研究人员使用机器学习和以人为中心的评估方法,使用街景图像来验证模型的有效性。图中还标明了数据流动的方向,例如,训练数据用于模型训练,而验证数据用于模型评估。整个框架的设计旨在探索声音景观与视觉感知之间的联系,以及通过声音信息重建视觉场景的可能性。总的来说,此图清晰地概述了研究的整体架构和各个关键组成部分,为理解研究方法提供了直观的视角。这个框架的创新之处在于它利用深度学习技术,特别是扩散模型,来弥合听觉和视觉感知之间的差距,从而为多感官环境体验的研究开辟了新的途径。

图像分割流程图
#

🔼 该图展示了用于评估Soundscape-to-Image Diffusion模型性能的图像分割流程。该流程旨在比较原始图像和AI生成的图像在关键街景元素(天空、绿地和建筑物)比例上的差异。首先,对原始街景图像和AI生成的图像分别进行语义分割,使用DeepLabV3模型对图像中的天空、绿地和建筑物进行像素级分类。分割后,计算每种元素在图像中所占的比例。接着,通过比较原始图像和AI生成图像中这些元素的比例,来评估AI模型生成图像的准确性。该方法能够量化AI模型理解和生成图像中关键视觉元素的能力,并为评估模型性能提供数据支撑。例如,如果AI生成的图像与原始图像相比,天空的比例明显偏高,那么表明该模型在生成图像时对天空的视觉特征学习不足。该分析流程可以有效帮助研究人员评估模型在捕捉不同街景视觉元素方面的能力,并为模型改进提供方向。

不同场景下AI生成图像与真实图像对比
#

🔼 该图展示了使用Soundscape-to-Image Diffusion模型在不同场景下生成的街景图像与原始街景图像的对比。图中将场景分为三类,分别是:城市与乡村环境、天空可见度高低、绿化程度高低。每一类场景都展示了AI模型生成的图像和对应的真实图像,以对比模型的生成效果。在城市环境中,AI生成的图像显示了密集的建筑物和街道,与真实的城市景观相似,而在乡村环境中,生成的图像则展现了更广阔的空间和植被。在天空可见度方面,高可见度场景的AI生成图像展现了开阔的天空,而低可见度场景则天空被遮挡。在绿化程度方面,高绿化场景的AI生成图像中,植被丰富,而低绿化场景的图像则植被较少,主要呈现建筑和道路。这些结果表明,Soundscape-to-Image Diffusion模型能够从声音信息中提取视觉特征,并生成与真实场景具有一定相似度的图像。尽管AI生成的图像在细节上可能与真实图像有所不同,例如在清晰度上略有不足,但在整体布局和特征上,它们能够捕捉到不同环境的特点,体现了模型在声音到图像转换方面的能力。这为通过声音来理解和生成视觉场景提供了新的可能性,并证明了AI在多模态数据处理方面的潜力。本图表对于理解模型的性能以及其在不同环境下的表现具有重要意义。

训练过程中的损失函数
#

🔼 这张图表展示了在Soundscape-to-Image Diffusion模型训练过程中,低分辨率(Low-Resolution)和超分辨率(Super-Resolution)两个扩散模型的损失函数变化情况。横轴代表训练的轮数(Epoch),纵轴代表噪声损失(Noise Loss)。图中有两条实线,分别表示低分辨率和超分辨率模型在训练集上的损失;两条虚线则分别表示这两个模型在验证集上的损失。在训练初期,两个模型的损失值都急剧下降,表明模型迅速学习到了数据中的模式。大约在5轮训练后,损失下降速度减缓,表明模型正在逐渐收敛。经过30轮训练后,两个模型在训练集和验证集上的损失值都趋于稳定,且验证集的损失值与训练集损失值非常接近,这说明模型在训练过程中没有出现过拟合现象,且具有良好的泛化能力。具体来说,低分辨率模型的噪声均方误差(MSE)损失从0.261降至0.022,超分辨率模型的噪声损失从0.109降至0.008。低分辨率和超分辨率模型的验证集上的平均损失函数值分别为0.022和0.008,与训练集上的值非常接近,证明了模型训练的有效性。总而言之,该图表清晰地展示了模型在训练过程中的收敛情况,以及模型在训练集和验证集上均具有良好表现。

街景元素比例相关性
#

🔼 该图表展示了原始图像和生成图像中不同街道元素(绿化、天空和建筑)像素比例之间的相关性。图表由三个散点图组成,分别对应绿化、天空和建筑。每个散点图的横轴代表原始图像中相应元素的像素比例,纵轴代表生成图像中相应元素的像素比例。通过散点分布的密集程度和趋势线可以直观地看出原始图像和生成图像在这些元素上的相似程度。图中的 r 值代表皮尔逊相关系数,p 值代表显著性水平。具体而言,绿化像素比例的相关系数为 0.69,天空像素比例为 0.80,而建筑像素比例为 0.59。这表明,生成图像在天空的比例上与原始图像相关性最强,其次是绿化,建筑的相关性相对较低。所有三个相关性均在 p<0.001 的水平上显著,表明这些相关性并非偶然。这些结果表明,该模型在一定程度上能够从声音中捕捉到视觉场景的特征,特别是在天空和绿化方面表现较好,但在建筑方面可能存在一些不足。这可能是因为建筑的视觉特征更加复杂多样,难以被模型完全捕捉。整体而言,该图表通过量化的方式,验证了模型在生成图像时对不同街景元素的学习和还原能力,为模型性能的评估提供了重要的支持。

不同场景的图像生成示例
#

🔼 该图展示了Soundscape-to-Image Diffusion模型在不同场景下的图像生成效果。图表分为三个主要部分:输入街道声景(Input Street Soundscape)、AI生成的街道视图图像(AI-Generated Street View Images)和真实图像(Ground Truth)。每一行代表一个不同的场景类别,包括城市场景(City Scene)、乡村场景(Countryside Scene)、高绿化场景(High Greenery)、低绿化场景(Less Greenery)、低天空比例场景(Low Percentage of Sky)和高天空比例场景(High Percentage of Sky)。

在输入街道声景部分,展示了每个场景对应的梅尔频谱图,这是一种用于分析音频信号的工具。梅尔频谱图通过颜色深浅表示音频的频率和强度,展示了不同场景下声波的特征。例如,城市场景通常包含更复杂和高频率的声波,而乡村场景则更倾向于低频率的自然声。

AI生成的街道视图图像部分展示了模型基于对应的音频生成的图像。从视觉效果来看,模型在一定程度上捕捉了各个场景的特点。例如,在城市场景中,生成的图像包含了道路和高楼的元素;在乡村场景中,图像则展示了道路和绿植;高绿化场景生成的图像中有较高的植被覆盖率;低绿化场景则较少植被;低天空比例场景图像天空被遮挡;而高天空比例场景则显示天空开阔。

最后一列是对应的真实图像,用于对比模型生成效果。对比之下,虽然生成的图像在细节上存在模糊,但大体上与实际场景保持了一致。这表明该模型能够有效地将音频信息转化为视觉信息,体现了Soundscape-to-Image Diffusion模型在跨模态数据生成方面的潜力。该图的主要发现点是模型能够根据不同类型的声音环境生成与之匹配的视觉场景,说明该模型可以较好地捕捉声音与视觉之间的联系。总体而言,该图展示了模型在不同场景下的鲁棒性和有效性,验证了模型对于人类多感官体验的模拟能力。

不同光照条件下的图像生成
#

🔼 该图展示了在不同光照条件下,基于输入街道声音景观生成的街景图像。图中,左侧列出了三种不同的光照条件:晴天(Sunny Day)、阴天(Cloudy Day)和晴朗的夜晚(Clear Night),每种条件下都对应一个声音景观的梅尔频谱图。中间部分是利用AI生成的街景图像,每个光照条件下都生成了多张图像,这些图像旨在模拟与相应声音景观匹配的视觉环境。右侧是真实场景的图片,作为对比参考。图中的梅尔频谱图展示了音频信号的频率分布和强度,每种光照条件下的频谱都有所不同,这反映了不同环境声音的特性。例如,晴天的频谱可能包含更多的交通噪声,而夜晚的频谱可能更多的是环境声音。AI生成的图像展示了模型尝试从音频输入中推断视觉场景的能力。晴天生成的图像通常包含明亮的街道和阳光,阴天生成的图像则较为阴沉,多为阴云密布的天空,夜晚的图像则呈现出城市的夜景,有灯光和车流。总的来说,这些结果表明该模型在理解声音景观并将其转化为相应的视觉场景方面具有一定能力,即使在不同的光照条件下,模型也能生成符合常理的图像。尽管生成的图像在细节上可能与真实场景存在差异,但它们在整体氛围和关键元素上都与声音景观保持了一致。

不同地点生成的街景图
#

🔼 该图展示了基于不同音频片段生成的街景图像示例,这些图像由提出的Soundscape-to-Image Diffusion模型生成。图像被分为三组,每组包含两个对比鲜明的场景,以展示模型在不同环境下的表现:(a) 城市与乡村环境:左侧图像描绘了繁忙的城市街道,有道路和高耸的灰色建筑物,而右侧图像则描绘了乡村的宁静森林小路,有道路,大量植被以及水体。(b) 绿化程度高低的环境:左侧图像呈现了绿草茵茵的开阔地,包括开阔的草地和树木,而右侧图像则描绘了城市中一个被建筑物包围的安静的死胡同,几乎看不到草和树木。(c) 天空视野开阔与否:在树木茂密光线有限的场景中生成的图像相对阴暗,难以看到天空,而在开阔视野开阔的地方生成的图像则很好地展示了天空中的云彩。尽管某些区域和像素模糊,但这些生成的图像在视觉特征上与原始图像相似。这个案例体现了该模型可以从音频线索中捕获视觉特征,并生成相应的街景图。

音频到图像转换示例
#

🔼 该图展示了从同一音频片段生成的四张不同的街景图像,以及该音频片段的梅尔频谱图。四张生成的图像虽然在细节上有所不同,但都体现了相似的环境特征,例如植被、道路和天空。梅尔频谱图则以视觉方式呈现了音频信号的频率随时间的变化,其中横轴表示时间(帧),纵轴表示频率(赫兹),颜色强度表示功率谱密度(PSD)。

这组图像是论文中提出的Soundscape-to-Image Diffusion模型的一个实际应用案例。该模型通过将音频片段转换为高维语义音频向量,并使用这些向量作为输入来指导图像生成,从而实现从声音到视觉的转换。尽管生成的图像并非完全一致,但它们都反映了音频中的某些环境特征,如是否存在植被,道路的形态等。这种差异性也体现了扩散模型固有的随机性,即使是相同的输入,模型也会产生不同的输出。

进一步分析这些生成的图像可以发现,每张图像都有其独特的风格和细节,例如植被的茂密程度、道路的材质和走向、以及光线的强度和角度,这些都说明模型能够捕捉到音频中蕴含的细微差异,并将其转换为视觉元素。此外,这四张图像中的物体虽然形状轮廓模糊,颜色也有差异,但仍然可以辨认出树木、道路,或一些水面。这表明模型在理解音频语义信息和生成视觉场景方面具有一定的能力。

总的来说,该图展示了Soundscape-to-Image Diffusion模型将音频信息转换为视觉图像的潜力。尽管生成的图像质量和细节上可能存在一些局限性,但它们成功地展示了音频环境的视觉特征,这为进一步研究多感官信息融合提供了基础。这个模型在环境研究、城市规划和虚拟现实等领域都有潜在的应用价值。

深度解读
#

多感官感知
#

本论文通过提出一种声景到图像的生成模型,成功地将听觉与视觉感知相结合,填补了现有研究中多感官感知的空白。传统的地理研究主要关注视觉感知,而忽略了听觉感知的重要性。声景到图像扩散模型通过将声景转化为高维语义音频向量,并利用生成式人工智能技术生成街景图像,实现了听觉与视觉的联动。这一创新不仅丰富了地理数据科学的研究方法,还为理解人类与环境的复杂关系提供了新的视角。该模型的应用潜力广泛,可以用于城市规划、环境心理学等领域,帮助设计者更好地理解声景与视觉景观之间的关系,从而优化城市环境设计。

生成式AI
#

论文采用了Stable Diffusion这一先进的生成式人工智能技术,成功地将声景转化为视觉图像。Stable Diffusion 是一种基于噪声注入的生成模型,能够通过多次迭代生成高质量的图像。该模型的优势在于其能够处理复杂的多模态数据,如文本、音频等,并将其转化为视觉表示。在本研究中,Stable Diffusion 被用于将声景转化为街景图像,展示了其在多感官数据生成中的潜力。这一技术的应用不仅限于地理学,还可以扩展到其他领域,如医学影像生成、视频生成等,展示了生成式AI在跨模态数据生成中的广泛应用前景。

声景可视化
#

论文提出了一种声景可视化方法,通过将声景转化为街景图像,提供了一种直观的方式来理解声景的复杂性。传统的声景可视化方法通常依赖于频谱图或功率谱等技术,但这些方法往往缺乏直观性。本研究通过生成式AI技术,将声景转化为视觉图像,使得声景的特征能够以更直观的方式呈现。这一方法不仅能够帮助研究者更好地理解声景的构成,还可以为城市规划者提供有价值的参考,帮助他们设计更符合人类感知的城市环境。声景可视化的创新之处在于其能够捕捉声景中的语义信息,并将其转化为视觉元素,从而为多感官研究提供了新的工具。

人类感知评估
#

论文通过机器评估与人类评估相结合的方式,验证了声景到图像生成模型的有效性。机器评估部分通过计算损失函数和图像相似度来量化模型的性能,而人类评估则通过志愿者对生成图像的匹配率进行主观评价。结果显示,生成图像在多个关键街景元素(如绿化、建筑、天空)上与原图像具有较高的相似性,表明模型能够有效地将声景转化为视觉图像。人类评估的结果进一步验证了模型的可靠性,志愿者的匹配率达到了80%以上。这种结合机器与人类评估的方法,不仅提高了模型的可信度,还为未来的多感官研究提供了新的评估框架。

未来研究方向
#

论文指出了未来研究的几个重要方向,首先是模型的进一步优化,特别是在计算资源和数据集规模上的扩展。当前的模型在生成高分辨率图像时仍存在一定的局限性,未来的研究可以通过引入更多的超参数和优化算法来提高图像质量。其次,结合强化学习与人类反馈(RLHF),可以进一步提升生成图像的细节与人类偏好的一致性。此外,未来的研究还可以扩展街景元素的种类,如交通标志、行人等,从而更全面地理解声景与视觉景观之间的关系。这些研究方向的探索,不仅能够提升模型的性能,还将为多感官感知研究提供更丰富的理论支持。

完整论文
#