要点总结 #
医学视觉问答(MedVQA)旨在通过自然语言问题回答与医学图像相关的问题。然而,现有方法由于数据稀缺和医学知识不足,面临准确性限制。本文提出了一种新的框架——候选启发式上下文学习(CH-ICL),通过结合外部知识和大型语言模型(LLMs),直接增强现有的MedVQA模型。具体来说,我们从公共数字病理学库中收集病理学术语词典作为外部知识库,并训练知识范围判别器,以识别回答问题所需的知识范围。然后,利用现有的MedVQA模型提供可靠的候选答案及其置信度分数。最后,将知识范围、候选答案和检索到的上下文示例结合到提示中,启发式地引导LLMs生成答案。
实验结果表明,CH-ICL在PathVQA、VQA-RAD和SLAKE三个公开基准测试中均达到了最先进的性能,分别比基线提高了1.91%、1.88%和2.17%。此外,我们还开源了病理学术语词典,为社区提供了宝贵的资源。本文的贡献不仅在于提出了一个新的框架,还在于通过实验验证了其在医学视觉问答任务中的有效性,并为未来的研究提供了方向。
关键要点 #
论文重要性 #
这项研究对于医学视觉问答领域具有重要意义。通过结合外部知识和大型语言模型,CH-ICL框架不仅显著提升了现有模型的性能,还为未来的多模态医学研究提供了新的思路。该框架的提出解决了现有方法在数据稀缺和知识不足情况下的局限性,并为医学图像的理解和解释提供了更直观的解决方案。此外,开源的病理学术语词典为社区提供了宝贵的资源,推动了医学视觉问答领域的进一步发展。未来,该框架有望在更多的医学应用场景中得到验证和扩展。
图表分析 #
CH-ICL框架图 #
🔼 这张图是文章中提出的 Candidate-Heuristic In-Context Learning (CH-ICL) 框架的整体架构图。整个框架的核心目标是通过整合外部知识,利用大型语言模型(LLM)来提升医疗视觉问答(MedVQA)的性能。该框架主要分为三个阶段。
第一阶段是知识范围判别器(Knowledge Scope Discriminator),该模块的作用是从一个预先构建的病理术语词典中识别与输入图像相关的知识范围。这个阶段首先使用预训练的 BioMedCLIP 或 PubMedCLIP 模型提取图像的特征,然后将这些特征与词典中的术语进行比对,最终输出一个与图像相关的 Top-K 个知识范围以及对应的置信度分数。这些知识范围为后续的 LLM 推理提供了背景信息。
第二阶段是候选答案检索(Candidate Retrieval)。该模块利用现有的 MedVQA 模型(如 BioMedCLIP 或 PubMedCLIP)从预定义的候选答案集中检索最有可能正确的答案。该阶段首先使用预训练模型提取图像、问题和候选答案的特征,然后通过交叉注意力机制计算问题和候选答案与图像的相关性,最后输出一个 Top-M 的候选答案列表及其置信度分数。这些候选答案为 LLM 的最终答案生成提供了可靠的基础。
第三阶段是上下文提示构建(In-Context Prompt Construction)。该模块将前两个阶段得到的知识范围、候选答案以及从训练集中检索到的相似样本结合起来,构建成一个文本提示(prompt)。这个提示会被输入到 LLM 中,以引导 LLM 从候选答案中选择最正确的答案。该阶段通过相似度计算从训练集中选择 Top-N 个相似的图像-问题对作为示例,然后将这些示例、知识范围、候选答案以及它们的置信度分数按特定格式组合,形成完整的提示。
总的来说,这个 CH-ICL 框架通过引入外部知识、利用现有的 MedVQA 模型、并通过上下文学习的方式引导大型语言模型,有效地提升了医疗视觉问答系统的性能,解决了现有方法在数据稀缺和缺乏外部知识的情况下表现不佳的问题。该框架的关键在于有效地利用了图像的知识范围和 MedVQA 模型提供的可靠候选答案,并通过精心设计的上下文提示引导 LLM 生成最终答案。
更多图表分析
CH-ICL框架示意图 #
🔼 该图展示了论文中提出的 Candidate-Heuristic In-Context Learning (CH-ICL) 框架的结构。该框架旨在解决医学视觉问答(MedVQA)问题,通过结合外部知识和大型语言模型(LLM)来提高答案的准确性。图中分别展示了三种不同的方法:(a) 传统的 MedVQA 模型,直接从视觉信息和问题中得出答案;(b) 利用图像字幕转换器,将图像转换为文本描述,再结合问题输入 LLM 进行推理;(c) 本文提出的 CH-ICL 框架。CH-ICL 框架首先使用一个 Vanilla VQA 模型生成候选答案,同时利用知识范围判别器识别与图像相关的知识范围,然后将这些信息连同问题一起输入 LLM,引导其选择最合适的答案。该框架的核心思想是通过外部知识和候选答案来引导 LLM,避免直接从图像生成复杂文本描述,从而提高 MedVQA 模型的性能。此外,图中还强调了知识范围的概念,这有助于模型理解医学图像中的关键信息,并做出更精确的预测。该框架有效地利用了 LLM 的上下文学习能力,通过结合候选答案、知识范围和示例,提高了答案的准确性和可靠性。这种方法在处理复杂的医学图像问题时尤其有效,因为它能够提供更具解释性的答案。

CH-ICL框架流程图 #
🔼 该图展示了Candidate-Heuristic In-Context Learning (CH-ICL) 框架的详细流程,用于增强医疗视觉问答(MedVQA)模型的性能。整个框架分为四个主要步骤,依次为:(1)病理术语词典构建:此步骤利用公开的病理教育资源(PEIR),通过半自动化的流程,包括使用 scispaCy 和 ChatGPT 进行实体提取,并经过人工校对,构建了一个包含 33k 张图像和 16k 个医学术语的病理术语词典。这些术语涵盖了各种图像类型、身体系统、器官、疾病、症状和技术,为后续步骤提供知识基础。(2)知识范围判别器:在这一阶段,模型使用图像编码器(如BioMedCLIP或PubMedCLIP)提取图像特征,并使用交叉注意力机制将图像特征与病理术语词典中的术语进行关联,从而识别与输入图像相关的Top-K个知识范围,并为每个范围分配置信度分数。这一步骤的目的是精确确定MedVQA所需的知识范围。(3)候选检索:该模块利用预训练的MedVQA模型(如BioMedCLIP或PubMedCLIP)对输入图像和问题进行编码,并通过对比学习检索出高置信度的答案候选列表。这部分旨在为LLM提供一系列可靠的答案选项。(4)上下文提示构建:最后,该模块将问题文本、检索到的Top-K知识范围、答案候选及其置信度得分,以及从训练集中检索到的In-Context示例组合成提示,并输入到大型语言模型(LLM)中,指导LLM从候选答案中选择最合适的答案。整个流程体现了如何利用外部知识、可靠的候选答案以及上下文学习来增强LLM在MedVQA中的表现。该图清晰地展示了CH-ICL框架的关键步骤和组件,为理解该方法的运作机理提供了直观的认识。

图3:医学术语分布 #
🔼 图 3 展示了论文中所构建的病理学术语词典的图像类型、器官系统和医学术语分布情况。图 3(a) 显示了图像类型的分布,包括肉眼观察(Gross)、组织学(Histology)和放射学(Radiology)图像,以及少量的患者照片(Patient Photo),图像类型分布相对均衡,其中肉眼观察图像占比最高,为39%,组织学和放射学图像分别占比27%和24%。图 3(b) 呈现了图像覆盖的人体器官系统,几乎覆盖了所有系统,其中神经系统(Nervous system)图像数量最多,其次是心血管系统(Cardiovascular)、胃肠系统(Gastrointestinal)和呼吸系统(Respiratory)。这表明该词典在人体器官覆盖的广泛性。图 3(c) 则展示了医学术语的词云图,这些术语涵盖了组织学和病理学相关的医学概念,包括疾病(diseases)、症状(symptoms)和技术(techniques)。这张图整体呈现了词典中医学术语的多样性和专业性,表明该词典可作为医学视觉问答(MedVQA)任务的可靠知识来源。总而言之,图 3 从多个角度展示了该病理学术语词典的多样性和覆盖范围,说明了该词典可用于医学视觉问答研究,并且其图像数据类型、器官系统和术语分布有助于提高 MedVQA 模型的准确性和鲁棒性。

病理术语字典的构成 #
🔼 该图表展示了研究中构建的病理术语字典的构成情况。该字典是该研究提出的医学视觉问答(MedVQA)框架的关键组成部分,旨在提供外部知识,以增强大型语言模型(LLM)在理解医学图像时的能力。图表分为三个部分,分别展示了图像类型、系统/器官以及医学术语的词云分布,并辅以饼图和柱状图展示各类别的占比。
(a) 图像类型: 这部分展示了数据集中图像的类型分布。图中显示, 图像类型主要包括肉眼可见的(Gross), 组织学(Histology), 以及放射学(Radiology) 图像。这三种类型的图像在数据集中分布相对均衡,表明该研究的病理术语字典涵盖了多种医学图像类型,可以覆盖不同类型的临床病例。
(b) 系统/器官: 这部分饼状图呈现了所覆盖的人体系统和器官的分布情况。其中, 神经系统(Nervous)的图像数量占比最高, 达到21%,表明数据集中包含了大量与神经系统相关的病理图像。其次是心血管系统(Cardiovascular), 占比为10%, 胃肠道系统(Gastrointestinal)占比为9%, 呼吸系统(Respiratory)占比为7%,表明该病理术语字典涵盖了人体多个重要系统和器官,可以支持复杂多样的医学问答任务。其他系统的占比相对较低,但都表明了该字典的全面性。该数据也表明了病理图像数据中,某些系统可能存在更多的公开数据,而一些稀有疾病相关的图像数据可能较少。
(c) 医学术语词云: 该部分展示了病理术语的词云分布,其中较大的字体表示在该数据集中出现频率较高的术语。词云突出了组织学和病理学的关键术语, 包括疾病(diseases)、症状(symptoms)、技术(techniques)等, 这些术语是构成医学知识体系的基本单元, 这些术语的分布情况也反映了数据集中包含的病理知识的侧重方向。这个词云提供了对该字典内容和范围的直观感受。
总而言之,这张图表不仅总结了病理术语字典的组成部分,还突显了其在MedVQA领域的重要性。构建包含多种医学图像类型、覆盖广泛系统和器官、以及包含丰富医学术语的字典是该研究的关键贡献,为该研究提出的CH-ICL框架提供了必要的知识基础。该字典不仅支持了模型训练,还为未来的研究提供了丰富的资源。

图 3: 医学术语分布 #
🔼 该图表展示了构建的病理学术语词典中图像类型、器官和医学术语的分布情况。(a) 图像类型涵盖了肉眼图、组织学图和放射学图,且分布相对均衡,这表明了数据集中不同类型医学影像的覆盖范围。这种平衡的分布有助于模型学习不同类型的医学图像特征,提高模型的泛化能力。(b) 图像几乎覆盖了人体所有系统,其中神经系统、心血管系统、胃肠道系统和呼吸系统的图像相对较多。这表明了数据集中涵盖的医学领域广泛,涵盖了多个重要的身体系统,可以训练模型在这些领域中识别病变和相关特征。(c) 知识范围包括组织学和病理学医学术语,如疾病、症状和技术。词云图展示了这些术语的出现频率,颜色深浅代表了频率高低,其中 ‘carcinoma’,’tumor’,’lesion’ 等词语出现频率较高,表明这些是病理学中常见且重要的概念。这些知识范围对于训练模型理解医学图像和回答相关问题至关重要。整体而言,这些图表提供了对于数据集中图像类型、器官和医学术语的详尽概述,表明了该数据集的全面性和多样性,可以支持构建有效的医学视觉问答系统。这些数据说明了该数据集的广泛性和深度,能够为模型学习和理解医学知识提供良好的基础。

病理图像示例 #
🔼 该图展示了四种不同类型的病理图像,分别为肉眼观察(GROSS)、组织学(HISTOLOGY)、放射学(RADIOLOGY)和电子显微镜(ELECTRON MICROSCOPY)。每种图像都提供了对应的系统/器官信息和知识范围(Knowledge Scopes),这为理解医学图像及其相关术语提供了重要背景。
-
肉眼观察(GROSS)图像: 该图像显示了一个肝脏,属于肝胆系统。知识范围包括“胆道”和“淋巴瘤”,暗示可能存在与胆道或淋巴瘤相关的病理改变。
-
组织学(HISTOLOGY)图像: 这张图像显示了心脏的组织切片,属于心血管系统。知识范围包括“恰加斯病”、“锥虫”等,以及“甲苯胺蓝”等染色技术,表明该图像可能用于诊断与恰加斯病相关的病理改变,并使用了特定的染色方法。
-
放射学(RADIOLOGY)图像: 该图像展示了头部神经系统的放射学影像,知识范围涉及“癫痫发作焦点”、“部分复杂性癫痫发作”等,以及诸如“轴向”、“冠状”、“矢状”等影像学术语,表明这张图像可能用于诊断癫痫相关的问题,并使用了SPECT(单光子发射计算机断层扫描)技术。
-
电子显微镜(ELECTRON MICROSCOPY)图像: 该图像展示了肾脏的电子显微镜图像,属于泌尿系统。知识范围包括“近曲小管细胞”,暗示该图像可能用于研究肾脏近曲小管的细胞结构。
总的来说,这张图表展示了病理学中各种常见的医学图像类型,突出了每种图像的独特性和应用场景,并强调了理解与这些图像相关的医学术语的重要性。这些类型的图像在医学诊断和研究中扮演着至关重要的角色。

候选答案数量对PathVQA的影响 #
🔼 该图表展示了在PathVQA数据集上,候选答案数量(M)与命中率和准确率之间的关系。横轴代表候选答案的数量,从1到50不等,纵轴表示命中率和准确率,以百分比形式呈现。命中率是指模型生成的答案是否在提供的候选答案中,而准确率则是指模型生成的最终答案是否与真实答案一致。两条曲线分别对应命中率(黄色)和准确率(蓝色)。观察图表可知,随着候选答案数量的增加,命中率和准确率均呈现上升趋势,但在一定数量后趋于平缓。命中率在候选数量较少时迅速上升,之后增速减缓,并在候选数量大约为10时趋于平稳,表明增加候选答案数量可以提高模型找到正确答案的可能性。然而,准确率的提升则相对有限,即使增加候选答案数量,准确率的增幅也远小于命中率的增幅,这可能是因为模型并非总是能从候选答案中选出最准确的答案,也可能是由于大型语言模型的上下文长度限制导致模型无法充分利用所有候选信息。此外,在候选答案较少时,准确率较低,说明模型在没有足够候选的情况下难以做出准确选择。这些结果表明,适当增加候选答案的数量可以有效提升模型的性能,但过多候选答案带来的收益递减,需要根据实际情况进行权衡。

PathVQA知识范围分布 #
🔼 该图表展示了PathVQA数据集中,不同知识范围(Knowledge Scopes)的准确率分布情况。图表横轴为不同的知识范围,纵轴为样本数量,每个柱状图被分为蓝色和黄色两部分,分别代表正确预测的样本数和错误预测的样本数。图表清晰地展示了在PathVQA数据集中,各知识范围的出现频率及模型预测的准确性。从图表整体来看,‘组织学(histology)‘和’肉眼观察(gross)‘是出现频率最高的知识范围,同时其正确预测的样本数量也相对较高。‘心血管(cardiovascular)’、‘胃肠道(gastrointestinal)’、‘显微镜(micro)‘等范围也具有较高的样本量和相对较高的准确率。相对而言,像’电子显微镜(electron microscopy)’、‘生殖(reproductive)’、‘低倍镜(micro low mag)‘和’瓣膜(valve)‘等出现频率较低的知识范围,其正确预测的样本数也相对较少,且准确率较低,这可能是由于这些类别的样本量较少,导致模型学习不足。从图表中可以看出,模型在常见或样本量充足的知识范围上表现较好,而在少见或样本量不足的知识范围上表现较差,这反映了数据集中存在的长尾分布问题,即某些知识范围的样本量远多于其他知识范围。此外,图中还标出了每个知识范围内正确预测样本数的百分比。这些百分比数据可以帮助我们更直观地了解模型在每个知识范围上的表现,并找出需要改进的薄弱环节。总的来说,该图为评估模型在不同知识范围上的表现提供了有力的可视化工具,能够帮助研究人员更深入地理解模型的优点和不足之处,进而提出更有针对性的改进策略。

CH-ICL案例分析 #
🔼 该图展示了CH-ICL框架在不同医学视觉问答数据集上的案例分析,包括VQA-RAD, SLAKE和PathVQA。每个案例都展示了查询样本、知识范围、候选答案和上下文示例。在第一行的VQA-RAD案例中,模型错误地将“胰腺”识别为最有可能的答案,但通过结合上下文学习,LLM正确选择了“5mm”作为答案。第二行的SLAKE案例中,模型提供的候选答案包括治疗、无意义和预防等选项,LLM最终选择“加强身体素质,避免脑外伤”,因为其置信度较高。PathVQA的第三行案例中,模型提供了五个语义相关的候选答案,但LLM选择了“纤维化”,因为这个答案更符合心肌梗死的典型后果。第四行展示了在没有知识范围的情况下,LLM可能会选择错误的答案,而有知识范围时,模型能正确选择“no”。第五行是一个失败的案例,虽然模型给出的候选答案和知识范围都与“肺孢子虫肺炎”高度相关,但最佳答案应该更严谨。总的来说,该图揭示了LLM在医学视觉问答中结合上下文信息和知识范围的潜力。另外,图例也显示,在PathVQA数据集中,约有3.8%的案例没有从提供的候选答案中选择,其中一部分会直接提示没有答案或无法基于候选答案回答,剩余的大部分则选择了上下文示例或知识范围的答案,少数情况下,模型会忽略错误的候选答案并给出正确答案。 这表明即使受到错误信息的干扰,LLM仍然具有一定的推理能力。

LLM 结果选择分布 #
🔼 该图表展示了在PathVQA数据集中,大型语言模型(LLM)在面对医疗视觉问题时的结果选择分布情况。整体来看,绝大多数(96.2%)情况下,LLM从提供的候选答案中选择了最终答案,说明候选答案在很大程度上帮助了LLM做出决策。然而,仍有3.8%的案例中LLM未从候选答案中选择。在这3.8%的案例中,又可以细分为三种情况。最常见的情况是LLM选择了上下文示例中的答案(80.3%),这表明LLM有时会依赖于训练样本中相似问题的答案,而不是仅仅依赖于候选答案。还有12.4%的案例中,LLM虽然没有从候选答案中选择,但最终仍然给出了正确的答案,这令人意外地说明LLM在某些情况下具有一定的推理能力,即使候选答案不尽如人意,也能结合上下文信息和自身知识做出正确判断。最后,有7.3%的案例,LLM生成的结果是“无法从候选答案中提供答案”或类似的无法回答的语句。这说明,即使LLM具有强大的语言理解能力,在面对一些复杂或缺乏足够信息的问题时,仍然会产生无法回答的情况。这些数据揭示了LLM在医疗视觉问题解答中的选择偏好和局限性,有助于进一步理解和优化相关模型。

深度解读 #
CHICL框架 #
CHICL(Candidate-Heuristic In-Context Learning)框架 是一种创新的医学视觉问答(MedVQA)方法,旨在通过结合外部知识库和大语言模型(LLMs)来提升现有MedVQA模型的性能。该框架的核心思想是通过引入病理学术语词典作为外部知识库,训练一个知识范围判别器,以识别回答问题所需的知识范围。随后,利用现有的MedVQA模型生成可靠的答案候选及其置信度分数。最后,将知识范围、候选答案和上下文示例结合,形成提示词,引导LLMs生成最终答案。CHICL的优势在于它避免了直接生成医学图像描述的困难,而是通过知识范围和候选答案的结合,有效地利用了LLMs的上下文理解能力。实验结果表明,CHICL在PathVQA、VQA-RAD和SLAKE等公开基准测试中均取得了显著的性能提升,分别比基线模型提高了1.91%、1.88%和2.17%。这种方法的成功不仅展示了LLMs在医学领域的潜力,还为未来的多模态学习提供了新的思路。
知识范围判别 #
知识范围判别器 是CHICL框架中的关键组件,其主要任务是根据输入的医学图像识别出与之相关的知识范围。该判别器通过使用BioMedCLIP和PubMedCLIP等预训练模型提取图像和文本特征,并结合多头部交叉注意力机制来确定图像所需的知识范围。知识范围的定义基于病理学术语词典,该词典涵盖了器官、模态、症状、疾病等多个方面的术语。通过这种方式,判别器能够为每个图像生成一组相关的知识范围及其置信度分数,从而为LLMs提供更精确的上下文信息。实验表明,知识范围判别器的引入显著提高了模型的准确性,尤其是在处理复杂医学问题时,能够有效减少模型对某些特定类型问题的偏见。然而,该方法的局限性在于其对知识范围词典的依赖性,未来需要进一步扩展和优化词典的覆盖范围,以应对更多样化的医学图像和问题。
候选答案生成 #
候选答案生成模块 是CHICL框架中的另一个重要组成部分,其主要任务是从现有的MedVQA模型中生成一组可靠的答案候选及其置信度分数。该模块通过结合图像和问题的特征,利用多头部交叉注意力机制来最大化候选答案与问题之间的相似性。候选答案的生成不仅依赖于图像特征,还结合了问题的语义信息,从而提高了答案的准确性和多样性。实验结果表明,候选答案生成模块在PathVQA、VQA-RAD和SLAKE数据集上均表现出色,尤其是在开放性问题上的表现尤为突出。然而,该模块的局限性在于其对候选答案数量的依赖性,随着候选答案数量的增加,模型的性能提升逐渐趋于饱和。未来可以通过引入更复杂的候选答案筛选机制,进一步提升模型的性能。
上下文学习 #
上下文学习(In-Context Learning, ICL) 是CHICL框架中的核心机制,它通过结合知识范围、候选答案和上下文示例,形成提示词,引导LLMs生成最终答案。ICL的优势在于它不需要对模型进行参数更新,而是通过少量的上下文示例来引导模型完成任务。ICL的成功依赖于高质量的上下文示例和候选答案,这些示例和候选答案能够为LLMs提供足够的上下文信息,从而帮助模型更准确地回答问题。实验结果表明,ICL在PathVQA、VQA-RAD和SLAKE数据集上均取得了显著的性能提升,尤其是在处理复杂医学问题时,ICL能够有效减少模型的错误率。然而,ICL的局限性在于其对上下文示例的依赖性,未来可以通过引入更复杂的示例选择机制,进一步提升模型的性能。
未来研究方向 #
未来的研究方向 主要集中在如何进一步提升CHICL框架的性能和扩展其应用范围。首先,可以通过引入更复杂的知识范围判别机制,进一步提升模型对医学图像的理解能力。其次,可以探索如何将CHICL框架与其他多模态学习方法结合,以应对更多样化的医学图像和问题。此外,未来的研究还可以关注如何优化上下文示例的选择机制,以提高ICL的效果。最后,随着医学数据的不断增加,未来的研究还可以探索如何利用更大规模的医学数据集来训练和优化CHICL框架,以进一步提升其在医学视觉问答任务中的表现。这些研究方向的探索将为医学视觉问答领域的发展提供新的思路和工具。
完整论文 #















