Skip to main content
  1. 论文/

监测社交媒体上的新冠疫情:使用新型分诊和诊断方法开发端到端自然语言处理管道

·5501 words·11 mins
新冠疫情 社交媒体 自然语言处理 分诊 诊断 机器学习 公共卫生 症状监测
Table of Contents

✏️ Abul Hasan
✏️ Mark Levene
✏️ David Weston
✏️ Renate Fromson
✏️ Nicolas Koslover
✏️ Tamara Levene

要点总结
#

背景与问题:COVID-19大流行期间,社交媒体成为重要的信息来源,但其文本信息通常噪声较大,难以直接用于决策支持。为了从这些数据中提取有用的信息,研究人员开发了一种基于机器学习的自然语言处理(NLP)管道,旨在通过社交媒体帖子自动分类和诊断COVID-19。该方法不仅能够识别疾病的症状和严重程度,还能为公共卫生监测提供患病率和发病率统计数据。

方法与贡献:研究提出了一种端到端的NLP管道,首先使用条件随机场(CRF)从社交媒体帖子中提取COVID-19相关症状和概念,然后通过无监督的规则算法建立概念之间的关系。接着,研究人员构建了两种不同的向量表示,分别用于训练支持向量机(SVM)模型,以将患者分为三类并进行COVID-19诊断。实验结果表明,使用预测标签训练的模型与使用人工标注数据训练的模型表现相当,证明了该方法的可行性。

关键要点
#

论文重要性
#

这项研究的重要性在于,它为公共卫生监测系统提供了一种新的自动化工具,能够从社交媒体中提取有用的信息,帮助决策者更好地了解COVID-19的严重程度和流行情况。与当前研究趋势的关联在于,越来越多的研究开始利用社交媒体数据进行疾病监测和预测。未来的研究方向可以包括扩展数据来源、增加专家标注的数量,以及将该方法应用于其他疾病的监测。


图表分析
#

概念频率分布
#

🔼 图3展示了从文本中注释的概念/类的频率分布。图中显示了各个类别的频率,包括症状(SYM)、严重程度(SEVERITY)、身体部位(BPOC)、持续时间(DURATION)、强度(INTENSIFIER)和否定(NEGATION)。图中的数据表明,‘OTHER’类别占据了最大的比例,这可能是因为该类别涵盖了不属于其他明确定义的症状或修饰符的各种词语和短语。通过排除“OTHER”标签后的百分比数据,可以更清楚地了解其他类别之间的相对分布。例如,症状(SYM)的频率相对较高,这突出了社交媒体帖子中患者报告症状的普遍性。通过理解这些类别的分布,可以更深入地了解患者如何在社交媒体中表达他们的症状和健康状况,这对于使用自然语言处理技术进行自动化分析非常重要。这个分布也为构建机器学习模型提供了基础,使模型能够识别和分类与COVID-19相关的不同类型的信息。

更多图表分析

标注概念的频率分布
#

🔼 该柱状图展示了从社交媒体帖子中提取的 COVID-19 相关概念的频率分布。这些概念包括:症状(SYM)、持续时间(DURATION)、强度修饰语(INTENSIFIER)、严重程度(SEVERITY)、身体部位(BPOC)和否定词(NEGATION)。图表横轴为概念类别,纵轴为频率。从图中可见,症状(SYM)出现的频率最高,占据了 36.22%,远高于其他类别。持续时间(DURATION)以 18.53% 的频率位居第二,强度修饰语(INTENSIFIER)的频率为 13.75%,而严重程度(SEVERITY)的频率为 12.15%。身体部位(BPOC)和否定词(NEGATION)的频率分别为 9.93% 和 9.42%。

该图表揭示了在患者社交媒体叙述中,症状是讨论的核心,其次是症状的持续时间和强度。这表明在分析社交媒体文本以理解疾病的传播和影响时,关注症状及其相关属性的重要性。此外,图表还显示了否定词的存在,这反映了人们在描述症状时的复杂性和不确定性,这在自然语言处理中是一个重要的考虑因素。

此外,该图还强调了数据预处理的重要性,因为“其他”类别(尽管没有在图中明确标出)在概念提取过程中占主导地位,这需要在分析中特别注意。

从数据本身来看,我们可以看到,在社交媒体的文本中,人们会比较关注自己的症状,这是最直接的,其次是症状的持续时间,毕竟很多疾病需要一个发展期,人们会关注症状持续了多久,再其次是症状的强度,包括严重程度等。对于身体部位的关注和否定词的关注相对较低。

这张图对于理解人们在社交媒体上讨论 COVID-19 时关注的重点有重要的意义。通过分析这些概念的频率,可以帮助研究人员更好地理解疾病的表现和传播,并为开发更有效的公共卫生干预措施提供参考。

COVID-19文本处理流程图
#

🔼 该图展示了一个用于COVID-19分诊和诊断的端到端自然语言处理(NLP)流程。流程图由四个主要步骤组成,并使用带圆圈的数字进行了明确的标记。第一步,用条件随机场(CRF)进行概念提取。这一步旨在从文本中识别出关键的概念,如症状、严重程度、持续时间和身体部位。第二步,利用基于规则的(RB)分类器进行关系提取。此步骤负责识别第一步中提取的概念之间的关系,例如症状和身体部位之间的关系。第三步,构建向量表示。将文本转化为机器学习模型可用的数值向量形式。第四步,使用支持向量机(SVM)进行COVID-19分诊和诊断。此步骤基于前几步产生的向量,进行患者的风险分类,判断是否需要居家隔离、转诊至全科医生(GP)或转诊至医院,并给出患者是否感染COVID-19的诊断结果。总的来说,该图简洁明了地展示了一个从原始文本到疾病分诊和诊断的全过程,为理解文中提出的方法提供了清晰的视觉框架。整个流程图呈现出一种线性的流程,显示了数据如何经过每个步骤进行处理以达到最终的分类和诊断目的。该图表清晰地展示了整个文本处理流程,从概念提取到最终的COVID-19分诊和诊断,使得读者能够快速理解该研究的主要方法。

不同模型的支持率
#

🔼 该图为堆叠柱状图,展示了不同模型在三个类别(“居家”,“送至全科医生”和“送至医院”)上的支持率。横轴代表不同的模型,包括A、B、C三个医生的独立判断,以及他们组合的风险规避(R-a)和风险容忍(R-t)的判断。纵轴表示每个类别在总样本中所占的比例,即支持率。每个柱子内部被分成了三部分,分别用绿色、蓝色和红色表示“居家”、“送至全科医生”和“送至医院”这三个类别。从整体上看,“居家”类别在所有模型中都占据了主导地位,其次是“送至全科医生”类别,“送至医院”的占比最少,这表明在评估的病例中,大部分都被判断为居家观察即可。

具体到每个模型,A、B、C三个医生独立判断时,“居家”的占比都较高,但也有一些区别。模型C的“送至全科医生”占比略高于A和B。对于组合模型,风险规避型(R-a)通常比风险容忍型(R-t)的“送至医院”的比例略高。例如,AB(R-a)模型中,发送到医院的比例高于AB(R-t)模型。BC和AC的模型中,风险规避型和风险容忍型在三个类别上的占比差异不是很大。ABC组合模型中,风险规避型和风险容忍型在各个类别上的占比相似。这些差异反映了不同医生在判断时的一些倾向性和差异。

总的来说,该图清晰地展示了在不同的模型下,三种类别各自的支持率,有助于理解不同模型对病例的分类倾向。该图的数据表明,大多数情况下,医生(包括单个医生或组合医生)倾向于将社交媒体中的患者的病情判断为在家休养,需要去医院治疗的比例较少。图表信息与文章中疾病诊断分诊的总体结论相符。

不同模型和决策函数下的支持率
#

🔼 该图表展示了在不同模型和三种决策函数(LE, LT, NEQ)下,COVID-19 和非 COVID-19 类别在数据集中所占的支持率。图表使用堆叠柱状图的形式,其中红色部分代表被诊断为 COVID-19 的样本比例,绿色部分代表非 COVID-19 样本的比例。每个子图对应一种决策函数,横轴代表不同的模型组合(A、B、C 分别代表三位医生,AB、BC、AC 和 ABC 代表医生的组合)。

在 LE(如果 Pr(COVID|r)≤0.5, 则 NO_COVID,否则 COVID)决策函数下,大多数模型的 COVID-19 样本支持率略低于非 COVID-19 样本,特别是 A 和 B 模型中,非 COVID-19 样本占比显著较高。在 LT(如果 Pr(COVID|r)<0.5, 则 NO_COVID,否则 COVID)决策函数下,情况类似,非 COVID-19 样本的支持率仍普遍高于 COVID-19 样本,但各模型之间的差异相对更加明显,例如在A和B模型中,COVID-19样本的支持率非常低。在 NEQ(如果 Pr(COVID|r)<0.5, 则 NO_COVID, 如果 Pr(COVID|r)>0.5,则 COVID)决策函数下,该函数忽略了边界值0.5的情况,COVID-19 样本的支持率在大部分模型中略有上升,但在A和B模型中仍然远低于非COVID-19样本。总体而言,三个决策函数均显示非 COVID-19 样本在数据集中占主导地位,这与现实中新冠阳性病例占总人口比例较低的情况相符。

此图表用于评估不同模型和决策函数在 COVID-19 诊断上的表现,并通过展示各类别的支持率,反映了数据集的分布情况和模型对不同类别的偏好。从中可以看出,模型需要处理数据集中类别不平衡的问题,并且不同的决策函数对分类结果也会产生影响,NEQ可能更适合于此数据集。这些数据对后续模型优化和改进具有重要参考意义。

症状重要性与频率对比
#

🔼 该图表由四个子图组成,分别展示了不同来源的症状频率与重要性之间的对比。图表使用堆叠柱状图的形式,其中蓝色部分表示频率,橙色部分表示重要性,并对症状进行了排名。第一行左侧图表比较了模型中最重要的 5 个症状与 Sarker 等人研究中症状的频率排名。咳嗽在模型中重要性最高,但在 Sarker 数据中频率排名第二。嗅觉/味觉丧失在模型中重要性排名第二,但在 Sarker 数据中频率排名第七。发热在两个排名中都位列前茅。第一行右侧图表比较了 Sarker 等人研究中最常见的 5 个症状与模型中相应症状的重要性。这里,头痛在 Sarker 数据中频率排名第五,但在模型中的重要性排名第二十二。第二行左侧图表比较了模型中最重要的 5 个症状与模型自身数据集中症状的频率。嗅觉/味觉丧失在模型中重要性排名第二,但在模型数据集中频率排名第十一。咳嗽在两个排名中都位列前茅。第二行右侧图表比较了模型数据集中最常见的 5 个症状与模型中相应症状的重要性。焦虑在模型数据集中频率排名第四,但在模型中的重要性排名第二十三。总的来说,这些图表揭示了症状的频率和重要性之间存在差异,最常见的症状不一定是最重要的。

深度解读
#

NLP 管道创新
#

本论文提出了一种创新的端到端自然语言处理(NLP)管道,用于从社交媒体帖子中自动分类和诊断 COVID-19 病例。该管道的核心在于结合了条件随机场(CRF)和无监督的基于规则的分类器,能够从患者的社交媒体帖子中提取症状、严重程度、持续时间等关键概念,并建立这些概念之间的关系。通过这种方式,研究团队构建了两种不同的向量表示,分别用于支持向量机(SVM)模型的训练,从而实现了对患者的分类和诊断。这种方法的优势在于其自动化程度高,能够处理大量非结构化的社交媒体数据,并且在不依赖人工标注的情况下,模型的性能与使用人工标注数据训练的模型相当。然而,这种方法也存在一定的局限性,例如社交媒体数据的噪声较大,可能影响模型的准确性。尽管如此,这种创新的 NLP 管道为公共卫生监测系统提供了新的工具,能够帮助研究人员和决策者更好地了解疾病的严重程度和流行情况。

模型性能评估
#

论文详细评估了所提出的 NLP 管道在 COVID-19 分类和诊断任务中的性能。实验结果显示,使用人工标注数据训练的模型在分类任务中的 F1 分数在 71%-96% 之间,而在诊断任务中的 F1 分数在 61%-87% 之间。值得注意的是,使用自动提取的概念和关系训练的模型表现与使用人工标注数据训练的模型相当,这表明端到端的 NLP 管道在实际应用中具有较高的可行性。此外,研究还发现,模型在分类任务中的表现优于诊断任务,这可能是因为诊断任务需要更精确的症状信息,而社交媒体帖子中的信息往往不够完整。尽管如此,这些结果表明,基于社交媒体数据的自动化分类和诊断系统在公共卫生监测中具有潜在的应用价值。未来的研究可以进一步优化模型,特别是在处理噪声数据和提高诊断准确性方面。

特征重要性分析
#

论文通过线性核支持向量回归(SVR)模型分析了 COVID-19 诊断任务中的特征重要性。研究发现,最重要的症状特征包括咳嗽、嗅觉/味觉丧失、呼吸困难、发热和疲劳。有趣的是,这些症状在频率排名中并不总是最高的,例如嗅觉/味觉丧失在频率排名中仅排在第 11 位,但在特征重要性中却排名第二。这表明,最频繁出现的症状并不一定是最具诊断价值的。研究还对比了其他数据集中最常见的症状,发现两者之间存在显著差异。例如,头痛在频率排名中位列第五,但在特征重要性中仅排在第 22 位。这些发现为 COVID-19 的诊断提供了新的见解,强调了在模型训练中考虑特征重要性的必要性。未来的研究可以进一步探索如何结合频率和特征重要性来优化诊断模型。

数据集的局限性
#

尽管研究展示了从社交媒体数据中提取有用信息的潜力,但论文也指出了数据集的局限性。首先,社交媒体帖子通常包含大量噪声,且信息不完整,这可能会影响模型的准确性。其次,研究中使用的数据集仅由三位医生进行标注,虽然标注的一致性较高,但样本量较小,可能限制了模型的泛化能力。此外,社交媒体数据的异质性也是一个挑战,不同用户的表达方式和语言风格差异较大,可能导致模型在处理新数据时表现不佳。未来的研究可以通过增加数据集的规模和多样性,以及引入更多专家的标注来进一步提高模型的鲁棒性。尽管如此,社交媒体数据仍然为公共卫生监测提供了宝贵的实时信息,特别是在疫情初期,传统数据来源不足的情况下。

未来研究方向
#

论文末尾提出了几个值得进一步研究的方向。首先,未来的研究可以探索如何结合社交媒体数据与其他数据源(如电子健康记录)来提高诊断的准确性。其次,可以尝试引入更复杂的机器学习模型,如深度学习模型,以更好地捕捉社交媒体数据中的复杂模式。此外,研究还可以扩展到其他疾病,验证这种端到端 NLP 管道的通用性。最后,未来的工作可以关注如何在实际公共卫生系统中部署这些模型,并评估其在实际应用中的效果。这些研究方向的探索将为公共卫生监测系统提供更强大的工具,帮助决策者更好地应对未来的疫情。

完整论文
#