Skip to main content
  1. 论文/

AIGC赋能中医古籍活化:Huang-Di大模型的构建

·5434 words·11 mins
中医古籍 数字化 大语言模型 知识服务 AIGC
Table of Contents

✏️ 张君冬
✏️ 杨松桦
✏️ 刘江峰
✏️ 黄奇

要点总结
#

中医古籍作为中华文化的重要组成部分,其数字化研究长期以来局限于文献扫描和浅层知识服务。随着生成式AI技术的快速发展,本研究提出了一个新的机遇,旨在通过构建中医古籍生成式对话大语言模型,突破传统数字化研究的局限,实现古籍资源的深度融合与利用。

本研究基于Ziya-LLaMA-13B-V1开源模型,通过继续预训练、有监督微调和DPO优化的全流程训练步骤,构建了Huang-Di大语言模型。自动评估和人工评估结果表明,该模型在中医古籍领域的知识问答、中医问诊等方面表现出色,尤其在古籍知识问答方面显著优于现有的中医药垂直领域模型,部分类目如预防养生的回答能力与ChatGPT(gpt-4)相比略有不足。

关键要点
#

论文重要性
#

这项研究为中医古籍的数字化研究提供了新的范式,通过生成式AI技术实现了古籍资源的深度融合与利用,满足了古籍知识解答、中医问诊、养生保健等多元化的知识服务需求。随着AIGC时代的到来,该研究不仅推动了中医古籍的现代化应用,还为其他领域的古籍数字化研究提供了借鉴。未来的研究可以进一步提升模型的多模态处理能力,以实现更全面、准确、安全的中医古籍知识服务。


图表分析
#

模型构建流程图
#

🔼 该图为Huang-Di中医古籍大语言模型的构建流程图。整体流程从左至右,分为数据准备、模型训练和模型评估三个主要阶段。在数据准备阶段,主要收集了《中华医典》的文本数据、中医教材数据以及中医网站数据等三种数据源。这些数据经过预处理,如格式转换、数据清洗等,分别用于不同的目的。《中华医典》的文本数据经过“文本非结构化”和“辞典结构化”处理,与指令模板结合,利用ChatGPT自动生成对话数据,并进行质量优化,产出最终的训练数据。中医教材和中医网站数据则主要用于模型的继续预训练,以赋予模型中医古籍知识理解力。在模型训练阶段,首先使用Ziya-LLaMA-13B-V1作为基础模型,结合中医教材、网站数据进行继续预训练。然后,使用之前生成的对话数据对模型进行有监督微调,并且注入通用对话数据Alpca-GPT4。最后,模型输出结果进入评估阶段,分别采用自动评估和人工评估两种方式,以验证模型的性能。自动评估指标包括BLEU、ROUGE等,人工评估则由专家进行内容准确性、语句流畅性、答案完整性等方面的评分,以全面衡量模型的表现。整体流程清晰地展示了数据如何流转,以及模型如何一步步训练和评估,以确保模型最终能够有效提供中医古籍知识服务。

更多图表分析

对话数据生成过程示意图
#

🔼 该图展示了如何利用 ChatGPT 从非结构化中医古籍文本中生成对话数据的过程。整体流程分为几个步骤:首先,研究人员会设计一个 Prompt 模板,明确告知模型需要根据给定的中医古籍文本片段生成多个独立的问答对话,这些对话需要包含用户的问题和文本中对应的标准答案,并指定输出格式为 “用户:”和“回答:”。然后,将拆分后的古籍文本片段输入给 ChatGPT。ChatGPT 基于对中医古籍片段的理解,模拟用户和 AI 之间的对话,以自问自答的形式生成与文本内容相关的多个问题和答案。例如,针对一段关于“资始”和“资生”的古籍描述,ChatGPT 会生成类似“中医里的‘资始’和‘资生’有什么具体含义吗?”这样的问题,并根据原文给出相应的答案。 另一个例子是基于《灵枢》经脉篇关于人体发育过程的描述,ChatGPT 能够生成“根据《灵枢》经脉篇,人体的发育过程是怎样的?”这样的问题,并提供原文中对应的答案。这一过程旨在利用 AI 自动生成高质量的对话数据,这些数据不仅与原文内容紧密相关,还模拟了用户在实际场景中可能提出的问题,从而为后续模型的有监督微调提供高质量的数据基础,避免模型过度依赖其内部已有的知识,确保生成的数据更贴合特定领域,提高了数据生成的效率和质量。

对话数据生成过程
#

🔼 该图展示了如何利用ChatGPT等工具,基于结构化的中医古籍“辞典”数据,自动生成高质量对话数据的过程。图中以“十味参苏饮”为例,详细说明了如何从古籍文本中提取关键信息,并将其转换为用户与AI之间的对话。

首先,针对古籍文本的不同属性(如“来源”、“组成”、“用法”、“主治”),分别设计不同的指令(Instruction)。这些指令引导AI从特定角度出发,针对古籍文本片段生成独立的问题和标准答案。例如,针对“来源”属性,指令会要求AI生成一个关于该方剂来源的问题,并提供相应的答案;针对“组成”属性,AI则会生成关于方剂成分的问题。

其次,将这些指令与古籍文本片段一起输入到ChatGPT等大语言模型中,模型会根据指令和文本内容,生成相应的用户提问和AI回答。这些生成的对话数据随后会被用于训练中医古籍大语言模型。图中展示了针对“十味参苏饮”的四个不同角度生成的对话示例,分别为“十味参苏饮的主要来源是哪本书?”,“十味参苏饮包含哪些成分?”,“十味参苏饮的用法是怎样的?”和“十味参苏饮主要可以治疗哪些疾病?”

这种方法克服了传统人工标注对话数据效率低下、成本高昂的问题,同时也确保了生成的对话数据与中医古籍内容紧密相关,具有较高的准确性和多样性。通过这种方式,可以构建出大规模、高质量的中医古籍对话数据集,为训练出能够理解和解释中医古籍知识的大语言模型奠定基础。

DPO优化标注工具界面
#

🔼 该图展示了用于DPO(Direct Preference Optimization)优化的标注工具界面,主要用于收集人类对于模型生成答案的偏好排序数据。界面被划分为几个主要区域。

顶部是“Setting Prompts”区域,显示了当前的prompt内容:“中医古籍中的‘五志’指的是什么?” 这部分允许用户设定需要模型回答的问题。

中间的“Generate Results”区域显示了模型针对该prompt生成的四个不同的答案。每个答案都标有“句子排名”,用户可以通过下拉菜单来选择最符合自己偏好的答案顺序,对答案进行排序。这一机制允许标注者直接比较不同答案的质量并表达偏好。

最下方的“Rank Results”区域则展示了用户对四个答案的排序结果。每个答案下方都有一个文本框,显示了该答案的具体内容,这些内容都是由模型生成。

该工具的核心功能是收集用户对模型生成结果的偏好,这些偏好数据会被用于训练DPO模型。通过比较用户对不同答案的偏好,DPO可以学习到更好的生成策略,生成更符合人类期望的答案。例如,在图中,用户对“五志”的理解给出了四种答案,通过标注工具,用户可以对这些答案进行排序,指出哪一个答案在准确性、流畅度和完整性方面最符合期望。这种反馈机制直接驱动模型向更符合人类偏好的方向改进。

该工具的使用为后续的DPO优化提供了必要的数据基础,帮助模型更好地理解和生成符合中医领域专业知识的答案。该工具通过清晰的界面设计和便捷的操作方式,提高了数据标注的效率和质量,是DPO模型训练中不可或缺的一部分。

Huang-Di与其他模型性能对比
#

🔼 该雷达图展示了Huang-Di模型与其它四种模型(通义千问、ChatGPT、ShengNong-TCM、TCMLLM)在不同中医古籍知识领域的性能对比。雷达图的每个顶点代表一个中医古籍分类,包括医经理论、诊法治法、本草方书、针灸推拿灸、伤寒金匮、温病类、综合医书、临证各科、中医问诊和预防养生。图中每种颜色的线代表一个模型在各分类下的表现,线越靠近外围表示模型在该领域的性能越强。从整体来看,Huang-Di模型在大多数领域均表现出较强的竞争力,尤其在临证各科和中医问诊方面表现突出,紧随其后的是ChatGPT模型,其在多个领域也表现出较高的性能。而ShengNong-TCM和TCMLLM这两个中医药垂直领域的模型性能相对较弱,各个领域评分普遍偏低。通义千问作为通用大模型,性能介于Huang-Di模型和另两个中医药模型之间。具体而言,Huang-Di模型在医经理论、诊法治法和综合医书等领域表现出明显的优势,其在预防养生和临证各科方面的性能也十分接近ChatGPT。这表明,Huang-Di模型在处理复杂的中医理论知识和实际应用场景方面具有很强的能力。相比之下,ShengNong-TCM和TCMLLM模型在所有领域均表现较弱,可能表明其训练数据或模型结构存在局限性。本图直观地展现了Huang-Di模型在中医古籍知识领域的竞争优势,为该领域的研究和应用提供了有价值的参考。

消融实验结果
#

🔼 该图为消融实验结果,旨在比较DPO优化前后模型在内容准确性、语句流畅性、答案完整性和模型响应长度四个指标上的表现。图中使用了堆叠柱状图,每一组柱子代表一个评估指标,柱子内部由三种颜色区分,分别代表“DPO优化前效果好”、“效果相当”和“DPO优化后效果好”三种情况。内容准确性指标:从图中可以看出,DPO优化后效果好的占比为50%,效果相当的占比为26%,DPO优化前效果好的占比为24%。这表明在内容准确性方面,模型DPO优化后效果有所提升,但提升并不显著。语句流畅性指标:DPO优化后效果好的占比仅为8%,效果相当的占比高达78%,DPO优化前效果好的占比为14%。这表明DPO优化对模型语句流畅性的提升效果不明显,大多数情况下优化前后效果相当。答案完整性指标:DPO优化后效果好的占比为56%,效果相当的占比为17%,DPO优化前效果好的占比为27%。这表明DPO优化在一定程度上提升了模型答案的完整性。模型响应长度指标:DPO优化后效果好的占比高达65%,效果相当的占比为24%,DPO优化前效果好的占比仅为11%。这说明DPO优化显著提高了模型响应的长度,使其在生成答案时能提供更详细的信息。总体而言,DPO优化对于模型在内容准确性、答案完整性和模型响应长度方面均有一定程度的提升,尤其在模型响应长度上的提升最为显著。而对于语句流畅性的提升效果不明显,可能因为模型本身就具备较好的语句流畅性,因此提升空间有限。这项消融实验结果验证了DPO优化步骤在提升模型性能方面的积极作用,为后续的模型优化提供了经验支持。

深度解读
#

中医古籍数字化
#

中医古籍数字化是保护和传承中医药文化的重要手段,但目前仍面临多重困境。传统数字化方法主要停留在文献扫描和知识库构建层面,缺乏深度挖掘和利用。本研究通过生成式AI技术,构建了Huang-Di大语言模型,突破了传统数字化研究的局限,实现了古籍资源的深度融合与利用。该模型不仅能够提供古籍知识解答,还能进行中医问诊和养生保健等多元化知识服务。通过自动评估和人工评估,模型在中医古籍领域的表现显著优于现有模型,尤其是在古籍知识问答方面。然而,模型仍存在一定的局限性,如生成结果的准确性和多模态信息处理能力有待提升。未来的研究应进一步优化数据质量,整合多模态语料,以实现更全面、准确的中医古籍知识服务。

生成式AI应用
#

生成式AI的发展为中医古籍数字化研究提供了新的机遇。本研究基于Ziya-LLaMA-13B-V1开源模型,通过继续预训练、有监督微调和DPO优化的全流程训练步骤,构建了Huang-Di大语言模型。该模型在中医古籍领域的表现优异,尤其是在古籍知识问答方面,显著优于现有的中医药垂直领域模型。生成式AI的应用不仅提高了古籍知识的利用率,还降低了传统人工标注的成本。然而,生成式AI在专业领域的应用仍面临数据质量和模型准确性的挑战。未来的研究应进一步优化生成式AI的训练方法,提升其在专业领域的表现。

模型训练流程
#

Huang-Di大语言模型的构建采用了全流程训练步骤,包括继续预训练、有监督微调和DPO优化。继续预训练阶段通过中医背景知识数据集赋予模型中医古籍知识理解力,有监督微调阶段通过中医古籍对话数据集赋予模型古籍知识对话能力,DPO优化阶段通过人工排序标注数据进一步优化模型的输出,使其符合人类偏好。这种全流程训练方法显著提升了模型的性能和泛化能力。自动评估和人工评估结果表明,模型在中医古籍领域的表现优异,尤其是在古籍知识问答方面。然而,模型训练过程中仍存在数据质量和计算成本的挑战,未来的研究应进一步优化训练流程,提升模型的准确性和效率。

数据构建方法
#

本研究首次针对中医古籍领域构建了海量高质量的对话数据集。通过知识引导的对话数据生成和对话数据质量优化两个阶段,生成了50万余条中医古籍对话数据。这些数据具备基于特定领域、准确性高、多样化三大特征,显著降低了有监督微调阶段传统人工标注对话的成本。数据构建方法的创新不仅提高了模型的训练效果,还为其他领域的古籍数字化研究提供了借鉴。然而,数据构建过程中仍存在数据质量和多样性的挑战,未来的研究应进一步优化数据构建方法,提升数据的准确性和多样性。

模型评估方法
#

本研究通过自动评估和人工评估两种方式验证了Huang-Di大语言模型的性能。自动评估采用BLEU和ROUGE指标,结果显示模型具备强大的领域生成式创造能力。人工评估通过专家打分,结果显示模型在中医古籍知识问答能力方面显著优于现有的中医药垂直领域模型,较优于通义千问,部分类目如预防养生、临证各科的回答能力与ChatGPT(gpt-4)相比略有不足。模型评估方法的创新不仅提高了评估结果的准确性和说服力,还为其他领域的模型评估提供了借鉴。然而,模型评估过程中仍存在评估指标和评估数据的挑战,未来的研究应进一步优化评估方法,提升评估结果的准确性和全面性。

完整论文
#