Skip to main content
  1. 论文/

法学的数字化转型:ChatGPT-4在商法案例解决中的适用性评估

·7787 words·16 mins
法律信息系统 大型语言模型 生成式人工智能 对话代理 聊天机器人 性能评估
Table of Contents

✏️ Sascha Schweitzer
✏️ Markus Conrads

要点总结
#

随着法律信息系统的不断发展,ChatGPT-4等先进对话代理(CAs)有望颠覆法律行业。本研究评估了在德国法律背景下,ChatGPT-4、Google Bard、Google Gemini及其前身ChatGPT-3.5的表现。通过200个法律任务的独特语料库,ChatGPT-4在解决现实法律任务和通过德国商法考试方面表现出色,成为首个达到这一门槛的对话代理。然而,尽管ChatGPT-4在一致性和质量上优于其他模型,但在复杂案件中的表现仍存在较大波动。

研究结果表明,ChatGPT-4在处理简单的法律任务时表现出色,但在复杂案件中仍存在局限性。法律专业人士在使用对话代理生成的文本时应进行手动验证,尤其是新手在使用CA生成的法律建议时应谨慎。此外,研究还开发了一套全面的查询和评估策略,为未来在其他司法管辖区和领域的AI系统评估提供了模板。

关键要点
#

论文重要性
#

这项研究对于法律行业的数字化转型具有重要意义。随着AI技术的快速发展,ChatGPT-4等对话代理在法律任务中的应用潜力日益凸显。研究不仅验证了这些系统在德国法律背景下的表现,还为未来的AI系统评估提供了模板。研究结果表明,尽管AI在法律任务中表现出色,但仍需人工验证,尤其是在复杂案件中。未来,随着技术的进步,AI在法律领域的应用将更加广泛,但同时也需要更多的研究和验证以确保其可靠性和准确性。


图表分析
#

各CA在不同法律领域的表现
#

🔼 该表格展示了四个不同的对话式人工智能(CA)模型(ChatGPT-4、ChatGPT-3.5、Google Bard和Google Gemini)在解决德国商业法案例时的表现。评估涵盖了四个法律领域:合同的成立和有效性、合同违约、商业法以及劳动法。评估指标为每个CA在每个领域中正确解决案例的百分比。结果显示,ChatGPT-4 在“合同的成立和有效性”、“商业法”以及“劳动法”领域中均超过了 50% 的及格线,表明其在这些领域具有较强的解决能力。特别是在“劳动法”方面,ChatGPT-4表现出色,获得了62%的分数。相比之下,Google Bard 在所有领域都未能达到及格线,表现相对较差。而ChatGPT-3.5在“合同的成立和有效性”以及“商业法”方面达到及格线,其余则未达到。Google Gemini只在“劳动法”达到及格线。总的来看,ChatGPT-4 在所有领域中的表现最为稳定和出色,其次是ChatGPT-3.5。表格中的 “Sig” 列显示,基于单尾 t 检验,哪些百分比统计上显著大于 50% 的及格线,表明了这些模型在特定领域具有超过平均水平的性能。 值得注意的是,在整体表现中,ChatGPT-4 的表现显著优于其他模型,总分达到了 54%, 远超其他几个模型。此外,表格也揭示了不同CA在特定法律领域的优势和劣势,例如,ChatGPT-4在商业法领域表现突出,而在合同违约方面相对较弱。这些结果突显了不同AI模型在处理复杂法律问题时能力的差异,对于法律领域应用AI技术提供了重要参考。

更多图表分析

ChatGPT-4 在不同案例中的选择分布
#

🔼 该图表展示了ChatGPT-4在处理不同法律案例时,其多项选择题答案的分布情况。每个子图对应一个特定的案例,案例按照法律领域(合同的成立与有效性、合同违约、商法和劳动法)进行分组,每个子图中的柱状图显示了ChatGPT-4在五次重复查询中,对四个选项(a, b, c, d)的选择频率。绿色柱状表示正确答案,橙色阴影柱状表示错误答案。如果所有五个响应都选择同一答案,则该柱状图会被黑色边框包围。从整体上看,该图显示了ChatGPT-4在法律问题解决中的一致性和不确定性。在“合同的成立与有效性”部分,我们可以观察到,在某些案例(例如案例3和11)中,模型始终选择正确的答案,而在其他案例(例如案例15和28)中,答案选择则较为分散,模型有时会给出错误的回答。在“合同违约”部分,模型展现了类似的特点,在案例61中给出了高度一致的正确回答,在案例75中则选择多种,包括错误答案。在“商法”部分,案例103和111体现了一致的正确答案选择,但在案例114和127中,模型在不同答案之间徘徊。在“劳动法”部分,案例138和154展现了模型一致选择正确答案的能力,而在案例139和147中则出现了多样化的响应,包括正确的和错误的。特别需要注意的是,在某些情况下,即使ChatGPT-4对同一个问题给出的答案非常一致,这个答案也可能是不正确的(例如案例100)。这表明,模型的一致性并不能保证其准确性,且模型对问题的“自信”程度可能与其解答的正确性无关。这一观察强调了对AI模型输出进行人工评估和验证的重要性,特别是在高风险领域,如法律实践。该图表也揭示了即使是同一模型,在不同类型和复杂程度的法律案例中,也可能表现出显著的性能差异,突出了该模型在法律问题解决方面仍有改进空间的现实。

ChatGPT-4在无先验输入下的多项选择题一致性
#

🔼 该图表展示了ChatGPT-4在没有先验法律意见的情况下,针对40个法律案例进行多次多项选择题测试的结果。每个案例都进行了5次测试,图表显示了每次测试中四个选项(a, b, c, d)的频率分布。绿色条表示正确答案,橙色阴影条表示错误答案。黑色边框表示所有5次测试都选择了相同答案的情况。图表按照四个法律领域组织:合同的形成与有效性、合同违约、商业法和劳动法,每个领域有10个案例。数据揭示了即使在没有先前法律意见的情况下,ChatGPT-4对同一问题的回答也存在差异,并非所有案例都显示出高度一致性。特别是在合同违约领域,可以看到一些案例中,ChatGPT-4的回答分布较为分散,未能给出统一答案。同时,在其他领域,如商业法和劳动法,则显示出较高的一致性。这表明ChatGPT-4在不同类型的法律问题上表现出不同的稳定度。虽然在某些情况下,ChatGPT-4能给出一致的答案,但这些答案并非总是正确的。例如,Case No.15 和 Case No.100 虽然多次给出相同答案,但该答案是错误的。此图表强调了大型语言模型在法律领域应用时,一致性并非总是可靠的指标,并且即使是一致的答案也可能不正确。因此,在法律领域中,不能过度依赖AI的回答,需要人工专家的审查。它还表明,即使是先进的语言模型,在回答复杂问题时仍然存在不确定性,尤其是在没有先前的法律分析的情况下。

案例数据和查询结构概述
#

🔼 该图表展示了研究中案例数据和查询结构的概述。整个研究流程被分为两个主要部分:初始运行和一致性检查。在初始运行部分,研究使用了200个不同的法律案例,这些案例分为四个法律领域:合同的形成和有效性、合同违约、商业法以及劳动法。每个案例通过聊天机器人进行一次自由回答的查询,总共生成200个查询。随后,这些自由回答由人类评估,并手动输入到多项选择阶段。接下来,对于每个案例,聊天机器人会被再次查询一次多项选择题,该过程通过自动化评估。在一致性检查部分,研究从200个案例中随机抽取40个案例作为样本。对每个案例进行五次自由回答的查询,总共生成200个查询。同样,这些自由回答用于输入多项选择阶段。最后,每个案例再次进行五次多项选择题查询,并且所有多项选择题的结果都通过自动化评估。

图表以流程图的形式展现,箭头表示流程的走向。每个阶段都明确标明了涉及的案例数量、查询次数以及评估方法(人类评估或自动化评估)。在图表的底部,清晰地总结了数据量:200个不同的案例,800次人类评估,1600次聊天机器人生成的法律意见,以及3200次自动化评估。通过这种详细的流程图,读者可以清晰地理解整个研究的数据收集和评估方法,从而更好地理解研究结果。

总的来说,这个图表不仅展示了研究的严谨性和方法论的清晰,还方便读者快速抓住研究核心的数据流程。这种可视化的方式有效地传达了研究的复杂性,并突出了每个步骤的重要性,对于理解后续的结果分析至关重要。

ChatGPT-3.5 答案一致性
#

🔼 该图表展示了 ChatGPT-3.5 在回答 40 个不同法律案例的多项选择题时,答案选项的分布情况。每个案例都进行了 5 次独立测试,以评估模型在给定相同问题时答案的一致性。图表的横轴代表每个案例的四个选项(a, b, c, d),纵轴表示每个选项被选中的次数。绿色条形表示正确答案,而橙色条形表示错误答案。黑色边框表示该案例的 5 次测试都选择了相同的答案。

从图表中可以看出,ChatGPT-3.5 的答案一致性表现出明显的波动。在某些案例中,如 Case No. 14,模型始终选择相同的正确答案(选项 d),但在其他案例中,如 Case No. 64,模型在不同的选项间摇摆不定,没有明显的偏好。特别值得注意的是,即使模型选择了相同的答案,也不能保证该答案一定是正确的。例如,Case No. 100 中模型几乎都选择了错误选项 c,尽管在 5 次测试中均给出了相同的答案。

在不同法律领域,如 “Formation and Validity of Contracts”, “Contract Violations”, “Business Law” 和 “Employment Law”,ChatGPT-3.5 的一致性表现也存在差异。某些领域的案例看起来具有更高的一致性,而其他领域则更加混乱。这种不一致性突出了模型在法律推理和问题解决方面的局限性,即使在多项选择题这种看似结构化的问题形式下,其行为也并非完全可预测。因此,用户的策略,例如多次询问问题并选择最频繁的答案,可能不会带来更高质量的答案。

ChatGPT-3.5 结果分布图
#

🔼 该图表展示了 ChatGPT-3.5 在没有先验信息输入的情况下,对40个法律案例进行五次重复测试的答案分布情况。图表横轴为案例编号,纵轴为答案选项(a, b, c, d)的频次,其中绿色代表正确答案,黄色阴影代表错误答案。黑色方框标记表示在五次测试中答案完全一致的情况。从整体分布来看,我们可以观察到以下几点:在“合同的成立和有效性”部分,例如案例3,ChatGPT-3.5给出了五次完全相同的正确答案,而案例11则给出了多次不同的错误答案。在“合同违约”部分,如案例53,答案分布较为分散,正确答案和错误答案均有出现。而在“商业法”部分,案例103的答案分布比较集中,但答案错误;案例114的答案则完全集中在正确答案上。在“雇佣法”部分,案例138的答案分散在多个选项上,案例142的答案则完全集中在正确的选项上。整体来看,ChatGPT-3.5的回答呈现出较高的不一致性,即使在相同的案例中,多次测试结果也可能大相径庭,并且答案的一致性并不代表正确性。这表明,在无先验信息的情况下,ChatGPT-3.5的回答具有较高的随机性,难以保证法律解答的准确性和可靠性,因此不建议直接使用其生成的法律意见。

Google Bard一致性检验图
#

🔼 该图表展示了Google Bard在进行多项选择题时,基于先前生成的法律意见的一致性检验结果。图中每个子图代表一个特定的案例,横轴的a, b, c, d代表四个不同的选项,纵轴表示每个选项被选择的次数(0-5次)。绿色条形表示正确答案,橙色阴影条形表示错误答案。黑色边框圈出的条形表示该案例的5次测试中,模型每次都选择了同一个选项。从整体来看,Google Bard在不同的案例中表现出不同程度的一致性。在某些案例中,例如Case No.3,模型5次测试都选择了正确的答案a,而在其他案例中,例如Case No.100,模型5次测试都选择了错误的答案c。此外,还有许多案例显示模型在不同的选项之间摇摆不定,例如Case No.64,显示出模型在选项a、c之间来回选择。这种不一致性表明,即使在相同的输入条件下,Google Bard的输出也可能存在很大的差异。值得注意的是,一致性并不意味着准确性,因为在许多高度一致的案例中,模型仍然选择了错误的答案。这表明用户不能仅仅依赖模型输出的一致性来判断答案的正确性。整体来看,Google Bard的回答并不稳定,即使多次提问同一问题,答案也可能会不同。

Google Bard 一致性测试结果
#

🔼 该图表展示了 Google Bard 在没有先验法律意见输入的情况下,对 40 个不同案例进行五次重复查询的答案分布情况。图表分为四个主要部分,分别代表合同成立与效力、合同违约、商业法和劳动法四个法律领域。每个案例的答案分布用柱状图表示,其中 a, b, c, d 代表四个不同的多项选择答案,绿色条形表示正确答案,橙色阴影条形表示错误答案。被黑色边框圈出的柱状图表示五次查询都选择了同一答案。整体来看,Google Bard 在不同案例中的答案选择表现出较大差异。在某些案例中,模型多次给出了相同的答案,但这些答案并不总是正确的。例如,在合同成立与效力领域,案例 3 和 14 的答案较为一致,但案例 11 和 15 的答案则较为分散。在合同违约领域,案例 61 和 86 的答案比较一致,但其他案例如 53、64 和 78 则出现了不同的选择。在商业法和劳动法领域也存在类似的模式,表明 Google Bard 在没有先验信息的情况下,对同一问题的答案选择不稳定,甚至有时出现频繁的错误答案。此外,即使模型选择了同一答案,该答案也不一定是正确的。这说明 Google Bard 的一致性与准确性之间没有必然联系,用户不能仅仅依赖模型多次选择的同一答案来判断其正确性。这些结果突显了当前大型语言模型在处理法律问题时存在的不确定性和局限性,也强调了在实际应用中需要人工审核的重要性。

Google Gemini一致性检查图
#

🔼 该图表展示了Google Gemini在有先前法律意见的情况下,针对40个不同案例的多次(5次)多项选择回答的一致性检查结果。每个案例都用一个子图表示,其中x轴表示四个可能的答案选项(a, b, c, d),y轴表示每个选项被选中的频率(0到5次)。图表分为四个部分,分别代表“合同的形成与有效性”,“合同违约”,“商业法”和“劳动法”四个法律领域。绿色条形表示正确答案,橙色条形表示错误答案。黑色边框围绕的条形表示在所有5次尝试中都选择了该选项,表示模型在该案例中的回答是完全一致的。该图表的主要目的是分析Google Gemini在重复查询时的回答一致性以及准确性。

从图中可以看出,Google Gemini在不同案例中回答的一致性差异很大。在某些案例中(例如,案例11和147),模型的所有5次尝试都选择了相同的选项,表明了高度的一致性,但并非所有高度一致的答案都是正确的。在另外一些案例中(例如,案例28和139),模型选择了不同的答案选项,显示出较低的一致性。此外,在许多情况下,即使模型在多次尝试中选择的是同一个错误答案,这表明一致性并不总是代表准确性。特别值得注意的是在合同违约的法律领域, Google Gemini的正确率整体偏低, 这可能反映出该领域问题的复杂性。在商业法和劳动法领域,其表现出一定的能力,但回答的一致性仍有待提高。总而言之,尽管Google Gemini在某些情况下表现出较好的一致性,但其在所有测试案例中都存在一定程度的随机性和不确定性,尤其是在涉及法律判断的复杂问题时。

Google Gemini (No Prior Input) 一致性图
#

🔼 该图表展示了 Google Gemini 模型在没有先验输入的情况下,对 40 个法律案例进行多次测试时,其多项选择题答案的一致性。每个子图代表一个具体的案例,案例按法律领域进行分组:合同的成立和有效性、合同违约、商法和劳动法。X 轴表示四个可能的答案选项(a、b、c、d)。Y 轴表示在五次重复测试中,每个选项被选中的次数。绿色柱状图表示正确的答案,而橙色阴影柱状图表示不正确的答案。如果所有五个答案都一致,则用黑色边框突出显示。该图表明,即使没有先前输入的法律意见,Google Gemini 在给定相同问题时,仍然可能产生不同的答案,展示了大型语言模型(LLM)在法律推理中的不确定性。一些案例表现出高度的一致性,所有五个回答都集中在相同的答案选项上(例如,Case No. 3,Case No. 15 等),而其他案例则显示了更分散的反应(例如,Case No. 11, Case No. 61等)。值得注意的是,一致的答案可能正确也可能不正确,这突显了依赖重复查询来提高 LLM 回答质量的潜在风险。例如,Case No. 50 的所有 5 个回答都是 a,但是错误的。这表明,即使模型在多次尝试中都给出相同的答案,也不能保证该答案的正确性,需要人类专家的进一步评估。

从整体来看,该图表强调了使用 LLM 进行法律分析的复杂性。虽然这些模型可以为法律专业人士提供有价值的工具,但它们固有的不确定性和不一致性意味着在实践中需要谨慎使用。图中显示,即使在没有先前的法律意见的情况下,Google Gemini的回答仍然具有随机性,因此不建议在没有人工监督的情况下使用。

深度解读
#

ChatGPT-4 法律应用
#

本论文评估了 ChatGPT-4 在德国商业法案例中的适用性,发现其在解决法律任务方面表现出色,尤其是在处理较为简单的法律问题时。ChatGPT-4 是首个能够通过德国商业法考试并解决实际法律任务的对话代理(CA),但其表现仍存在较大的变异性,尤其是在复杂案件中。论文指出,尽管 ChatGPT-4 在多个法律领域中的表现优于 ChatGPT-3.5 和 Google Bard,但其生成的文本仍需由法律专业人士手动验证。这一发现表明,尽管 AI 在法律领域的应用前景广阔,但其当前的能力仍不足以完全替代人类律师,尤其是在需要高度专业判断的复杂案件中。

法律任务复杂性
#

论文通过 200 个法律案例的评估,揭示了 ChatGPT-4 在不同复杂程度的法律任务中的表现差异。在合同形成和有效性等较为简单的法律问题中,ChatGPT-4 的表现显著优于其在合同违约等复杂问题中的表现。具体而言,ChatGPT-4 在合同违约案件中的表现较差,主要原因是这些案件需要更复杂的法律推理和多个法律条款的综合应用。这一结果表明,当前的 AI 系统在处理复杂法律问题时仍存在局限性,尤其是在需要多步骤推理和跨法律领域知识的案件中。未来的研究应进一步探索如何提升 AI 在处理复杂法律任务中的表现。

多选与自由回答
#

论文通过对比多选和自由回答两种任务类型,揭示了 ChatGPT-4 在不同任务类型中的表现差异。在多选任务中,ChatGPT-4 的表现显著优于自由回答任务,尤其是在没有先前的法律意见输入时。然而,即使是在多选任务中,ChatGPT-4 的表现也未能达到人类考生的平均水平。这一发现表明,AI 系统在处理法律问题时,其表现高度依赖于任务类型和输入形式。此外,论文还指出,AI 系统在多选任务中的表现与其先前生成的法律意见之间存在不一致性,这表明 AI 系统在处理复杂法律问题时可能存在“自我干扰”的现象。

AI 法律一致性
#

论文通过多次重复查询,评估了 ChatGPT-4 等对话代理在相同法律问题中的响应一致性。结果显示,ChatGPT-4 在没有先前法律意见输入的情况下,表现出较高的响应一致性,但在有先前法律意见输入时,其响应一致性显著下降。这一现象表明,AI 系统在处理复杂法律问题时,其生成的文本内容可能存在较大的变异性,从而影响其后续的多选任务表现。这一发现对 AI 系统在法律领域的实际应用提出了重要警示,即用户不应仅依赖 AI 系统的单一响应,而应通过多次查询和验证来确保其准确性。

未来法律 AI 方向
#

论文最后讨论了 AI 系统在法律领域的未来发展方向,指出尽管 ChatGPT-4 等系统在解决简单法律问题方面表现出色,但其在处理复杂法律任务时仍存在显著局限性。未来的研究应着重于提升 AI 系统在处理复杂法律问题中的表现,尤其是在需要多步骤推理和跨法律领域知识的案件中。此外,论文还建议未来的研究应探索如何将外部法律知识库与 AI 系统结合,以进一步提升其法律推理能力。这些研究方向的探索将对法律信息系统的未来发展产生深远影响,并可能推动 AI 系统在法律领域的广泛应用。

完整论文
#