要点总结 #
研究背景与问题:英语作为外语(EFL)的作文评分在语言学习中至关重要,但传统评分方法存在主观性强、耗时且资源消耗大的问题。近年来,大型语言模型(LLMs)如 ChatGPT 和 Bard 在自动评分领域展现出潜力,但其在基于评分标准的作文评分中的可靠性和有效性尚未得到充分验证。本研究旨在探讨 LLMs 在基于评分标准的 EFL 作文评分中的表现,并与人类评分者进行对比。
方法论与贡献:研究选取了三篇不同质量的 EFL 学生作文,由 15 名经验丰富的 EFL 教师和两个 LLMs(ChatGPT 和 Bard)进行评分。评分标准包括语法、内容、组织、风格与表达、以及技术细节五个维度。结果显示,经过微调的 ChatGPT 模型表现出极高的可靠性(ICC 得分为 0.972),而 Bard 的 ICC 得分为 0.919。尽管 LLMs 在多个评分维度上表现出与人类评分者的一致性,但在内容与组织等主观性较强的维度上仍存在偏差。研究为 LLMs 在教育领域的应用提供了实证支持,并指出了未来优化的方向。
关键要点 #
论文重要性 #
这项研究的重要性在于,它为大型语言模型(LLMs)在教育领域的应用提供了实证支持,尤其是在 EFL 作文评分中的可靠性和有效性。研究结果表明,LLMs 在客观性评分维度上表现出色,能够显著减轻教师的工作负担。然而,主观性评分维度的偏差表明,LLMs 仍需进一步优化以更好地适应复杂的评分需求。未来研究可以探索更多 LLMs 的优化策略,并扩大样本量以验证其在不同教育环境中的适用性。这项研究为 AI 在教育中的广泛应用奠定了基础,并推动了自动化评分技术的发展。
图表分析 #
LLMs 对学生论文的评分 #
🔼 该图展示了大型语言模型(LLMs)在多次评估中对三篇不同质量学生论文的评分结果。横轴代表每次测量 (M1-M9),纵轴代表评分,范围从 2 到 5。颜色编码表示不同的模型:蓝色代表 ChatGPT(默认),绿色代表 ChatGPT(微调),粉色代表 Bard。对于 Essay 1,ChatGPT(微调)始终给出一致的 4.4 分,而 ChatGPT(默认)的分数在 4.2 到 4.6 之间略有波动。Bard 给出的分数变化较大,在 3.2 到 4.0 之间。对于 Essay 2,ChatGPT(微调)仍然给出一致的分数 3.6 分,ChatGPT(默认)和 Bard 的分数都集中在 3.0 到 3.6 之间,略有波动。对于 Essay 3,ChatGPT(微调)给出一致的 2 分,ChatGPT(默认)和 Bard 给出的分数波动较大,分别在 2.0 到 3.0 和 2.8 到 3.4 之间。总体而言,ChatGPT(微调)在所有三篇论文中都表现出极高的评分一致性,而 ChatGPT(默认)和 Bard 的评分则存在一定程度的波动。该图表明,在评估学生论文时,大型语言模型(尤其是经过微调的版本)可以提供相对稳定和可靠的评分,但不同的模型之间可能存在差异。此外,图表还表明,对于质量较低的论文,不同模型之间的评分差异更为明显。本图为研究LLM在教育评估中的应用提供了直观的证据,强调了微调对于提高评估一致性的重要性。
更多图表分析
人类与LLM评分均值对比 #
🔼 该图展示了人类评分者与大型语言模型(LLMs)在三个不同质量等级(Essay1、Essay2和Essay3)的论文上的平均评分对比。横轴表示评分者类型,包括人类评分者、ChatGPT和Bard,纵轴表示平均得分。Essay1被认为是高质量论文,人类评分者的平均分为3.89,ChatGPT的平均分为4.4,而Bard的平均分为3.64。这表明ChatGPT对高质量论文的评分略高于人类评分者,而Bard的评分则略低于人类评分者。Essay2被认为是中等质量论文,人类评分者的平均分为3.2,ChatGPT的平均分为3.6,Bard的平均分为3.46。这表明LLMs对中等质量论文的评分均高于人类评分者。Essay3被认为是低质量论文,人类评分者的平均分为2,ChatGPT的平均分为2,而Bard的平均分为2.98。这表明ChatGPT对低质量论文的评分与人类评分者一致,而Bard的评分则显著高于人类评分者。整体来看,图表清晰地展示了LLMs在不同质量水平的论文评分中与人类评分者的差异,尤其是在中低质量论文上的评分偏高。此图表明,虽然LLMs能识别不同质量水平的文章,但在评分标准上与人类评分者存在差异,这突出了在教育评估中需要对LLMs进行进一步的校准和调整。

人类与LLM评分领域对比 #
🔼 该雷达图展示了人类评分者与两种大型语言模型(LLMs):ChatGPT和Bard在五个不同维度(语法、内容、组织、风格和表达、以及机械)上的平均评分对比。每个雷达图代表一个评分主体(人类、ChatGPT、Bard),而五边形的每个顶点则代表一个评分维度。评分范围从0到5,其中5代表最高分。从图中可以看出,人类评分者在所有维度上的评分相对均衡,没有出现明显的极端值,各项得分大致位于2.5至3.5之间。这表明人类评分者对各项评分要素的考量较为全面,没有明显的偏好。ChatGPT的评分则显示出在内容和组织维度上得分较高,而在其他三个维度上得分相对较低,但整体评分分布也较为均衡,没有出现明显的高低差异。Bard的评分在内容、组织、以及风格维度上明显高于其他维度,而在语法和机械维度上的评分则相对较低。这表明Bard可能对文章的整体性和表达方面更为重视,而对细节的把握略显不足。三个评分主体在语法和机械维度上的评分较为接近,而在内容、组织、和风格维度上存在差异。总体来说,ChatGPT的评分更接近人类评分者的平均水平,而Bard则在某些方面表现出更明显的偏好。该图支持了文章中提出的LLMs在某些特定领域(如语法)评分与人类评分员一致,但在其他领域(如内容)评分可能存在差异的观点。在这些差异中,LLMs 可能倾向于对某些方面给与过高的评价,这可能需要进一步的模型调整。

深度解读 #
LLM评分可靠性 #
本研究表明,大型语言模型(LLMs)在基于评分标准的作文评分中表现出较高的可靠性。具体来说,经过微调的ChatGPT模型在10次测量中表现出极高的可靠性,其组内相关系数(ICC)得分为0.972,标准差为0.00。这表明该模型在评分时具有极高的稳定性。相比之下,默认设置的ChatGPT模型也表现出较高的可靠性,ICC得分为0.947,而Google的Bard模型虽然ICC得分较低(0.919),但仍显示出显著的可靠性。这些结果表明,LLMs在评分任务中具有一致性,尤其是在经过微调后,其评分结果更加稳定。然而,尽管LLMs在整体评分上表现出色,但在不同质量的作文中,评分的一致性仍存在差异,特别是在低质量作文中,Bard的评分表现相对不稳定。这表明,尽管LLMs在评分任务中具有潜力,但仍需进一步优化以提高其在复杂评分任务中的表现。
评分领域差异 #
研究进一步分析了LLMs在不同评分领域的表现,发现LLMs在语法和内容等领域的评分表现尤为突出。例如,ChatGPT在语法领域的评分一致性较高,标准差为0.48,而Bard在内容领域的评分表现出绝对的可靠性(标准差为0.00)。然而,在组织和风格等更为主观的领域,LLMs的评分与人类评分者之间存在一定的差异。特别是,LLMs在内容领域的评分往往高于人类评分者,这表明LLMs可能在某些领域对作文的某些方面赋予了更高的价值。这种差异可能源于LLMs的训练数据偏向高质量文本,导致其在评分时对某些领域的理解与人类评分者不同。因此,未来的研究需要进一步探索如何通过微调和训练,使LLMs在这些主观领域的评分更加接近人类评分者的标准。
LLM与人类评分对比 #
通过对比LLMs与人类评分者的评分结果,研究发现LLMs在高质量和中等质量作文的评分中往往比人类评分者更为宽松。例如,ChatGPT在高质量作文中的平均评分为4.40,而人类评分者的平均评分为3.89。这种差异表明,LLMs可能在某些方面对作文的某些特征更为敏感,导致其评分结果与人类评分者存在偏差。然而,在低质量作文的评分中,LLMs的评分结果与人类评分者高度一致,这表明LLMs在识别低质量作文方面表现出色。这种评分差异可能源于LLMs的训练数据主要集中在高质量文本上,导致其对高质量作文的评分更为宽松。因此,未来的研究需要进一步探索如何通过调整LLMs的训练数据,使其在不同质量作文的评分中更加一致。
未来研究方向 #
本研究为未来在LLMs应用于作文评分领域的研究提供了多个方向。首先,未来的研究可以探索更多类型的LLMs,如Claude或Bing,以全面了解不同LLMs在评分任务中的表现。其次,研究可以进一步扩大样本量,包括更多不同主题和风格的作文,以测试LLMs在不同情境下的评分能力。此外,未来的研究可以采用混合方法,结合定量和定性分析,深入探讨LLMs在评分任务中的表现。特别是,研究可以探索LLMs在不同学科和文本类型中的评分能力,以评估其在更广泛教育环境中的适用性。最后,未来的研究还需要关注LLMs在评分任务中的伦理问题,确保其应用符合教育公平和透明的原则。
教育应用挑战 #
尽管LLMs在作文评分中表现出较高的可靠性,但其在教育中的应用仍面临诸多挑战。首先,过度依赖LLMs可能导致评分结果的失真,特别是在主观性较强的领域。因此,教育者在使用LLMs时需要谨慎评估其输出结果,避免过度依赖。其次,LLMs的微调和训练需要专业知识,这可能限制了其在教育中的广泛应用。为了克服这一挑战,教育机构需要提供相应的支持和培训,帮助教育者更好地使用和微调LLMs。此外,LLMs的评分过程缺乏透明度,这可能导致学生在质疑评分结果时无法获得充分的解释。因此,未来的研究需要探索如何提高LLMs评分过程的透明度,确保其应用符合教育公平和问责的原则。
完整论文 #
















