Skip to main content
  1. 论文/

反思性写作的分类:浅层机器学习与预训练语言模型的比较分析

·4466 words·9 mins
反思性写作 预训练语言模型 浅层机器学习 人工智能反馈 教师教育
Table of Contents

✏️ Chengming Zhang
✏️ Florian Hofmann
✏️ Lea Plößl
✏️ Michaela Gläser-Zikuda

要点总结
#

反思性写作在高等教育和教师教育中具有重要意义,但如何有效提升学生的反思能力一直是一个挑战。 随着人工智能技术的快速发展,尤其是机器学习和大型语言模型的进步,为这一领域带来了新的突破。然而,现有的研究大多依赖于句子级别的分类,难以全面捕捉反思性写作的整体内容。本研究通过使用浅层机器学习算法和预训练语言模型(如BERT、RoBERTa、BigBird和Longformer),旨在提升反思性写作的文档级分类准确性。研究基于德国一所大学的教师教育项目,收集了1043篇反思性写作,结果表明,BigBird和Longformer模型在分类准确性上显著优于BERT和RoBERTa,而浅层机器学习模型的准确性则低于60%。

本研究采用了文档级分类方法,避免了传统句子级分类的局限性。 通过对比多种浅层机器学习算法和预训练语言模型,研究发现,BigBird和Longformer在处理长文本序列时表现出色,分类准确率分别达到76.26%和77.22%。相比之下,浅层机器学习模型的平均准确率低于60%。这一发现不仅为反思性写作的自动分类提供了新的技术路径,还为教师教育中的自动反馈机制提供了有力支持。未来研究可以进一步探索如何提升模型的解释性和透明度,以更好地服务于教育实践。

关键要点
#

论文重要性
#

该研究为反思性写作的自动分类提供了新的技术路径,尤其是在教师教育中具有重要的应用价值。 通过提升文档级分类的准确性,研究为自动反馈机制的发展提供了有力支持,能够帮助教师更高效地评估学生的反思能力。此外,研究还揭示了AI在理解复杂反思内容时的局限性,强调了人类评估在教育中的不可替代性。未来研究可以进一步探索如何结合AI技术与人类评估,以提升反思性写作评估的全面性和准确性。


图表分析
#

不同算法准确率对比
#

🔼 该图表展示了不同机器学习算法在分类反思性写作时的准确率比较。图中横轴代表不同的特征工程方法(包括词袋模型BoW,词频-逆文档频率TF-IDF,和基于LIWC2015的特征),纵轴表示不同的浅层机器学习模型。从图中可以看出,不同的算法和特征提取方法的组合产生了不同的分类准确率,总体上准确率都偏低,最高的准确率出现在Gradient Boosting Classifer结合LIWC2015特征时,达到约62%的准确率。这说明在处理反思性写作这类复杂的文本时,仅仅使用浅层机器学习模型和传统的特征提取方法难以获得较高的分类准确率。图中还显示,LIWC2015特征在大多数情况下表现优于 BoW 和 TF-IDF,这表明心理语言学特征在捕捉反思性写作的细微之处方面具有一定的优势。支持向量机(SVM)和梯度提升分类器(Gradient Boosting Classifer)等算法在特定特征工程方法下表现出较好的性能,但整体而言,所有浅层机器学习算法的准确率都低于 65%,暗示这些模型在处理复杂的文本数据时存在局限性。这些结果强调了在评估反思性写作时采用更高级的自然语言处理和深度学习技术的必要性。

更多图表分析

反思性写作词数分布
#

🔼 该图为柱状图,展示了职前教师反思性写作的词数分布情况。横轴代表词数,纵轴代表数量。图表清晰地显示了反思性写作的词数分布并非均匀,而是呈现出偏态分布,大部分学生的写作词数集中在较低的范围内,而少数学生的写作词数较高。图中用多条垂直虚线标注了不同的统计值。最左侧的紫色虚线表示最小词数(Min: 24.00),表明在所有收集的反思性写作中,最短的文本包含24个词。中间的红色虚线代表平均词数(Mean: 251.38),表明所有反思性写作的平均长度约为251个词。还有两条绿色的虚线,分别表示平均词数减去标准差 (Mean - Std: 108.30) 以及平均词数加上标准差 (Mean + Std: 394.46),这两条线反映了数据分布的离散程度。最右侧的蓝色虚线表示最大词数(Max: 1013.00),即最长的反思性写作文本包含1013个词。从整体分布来看,柱状图的峰值出现在平均词数附近,表明大多数学生的写作词数都集中在200-300词之间,且整体分布右偏。此图表明职前教师的反思性写作长度差异较大,但大部分都集中在平均值附近,为后续的文本分析和模型构建提供了基础数据信息。该图直观地展示了数据分布的特点,为研究者提供了对数据整体规模和特征的初步了解,有助于模型训练的参数调整。

反射性写作分类流程图
#

🔼 该图是一个流程图,描述了如何使用机器学习和预训练语言模型对反思性写作进行分类。流程图分为三个主要部分:训练(Train)、测试(Test)和中间的特征工程和模型选择。在训练阶段,首先使用反思性写作训练数据集进行文本预处理,之后利用三种特征工程方法(BoW, TF-IDF, LIWC2015)提取特征。这些特征被用于训练浅层机器学习模型,包括决策树、支持向量机、随机森林等。同时,预训练语言模型(BERT, RoBERTa, BigBird, Longformer)也接受反思性写作验证数据集的训练。在模型训练完成后,在测试阶段利用反思性写作测试数据集对已选择的分类器进行测试,得到最终的反思性写作分类结果。整个过程展示了如何从原始文本数据到最终分类结果的完整流程,包括数据准备、特征提取、模型训练和模型评估等关键步骤。该流程图清晰地展示了研究中使用的各种模型和方法,为读者提供了对研究过程的全面理解。通过这种系统化的方法,研究人员旨在提高反思性写作分类的准确性和效率,从而为教育领域的自动化反馈提供支持。图中还显示了浅层机器学习和预训练语言模型的对比,以及特征工程的不同方法。

不同特征工程的浅层机器学习准确率
#

🔼 该图为折线图,展示了在不同浅层机器学习算法下,使用三种不同的特征工程方法(BoW, TF-IDF, LIWC2015)进行反射性写作分类的准确率比较。横轴为七种浅层机器学习算法,包括决策树(Decision Tree)、支持向量机(Support Vector Machine)、随机梯度下降分类器(SGD Classifier)、岭分类器(Ridge Classifier)、随机森林(Random Forest)、梯度提升分类器(Gradient Boosting Classifier)和 XGB 分类器(XGB Classifier)。纵轴为准确率(Accuracy),范围从 52% 到 62%。图中共有三条折线,分别代表使用 BoW、TF-IDF 和 LIWC2015 特征工程方法时,不同算法的分类准确率。从整体趋势来看,LIWC2015 在大多数情况下都优于 BoW 和 TF-IDF,表明 LIWC2015 在捕获反射性写作的语言特征方面可能更有效。具体来说,梯度提升分类器(Gradient Boosting Classifier)结合 LIWC2015 的表现最佳,准确率接近 62%。支持向量机(Support Vector Machine)在三种特征工程方法下的表现相对较为稳定,而决策树(Decision Tree)的准确率相对较低。此外,使用 TF-IDF 特征时,XGB 分类器(XGB Classifier)的表现接近 LIWC2015 的梯度提升分类器。该图表明特征工程的选择对机器学习模型的性能有显著影响,并且 LIWC2015 在处理反射性写作分类任务时表现出一定的优势。然而,所有浅层机器学习模型的准确率均低于 65%,表明它们在处理此类复杂文本时可能存在一定的局限性,需要更先进的深度学习模型来提升性能。

深度解读
#

文档级分类
#

本论文提出了一种文档级分类方法,旨在解决传统句子级分类在反思性写作分析中的局限性。传统的句子级分类方法虽然简化了训练过程,但无法捕捉到反思性写作中的上下文联系和整体叙事结构。文档级分类方法通过将整个文本作为一个分析单元,能够更好地理解反思性写作的深度和复杂性。研究表明,使用文档级分类的预训练语言模型(如BigBird和Longformer)在分类准确性上显著优于浅层机器学习模型,准确率分别达到77.22%和76.26%。这一方法不仅提高了分类的准确性,还为教育领域的自动反馈机制提供了新的可能性。然而,文档级分类也面临一些挑战,例如处理长文本的计算复杂性和模型的可解释性问题。未来的研究可以进一步优化这些模型,以更好地应用于教育实践。

预训练模型
#

本论文对比了多种预训练语言模型(如BERT、RoBERTa、BigBird和Longformer)在反思性写作分类中的表现。研究发现,BigBird和Longformer在处理长文本时表现出色,准确率分别达到76.26%和77.22%,显著优于BERT和RoBERTa。这些模型通过全局和局部注意力机制,能够更好地捕捉长文本中的上下文依赖关系,从而提高了分类的准确性。相比之下,BERT和RoBERTa由于输入长度的限制(512个token),在处理长文本时表现较差。预训练语言模型的优势在于其能够捕捉复杂的语义和上下文信息,但它们的“黑箱”特性也带来了可解释性问题,尤其是在教育评估中,教师和学生对模型的透明性有较高要求。未来的研究可以探索如何在不牺牲模型性能的前提下,提高其可解释性。

浅层机器学习
#

本论文探讨了浅层机器学习模型在反思性写作分类中的应用,并对比了多种算法(如决策树、支持向量机、随机森林等)的表现。研究发现,浅层机器学习模型的平均准确率通常低于60%,其中表现最好的是梯度提升分类器与LIWC2015特征提取方法的结合,准确率达到61.97%。尽管浅层机器学习模型在计算效率和可解释性上具有优势,但其在处理复杂语义和长文本时表现较差,尤其是在捕捉反思性写作中的情感表达和隐喻时存在局限性。浅层机器学习的主要挑战在于其对特征工程的依赖,难以捕捉深层次的语义关系。未来的研究可以结合深度学习和浅层机器学习,探索更有效的分类方法。

反思性写作评估
#

本论文通过定性内容分析对反思性写作进行了标注,并将其分为四个层次:描述性写作、描述性反思、对话性反思和批判性反思。研究发现,批判性反思的样本数量较少,导致模型在这一类别上的泛化能力较弱。为了应对这一问题,研究采用了SMOTE过采样技术,但由于反思性写作的复杂性和深度,生成的样本未能准确反映真实的批判性反思特征,最终决定排除这一类别。反思性写作的评估不仅依赖于文本的表层特征,还需要理解学生的意图、背景知识和隐含意义。研究表明,AI在评估反思性写作时存在一定的偏差,尤其是在理解复杂认知过程时,教师的评估仍然不可替代。未来的研究可以结合AI和人工评估,探索更有效的反馈机制。

未来研究方向
#

本论文提出了多个未来研究方向,特别是在反思性写作的自动反馈机制方面。首先,未来的研究可以进一步优化预训练语言模型,以提高其在长文本分类中的表现,并增强模型的可解释性。其次,研究可以探索如何结合信息检索和文本生成技术(如RAG技术),为反思性写作提供更个性化和有针对性的反馈。此外,未来的研究还可以关注自我调节学习的评估,通过整合认知、情感和心理等多维度指标,提供更全面的反馈。最后,研究需要进行更多的实证验证,以确定这些创新方法是否真正有助于提高学生的反思能力。这些研究方向的探索将对教育技术的发展产生深远影响,特别是在教师教育和专业发展领域。

完整论文
#