深度学习在课程评论意见挖掘和主题分类中的应用

Table of Contents

✏️ Anna Koufakou

要点总结
#

学生课程评价对教育者和管理者至关重要，但手动分析大量评论变得不可行。本研究收集并预处理了大量在线课程评价，应用了包括BERT、RoBERTa和XLNet在内的现代自然语言处理技术，进行了情感极性和主题分类的广泛实验。结果表明，RoBERTa在情感分析中表现最佳，准确率达到95.5%，而SVM在主题分类中表现最好，准确率为79.8%。

本研究的主要贡献包括：1）使用全新的课程评价语料库进行双重分析（情感和主题）；2）实验了传统的深度学习模型和最新的基于Transformer的模型；3）报告了多种模型的性能结果，并探讨了超参数对模型性能的影响。这些发现为教育机构提供了使用NLP模型分析课程反馈的指南，以进行自我评估和改进。

关键要点
#

论文重要性
#

本研究展示了如何利用现代NLP技术自动分析学生课程评价，为教育机构提供了高效的工具。通过情感分析和主题分类，教育者可以更好地理解学生的需求和反馈，从而改进课程设计和教学方法。此外，本研究填补了当前研究中关于使用BERT、RoBERTa和XLNet等最新模型的空白，为未来的研究提供了新的方向。未来的研究可以进一步探索基于方面的情感分析，并尝试使用更多的预训练模型来提高分析效果。

图表分析
#

不同maxlen值对CNN模型性能的影响
#

🔼 该图表（Figure 6b）展示了在课程主题分类任务中，使用常规词嵌入的卷积神经网络（CNN）模型，在不同 maxlen 值下的性能表现。maxlen 参数表示模型在处理文本时考虑的最大单词数量。图表横轴为 maxlen 值，纵轴为模型的F1-macro值，反映了模型在不同 maxlen 值下的分类性能。从图中可以看出，随着 maxlen 值的增加，模型的 F1-macro 值总体呈现上升趋势，特别是在 maxlen 从 50 增加到 200 的区间内，性能提升显著。当 maxlen 值超过 200 后，模型的 F1-macro 值趋于稳定，增幅减缓，最终在 maxlen 为 300 左右时达到最高水平。这表明，对于主题分类任务，使用较长的文本片段作为模型的输入，有助于模型学习到更丰富的上下文信息，从而提高分类性能。与情感分析任务（Figure 6a）相比，主题分类任务中 maxlen 对性能的影响更为明显。这说明不同任务对文本长度的需求存在差异，主题分类可能更依赖于上下文信息。此外，该图表还提供了模型调优的指导，即在资源允许的情况下，适当增加 maxlen 值可以提升模型的分类效果。然而，maxlen 值的增加也会导致模型训练时间的增加，因此在实际应用中需要在性能和效率之间进行权衡。综上所述，该图表揭示了 maxlen 参数对 CNN 模型在主题分类任务中性能的重要影响，为模型参数的选择提供了有价值的参考。

更多图表分析

数据预处理流程图
#

🔼 该流程图展示了对在线课程评论进行情感分析预处理的步骤。首先，从网络抓取课程评论及其星级评分。接着，对文本进行预处理，包括将文本转换为小写、移除HTML标签以及保留字母和标点符号。然后，剔除长度小于2个单词的评论。最后，基于星级评分对评论进行标签分类，评分大于3星的标记为“正面标签”，否则标记为“负面标签”。该流程为后续情感分析任务准备了干净且结构化的数据集。这个过程强调了数据清洗的重要性，尤其是在处理从互联网收集的非结构化文本数据时。从原始数据到可用于机器学习模型的标记数据的转化，确保了后续分析的准确性和可靠性。该图清楚地概述了数据准备过程中的关键步骤，为理解情感分析实验的起始阶段提供了重要背景。

课程标题词云图
#

🔼 该词云图展示了数据集中不同课程标题的词频分布情况。图中字体大小与词语在课程标题中出现的频率成正比，突出了课程评论数据中最重要的主题。最突出的词语包括“Full Stack”、“Web Development”、“Bootcamp”、“Data Science”、“JavaScript”等，这表明课程评论主要集中在全栈开发、Web开发和数据科学等领域。此外，“Part Time”、“Full Time”、“Immersive”等词语也较为突出，反映了课程类型和时间安排的多样性。例如，“Bootcamp”一词的频繁出现，突出了训练营式课程在该数据集中的重要地位，而像“JavaScript”和“Python”这样的编程语言则反映了课程的特定技术重点。词云图可以帮助我们快速了解数据集中课程评论的主要主题，为后续的分析提供方向。例如，可以根据这些主题，进一步分析学生对不同类型课程的评价和反馈，以及不同主题课程之间的比较。此外，词云图还可以作为可视化工具，帮助教育机构了解学生关注的热点，从而更好地改进课程设置和教学方法。这些分析结果有助于院校或课程提供方优化课程内容，提升教学质量和吸引力。

机器学习算法的训练和预测流程
#

🔼 该图展示了使用机器学习算法进行分类的训练和预测过程。整个流程从语料库（Corpus）开始，首先通过交叉验证（Cross-Validation）将数据集划分为训练集和测试集。在训练阶段，训练集的文本数据经过分词（Tokenization）和预处理（Preprocessing）后，被转换为特征（features），这些特征随后被输入到机器学习算法中进行模型训练。训练完成后，生成分类模型。在预测阶段，测试集的文本数据也经历相同的分词和预处理步骤，转换为特征后，输入到训练阶段得到的分类模型中，最终得到预测标签（Predicted Labels）。

图中的主要构成元素包括：语料库、交叉验证划分、训练集文本数据、测试集文本数据、分词预处理模块、特征提取模块、机器学习算法模块和分类模型模块。图中清晰地展示了数据从输入到模型训练，再到最终预测的完整流程，说明了机器学习在文本分类任务中的基本步骤。整个过程强调了数据预处理和特征工程的重要性，为理解和构建文本分类模型提供了清晰的指导。该图直观地展示了机器学习算法是如何从原始数据中学习模式并进行预测的。

CNN模型架构示意图
#

🔼 该图展示了一个基于卷积神经网络 (CNN) 的文本分类模型架构。该模型的输入是一个文本语料库，经过分词、预处理以及填充至最大长度 (maxlen) 的步骤后，得到输入序列。随后，这些序列通过一个嵌入层，将每个词转换为一个固定维度的向量表示 (word embeddings)。图中的 “w1”, “w2”, “w3” 等表示不同的词，每个词都对应一个向量，向量的维度为 ‘d’。这些词向量被输入到卷积层进行特征提取。卷积层使用多个滤波器来捕捉文本中的局部特征，随后，经过最大池化层 (max pooling) 来降低特征维度并保留最重要的信息。最后，这些处理过的特征被输入到一个全连接神经网络层，以生成最终的分类结果。整个模型架构清晰地展示了数据从文本到向量表示再到最终分类的流程。此架构旨在利用 CNN 的卷积和池化操作来学习文本的局部特征，并结合嵌入层和全连接层进行端到端的训练，实现高效的文本分类。该模型架构主要关注从输入文本中提取局部特征，然后通过全连接层进行分类，没有包含注意力机制或者循环神经网络的单元，模型较为经典。此图有助于理解论文中使用的 CNN 模型，以及数据是如何从原始文本转换为机器学习模型的输入并最终得到分类结果的。图中的箭头清楚地展示了信息在不同层之间的传递方向，从而帮助读者理解模型的计算流程。

不同模型的主题分类混淆矩阵
#

🔼 该图展示了两种不同的混淆矩阵，用于评估模型在主题分类任务中的性能。左侧矩阵似乎对应一个性能较高的模型，右侧矩阵则可能对应一个性能较低的模型。每个矩阵的行代表真实标签（True label），列代表预测标签（Predicted label），而矩阵中的数值则表示模型将特定真实标签预测为特定预测标签的概率。矩阵中的对角线元素表示模型正确分类的比例，而非对角线元素则表示模型错误分类的比例。从左侧矩阵来看，对角线上的值较高，表明模型在识别每个主题时表现良好，特别是在’Web Dev’类别中表现突出（0.91），表明该模型能很好地区分出Web开发相关的评论。‘Programming’、‘Non Progr’和’Data Sci’类别也有较高的识别率，分别为0.58、0.8和0.6。右侧的矩阵对角线数值明显较低，这表明该模型的整体性能较差，尤其是在’Web Dev’类别中，正确分类率下降到0.75，其他类别也均低于左侧矩阵对应的数值。此外，两个矩阵中非对角线元素的值也提供了有价值的信息。例如，在左侧矩阵中，‘Programming’（Progr）类别被错误地预测为’Web Dev’的概率为0.42，表明模型在区分这两个主题时存在一定困难，可能因为这两个类别在内容上存在部分重叠。在右侧矩阵中，可以看到各个主题之间的误判率都偏高，这说明该模型的分类能力有限。该图为论文提供了模型性能的直观展示，通过对比两个混淆矩阵，可以明显看出不同模型的分类性能差异。因此可以判断左侧矩阵代表的模型性能优于右侧矩阵的模型。

不同模型在主题分类上的混淆矩阵
#

🔼 该图展示了在课程评论主题分类任务中，不同模型表现的混淆矩阵。混淆矩阵以热图形式呈现，其中行表示真实标签，列表示预测标签。图(c)为使用预训练词嵌入的卷积神经网络（CNN）的混淆矩阵，图(d)为BERT模型的混淆矩阵。这两个模型都用于将课程评论分类到四个预定义的主题中：编程（Progr）、Web开发（Web Dev）、非编程（Non Progr）和数据科学（Data Sci）。

在图(c)中，CNN模型在“Web Dev”主题上的表现最好，其对角线上的值为0.9，表明该模型能够准确地将大部分属于Web开发的评论归类到正确的类别。然而，在“编程”和“数据科学”主题上的预测准确率较低，分别为0.37和0.51，表明模型在这两个主题上存在混淆，较多的评论被错误地分类到“Web Dev”主题。

相比之下，BERT模型（图d）在所有主题上的表现更为均衡，特别是“Non Progr”主题，其对角线上的值为0.94，显示出极高的准确率。尽管BERT在“Web Dev”主题上的准确率略低于CNN（0.75 vs 0.9），但BERT在其他三个主题上的表现均优于CNN。例如，在“编程”和“数据科学”主题上，BERT的预测准确率分别为0.74和0.75，显著高于CNN的0.37和0.51。这表明BERT模型在理解文本上下文和语义方面更具优势，能够更准确地识别不同主题的细微差异。总的来说，BERT模型在主题分类任务上表现出更高的整体性能，特别是在处理主题分布不均的情况下。

CNN模型maxlen参数对性能的影响
#

🔼 该图表展示了卷积神经网络（CNN）模型在不同 maxlen 值下，分别在情感分析（Sentiment Analysis）和主题分类（Topic Classification）任务中的性能表现。maxlen 参数控制输入模型文本的最大长度。图表分为左右两个子图，分别对应情感分析和主题分类。纵轴表示模型的准确率（Accuracy）和 F1-macro 值，横轴表示 maxlen 的取值，从 50 到 300 不等。情感分析子图（左）显示，随着 maxlen 的增加，模型的准确率和 F1-macro 值先上升后趋于稳定。在 maxlen 为 150 时，F1-macro 值达到峰值，约为 0.81，随后略有下降。准确率则持续上升，但增速减缓，在 maxlen 为 300 时接近 0.95。这表明，对于情感分析任务，增加输入文本长度有助于模型性能提升，但过长的文本可能不会带来显著增益。主题分类子图（右）显示，随着 maxlen 的增加，模型的准确率和 F1-macro 值都在持续上升。在 maxlen 为 300 时，准确率接近 0.80，F1-macro 值也接近 0.82。相比情感分析，主题分类任务对输入文本长度更敏感。增加输入文本长度能够显著提高模型的性能，尤其是在 maxlen 值相对较小时。总的来说，这两个子图表明，调整 maxlen 值对模型性能有重要影响。选择合适的 maxlen 值需要权衡模型性能和计算成本。图表清晰地展示了不同任务下 maxlen 参数对 CNN 模型性能的差异性影响，为模型调参提供了有价值的参考。

训练与验证准确率/损失随epoch变化图
#

🔼 该图表包含两个子图，分别展示了模型在训练过程中准确率和损失值的变化情况。子图 (a) 显示了训练集和验证集的准确率随着训练轮数（epochs）的变化。初始阶段，训练集准确率迅速上升，并在大约5个epoch后接近1.0，这表明模型很快地学习到了训练数据的模式。验证集准确率也随之提升，但在训练后期稳定在0.6左右，并在大约25个epoch后开始小幅波动，这暗示模型可能开始出现过拟合现象。验证集准确率与训练集准确率之间的差距，进一步印证了过拟合的可能。子图 (b) 展示了训练集和验证集的损失值随epoch的变化。训练集损失值快速下降，并在大约10个epoch后趋于0，这意味着模型在训练数据上的误差迅速减少。然而，验证集损失值则呈现出不同的趋势，先在约5个epoch左右下降，随后在约20个epoch后开始显著上升，与验证准确率的波动相呼应，进一步表明模型在训练后期出现了过拟合，验证集上的性能开始退化。总的来说，图表清晰地展示了模型训练过程中的学习动态，以及模型在训练后期出现过拟合的现象，提醒研究者需要采取正则化等方法来避免过拟合，从而提高模型在未见数据上的泛化能力。

深度解读
#

深度学习应用
#

本论文展示了深度学习（DL）在课程评论情感分析和主题分类中的应用。通过使用BERT、RoBERTa和XLNet等先进的自然语言处理（NLP）模型，论文在情感极性提取任务中取得了显著成果，其中RoBERTa在情感分析中的准确率达到了95.5%，F1-macro为84.7%。相比之下，传统的机器学习方法如支持向量机（SVM）在主题分类任务中表现更好，准确率为79.8%，F1-macro为80.6%。这表明，尽管深度学习在情感分析中表现出色，但在主题分类任务中，传统方法仍然具有竞争力。此外，论文还探讨了不同超参数对模型性能的影响，特别是输入文本长度（maxlen）对模型精度和运行时间的影响。这些发现为教育机构和课程提供者提供了使用NLP模型分析课程反馈的实用指南。

数据集构建
#

论文详细描述了从公开的在线课程评论中收集和预处理数据的过程。数据集包含超过一万条课程评论，涵盖了从Web开发到数据科学等多个主题。通过使用网络爬虫，作者收集了这些评论，并进行了文本清理和标注。数据集的构建是本研究的重要基础，确保了后续实验的可靠性和可重复性。此外，论文还展示了如何通过词频-逆文档频率（TF-IDF）和词嵌入（Word2Vec）等技术对文本进行特征提取，以便用于不同的机器学习模型。数据集的公开也为未来的研究提供了宝贵的资源。

模型对比
#

论文对多种机器学习模型进行了广泛的对比实验，包括传统的Bag-of-Words（BoW）方法和深度学习模型。实验结果表明，在情感分析任务中，基于Transformer的模型（如BERT、RoBERTa和XLNet）表现最佳，而在主题分类任务中，传统的SVM模型表现更为出色。这种对比揭示了不同任务对模型性能的不同需求。例如，情感分析更依赖于上下文理解，而主题分类则更依赖于词汇的统计特征。此外，论文还探讨了不同模型在运行时间和精度之间的权衡，特别是深度学习模型在处理大规模数据时的效率问题。这些发现为未来的研究提供了重要的参考。

超参数影响
#

论文深入探讨了超参数对模型性能的影响，特别是输入文本长度（maxlen）对深度学习模型的影响。实验表明，增加maxlen值可以显著提高模型在主题分类任务中的表现，但在情感分析任务中，这种提升相对有限。例如，当maxlen从50增加到100时，BERT在主题分类中的F1-macro从77.4%提升到82.5%。这表明，主题分类任务需要更多的上下文信息来准确识别主题。此外，论文还探讨了不同模型的运行时间与maxlen值的关系，发现Transformer模型的运行时间随着maxlen的增加而显著增加。这些发现为模型优化提供了重要的指导。

未来研究方向
#

论文提出了多个未来研究方向，特别是在基于方面的情感分析和更细粒度的主题分类方面。未来的研究可以探索如何将情感分析应用于句子级别，以提高对复杂评论的理解。此外，论文还建议使用更先进的预训练模型（如EduBERT）来进一步提升模型性能。另一个重要的方向是探索如何利用评论中的其他特征（如评论的有用性）来改进模型。最后，论文还提到可以将本研究中的预训练模型应用于其他学生反馈数据，以验证其泛化能力。这些研究方向为未来的研究提供了丰富的可能性。

要点总结 #

关键要点 #

论文重要性 #

图表分析 #

不同maxlen值对CNN模型性能的影响 #

数据预处理流程图 #

课程标题词云图 #

机器学习算法的训练和预测流程 #

CNN模型架构示意图 #

不同模型的主题分类混淆矩阵 #

不同模型在主题分类上的混淆矩阵 #

CNN模型maxlen参数对性能的影响 #

训练与验证准确率/损失随epoch变化图 #

深度解读 #

深度学习应用 #

数据集构建 #

模型对比 #

超参数影响 #

未来研究方向 #

完整论文 #