要点总结 #
大规模语言模型(LLMs)在高等教育领域引发了深刻变革,尤其在学位论文写作辅助方面。 本研究基于人—技关系理论,聚焦人文社会学科学位论文写作辅助场景,构建了一个包含知识、逻辑和应用能力三大维度的能力框架,并设计了包含2,990道题项的测试数据集。通过对ChatGPT、Qwen-72B-Chat和Qwen-14B-Chat三个模型的测评,研究发现大模型在知识和应用能力上表现较好,但在逻辑能力上仍有较大提升空间。
研究结果表明,Qwen-72B-Chat在高等教育和科研垂类表现最佳,整体准确率达到81%。 大模型在知识型和应用型任务上表现优异,但在逻辑推理任务上存在不足,特别是在归纳推理和因果推断方面。研究还提出了通过补充指令改进大模型能力的策略,建议从学习者、研发者、管理者和研究者四个视角出发,推动大模型在高等教育领域的科学应用。
关键要点 #
论文重要性 #
这项研究对于推动大模型在高等教育领域的应用具有重要意义。 随着大模型在学术写作中的广泛应用,如何科学评估和规范其使用成为关键问题。研究不仅揭示了大模型在学位论文写作辅助中的能力边界,还提出了有效的改进策略,为未来的技术发展和教育实践提供了重要参考。此外,研究还为大模型在高等教育垂类的应用提供了实证依据,有助于推动人技关系的进一步发展。
图表分析 #
大模型在各项指标上的得分情况 #
🔼 该图展示了三个大型语言模型(ChatGPT、Qwen-72B-Chat和Qwen-14B-Chat)在15个不同指标上的表现,这些指标被归为知识型能力、逻辑型能力和应用型能力三大类。图表清晰地呈现了各模型在不同能力维度上的得分情况,为评估大模型在辅助学位论文写作方面的潜力提供了直观的数据支撑。
从整体上看,Qwen-72B-Chat在所有能力维度和大多数具体指标上都表现出显著的优势,其平均得分明显高于其他两个模型。尤其在知识型能力和应用型能力方面,Qwen-72B-Chat的得分均超过了0.8,表明该模型在理解学科知识、政策信息、历史文化和社会知识,以及执行诸如同义改写、病句纠错等应用任务时,具有更高的准确性和效率。相比之下,ChatGPT在各方面的表现均相对较弱,多数指标得分低于0.6,尤其在逻辑推理方面表现不佳。
Qwen-14B-Chat的各项得分介于前两者之间,整体表现中等。虽然它在应用型能力的一些指标上表现较好,例如标题概括和中心提炼,但在逻辑推理方面的表现仍有提升空间。该图还揭示了各个模型在不同能力维度上的侧重差异。例如,ChatGPT在应用型能力上表现相对较好,但知识型和逻辑型能力欠佳;而Qwen-72B-Chat则在所有维度上都更为均衡,展现出较强的综合能力。此外,图表还显示,所有模型在逻辑型能力上的表现相对较弱,特别是在归纳推理和演绎推理方面。这表明,即使是性能较强的模型,在处理复杂的逻辑问题时仍存在挑战,这也印证了论文中关于大模型在逻辑推理方面有待提升的结论。
总而言之,这张图表不仅直观呈现了各模型之间的差异,还突出了大模型在知识掌握和文本处理上的优势,同时也暴露了其在逻辑推理上的不足。这些发现对于理解大模型在辅助学术写作中的能力边界具有重要意义,并为未来的模型改进提供了明确的方向。
更多图表分析
大模型学位论文辅助知识型能力维度指标得分 #
🔼 图 2 展示了三个大模型在知识型能力维度下的各项指标得分。该维度包含学科知识、政策知识、历史知识、社会知识和文化知识五个二级指标。从整体表现来看,Qwen-72B-Chat 在知识型能力方面表现最为突出,在学科知识、政策知识、历史知识和文化知识方面的得分均高于其他两个模型,准确率在 80% 到 91% 之间。Qwen-14B-Chat 在社会知识指标上表现最佳,准确率达到 89%。而 ChatGPT 在所有五个指标上的表现都相对较弱,准确率均低于 60%。
具体而言,Qwen-72B-Chat 在人文社会学科的知识掌握上更全面,能够提供更准确的学科知识、政策信息、历史背景和文化知识。这表明其在相关领域的训练数据和模型结构上具有优势。Qwen-14B-Chat 虽然在其他几个指标上不如 Qwen-72B-Chat,但在社会知识方面表现突出,可能与该模型在处理时事资讯和社会动态方面有更强的能力有关。相比之下,ChatGPT 在该维度下的表现不佳,可能反映出其在处理特定领域知识和中文信息方面的局限性,这说明在人文社会学科专业知识方面,ChatGPT 的表现不尽如人意,无法很好地满足学术研究的需求。
从整体来看,此图表明,在知识型能力维度上,Qwen-72B-Chat 最适合作为人文社会科学研究的辅助工具,可以为研究者提供较为可靠和准确的知识资料。Qwen-14B-Chat 在社会知识领域也具有一定的参考价值,但 ChatGPT 在此方面的能力较弱,无法有效支撑相关研究工作。总的来说,这张图表清晰地展示了不同大模型在知识型能力上的差异,为用户选择合适的工具提供了有力依据。

大模型学位论文辅助逻辑能力 #
🔼 该图展示了不同大模型在学位论文写作辅助任务中逻辑型能力维度的详细表现,包括归纳推理、演绎推理、类比推理、常识推理和概念判断五个指标。从图中可以看出,Qwen-72B-Chat在所有逻辑型能力指标上均表现出领先优势,其均值约为0.70,显著高于其他两个模型。尤其在概念判断方面,Qwen-72B-Chat的得分接近1,表明其在理解和应用概念方面具有卓越的能力。Qwen-14B-Chat的逻辑型能力表现居中,均值约为0.53,其在概念判断方面表现相对较好,但其他指标得分均低于Qwen-72B-Chat。相比之下,ChatGPT在逻辑型能力上的表现相对较弱,其均值仅为0.36,且在所有指标上的得分均低于其他两个模型。这表明ChatGPT在处理涉及逻辑推理的任务时存在明显短板。值得注意的是,尽管Qwen-72B-Chat在逻辑型能力上表现最好,但在归纳推理、演绎推理、类比推理和常识推理上的得分仍有提升空间,尤其是在归纳推理上得分仅为0.54,显示出大模型在复杂逻辑推理能力方面仍有待加强。总体来说,此图揭示了大模型在逻辑推理能力上的差异,并强调了在学术写作辅助中,需要对大模型的逻辑能力进行深入评估和改进。

大模型学位论文辅助应用型能力维度指标得分 #
🔼 该图为柱状图,展示了三个大型语言模型(ChatGPT、Qwen-72B-Chat 和 Qwen-14B-Chat)在学位论文写作辅助应用型能力维度下的各项指标得分情况。图表横轴为五个二级指标:标题概括、中心提炼、文意理解、同义改写和病句纠错;纵轴为准确率得分,范围从0到1,数值越高代表模型在该项指标上的表现越好。每项指标下都有三组柱状图,分别对应三个模型,并通过不同的图案进行区分。从整体上看,Qwen-72B-Chat 在各项指标上均表现出色,其准确率普遍高于0.8,尤其是在文意理解指标上达到了接近0.92的高度。Qwen-14B-Chat 的表现次之,其在标题概括和中心提炼两项指标上表现尚可,但在其余指标上的表现略逊于Qwen-72B-Chat,且在同义改写任务上得分最低,低于0.8。ChatGPT 在各项指标上的表现相对较弱,其得分均低于0.7,尤其在标题概括和病句纠错方面的准确率较低。三条横向虚线分别标示了Qwen-72B-Chat、Qwen-14B-Chat和ChatGPT在应用型能力维度的平均水平,直观地展现了三者之间的差距。结合上下文信息,图表揭示了大型语言模型在应用型能力维度上的差异,Qwen-72B-Chat在此维度表现最为出色,能够较好地理解和处理文本内容,满足学生在学位论文写作中的基本应用需求。相比之下,ChatGPT 在此维度上的表现相对较弱,需要更多的改进。这表明,不同的模型在处理具体任务时存在着能力上的差异,选择合适的模型对于提高学位论文写作效率至关重要。尤其值得关注的是,同义改写指标上,三模型的表现都相对较弱,这也提示用户,在利用大模型进行论文润色时需要仔细核对,避免出现改变论文原意的情况。

深度解读 #
大模型测评 #
本研究基于人—技关系理论,构建了一个包含知识、逻辑和应用能力三大维度的能力框架,并设计了包含2,990道题项的测试数据集,对ChatGPT、Qwen-72B-Chat和Qwen-14B-Chat三个大模型在人文社会学科学位论文写作辅助场景中的表现进行了测评。研究发现,大模型在知识型能力和应用型能力上表现较好,逻辑型能力也有较强的发展潜力,尤其是Qwen-72B-Chat在高等教育与科研垂类表现突出。然而,大模型在科研方法、社会关系和因果关系推理方面仍存在不足,特别是在逻辑推理能力上,如归纳推理和演绎推理的准确率较低。通过补充指令策略,如细化提问内容、提供先验条件和参考范例,可以有效提升大模型的辅助能力。这一研究为未来大模型在高等教育中的应用提供了科学依据和改进方向。
逻辑能力不足 #
尽管大模型在知识型和应用型能力上表现较好,但逻辑型能力是其短板,尤其是在归纳推理、演绎推理和类比推理任务中表现不佳。例如,Qwen-72B-Chat在归纳推理任务中的准确率仅为54%,远低于其在知识型任务中的表现。这种逻辑能力的不足主要体现在对复杂社会关系和因果关系的推断上,特别是在信息不充分的情况下,大模型难以准确理解和分析人文社会科学研究中的逻辑关系。通过补充指令策略,如提供详细的先验条件和参考范例,可以在一定程度上提升大模型的逻辑推理能力。然而,逻辑能力的提升仍然是大模型未来发展的关键挑战,特别是在人文社会科学研究中,逻辑推理能力是发现和分析社会规律的核心。
补充指令策略 #
针对大模型在逻辑推理能力上的不足,本研究提出了补充指令策略,包括细化提问内容、提供先验条件和参考范例等。这些策略能够有效提升大模型在复杂任务中的表现。例如,在归纳推理任务中,通过细化提问内容,明确研究分组的具体过程,大模型的准确率显著提升。此外,提供先验条件可以帮助大模型更好地理解社会关系,而参考范例则有助于提高因果关系推理的准确性。这些策略不仅适用于当前的大模型,也为未来大模型的优化提供了方向。然而,补充指令的使用也需要用户具备一定的技巧,特别是在提示语的组织上,用户需要具备批判性思维和创造力,才能有效激发大模型的潜力。
未来研究方向 #
本研究为大模型在高等教育中的应用提供了初步的测评框架和改进策略,但未来的研究仍需进一步探索。首先,需要扩展测评范围,涵盖更多的高等教育垂类应用场景,如理工科论文写作辅助、教学辅助等。其次,需要加强教育理论的指导,确保大模型的应用测评框架与数据集符合人学习、教育与发展的普遍规律。此外,未来的研究还应关注大模型在学术不端问题上的潜在风险,特别是在学位论文写作中,如何规范大模型的使用,避免学术精神异化和学术不端行为的发生。最后,大模型的本地部署成本和运行效率也是未来研究的重要方向,如何在保证性能的同时降低部署成本,将是大模型在高等教育中广泛应用的关键。
多主体视角 #
本研究从学习者、研发者、管理者和研究者四个视角提出了大模型在高等教育中的应用建议。从学习者视角来看,学生应培养批判性思维和创造力,提升大模型使用中的提示语组织技巧,避免对大模型的过度依赖。从研发者视角来看,应加强具有中国特色的大模型中文知识库建设,推动高等教育与人文社会科学研究垂类大模型的发展。从管理者视角来看,需要制定大模型辅助科研写作的规范制度,加强论文原创性审查与过程性评价,确保大模型的使用符合学术规范。从研究者视角来看,未来的研究应更加突显情境性与教育性,全面测评大模型在高等教育各类具体情境中的辅助能力,并加强教育理论的指导。这些多主体视角的建议为大模型在高等教育中的科学应用提供了全面的指导。
完整论文 #








