LLaMA2
测试大型语言模型和人类的心智理论
·3549 words·8 mins
研究发现GPT-4在大多数心理理论任务中表现优于人类,但在识别社交失误方面表现不佳。
弥合大型语言模型差异:多语言教育内容的技能标注
·5748 words·12 mins
通过微调大语言模型,显著缩小了多语言教育内容技能标注中的国家与语言差距。