要点总结 #
背景与问题:无主持的可用性测试通常缺乏详细的后续问题,导致用户反馈不够深入。随着人工智能的发展,特别是大型语言模型(如GPT-4)的出现,研究者开始探索其在可用性测试中的应用潜力。本研究旨在评估GPT-4生成的后续问题是否能够帮助获取更多关于用户体验的深入反馈,并解决无主持测试中的这一局限性。
方法与贡献:研究通过一项实验,比较了四种不同条件下的用户反馈:无后续问题、研究者准备的静态问题、GPT-4实时生成的后续问题以及静态与AI生成问题的结合。结果显示,GPT-4生成的后续问题能够有效扩展现有发现的细节,但在发现新的可用性问题方面表现较弱。研究还讨论了GPT-4生成后续问题的挑战,并提出了改进未来模型的建议。
关键要点 #
论文重要性 #
这项研究的重要性在于,它为无主持可用性测试中的AI应用提供了新的视角。随着远程和无主持测试的普及,GPT-4等AI工具可以帮助研究者获取更详细的用户反馈,弥补无主持测试的不足。然而,研究也揭示了AI生成问题的局限性,特别是在发现新问题和避免用户疲劳方面。未来的研究可以进一步优化AI生成问题的策略,使其在可用性测试中发挥更大的作用。
图表分析 #
研究实验流程图 #
🔼 该图为一项实验流程图,描述了研究中使用的两种实验变体。该研究旨在评估由 GPT-4 生成的后续问题对用户反馈的影响。实验设计为组间设计,参与者被随机分配到两种条件之一:有 GPT-4 后续问题组和无 GPT-4 后续问题组。整个实验流程包含三个主要阶段:初始问卷、可用性测试和最终问卷。
在初始问卷阶段,参与者首先填写人口统计学信息,进行注意力检查以确保有效性,并回答两个关于在线购物习惯的开放式问题。在没有 GPT-4 的组中,参与者直接回答这两个问题。在有 GPT-4 的组中,参与者在回答每个问题后,会收到最多三个由 GPT-4 生成的后续问题。
接下来,参与者进入可用性测试阶段,他们需要完成两个关于电子商务网站原型的任务:将最便宜的黑色 T 恤添加到购物车并购买。在没有 GPT-4 的组中,参与者在每个任务完成后会收到三个预定义的问题(关于体验、问题和印象)。在有 GPT-4 的组中,参与者在回答每个预定义的问题后会收到最多三个由 GPT-4 生成的后续问题。
最后,在最终问卷阶段,所有参与者再次进行注意力检查,并评价调查问卷中提出的问题的合理性,并提供任何额外的反馈。在没有 GPT-4 的组中,参与者只回答一个开放式问题。在有 GPT-4 的组中,参与者在回答开放式问题后,会收到最多三个由 GPT-4 生成的后续问题。
该实验设计旨在通过比较两个组之间收集到的数据,评估 GPT-4 生成的后续问题在可用性测试中的有效性。该图清晰地展示了研究的结构和流程,有助于理解实验的各个阶段和步骤,以及 GPT-4 后续问题如何集成到整个研究中。
更多图表分析
网站原型截图 #
🔼 该图展示了一个电商网站的原型设计,用于可用性测试。该原型包括三个主要页面:(a)首页,展示了商品的缩略图和品牌标识,页面顶部有导航栏,底部有页脚信息;(b)T恤产品页面,显示了T恤的详细信息,包括不同颜色选项,产品名称和价格;(c)购物车页面,列出了购物车中的商品,包括商品名称、价格和总额。原型设计旨在测试用户在浏览、选择和购买商品过程中的体验。从设计细节来看,首页布局清晰,商品分类明确;产品页面提供了必要的产品信息,并包含多个颜色选项;购物车页面则提供了订单的简要概览。在实际的可用性测试中,参与者需要通过该原型完成特定的购物任务,例如将最便宜的黑色T恤添加到购物车并最终购买。通过分析用户与原型交互的数据和反馈,可以评估该电商网站设计的可用性问题。例如,用户是否容易找到商品,是否可以顺利完成购买流程等等。此外,研究人员可以根据用户在测试过程中遇到的问题,进一步优化网站设计,从而提升用户体验。

GPT-4 follow-up question template #
🔼 该图展示了用于生成 GPT-4 跟进问题的提示模板。核心提示词指示 GPT-4 扮演可用性测试主持人的角色,并生成一个在先前问题、答案和整个研究背景下能够提供显著新信息的跟进问题。提示模板包括几个关键部分:首先,明确定义了 GPT-4 的角色,使其明白其目的是从参与者那里获取深入的反馈。其次,强调了生成问题需要考虑的上下文信息,包括之前的问题、参与者的回答以及研究的整体目标。第三,使用了诸如温度(0.7)和 top_p(1.0)等参数来平衡问题的创造性和连贯性。最大令牌数限制(85)确保生成的问题长度适中,且参与者有足够空间回答。该模板避免了提供示例问题,以防止限制 GPT-4 生成内容的多样性。这允许模型在遵守角色和上下文的同时,自由生成问题。此模板旨在作为灵活的框架,在可用性测试中最大化 GPT-4 生成的跟进问题的质量和相关性,从而深入理解用户的体验和发现潜在的可用性问题。通过结合这些元素,研究人员希望能够通过 AI 增强的交互式调查,获得比传统方法更丰富的见解。

不同问题下回答的信息量 #
🔼 该图表展示了在用户体验测试中,不同类型问题(种子问题和后续问题)以及是否使用GPT生成后续问题的情况下,用户回答的信息量分布。信息量被分为四个等级:无(None)、低(Low)、中(Medium)和高(High)。
种子问题(Seed 1, 2, 3)分析:
- 无GPT vs. 有GPT: 在种子问题1中,无GPT组的高信息量回答占比最高(42%),而有GPT组的中等信息量回答占比最高(54%)。在种子问题2和3中,无GPT组和有GPT组的回答都以无信息量为主,占比均超过60%。
后续问题链(Follow-up chain 1, 2, 3)分析:
- GPT生成: 所有GPT生成的后续问题链中,回答信息量分布相似,都是以无信息量为主,占比超过50%。其次是低信息量回答,中等和高信息量回答较少。
整体趋势:
- 信息量递减: 随着问题链的深入,无论是否使用GPT,回答的整体信息量都呈现递减的趋势。种子问题的回答信息量通常高于后续问题。
- GPT影响: GPT生成的后续问题链回答的信息量普遍较低,表明GPT的追问策略可能并未有效提高回答的深入程度。
结论:
- 种子问题在没有 GPT 的情况下,高信息量回答的占比更高。
- GPT 追问链通常导致较低的信息量,表明可能存在重复或无效追问的问题。
- 整个调查问卷中,信息量呈现递减趋势,可能是因为参与者在回答后续问题时已经表达了主要观点,导致后续问题的回答变得重复或者缺乏深度。
总的来说,图表显示在用户体验测试中,问题的类型和GPT的使用都会显著影响用户回答的信息量。使用GPT生成后续问题时,需要注意信息量的下降和重复回答的问题,并考虑如何优化GPT的追问策略。

实验流程图 #
🔼 该流程图展示了实验的整体结构,实验分为三个阶段。第一阶段是初始问卷调查,包括注意力检查问题、人口统计学问题以及关于在线购物经历的两个自由文本问题,这些自由文本问题在GPT-4条件下可有最多三个追问。第二阶段是可用性测试任务,参与者完成两个任务,随后填写一份汇报问卷,对照组仅回答研究人员预定义的问题,实验组除了这些预定义问题外,还会实时收到GPT-4生成的最多三个追问。第三阶段是总结性问卷调查,包含第二次注意力检查、对研究中问题合理性的态度评估以及一个完全开放式的问题。此流程图清晰地概括了实验的步骤,为后续的数据分析提供了框架。图中的三个阶段保证了研究的严谨性,并能收集不同类型的数据,从而更全面地评估GPT-4在可用性测试中的应用效果。初始问卷可作为基线数据,测试任务收集行为数据和主观反馈,总结性问卷则用于评估参与者对测试的整体感受和AI追问的合理性。图中呈现的实验设计,使得研究人员能够分析不同条件下数据,从而回答论文中提出的研究问题。

回答重复率 #
🔼 该图表展示了在可用性测试中,不同提问方式下参与者回答的重复情况。横轴表示回答的重复率,纵轴表示不同的提问方式,包括没有GPT-4的种子问题、带有GPT-4的种子问题以及后续的跟进问题。颜色编码区分了不同类型的重复:红色表示组间重复(即在不同种子问题之间重复),黄色表示组内重复(即在同一个种子问题的不同跟进问题之间重复),绿色表示没有重复。从图中可以看出,在第一个种子问题中,没有GPT-4时,所有回答都没有重复;而加入GPT-4后,有2%的回答出现组间重复,98%没有重复。对于后续的跟进问题链,重复率明显上升,无论是组内还是组间。特别是在GPT-4的后续跟进问题中,组内重复率更高。对于第二个和第三个种子问题,没有GPT-4时,组间重复率在27%到28%之间,而使用GPT-4时,组间重复率在23%到25%之间,但后续跟进问题的重复率仍然较高。这表明,GPT-4在初始提问时,能引导参与者提供相对不重复的信息,但随着跟进问题的深入,重复性逐渐增加。总的来说,该图表揭示了使用GPT-4进行跟进提问时,虽然在初始阶段可以减少重复,但随着对话的深入,信息的重复性会显著增加,尤其是在后续跟进问题中,组内和组间重复都比较明显。这对于改进AI辅助的提问策略具有重要的参考价值,例如需要设计更灵活的提问方式来避免重复信息的出现。

实验流程图 #
🔼 该图为实验流程图,展示了研究中使用的实验设计。整个实验分为三个主要阶段:初始问卷、可用性测试任务和最终问卷。初始问卷包括注意力检查问题和人口统计学问题,以及两个关于在线购物经验的自由文本问题,旨在让参与者适应自由文本回答模式,并收集他们在电子商务领域的相关背景信息。在第二个阶段,参与者需要完成两项可用性测试任务,每次任务完成后,他们会收到一份汇报问卷,该问卷分为两个版本:一个版本是静态的问题,另一个版本则包含由GPT-4实时生成的后续问题。第三个阶段是最终问卷,再次进行注意力检查,并评估参与者对实验中问题合理性的看法,并提供一个完全开放式的问题,让参与者可以分享他们的其他想法。整个流程旨在模拟非受控环境下的可用性测试,从而评估GPT-4在可用性测试中提出有效后续问题的潜力。此图清晰地呈现了实验结构,有助于理解研究方法和数据收集过程。实验的设计考虑了控制变量、测量用户反馈以及评估AI在可用性测试中的作用,为研究提供了严谨的方法基础。

GPT-4 非回答比例 #
🔼 该图表展示了在可用性测试中,GPT-4 生成的后续问题中,参与者选择不回答的情况。横轴表示非回答的比例,纵轴表示不同的后续问题链。结果显示,随着后续问题链的深入(从 Follow-up chain 1 到 Follow-up chain 3),参与者不回答的比例逐渐增加。具体而言,Follow-up chain 1 的非回答比例较低,主要集中在“未生成”和“跳过”类型,分别占比 3% 和 1%。而 Follow-up chain 2 和 Follow-up chain 3 的非回答比例显著增加,尤其在 Follow-up chain 3 中,“不相关内容”和“跳过”类型的比例明显上升,分别占到 7% 和 5%。这意味着,随着问题链的延长,参与者可能感到疲劳或认为问题重复,导致他们更倾向于跳过问题或提供不相关的内容。图表中绿色部分代表有效回答的比例,可以看出,即使有不回答的情况,大部分参与者仍然提供了有价值的信息。这一数据表明,虽然 GPT-4 可以生成后续问题,但为了避免参与者感到疲倦和减少非回答,可能需要在问题设计上进行调整,例如避免重复提问,或是在问题链中加入一些变化。

深度解读 #
GPT-4 在可用性测试中的应用 #
本论文探讨了 GPT-4 在无主持的可用性测试中生成后续问题的潜力。研究发现,GPT-4 生成的后续问题能够有效扩展现有发现的细节,但在揭示新的可用性问题方面表现较弱。实验表明,GPT-4 生成的后续问题主要集中在用户已经提到的信息上,而不是发现新的问题。这种方法的优势在于能够通过对话深入挖掘用户的体验,特别是在用户自发反馈不足的情况下。然而,GPT-4 生成的后续问题也存在局限性,例如问题的重复性和用户的负面情绪增加。未来的研究可以通过优化提示工程和模型微调来改进 GPT-4 在可用性测试中的应用。
静态与动态后续问题的比较 #
论文通过实验比较了静态后续问题和 GPT-4 生成的动态后续问题在可用性测试中的表现。静态后续问题在揭示可用性问题方面表现更好,而 GPT-4 生成的动态后续问题则更侧重于对已有信息的深入挖掘。实验结果显示,静态后续问题能够发现更多的可用性问题,而 GPT-4 生成的后续问题则更多用于扩展用户已经提到的内容。这种差异表明,静态问题在特定目标下更为有效,而动态问题则更适合用于深入理解用户的体验。未来的研究可以探索如何结合静态和动态后续问题,以在可用性测试中取得更好的效果。
多问题情境下的反馈质量 #
论文研究了在多问题情境下,GPT-4 生成的后续问题对用户反馈质量的影响。研究发现,随着问题的增多,用户反馈的信息量逐渐减少,且重复性和无关内容的比例增加。尽管 GPT-4 能够根据上下文生成后续问题,但这些问题往往无法有效引导用户提供新的信息。这种趋势表明,过多的后续问题可能会导致用户疲劳和反馈质量的下降。未来的研究可以通过优化问题的生成策略,减少重复性和无关问题,从而提高用户反馈的质量。
用户对 GPT-4 问题的感知 #
论文还探讨了用户对 GPT-4 生成的后续问题的感知。实验结果显示,用户对 GPT-4 生成的问题的合理性评分显著低于静态问题。许多用户反馈认为 GPT-4 生成的问题重复且缺乏针对性,甚至有些问题与用户之前的回答无关。这种负面感知可能会影响用户在可用性测试中的参与度和反馈质量。未来的研究可以通过改进 GPT-4 的提示工程,生成更具针对性和自然性的问题,从而提高用户的满意度。
未来研究方向与改进建议 #
论文提出了未来研究的方向和改进建议,以进一步提升 GPT-4 在可用性测试中的应用。首先,可以通过提示工程和模型微调来优化 GPT-4 生成问题的质量,使其更符合可用性测试的目标。其次,未来的研究可以探索如何结合静态和动态后续问题,以在揭示新问题和深入挖掘用户反馈之间取得平衡。此外,研究还可以关注如何减少用户对 GPT-4 生成问题的负面感知,例如通过改进问题的自然性和针对性。这些改进将有助于 GPT-4 在可用性测试中的广泛应用。
完整论文 #


















