要点总结 #
生成式AI的崛起带来了一个悖论:它在某些人类独有的任务上表现出色,如流畅的对话和说服性写作,但在传统计算的可靠性、准确性和真实性方面却表现不佳。论文认为,将生成式AI视为传统计算工具,会忽视其最独特和创新的特性。生成式AI作为概率技术,并不以传统方式存储数据,而是将训练数据的特征编码为模式,使其在生成内容时能够探索和组合这些‘风格’。
论文提出了将生成式AI视为‘风格引擎’的概念,强调其生成能力的独特之处。通过这种视角,生成式AI的能力可以被视为对传统计算的补充。论文提出了四种生成式AI应用原型,并探讨了其在信息系统研究中的未来方向。这一概念不仅有助于计算从业者和信息系统研究者更好地理解和整合生成式AI,还为实践和政策制定提供了新的视角。
关键要点 #
论文重要性 #
这项研究的重要性在于它重新定义了生成式AI的核心特性,提出了‘风格引擎’的概念,揭示了其在创造性任务中的独特潜力。 这不仅为信息系统研究提供了新的理论框架,还为生成式AI的实际应用和政策制定提供了指导。随着生成式AI的快速发展,理解其与传统计算的区别和互补性,将有助于更好地利用这一技术,推动未来的研究和创新。
图表分析 #
LLM与实际应用关系图 #
🔼 该图(图1)展示了大型语言模型(LLM)与其在实际应用中的关系。图中清晰地表明,LLM本身作为基础模型,通常并不直接与用户交互。用户界面通常通过一个中间的系统层与LLM进行交互。以OpenAI的ChatGPT为例,该图阐释了LLM如何通过额外的训练,如使用人类反馈的强化学习(RLHF),转化为具体的对话式应用。图示说明,原始的LLM模型经过RLHF微调,并结合额外的系统层后,形成了我们熟悉的ChatGPT应用,并可以通过进一步的微调来适应各种不同的应用场景。这种分层架构强调了LLM作为基础技术,而具体应用则需在LLM之上构建额外的系统层。它还突出了人类反馈在将LLM转化为可用产品中的关键作用,例如,人类测试人员对模型生成的回应进行质量排序,从而训练出更符合人类期望的模型。此图帮助我们理解了LLM在实际应用中是如何被集成和利用的,这对于理解生成式AI技术至关重要。总的来说,该图有助于阐明大型语言模型及其在具体应用中部署的复杂过程。
更多图表分析
LLM与应用关系 #
🔼 图 1 展示了大语言模型(LLM)与其具体应用之间的关系。图中清晰地阐释了,虽然用户可以直接与大语言模型进行交互,但在实践中,用户通常是通过一个位于基础模型之上的系统层所提供的接口来进行操作的。以 OpenAI 的技术为例,虽然底层是一个大型的语言模型,但为了实现更人性化的对话能力,还需要通过第二层训练,即利用人类反馈进行强化学习(RLHF),从而赋予系统类似人类的对话能力,这就是我们熟知的 ChatGPT。因此,ChatGPT 实际上是基于 LLM 的一个经过微调的对话模型。通过这种方式,模型不仅学会了语言模式,还学习了如何以更符合人类期望的方式进行交流。此外,通过进一步的微调,可以针对各种特定的任务需求,开发出更具针对性的应用,例如客服聊天机器人等。这种分层结构体现了 LLM 作为基础模型与实际应用之间的区别,也强调了在构建实用 AI 应用时,不仅仅要关注底层模型的性能,还需要重视上层系统层的功能和用户体验。该图有力地支持了文章的论点,即理解 LLM 的工作方式对于更好地开发和应用这项技术至关重要。

AI系统结构示意图 #
🔼 这张图表(Fig. 1)展示了大型语言模型(LLM)与实际AI系统或应用之间的关系。图表清晰地描绘了一个分层结构,其中基础层是LLM,它通过深度学习技术从大量文本数据中编码复杂的语言模式。LLM本身并不直接与用户交互,它需要通过一个额外的系统层,这个系统层提供了用户界面。例如,OpenAI的ChatGPT就是建立在LLM之上的,通过强化学习和人类反馈进行微调,使其具备对话能力。这种分层结构意味着,用户与AI的互动并非直接操作LLM,而是通过系统层,系统层将用户的输入转化为LLM可以处理的格式,并把LLM的输出转化成用户友好的形式。此图强调了LLM的基础性和普遍性,以及通过微调和系统层定制LLM以适应各种应用场景的重要性。此图帮助理解为什么同样的LLM可以驱动不同的应用程序,从而揭示了LLM的强大功能和多功能性,它不仅可以支持对话系统,还可以作为各种AI应用的基础技术。

LLM模型训练流程图 #
🔼 该图展示了大型语言模型(LLM)从训练到应用的完整流程。首先,模型通过大量的文本语料库进行预训练,学习语言的模式和结构。预训练后的模型通常是通用的,例如GPT-4。接着,通过强化学习人类反馈(RLHF)对模型进行微调,使其更符合人类的偏好和期望,这一步是形成像ChatGPT这样的对话模型关键步骤。经过RLHF微调的模型,可以作为通用的聊天应用直接使用。此外,为了满足特定任务需求,通用模型还可以使用特定的数据或任务示例进行进一步的微调,形成上下文模型,最终用于专门的聊天应用。这个流程图清晰地展示了从基础模型训练到具体应用的全过程,强调了人类反馈在模型微调中的重要作用,以及模型适应不同应用场景的能力。通过这种多阶段的训练过程,语言模型能够从大规模数据中学习到丰富的语言知识,并通过微调和应用适配,最终实现各种人机交互场景中的应用。

样式应用于现有内容示例 #
🔼 该图展示了将样式应用于现有内容以进行转换的两个示例。图 (a) 显示了一个文本转换的示例,其中原始文本描述了制作黄油吐司的三个步骤。AI 模型已将此文本转换为一个包含三列的表格,分别为“步骤编号”、“步骤名称”和“描述”。这种转换演示了如何应用“表格”样式来组织和呈现文本信息。文本框中的内容为:“将以下文本转换为一个三列的表格。制作黄油吐司需要三个步骤。切片是指将面包切成薄片。烘烤描述了面包如何变成漂亮的金色棕色。涂抹精确地捕捉了黄油如何进入切片。” 下方为表格内容,分为三列:Step No.,Step Name,Description,对应内容分别是:1,Slicing,This refers to the cutting of the bread into a fine slice;2,Toasting,This describes how the bread is turned into a nice golden-brown colour;3,Smearing,This captures precisely how the butter makes its way onto the slice。图 (b) 则显示了如何将“皮克斯”风格应用于现有照片。在左侧,显示了一张人物的原始照片;在右侧,同一人物被渲染成了皮克斯动画风格,这突出了 AI 模型如何重新解释视觉内容并应用不同的艺术风格。左侧为一个男士的半身照,他带着心形眼镜,穿着黑色西装。右侧是同一男士的皮克斯风格画像,他戴着红色的眼镜,穿着蝴蝶结衬衫,背景颜色为棕色。这两个例子说明了生成式 AI 如何将不同的样式应用于文本和图像内容,从而实现创意转换和探索。

图 3:风格化椅子 #
🔼 本图展示了四组不同风格的椅子设计,每一组都由两张图片组成,展示了同一主题下不同的视角或变化。第一组(a)展示了“斯堪的纳维亚扶手椅,极简风格”,图片中的椅子以浅色木材为框架,搭配浅色织物坐垫,整体风格简洁、现代,体现了斯堪的纳维亚设计的特点。第二组(b)呈现的是“猫风格的扶手椅”,椅子设计巧妙地融入了猫的元素,例如猫耳形状的椅背,整体造型圆润可爱。第三组(c)展示了“有机精灵风格的扶手椅”,椅子由木材制成,具有复杂的镂空结构,带有自然、有机的形态,仿佛是从大自然中生长出来的一般。最后一组(d)是“赛博朋克风格的未来主义椅子”,椅子采用高科技材料,具有流线型的设计和发光的装饰,展现了未来科技感和赛博朋克的视觉风格。这四组椅子设计展示了不同的设计风格和创意理念,反映了在生成式AI中,通过结合不同的风格元素,可以创造出多种多样的设计作品。这些设计风格的结合不仅展示了AI的强大生成能力,也揭示了风格在设计中的重要性,如何通过不同的风格组合来表达不同的主题和创意,这些椅子设计体现了风格的灵活性和多样性。

AI文本生成示例 #
🔼 该图展示了两个使用大型语言模型(LLM)生成的文本示例,旨在说明LLM在不同风格和任务上的应用能力。左侧示例(a)展示了如何使用LLM模拟管理咨询顾问的风格,生成关于如何进行绩效评估的简短、结构化的指导。文本以要点形式呈现,包括准备阶段和评估结构化的步骤。这种风格适合正式的商业环境,强调清晰、简洁和操作性指导。右侧示例(b)则展示了LLM模仿《钦定版圣经》的写作风格,创作了一篇关于如何涂抹吐司的幽默文本。这个文本使用了古老的、带有宗教色彩的语言,例如“Hearken, O children of the hearth” 和 “Thou shalt know”,将日常任务赋予了一种庄严感。通过对比这两个例子,我们可以看到LLM不仅可以生成连贯的文本,还可以根据不同的指令和上下文调整其风格和语言。图(a)旨在演示LLM在生成正式商业文本和提供实用指导方面的能力;图(b)则着重演示其在模拟特定文学风格和幽默表达方面的灵活性。这两个示例共同展示了LLM的风格迁移能力,揭示了其在不同领域和风格中应用的广泛潜力,体现了AI作为“风格引擎”的概念。这不仅突出了LLM在内容生成方面的多功能性,还展示了其在理解和运用不同写作风格方面的能力,这对于包括文本生成、创意写作、内容改编等多种应用场景都具有重要的意义。这些示例强调了LLM在提供风格化输出和辅助创意工作方面的强大潜力,也预示了其在未来内容创作领域的广泛应用前景。

生成式AI应用原型 #
🔼 该图表展示了生成式人工智能(Generative AI)应用的四种原型,并以二维矩阵的形式呈现。横轴代表“交互模式”,分为“事务性、离散使用”和“代理式、持续使用”;纵轴代表“生成式AI的概念”,分为“基于风格”和“基于知识”。
第一象限是“创意助手(Creative Assistant)”,属于基于风格且事务性使用的类型。它主要用于辅助创意任务,生成新内容或探索全新的创作空间,例如辅助写作、图像编辑或艺术创作等。
第二象限是“知识顾问(Knowledge Advisor)”,属于基于知识且事务性使用的类型。它主要优化准确性,用于回答知识性问题,提供有益的建议,并作为信息存储库的对话式界面,例如智能客服或医学诊断辅助系统。
第三象限是“社交伴侣(Social Companion)”,属于基于风格且代理式使用的类型。它作为一种对话式代理,参与到伪社交互动中,经常与用户建立持续的关系,例如虚拟聊天机器人或情感支持应用。
第四象限是“任务代理(Task agent)”,属于基于知识且代理式使用的类型。它经过优化,能够规划和执行复杂的任务集,具有一定的自主性,例如自动化软件开发或财务分析工具。
此图表清晰地展示了生成式AI在不同应用场景下的特点和功能,揭示了其多样性和潜力。通过这种分类,可以帮助研究人员和开发者更好地理解和运用生成式AI技术,并进一步探索其在不同领域的应用。

深度解读 #
生成式AI风格引擎 #
论文提出了将生成式AI视为风格引擎的概念,强调了其与传统计算模型的根本区别。生成式AI通过深度神经网络将训练数据中的特征编码为模式,而不是传统意义上的数据存储。这些模式在生成新内容时表现为风格,使得生成式AI能够在文本、图像等领域进行创造性组合和生成。例如,生成式AI可以将“椅子”或“猫”的视觉特征编码为“椅子性”或“猫性”,从而在生成新图像时灵活应用这些风格。这种理解方式不仅揭示了生成式AI的独特能力,还为信息系统的研究提供了新的视角,帮助将生成式AI整合到传统的信息系统框架中。
生成式AI应用原型 #
论文提出了四种生成式AI的应用原型,分别基于风格引擎和知识系统的理解,并结合了离散任务和持续交互的维度。创意助手专注于生成式AI在内容创作中的辅助作用,帮助用户进行文本和多媒体内容的生成与修改;知识顾问则强调生成式AI在信息检索和准确性方面的优化,适用于医疗、教育等领域;社交伴侣利用生成式AI的对话能力,提供持续的情感支持和互动;任务代理则专注于自动化复杂任务的执行,展现出生成式AI在流程自动化中的潜力。这些原型为生成式AI的实际应用提供了清晰的分类框架,并为未来的研究和开发指明了方向。
生成式AI的局限性 #
尽管生成式AI在创造性任务中表现出色,但其准确性和可靠性仍然存在显著问题。生成式AI基于概率模型,无法像传统计算系统那样精确存储和检索数据,导致其生成的文本或图像可能出现“幻觉”或错误。例如,图像生成模型可能在生成手部图像时出现手指数量错误。这种局限性在需要高准确性的领域(如医疗诊断)中尤为突出。论文指出,尽管生成式AI的创造性能力令人惊叹,但其在传统计算任务中的表现仍然受限,未来的研究需要在准确性与创造性之间找到平衡。
未来研究方向 #
论文提出了一个基于风格引擎概念的研究议程,涵盖了生成式AI的四个应用原型。对于创意助手,研究应关注生成式AI如何增强人类创造力,以及其对创意产业的影响;对于知识顾问,研究应探讨如何将生成式AI与传统知识系统结合,以提高其准确性和可靠性;对于社交伴侣,研究应关注其长期使用对用户心理健康的影响,以及如何防止其被用于操纵用户;对于任务代理,研究应探索其在复杂任务自动化中的应用,以及如何确保其在高风险环境中的可靠性。这些研究方向为生成式AI的未来发展提供了重要的理论支持。
实践与政策影响 #
生成式AI的广泛应用带来了诸多实践和政策挑战。在创意助手领域,数据所有权和版权问题成为焦点,生成式AI的训练数据来源和生成内容的版权归属亟待解决;在知识顾问领域,如何将生成式AI与传统企业系统结合,以确保其准确性和可靠性,是企业面临的主要挑战;在社交伴侣领域,防止生成式AI被用于操纵用户或传播虚假信息,成为政策制定者的重要任务;在任务代理领域,如何确保生成式AI在自动化任务中的透明性和可控性,是企业和技术开发者需要解决的关键问题。这些挑战要求政策制定者和企业采取新的治理框架,以确保生成式AI的安全和负责任使用。
完整论文 #














