只是高级模式匹配器!所有LLM都判死刑 Transformer不会推理 苹果一篇论文得罪大模型圈

新智元报道

:peter东 Aeneas

【新智元导读】 苹果研究者发现:无论是OpenAI GPT-4o和o1,还是Llama、Phi、Gemma和Mistral等开源模型,都未被发现任何形式推理的证据,而更像是复杂的模式匹配器。无独有偶,一项多位数乘法的研究也被抛出来,越来越多的证据证实:LLM不会推理!

LLM真的会推理吗?

最近,苹果研究员发文质疑道:LLM根本没有不会推理,所谓的推理能力只是复杂的模式匹配罢了。

论文地址:https://arxiv.org/abs/2410.05229

这项研究也在AI社区引起了广泛讨论。

谷歌DeepMind科学家Denny Zhou表示,自己ICML 2023的一片论文中,也发现了类似现象。

Meta AI研究者田渊栋表示,梯度下降可能无法学习到这样的权重。

巧的是,AI2等机构在23年的一篇研究也被翻出,证实模型根本没有学会数学推理,只是在「照背」答案而已。

网友们搜罗了越来越多的学术证据,一致证明:LLM可能根本不会推理!

图灵三巨头之一的LeCun,也在最近的万字演讲表示,Meta现在已经完全放弃纯语言模型,因为仅靠文本训练,它永远不可能达到接近人类水平的智能!

目前Transformer架构的大语言模型,难道真的是一条弯路?

换个马甲,大模型的数学能力就滑坡了!

这次,苹果的研究者们仔细研究了GPT-4o和o1系列闭源模型,以及Llama、Phi、Gemma、Mistral等开源模型的数学能力。

此前,业界用来评价大模型数学能力的数据集是2021年发布的GSM8K,该数据集包含8000可小学水平的数学应用题,例如下面的例子:

此时距OpenAI发布GSM8K已经三年了,模型性能也从GPT-3的35%,提升到了30亿参数模型的85%以上。

不过,这真的能证明LLM的推理能力确实提高了吗?

要知道,由于是21年发布的数据集,如今的主流大模型可能抓取的训练数据无意间涵盖了GSM8K的题目。

虽然大部分模型没有公开训练数据的信息,但存在数据污染的可能,这就会导致大模型能够靠背题答对GSM8K中题目。

因此,用这个数据集去评判LLM的数学能力,并不准确。

于是,为了客观评价LLM的数学能力极限,苹果的研究者们开发了一个名为GSM-Symbolic的数据集。

GSM-Symbolic将GSM8K的题目进行了修改,例如改变了索菲这个名字,侄子这个家人的称谓,以及各种玩具的多少(数字)。

这样一来,就可以产生出很多个看起来全新,但实际上却是具有相同内核的题目。

另外,除了GSM-Symbolic,这项研究还提出了GSM-NoOp数据集,GSM-NoOp 向题目中添加看似相关但实际上无关的数据,来判断大模型在执行逻辑推理任务时是否会受到无关数据的影响。

不管开源闭源,都会因题目换皮表现更差

实验结果很有趣:就跟人类一样,数学题干一换,很多LLM就不会了!

苹果的研究者们对比了GSM8k和GSM-Symbolic在多种模型上的性能差异,结果发现——

无论是主流的开源模型还是闭源的GPT系列模型,甚至专门为数理推断专门优化的o1模型,当面对GSM-Symbolic的换皮题目时,准确率都会下降。

大多数模型在GSM-Symbolic上的平均性能,都低于在GSM8K上的平均性能。

GSM8k和GSM-Symbolic和模型性能对比

即使只更改了题目中的名称,大模型的表现也会有存在差异,当只改变了题目中的专有名词时,性能下降在1%-2%之间,当实验者更改数字或结合两类更改时,差异则更为显著。

对比只修改题目中的专有名词,题目中数字和都修改时的准确度

从图2中可看出,几乎所有模型都明显出现了分布均值从右向左的逐渐移动(准确度变低),以及方差增加。

仅仅是更改一下专有名词,就会存在如此大的差异,这种现象实在是令人担忧:看来,LLM的确没有真正理解数学概念。

即使理解了数学题目的小学生,都不会因为题目换汤不换药,就不会做了。

随后,苹果的研究者继续给这些LLM上难度。

他们引入了GSM-Symbolic的三个新变体:删除一个分句(GSM-M1),增加一个分句(GSM-P1)或增加两个分句(GSM-P2)。

果然,当模型面对的题目变难时,例如题目从「打电话每分钟10分钱,打60分钟多少钱?」变为「打电话前10分钟每分钟10分钱,之后每分钟8分钱,如此打60分钟电话费多钱?」,大模型回答的准确性降低,方差变大,这就意味着,LLM的性能极不稳定,可靠性越来越差。

最后,当模型面对增加了和题目无关的论述的题目(GSM-NoOP),性能的下降更是惨不忍睹。

所有模型的性能下降都更加明显,其中Phi-3-mini 模型下降了超过 65%,甚至像o1-preview这样的预期表现更好的模型也显示出显著的下降(17.5%)。

这是由于模型会将无关的论述当成需要操作的步骤,从而画蛇添足地回答错误。

也就是说,当今性能最强大的模型,也依然无法真正理解数学问题。

GSM-NoOP数据集相比GSM8k数据集的性能下降

o1系列模型,依然无法避免这些问题

从这项研究的结果来看, 大模型在执行真正的数学推理方面的重大局限性。

大模型在不同版本的同一问题上的表现高度差异,随着难度轻微增加而表现大幅下降,以及对无关信息的敏感度表明, 大模型进行的推理及运算是脆弱的。

最终,苹果研究者给出这样的结论—— 它们可能更像是复杂的模式匹配,而不是真正的逻辑推理。

也就是说,即使我们继续堆数据、参数和计算量,或者用更好的训练数据,也只能得到「更好的模式匹配器」,而非「更好的推理器」。

大模型实际不是解数学题,还是在进行模式匹配

无独有偶,23年的一项研究《信仰与命运:Transformer作为模糊模式匹配器》也证实——

大模型并没有真正的理解数学概念,而只是根据模糊模式匹配来从训练数据的题库中寻找答案。

论文地址:https://arxiv.org/abs/2305.18654

研究者们很疑惑,为什么Claude或GPT-4这样的模型输出时,听起来非常像一个人在推理,而且问题也都是需要推理才能解决的。

它们仿佛已经在超人类智能的边缘,但在处理一些简单的事情上却有很蠢。

比如,人类在学习基本计算规则后,可以解决三位数乘三位数的乘法算术。但在23年底,ChatGPT-3.5和GPT-4在此任务上的准确率分别只有55%和59%。

到底发生了什么?

在《信仰与命运》这篇论文中,Allen AI、华盛顿大学等的学者对LLM的这种表现提出了一种解释——「线性化子图匹配」。

线性子图匹配

他们猜测,大模型解决问题的方式是这样的。

为了证明这项猜测,研究者测试了三个任务——

乘法、爱因斯坦逻辑谜题和动态规划问题。

拿乘法举例。

如果LLM真的能通过足够的数据学会东西,或者能通过系统化的推理解决复杂的多步骤问题,那它应该能通过足够的例子或对算法的充分解释来学习乘法。

而乘法问题可以被分解为更小的问题,因此模型应该能通过逐步推理来做出来。

LLM可以完成吗?

为了检验多位数乘法任务,研究者定义了一组大量的乘法问题。从计算两位数和两位数的乘积到五位数和五位数的乘积。

首先,他们会要求模型解决如下问题:

其次,他们向模型提供了思维链示例,将其分解为更小的任务,使用学校教授的标准乘法算法。

提示模型执行任务的程序

但如何衡量一项任务比另一项更难呢?如何追踪模型在哪些地方失败,如何失败?

研究者将乘法算法描述为一个包含加法和乘法等基本操作的定向图。

比如下面是7乘以49所涉及的运算的图表示:

其中包含7乘以4的子任务。

子程序是图中的子图

研究者在评估中发现,即使经过微调,模型也无法从训练集中看到的小乘法问题,推广到更大的乘法问题。

在左侧图中,蓝色的单元格表示模型是在这样的乘积上训练的,得分相当不错。

原因在于,模型在预测与训练数据规模相同的问题时就表现良好。

然而在橙色的单元格,如三位数与三位数或更高位数的乘积,得分就要差得多了。

GPT-3准确率与规模对比

在操作图中可以看出,当任务变得更加复杂时,准确度会急剧下降。

宽度衡量需要同时维护多少个中间结果,而深度衡量需要组合多长的步骤序列才能达到结果

由此,研究者总结出一些真正有趣的东西。

错误告诉我们,LLM中真正发生的事

首先,研究者观察到: LLM是否能成功解决问题,取决于模型之前是否见过相关的子问题。

换句话说——

这就是为什么7乘以49会失败,但7乘以4却取得一些进展,因为LL没记住了「7乘以4的呢关于28」这个子问题。

更大的意义在于:与其将模型视为以一般和系统的方式处理问题的各个部分,不如将其视为搜索引擎,它会先召回与特定问题部分大致匹配的例子,然后将这些近似回忆拼接起来。

也就是说LLM通过仅完成整体问题的一部分而取得部分成功。

它是以自己反直觉、更肤浅、更实际的方式分解问题,更关注文本的「表面」,而非系统地思考给定的乘法算法。

高信息增益,甚至能预测意外的部分解决方案

一些问题

提出,子图匹配的想法,更多的是一个起点,而非对现状的精确完整描绘。

后续的实证研究,又削弱了这一解释的普遍性。

比如McLeish 等人(2024 年)表明,通过「算盘嵌入」的架构修改,可以显著提高Transformer在算术上的性能。

LLM能够解决比训练数据中更大的多位数加法问题,但未体现乘法性能的同等提升。

如果线性子图匹配是Transformer的一般性限制,那么加法为何会如此容易受到特定修复的影响,而非乘法呢?

这又引出了新的问题:什么样的文本表示将使模型更容易处理多步问题——比如推理链问题?

那些从外部看起来像是在推理的系统,即使我们知道其内部并未在逻辑蕴涵空间中执行搜索,它们的实际限制在哪里?

这些都留待未来解决。

马库斯:我早说过了

对于苹果的研究,马库斯也专门写了一篇博客进行论述。

他表示,LLM的这种「在受到干扰材料的影响下推理失败」的缺陷,并非新现象。

在2017年,斯坦福大学的Robin Jia和Percy Liang就进行过类似研究,得出了相似的结果。

在问答系统中,即使只是改变一两个无关紧要的词或添加一些无关信息,也可能得到完全不同的答案

另一个体现LLMs缺乏足够抽象、形式化推理能力的证据是,当问题变得更大时,其性能往往会崩溃。

这源于Subbarao Kambhapati团队近期对GPT o1的分析:

性能在小问题上尚可,但很快就会下降

在整数算术中,我们也可以看到相同现象。

在越来越大的乘法问题中,这种下降趋势在旧模型和新模型中都被反复观察到。

即使 o1 也受到这个问题的影响:

LLM不遵守棋类规则,是其形式推理持续失败的另一个例子:

马斯克提出,甚至马斯克的Robotaxi也会受到类似困扰:它们可能在最常见的情况下安全运行,但在某些情况下可能难以足够抽象地推理。

马库斯指出:LLM爱好者总是为它们的个别错误开脱,然而最近的苹果研究及其他相关研究和现象,都太过广泛和系统化,让我们无法视而不见了。

他表示,自1998和2001年以来,标准神经网络架构无法可靠地外推和进行形式化推理,一直是自己工作的核心主题。

最后,他再次引用了自己在2001年的《代数心智》一书中的观点——

总的来看,无论是将乘法拆解为有向图,还是一旦面对应用题中称谓和数字变换就答错,这都反映了大模型在逻辑推理上的本质缺陷。

总之,LLM在背题这件事,算是「人赃俱获」了。

这两项研究也警示我们:正如Meta的AI科学家田渊栋所说,只要大模型还是依赖梯度下降,那么就不要期待它变得不那么愚蠢。

参考资料:

https://www.reddit.com/r/MachineLearning/comments/1g3cumr/d_will_scale_be_enough_to_get_llms_to_reason/

https://garymarcus.substack.com/p/llms-dont-do-formal-reasoning-and?r=17uk7&triedRedirect=true

https://www.answer.ai/posts/2024-07-25-transformers-as-matchers.html


大型语言模型(LLM)是指包含数千亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。 具体来说,LLM 建立在 Transformer 架构之上,其中多头注意力层堆叠在一个非常深的神经网络中。 现有的 LLM 主要采用与小语言模型类似的模型架构(即 Transformer)和预训练目标(即语言建模)。 作为主要区别,LLM 在很大程度上扩展了模型大小、预训练数据和总计算量(扩大倍数)。 他们可以更好地理解自然语言,并根据给定的上下文(例如 prompt)生成高质量的文本。 这种容量改进可以用标度律进行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。 然而根据标度律,某些能力(例如,上下文学习)是不可预测的,只有当模型大小超过某个水平时才能观察到。 2023年3月6日,来自谷歌与柏林工业大学的人工智能研究人员小组推出了一个多模态具象化视觉语言模型(VLM)-PaLM-E,该模型的参数规模达到了5620亿个,集成了用于控制机器人的视觉与语言。 研究人员称,这是有史以来规模最大的VLM,无需重新训练即可执行各种任务。 NLP到大型语言模型的进阶历程新浪微博资深算法专家张俊林认为,要想探寻大型语言模型未来怎么走,需要先回顾此前是怎么一路变迁的。 他将自然语言处理发展到大型语言模型的历程分为五个阶段:规则、统计机器学习、深度学习、预训练、大型语言模型。 机器翻译是NLP中难度最高、综合性最强的任务。 因此张俊林以机器翻译任务为例来对比不同阶段的特点以及技术栈、数据的变化,以此展示NLP如何一步步演进。 规则阶段大致从1956年到1992年,基于规则的机器翻译系统是在内部把各种功能的模块串到一起,由人先从数据中获取知识,归纳出规则,写出来教给机器,然后机器来执行这套规则,从而完成特定任务。 统计机器学习阶段大致从1993年到2012年,机器翻译系统可拆成语言模型和翻译模型,这里的语言模型与现在的GPT-3/3.5的技术手段一模一样。 该阶段相比上一阶段突变性较高,由人转述知识变成机器自动从数据中学习知识,主流技术包括SVM、HMM、MaxEnt、CRF、LM等,当时人工标注数据量在百万级左右。 深度学习阶段大致从2013-2018年,相对上一阶段突变性较低,从离散匹配发展到embedding连续匹配,模型变得更大。 该阶段典型技术栈包括Encoder-Decoder、LSTM、Attention、Embedding等,标注数据量提升到千万级。 预训练阶段是从2018年到2022年,相比之前的最大变化是加入自监督学习,张俊林认为这是NLP领域最杰出的贡献,将可利用数据从标注数据拓展到了非标注数据。 该阶段系统可分为预训练和微调两个阶段,将预训练数据量扩大3到5倍,典型技术栈包括Encoder-Decoder、Transformer、Attention等。 大型语言模型阶段从2023年起,目的是让机器能听懂人的命令、遵循人的价值观。 其特性是在第一个阶段把过去的两个阶段缩成一个预训练阶段,第二阶段转换成与人的价值观对齐,而不是向领域迁移。 这个阶段的突变性是很高的,已经从专用任务转向通用任务,或是以自然语言人机接口的方式呈现。 随后他介绍了一个研究工作的结论:在高资源语言上,ChatGPT机器翻译效果与商用MT系统效果接近;在低资源语言上,目前ChatGPT机器翻译效果与商用MT系统相比差得比较远。 从这些阶段中数据、算法、人机关系的变化,可以观察到NLP的发展趋势。 数据方面,从少量标注数据、大量标注数据、海量非标注数据+少量标注数据到海量非标注数据,越来越多数据被利用起来,人的介入越来越少,未来会有更多文本数据、更多其它形态的数据被用起来,更远的未来是任何我们能见到的电子数据,都应该让机器自己从中学到知识或能力。 算法方面,表达能力越来越强,规模越来越大,自主学习能力越来越强,从专用向通用,沿着这个趋势往后,未来Transformer预计够用,同时也需要替代Transformer的新型模型,逐步迈向通用人工智能。 人机关系方面,人的角色逐渐从教导者转向监督者,未来可能会从人机协作、机器向人学习,发展成人向机器学习,最后由机器拓展人类。 大型语言模型的涌现能力LLM 的涌现能力被正式定义为「在小型模型中不存在但在大型模型中出现的能力」,这是 LLM 与以前的 PLM 区分开来的最显著特征之一。 当出现这种新的能力时,它还引入了一个显著的特征:当规模达到一定水平时,性能显著高于随机的状态。 以此类推,这种新模式与物理学中的相变现象密切相关。 原则上,这种能力也可以与一些复杂的任务有关,而人们更关心可以应用于解决多个任务的通用能力。 这里简要介绍了 LLM 的三种代表性的涌现能力:上下文学习。 GPT-3 正式引入了上下文学习能力:假设语言模型已经提供了自然语言指令和多个任务描述,它可以通过完成输入文本的词序列来生成测试实例的预期输出,而无需额外的训练或梯度更新。 指令遵循。 通过对自然语言描述(即指令)格式化的多任务数据集的混合进行微调,LLM 在微小的任务上表现良好,这些任务也以指令的形式所描述。 这种能力下,指令调优使 LLM 能够在不使用显式样本的情况下通过理解任务指令来执行新任务,这可以大大提高泛化能力。 循序渐进的推理。 对于小语言模型,通常很难解决涉及多个推理步骤的复杂任务,例如数学学科单词问题。 同时,通过思维链推理策略,LLM 可以通过利用涉及中间推理步骤的 prompt 机制来解决此类任务得出最终答案。 据推测,这种能力可能是通过代码训练获得的。 大型语言模型的关键技术LLMs 的关键技术,包括了缩放、训练、能力激发、对齐调优、工具利用等。 缩放。 缩放是增加 LLMs 模型容量的关键因素,最开始 GPT-3 将模型参数增至 1750 亿,随后 PaLM 进一步将模型参数增至 5400 亿。 大规模参数对于涌现能力至关重要。 缩放不仅针对模型大小,还与数据大小和总计算量有关。 训练。 由于规模巨大,成功训练一个具备强大能力的 LLMs 非常具有挑战性。 因此需要分布式训练算法来学习 LLMs 的网络参数,经常联合使用各种并行策略。 为了支持分布式训练,DeepSpeed 和 Megatron-LM 等优化框架被用来促进并行算法的实现和部署。 此外,优化技巧对训练稳定性和模型性能也很重要,例如重新启动训练损失尖峰和混合精度训练。 最近的 GPT-4 开发了特殊的基础设施和优化方法,从而利用小得多的模型来预测大模型的性能。 能力激发。 在大规模语料库上经过预训练后,LLMs 被赋予了解决一般任务的潜在能力。 然而当 LLMs 执行某个特定任务时,这些能力可能不会显式地表现出来。 因此设计适合的任务指令或特定的上下文策略来激发这些能力非常有用,比如思维链 prompt 有助于通过中间推理步骤等解决复杂推理任务。 此外还可以进一步对具有自然语言任务描述的 LLMs 进行指令调优,以提高对未见过任务的泛化能力。 对齐调优。 由于 LLMs 被训练用来捕获预训练语料库的数据特征(包括高质量和低质量的数据),它们很可能生成对有毒、有偏见和有害的文本内容。 为了使 LLMs 与人类价值观保持一致,InstructGPT 设计了一种利用强化学习和人类反馈的高效调优方法,使得 LLMs 能够遵循预期指令。 ChatGPT 是在类似 InstructGPT 的技术上开发的,在产生高质量、无害的响应方面表现出了强大的对齐能力。 工具利用。 LLMs 本质上是基于大规模纯文本语料库训练的文本生成器,因此在数值计算等文本表达不佳的任务上表现没那么好。 此外 LLMs 的能力受限于预训练数据,无法捕获最新信息。 针对这些问题,人们提出使用外部工具来弥补 LLMs 的不足,比如可以利用计算器进行精确计算,使用搜索引擎检索未知信息。 ChatGPT 更是利用外部插件来联网学习新知识,这种机制可以广泛扩展 LLMs 的能力范围。 ChatGPT的四个关键技术1、大规模预训练模型:只有模型规模足够大,才可能具备推理能力。 中国人民大学高瓴人工智能学院长聘副教授严睿谈道,智能涌现不是故意设计出来的,而是大模型规模大到一定程度后,天然具备这样的特性。 2、在代码上进行预训练:可能代码把解决一个大的问题分解成若干个小的问题,这种分布解决问题的方式有助于自然语言推理。 和自然语言模型相比,代码语言模型需要更长的上下文的依赖。 3、prompt/Instruction Tuning:GPT-3模型太大,已经没办法去精调了,只能用prompt,但是如果不精调,模型相当于还是一个语言模型,没办法适应人,只能由人去适应模型。 让人适应模型只能用指令的方式,再进行精调,这相比预训练代价要小的多。 所以指令上精调就可以把一些不太多的数据,把语言模型的任务掰到适应人类的回答问题。 4、基于人类反馈的强化学习(RLHF):这对于结果好坏的影响不是特别大,甚至会限制语言模型生成的能力,但这种方式可能更好地和人类在安全性、无毒无害等等方面的价值观对齐。 当模型上线后,它可以收集到更多用户的反馈。 大型语言模型的三大技术路线大型语言模型研究的发展有三条技术路线:Bert模式、GPT模式、混合模式。 其中国内大多采用混合模式,多数主流大型语言模型走的是GPT技术路线,直到2022年底在GPT-3.5的基础上产生了ChatGPT。 可以看到,到2019年后,Bert路线基本上就没有什么标志性的新模型出现了,而GPT技术路线趋于繁荣。 从Bert往GPT走,模型越来越大,做的事越来越通用。 大型语言模型按照从数据到知识来划分,数据可分为通用数据和领域数据,知识分为语言知识和世界知识;从任务类型来划分,可以分为单一任务和多任务、理解类和生成类。 Bert模式有两阶段(双向语言模型预训练+任务Fine-tuning),适用于理解类、做理解类、某个场景的具体任务,专而轻。 GPT模式是由两阶段到一阶段(单向语言模型预训练+zero shot prompt/Instruct),比较适合生成类任务、多任务,重而通。 T5模式将两者的方法结合,有两阶段(单向语言模型预训练+Fine-tuning)。 张俊林称这种模式“形似GPT,神似Bert”,生成和理解都行,从效果上看较适合理解类任务,国内很多大型语言模型采用这种模式。 目前的研究结论是,如果模型规模不是特别大,面向单一领域的理解类任务,适合用T5模式。 做生成类任务时,用GPT模式效果最好。 如果单独考虑zero-shot,GPT模式效果最好;如果在预训练后引入多任务fine-tuning,则T5模式效果好。 不过张俊林认为这个结论存疑,因为目前的实验Encoder-Decoder都是Decoder-only参数量的两倍。 综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式。 张俊林分析可能的原因有三点:1、Encoder-Decoder里的双向attention,损害zero shot能力;2、Encoder-Decoder结构在生成Token时,只能对Encoder高层做attention,Decoder-only结构在生成Token时可以逐层Attention,信息更细粒度;3、Encoder-Decoder训练“中间填空”,生成最后单词Next Token,存在不一致性,Decoder-only结构训练和生成方式一致。 大型语言模型在客户联络领域的应用价值1. 提升自动回复能力大模型的工作逻辑始于对大量数据的持续训练。 充分、持续的训练,能够使大模型具备更加精准的语义理解能力和更强大的自然语言生成能力。 基于已经训练成熟的大模型,智能客服系统的开发就有了更加坚实的底层支撑。 它可以根据用户输入的问题提供快速和准确的响应,快速解决问题,节省了客服团队大量的时间和资源,提高客户体验和满意度。 2. 强化意图识别能力智能客服能否处理复杂问题,在行业内有一个通用的指标,就是意图识别的准确率。 观察客户联络领域所处的现状,大部分是把简单、重复、流程性的问题,交给机器人处理;复杂的、需要情感关怀的问题,则交由人工客服处理。 而传统的智能客服在意图理解方面的能力,仍然相对薄弱。 ChatGPT的泛化为我们提供了处理复杂问题的新思路。 基于对文本、语音、图像等多模态数据的分析,大模型对于意图识别的准确性进一步提升。 借助大模型,智能客服能够有效结合用户的历史对话、当前沟通内容等上下文语境,更精准地识别出用户的需求和意图。 同时,借助大模型所具备的深度学习能力,进行更加智能化的问答推荐,进而有效赋能企业的业务咨询、留资引导、服务应答等环节。 3. 优化人机交互体验传统机器人在处理复杂场景的时候,往往应变能力不够灵活。 一旦用户问的问题在知识库里没有,或者超出了预设的流程,机器人就无法很好地应对了。 但是,基于大模型超强的知识库,上述情况就缓解了很多。 以ChatGPT为例来看,大模型的深度应用也开创了客户使用体验的新范本。 其丰富的参数和强大的内容生成能力,能够支持智能客服实现更加个性化的问答回复,而非过往千篇一律的机械式问答。 4. 丰富实际应用场景基于大模型所提供的底层能力,智能客服的渗透力和应用场景也将在未来得到进一步延伸。 ChatGPT的应用目前已经有相对确定的场景可以落地了,如扮演人工客服与客户沟通专业知识、提供专业的问答知识建议、对沟通记录进行质检标记、主动分析座席工作行为、发起产品推介、闲聊寒暄以及更“人性化”的引导留资等。 此外,在情绪关怀方面也有很大的应用前景。 参考文献1.0 1.1 1.2 大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写.机器之心.2023-04-032.0 2.1 如何释放ChatGPT大语言模型在客户联络领域中的潜力?.和讯新闻.2023-03-173.0 3.1 3.2 GPT-4要来了!一文看尽大型语言模型的过去、现在、未来.智东西.2023-03-13

亿元 X200 系列手机全渠道销售金额突破 vivo 20
伊姐周六热推 ...... 最后一舞 毒液 ;电影 电视剧