文心智能体技术抢先爆发! OpenAI看好的方向

新智元报道

:部 HYZ

【新智元导读】 2024年世界互联网大会领先科技奖揭晓,文心智能体技术获奖!至此,百度大模型技术已连续两年获得该奖。

11月19日,2024年世界互联网大会领先科技奖揭晓了。

在来自24个国家和地区的270项科技成果中,共有20项成果入选领先科技奖。

作为AI领域的关键代表,获此殊荣的百度文心智能体技术尤为令人瞩目。

最近,Scaling Law撞墙论成为热门话题,大模型是新的科技泡沫吗?

横跨互联网几个时代的巨头百度告诉我们:所谓「AI应用难落地」,「商业化没途径」,还是因为看得不够远。

正如国家卓越工程师、百度首席技术官王海峰所言,智能体,就是最能激发大模型潜力的应用方向。

随着智能体技术的突破,更多的创新将得到激发。而智能体给社会经济发展带来的巨大价值,也将近在眼前了。

AI智能体,像人一样「慢思考」

百度的智能体,背后究竟是怎样的技术原理?这就要从人类的认知系统讲起了。

在心理学研究中,将人类的认知系统分为两种:系统1和系统2。

系统1代反应快,但容易出错;而系统2思考慢一些,但更准确、理性。

基于这一认知特点,百度开发出了突破性的慢思考机制——系统2,其核心就是「思考模型」。

「思考模型」包含了四个关键要素:理解、规划、反思和进化。

在这四个环节紧密配合之下,AI系统便能够可靠地执行任务、持续自我进化,并在一定程度上将思考过程白盒化。

为了实现真正的智能思考,百度在基础大模型之上开展了三个层面突破性的增强训练。

首先是,思考过程的有监督精调,让模型像人类一样进行任务拆解、自主规划。

假设你要计划一次苏州园林之旅,「思考模型」不仅能理解你的需求,还会像人类导游一样,考虑到景点分布、开放时间等因素,为你规划出最优路线。

其次是,行为决策的偏好学习,让模型学会运用工具和决策。

比如统计《师说》中,「师」字出现的频率,模型会主动调用搜索工具获取全文,再调用代码解释器,对其出现的次数进行精确的计算。

最后是结果反思的增强学习,让模型学会检查工具的结果,并动态调整行为。

这一过程就像人类对信息真实性会产生质疑一样,AI也学会了审视数据的准确性。

那么,训练「思考模型」的数据从何而来?毕竟人类思考过程,往往只会发生在每个人脑海中,很难外显数字化,因此急难获取相应的数据。

对此,百度创造性构建了「数据合成」的虚拟环境。

在提示构建阶段,基于领域知识自动合成业务逻辑,通过工具模拟器灵活模拟业务所需的工具,通过用户模拟器生成用户可能的问题或指令,并与智能体交互。

然后,根据输入的提示,思考模型自动探索思考和行动的不同路径,并通过分步执行来模拟智能体的行动过程,最终生成高质量的合成数据。

更进一步地,基于这些合成数据,再利用RL对「思考模型」进行优化。

最终,让机器实现像人一样的思考和行动,自主完成复杂任务,同时在环境中持续学习、自主进化。

智能体的工作流

斯坦福计算机系客座教授曾指出,AI智能体工作流将会在今年取得巨大的进步,甚至还会超越下一代基础模型。

我们都有过这样的经历,询问ChatGPT/Claude等模型后,却得不到满意的输出。

但智能体的关键作用之一,便是提供反馈帮LLM去改进输出,最后获得更好的响应。

其实,一个基础的智能体架构,应该包含了记忆、规划、工具、行动四大方面。

前OpenAI研究员Lilian Weng——LLM Powered Autonomous Agents

而且,在具体工作流中,智能体又有四种不同的设计模式。

首先是反思(reflection),大模型能够自己检查工作,并提出改进方法。

其次是工具使用(tool use),能够主动利用网络搜索、函数调用等任何功能,完成信息收集数据处理,或采取行动。

紧接着是规划(planning),提出一个多步计划并实现目标。

最后是多智能体协作(multi-agent collaboration),多个AI智能体一同协作,分配任务并讨论想法。

总结来说,AI智能体的出现并非让LLM直接生成最终输出,而且多次提示大模型,最终构建出更高质量的输出。

始于模型,但不止于模型

百度智能体背靠着的文心大模型技术,让它在落地应用上有了坚实的基础。

自去年3月16日发布文心一言以来,百度文心大模型不断升级,知识增强、检索增强以及智能体等技术也在不断进化。

今年9月以来,百度文心大模型的日均API调用量,已经暴增至15亿水平,短短半年增长7.5倍。

究其原因在于,它极大地改善了幻觉问题。

凭借搜索引擎的技术积累,百度引入了检索增强机制。通过搜索互联网上已有的知识,让大模型给出更准确的回答。

百度研发的「理解-检索-生成」协同优化的检索增强技术,极大提升了大模型技术及应用效果。

在文本生成领域,检索增强的应用已经成熟。下一步,就解决文生图的幻觉问题了。

为此,百度的研究团队将百度搜索的亿级图片资源,跟强大的基础模型能力结合了起来,开发出了基于检索增强的文生图技术iRAG,让图片生成的效果更加真实。

现在,iRAG既可以生成精确的图片,也可以进行泛化生图。

具体来说,大模型会首先对用户需求进行分析理解,自动规划精确或泛化方案,比如对哪些实体进行增强;接着在增强阶段,对需要增强的实体,检索并选择相应的参考图。

最后在生成阶段,自研的多模可控生图大模型,就通过局部注意力实现图像的高泛化生成,另外还能通过整体注意力计算,进行高精确的图像生成。

正如所说——

从此,AI大模型可以快速走向智能体,迎接原生应用大爆发了。

智能体,开启AI应用新纪元

如今,凭借着门槛低、天花板高,既能让人人都上手,又能做出复杂强大应用的特点,智能体正在成为AI应用最主流的形态。

就连OpenAI的CEO Sam Altman也表示,「下一个关键突破,就是AI智能体」。

放眼全世界,各大科技巨头、独角兽在AI领域里掀起了一波智能体技术竞赛的高潮。

然而,鲜为人知的是,在这波智能体热潮之前,百度就已经完成了关键的布局。

百度,已然领先

互联网时代,百度搜索为核心的应用,实现了人类发展史上第一次知识普惠。

进入下一个周期——大模型时代,AI将让无数普通人都有望成为超级个体。这个赋能者,无疑就是智能体。

李彦宏表示,现在大模型战中所谓的「领先12个月」,「落后18个月」,其实都没那么重要。在这个完全竞争的市场环境中,无论选择什么方向,都会有很多竞争对手。

大模型热到了第三年,我们已经经历了大模型应用发展必经的几个阶段。

过去一年许多目光都聚焦在多模态,但其实,智能体才是目前最能激发大模型潜力的应用方向。

原因就在于,它的门槛确实很低。

大模型变成应用有很多不确定性,但智能体却是非常直接、高效、简单的方式。基础模型需要靠应用才能显现出价值,而智能体是一个几乎「放之四海而皆准」的大模型应用。

因为门槛足够低,甚至都不需要编程,只要用「人话」把工作流说清楚即可,比互联网时代制作一个网页还简单。

打造全新智能体生态

如今,百度已经构建了一个强大的智能体生态系统。

百度的智能体技术充分释放了文心大模型的潜力,成为引领行业变革的新引擎。

IDC、沙利文、中国软件评测中心等多家权威评测显示,文心大模型超过国际领先大模型平均表现,位居中国第一、国际第一梯队。

如今,在营销、客户服务、企业办公、代码编程等领域中,智能体正重塑各行各业升级的新范式。

另一方面,百度基于智能体技术构建的「文心智能体平台」,进一步降低了开发门槛,让AI赋能变得触手可及。

开发者们可以基于自身行业特点和应用场景需求,利用平台提供的多样化能力、工具,打造出大模型时代的AI原生应用。

基于易开发、能分发、有钱赚三大特点,让这个平台实现了价值闭环。

百度搜索AI问答

比如,38岁失业女性答主自创建了「情感咨询导师晓晓」智能体,不仅有了意外的收入,还获得了新的职业机会。

目前,文心智能体平台已吸引超过80万开发者、15万家企业。

不写代码,就能实现任意想法了

目前,百度的智能体技术正在加速LLM深度融入社会各行业的各个环节,助力企业与社会服务智能化升级。

在政务领域,AI法律咨询助手能为劳动者提供及时准确的法律指导。

在农业领域,「农民院士智能体」让科技助农变得更加便捷高效。

在教育领域,它能为师生带来更智能化、个性化的教学新体验。

在辅助编程开发中,智能体降低了普通人开发应用门槛,也提升了专业程序员的编码效率。

这里,尤为值得一提的是百度在「多智能体协作」领域的最新成果——无代码开发工具「秒哒」。

用李彦宏的话说,它是「迄今为止人类历史最复杂的多智能体协作工具」。

多智能体协作,是基于文心大模型的思考和规划能力,实现了对不同智能体的调度和编排。

在策划、内容、开发等工作中,有小组长、策划、小编、程序员和质检员五个智能体相互协作,甚至还能自动识别bug,调用各种工具。

在演讲现场,李彦宏曾以萝卜快跑新技术发布会为例,直接搭建了一个活动报名系统。

用中文描述需求,补充带有大会时间地点主题的文档,就可以指挥秒哒中的多个智能体协作了。

其中,小组长智能体会进行规划调度,会将任务拆解并召唤各智能体来完成任务。

策划智能体负责将策划设计解决方案拆分成i核心需求、内容结构、开发需求、数据收集四个子任务。

小编智能体会邀请函中的所有文字和媒体内容,包括发布展望、时间地点信息、封面图等。

程序员智能体通过写代码,制作和部署网页。

这个过程中,通过场景知识的增强,提升了复杂代码生成的质量与稳定性,能高效实现用户所需的功能。

最后,质检员智能体会检查代码bug,修复,进行代码测试。

一套流程下来,活动邀请函立马就生成了。

同时,百度的另一个多智能体应用——代码助手「文心快码」则升级到了3.0版本,全面进入智能体时代。

具体来说就是,在开发全流程中,会有多个智能体进行流水线协同,进而大幅提升程序员的工作质量和效率。

在推动传统产业转型升级的同时,百度智能体技术还催生了在智能家居、智能电商等新兴产业发展。

更重要的是,它还创造出智能体工程师、训练师等全新职业,推动人才培养模式创新,为产业结构升级提供源源不断人才支持。

站在新的历史节点上,百度文心智能体正重新定义AI的发展方向。

在全球科技巨头还在为智能体技术摩拳擦掌之时,他们已用扎实的技术积累,以及丰富的实践经验,验证了智能体技术的巨大潜力。

多次获奖,是全行业的肯定

仔细回看,其实不止在今年,此前百度就曾五次在世界互联网大会乌镇峰会上获此殊荣,得奖理由分别是百度大脑、小度助手、Apollo、飞桨、知识增强大语言模型技术。

今年的百度文心智能体,已经是第六次获奖。

不仅如此,百度大模型相关技术还曾获国家技术发明二等奖、中国专利金奖、吴文俊人工智能科技进步特等奖、中国电子学会科技进步一等奖等多个奖项。

从第一届世界互联网大会到现在的整整11年间,百度率先预判出下一步技术的突破方向,同时也不忘将技术与实践紧密结合,迅速抓住当下市场的痛点。

百度大脑、小度助手(DuerOS)、Apollo自动驾驶平台、飞桨开源深度学习平台等,都是百度在行业内先行一步的探索,全部取得了成功。

这些领域内的前沿技术,带动的不仅是百度的发展,也以引领者的姿态,推动了全行业的技术进步,让全行业的技术发展坐上了快车。

更关键的是,百度并非只局限于发展单一的技术,而是将格局放得更大,致力于建立一个包含硬件、软件、服务和平台的完整生态系统。

AI的未来究竟在何方?这个答案,或许就藏在百度智能体技术的一个个突破里。

从去年10月的前瞻布局,到如今智能体的蓬勃生长;从系统2思考模型创新,到智能体赋能万千企业的实践。

百度正用不断创新的技术力量,为每个领域带去智能化的蝶变。


大佬们的人工智能思辨,马云失误了吗?

当新物种突然出现的时候,置身其中的人们往往会产生一个惯性的评判,或是看好,或是唱衰,或是思考善与恶,或是探索危与机。 而在科技领域,人工智能无疑就是一个“新物种”,甚至有人夸张成互联网世界里的“生物入侵”。 科技圈的诸多大佬们也如约扮演了“剧中人”的角色,不管是在社交网络、公关论坛还是含金量颇高的行业会议上,无不开始抒发自己对人工智能的看法。 就在不久前马云还表示听到人工智能就生气,但阿里发布人工智能新品的消息却不胫而走。 马云的言论和阿里的行为虽然心口不一,却往往成了科技媒体的头条。 大佬们对人工智能的态度影响着一个公司,甚至一个社会的发展,这是幸运,却也可能是不幸。 为AI着迷的大佬们:乐观派、悲观派和保守派一千个人眼中有一千个哈姆雷特,人工智能似乎有着同样的魅力,那些自带话语权的大佬们,在审视人工智能这个“新物种”的时候,也如同读莎翁的小说那样,在自身的认知之上得出了不同的答案。 最为知名的大概就是科技大佬当中的悲观派,斯蒂芬?霍金、比尔?盖茨、埃隆?马斯克等等,单从名单上来看,他们对人工智能的“恐惧”足以影响大多数人的情绪。 早在2014年的时候,埃隆?马斯克就曾发文称“我们需要万分警惕人工智能,它们比核武器更加危险!”,个中寓意不言而喻。 2015年的时候,在李彦宏、埃隆?马斯克和比尔?盖茨共同出席的人工智能论坛上,二者从态度激烈的“人工智能魔鬼论者”开始走向理性和缓和。 与之同时,马斯克还做了一件意料之内的事情,与彼得?泰尔等人向OpenAI注资10亿美元旨在打造与人为善的人工智能技术。 当然,人工智能领域也不缺少乐观派,谷歌前首席执行官埃里克?施密特、网络创始人李彦宏、亚马逊首席执行官杰夫?贝索斯等等,阵容豪华程度几乎不输“悲观派”。 施密特在致《财富》杂志的一份声明中曾表示,“一些人曾宣扬对人工智能的恐惧,并呼吁立即采取措施来避免可能出现的社会灾难。 然而,我们对人工智能的观点却要乐观得多。 ”颇有一些和埃隆?马斯克针锋相对的意味。 “互联网是开胃菜,人工智能才是主菜”,从中不难看出李彦宏对于人工智能的青睐。 同样的还有贝索斯,在接受媒体采访时他曾表示,“自从科幻的最初年代开始,人们的一大梦想就是能够以一种自然的方式与电脑对话和交流,并让电脑帮助人们做事。 ”较为特殊的是对待人工智能的保守派,即便是马云这样被奉为“先知”式的人物,因为各种和人工智能相关的互怼事件,与人工智能的主流意识相左。 令人印象深刻的是,此前的乌镇人机大赛上,因为战胜了围棋世界冠军柯洁,人工智能再度引发了一轮舆论漩涡,而马云却因为对人工智能的讥讽,和棋圣聂卫平隔空互怼。 相比于对人工智能技术的崇拜,马云似乎更看重数据的价值,有了数据就有了更精准的用户画像,也就意味着商业上更值得期待的未来。 不难发现,马云在人工智能的认知上,更倾向于数据而非算法,所谓的保守,不过是对人工智能的误解。 可以肯定的是,大佬们的表态与自家的战略布局不无关系,All in人工智能的谷歌和网络自然成了人工智能的支持者,而那些持悲观情绪或者犹豫的大佬们,实际上也反映了自家人工智能战略的不确定性。 大佬的态度,多半决定了企业的方向作为一家百亿甚至千亿市值公司的掌舵者,这些科技大佬的态度决定的不只是自身对于人工智能的喜好,还有人工智能方向和策略上的差异。 从国外互联网巨头们的动作来看,亚马逊、谷歌等充当了人工智能的开拓者,尤其是谷歌,无论在算法、硬件还是产品上,在人工智能领域再造一个谷歌的意图似乎已是路人皆知。 反观微软、苹果等略带悲观情绪或有些保守的企业,尽管在人工智能领域不缺少声音,却也表现出了跟随者的窘态,比如苹果发布的HomePod智能音响,不免有步亚马逊智能音响Echo的嫌疑。 对于国内的互联网巨头而言,人工智能的意义绝不在于新的发展趋势,更是中国互联网摆脱跟随者角色的历史机遇。 在此之前,国内的互联网企业或多或少有几分“copy to硅谷”的嫌疑,人工智能无疑是中美站在同一起跑线上的新赛道。 只是在人工智能的问题上,大佬们不同的态度很可能导向不同的结局。 正如谷歌CEO拉里?佩奇所说“搜索引擎是我们的主动意识与互联网世界之间最重要的连接方式,或许它们将成为最接近人工智能的互联网应用。 ”同样的,网络在人工智能的选择上可以说是顺势而为,也是人工智能在中国的忠实拥趸,近两年更是对人工智能技术的全面拥抱。 与之形成鲜明对比的或许是阿里。 即便马云并未发表过看好人工智能的言论,从阿里云的人工智能ET、YunOS、飞天操作系统等,不难窥视其人工智能战略。 特别是几个月前开始推动的“NASA”计划,将着重发力机器学习、芯片、IoT、操作系统和生物识别。 只是从人工智能的方向上来看,阿里或许仍存在一些偏差。 就在不久前,阿里人工智能实验室曝出的海报确认了阿里智能音响存在的事实,顺便再次让人想起了亚马逊的智能音响ECHO,也是继Google Home和苹果的HomePod之后,智能音响市场出现了另一个跟随者。 而这一消费级人工智能产品的出现,与马云此前“一听到人工智能这个词就生气”的言论颇有几分背道而驰的意味。 加之有媒体扒出了阿里智能音箱的团队来自两年前被解散的机器人团队,似乎又增加了几分不确定性。 类似的还有阿里“无人超市”,一度被外界视为人工智能和新零售结合的产物,并被描绘出了一个在卷积神经网络、深度学习、机器视觉以及生物识别等人工智能前沿技术的应用下,可以扫手进店、直接购物、拿了就走、无需结账的理想场景。 现实却是,阿里无人超市仍然只是一个新技术的试炼场,主要用于收集数据和分析,不排除未来用来服务于移动支付的可能。 在媒体眼中,阿里是位浪漫洒脱的重商主义者,这和阿里的基因以及马云的远景有很大关系,同样映射在了人工智能战略上。 阿里的人工智能注重的是赋能商业,配合云计算、大数据对阿里的商业体系和合作伙伴进行赋能,有了长期的愿景,却少了些短期产品和中期规划。 或许未来的阿里会发布更多诸如智能音响、无人超市等产品,可这些能否撬动人工智能的未来,仍然有待观望。 当然,国内人工智能不止网络和阿里两家,几乎所有的科技公司都在拥抱人工智能,为之诞生的创业公司更是数不胜数。 而能否押对人工智能的未来方向,势必是新一轮竞赛中胜出的关键。 结语即便是马云等大佬,也有犯错的时候,不应该为人工智能戴上束缚可能性的金箍。 对于人工智能的认知,应该走出现有的商业局限,以面对“新物种”的姿态寻求新的价值和突破点。

人工智能的发展前景趋势?

1、 机器视觉和语音识别是主要市场

技术层是基于基础理论和数据之上,面向细分应用开发的技术。 中游技术类企业具有技术生态圈、资金和人才三重壁垒,是人工智能产业的核心。 相比较绝大多数上游和下游企业聚焦某一细分领域、技术层向产业链上下游扩展较为容易。

该层面包括算法理论(机器学习)、平台框架和应用技术(计算机视觉、语音识别、自然语言处理)。 众多国际科技巨头和独角兽均在该层级开展广泛布局。 近年来,我国技术层围统垂直领城重点研发,在计算机视觉、语音识别等领城技术成熟,国内头部企业脱颗而出,竞争优势明显。

2、计算机视觉发展历经三大理念,规模突破400亿元

1982年马尔(David Marr)《视觉》(Marr,1982)一书的问世,标志着计算机视觉成为了一门独立学科。 计算机视觉的研究内容,大体可以分为物体视觉(object vision)和空间视觉(spatial vision)二大部分。 物体视觉在于对物体进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为“动作(action)”服务。 正像著名的认知心理学家所言,视觉的主要功能在于“适应外界环境,控制自身运动”。 适应外界环境和控制自身运动,是生物生存的需求,这些功能的实现需要靠物体视觉和空间视觉协调完成。

计算机视觉近40年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了三个主要历程。 即:马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。

国际市场研究机构Research And Markets发布的最新报告显示,2019年全球计算机视觉市场规模为46.433亿美元,预计到2027年将达到950.805亿美元,从2020年到2027年,预计年复合增长率为46.9%。

3、语音识别发展科追溯到1956年

语音识别的研究工作可以追溯到20世纪50年代。 在1952年,AT&T贝尔研究所的Davis,Biddulph和Balashek研究成功了世界上第一个语音识别系统Audry系统,可以识别10个英文数字发音。 这个系统识别的是一个人说出的孤立数字,并且很大程度上依赖于每个数字中的元音的共振峰的测量。 1956年,在RCA实验室,Olson和Belar研制了可以识别一个说话人的10个单音节的系统,它同样依赖于元音带的谱的测量。 到21世纪之后,深度学习技术极大的促进了语音识别技术的进步,识别精度大大提高,应用得到广泛发展。

目前,语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领域。 例如,现今流行的手机语音助手,就是将语音识别技术应用到智能手机中,能够实现人与手机的智能对话功能。 其中包括美国苹果公司的Siri语音助手,智能360语音助手,网络语音助手等。

随着语音技术和自然语言理解技术的快速进步,AI语音语义技术已在智能翻译、智能医疗、智能汽车、智能客服、互联网语音审核等多个领域实现场景应用。

疫情之后不仅是工业领域,政务服务领域的语音机器人、传统行业企业的语音机器人也将有较高的市场增长空间。 另外,NLP、AI数字员工、RPA的发展,一定程度上也将重塑AI应用场景。

2018年,全球智能语音市场仍呈现快速增长趋势,市场规模为142.1亿美元,根据预测到2024年全球智能语音市场规模将达到215亿美元,其中智慧医疗健康、智慧金融以及各类智能终端智能语音技术需求将成为主要的驱动因素。

4、美国AI高层次学者数量大幅领先

AI高层次学者是指入选AI 2000榜单的2000位人才,由于存在同一学者入选不同领域的现象,经过去重处理后,AI高层次学者共计1833位。 从国家角度看AI高层次学者分布,美国A1高层次学者的数量最多,有1244人次,占比62.2%,超过总人数的一半以上,且是第二位国家数量的6倍以上。 中国排在美国之后,位列第二,有196人次,占比9.8%。 德国位列第三,是欧洲学者数量最多的国家;其余国家的学者数量均在100人次以下。

—— 以上数据参考前瞻产业研究院《中国人工智能行业市场前瞻与投资战略规划分析报告》

百度文心一言是什么?你对文心一言有什么期待?

网络文心一言是每日更新的一句古诗词,旨在激发读者的思考,增强文人文魂。 我期待文心一言能够带给我更多美好的文学体验,更深刻的文化意境,以及更多有趣的历史故事。

进入3月中旬,全球科技巨头再次竞相亮相大语言模型赛道。

一周之内,开发出ChatGPT的美国初创公司OpenAI,对OpenAI投入巨资的科技巨头微软,以及中国互联网龙头企业网络,相继发布了在大语言模型(LLM)领域的最新动态。 这也再次引发了全球对该领域的关注。

当地时间3月14日,OpenAI公布了其大型语言模型的最新版本——GPT-4,它比GPT-3.5的问答质量和技术都有明显提升。

3月16日下午,网络开启新一代大语言模型、生成式AI产品文心一言测试,从而成为第一家加入该赛道竞争的中国企业。

在发布会现场,网络创始人、董事长兼首席执行官李彦宏通过问答的形式,展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成等五个使用场景。 几个小时后,微软宣布,将把GPT-4接入Office全家桶,新名为“Microsoft 365 Copilot”。

正如财经E法在2月17日发布的文章(OpenAI独家回应|ChatGPT为何不向所有中国用户开放注册?)所述,中国内地和中国香港的手机号均无法注册ChatGPT账号。 此外,虽然OpenAI的应用程序编程接口(API)已向161个国家和地区开放,但不包括中国内地和中国香港。

一方面,业界普遍关注,在AIGC(生成式人工智能)势不可挡的科技浪潮中,谁将成为下一个弄潮儿?另一方面,在中美科技竞合的敏感期,各方亦颇为关注网络迈出的第一步带来的涟漪,以及中国企业该如何应对。

01“真的ready了吗?”

3月16日,李彦宏身着白衬衫和运动鞋演讲。开场就直面疑问,“最近一段时间,很多朋友问我,为什么是今天,你们真的ready了吗”?

李彦宏的回答是,虽然网络已投入AI研究十多年,为发布文心一言做了充分准备,但“不能说完全ready了”,因为文心一言对标ChatGPT、甚至是GPT-4,门槛很高,还“有很多不完美的地方”。 但他强调“一旦有了真实的人类反馈,文心一言的进步速度会非常快”。

李彦宏解释,之所以选择当天发布,是因为市场有需求:客户和合作伙伴都希望能早一点用上最新最先进的大语言模型。

如何理解李彦宏所言的“对标GPT-4的门槛很高”?

当地时间3月14日,OpenAI公布了其大型语言模型的最新版本——GPT-4。 值得注意的是,GPT-4是大型的多模态模型,即能够接受图像和文本类型的输入。 而GPT-3.5只能接受文本输入。

在展示视频中,OpenAI总裁兼联合创始人格雷格·布罗克曼(Greg Brockman)用笔和纸画了一幅网站草图,并将图片输入GPT-4。 仅1到2秒后,GPT-4就生成了网页代码,制作出了与草图高度相似的网站。 根据OpenAI发布的实验数据, GPT-4模型相较前一代GPT-3.5已取得了巨大的进步,在许多专业测试中表现出超过绝大多数人类的水平。

浙江大学国际联合商学院数字经济与金融创新研究中心联席主任盘和林认为,文心一言未来还有待全面开放来获得用户检验。 无论是通过B端API还是直接向C端用户开放,用户体验口碑都是硬道理。 当前ChatGPT没对中国用户开放,在国内市场,网络将获得先发优势。

对OpenAI和网络的产品均做过测评的艾媒咨询CEO兼首席分析师张毅表示,GPT系列大模型,包括GPT-4与文心一言本质上都是同一类产品,只是它们各自的数据覆盖范畴和数据模型的积累长短不一。 从短期看,OpenAI的产品准备时间相对更加充足,智能程度暂时领先一些。 但是对文心一言而言,能在这么短的时间内训练出这样的一个产品,也是非常了不起的。

同时,张毅也对网络做出更好产品更有信心,他的理由是,从人工智能、大数据、大模型的人才储备来看,中国会更有优势。

中央财经大学数字经济融合创新发展中心主任陈端则认为,与海外竞争对手相比,网络最大的优势是立足本土,构建了语言和文化层面理解的护城河。

作为中国公司研发的大语言模型产品,文心一言的中文理解能力备受关注。 重要原因是,此前很多评论人士认为,ChatGPT的中文问答能力不如英文问答能力强。

李彦宏表示,作为扎根于中国市场的大语言模型,文心一言具备中文领域最先进的自然语言处理能力。 在现场展示中,文心一言正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”创作了一首藏头诗。

李彦宏称,文心一言的训练数据包括:万亿级网页数据,数十亿的搜索数据和图片数据,百亿级的语音日均调用数据,以及5500亿事实的知识图谱等,这让网络在中文语言的处理上能够独一无二。

受访专家也指出,由于汉语的特殊性,中国企业在研发大模型时面临的难度更大,但若突破了,也会在提供本土服务时,具备更大的优势。

法国里昂商学院人工智能与商业分析教授丁文璿日前对媒体指出,语言对话模型训练,需要让机器对文字产生理解,英语比中文稍微容易一些。 丁文璿解释,中国人工智能技术所处理的中文语言,大多都是象形词,而英文是解释性的,相较而言词语也并非特别丰富。

此外,上海交通大学约翰·霍普克罗夫特计算机科学中心助理教授林洲汉认为,未来大语言模型大概率会往多模态、交互式的方向发展,进一步将视觉、语音、强化学习等领域的技术综合进来。 李彦宏也表示:“多模态是生成式AI一个明确的发展趋势。 未来,随着网络多模态统一大模型的能力增强,文心一言的多模态生成能力也会不断提升。 ”

在多模态生成方面,李彦宏展示了文心一言生成文本、图片、音频和视频的能力。 文心一言在现场用四川话朗读了一段内容,并根据文本生成了一段视频。 但李彦宏透露,文心一言的视频生成成本较高,现阶段还未对所有用户开放,未来会逐步接入。

李彦宏称,文心一言的训练数据包括:万亿级网页数据,数十亿的搜索数据和图片数据,百亿级的语音日均调用数据,以及5500亿事实的知识图谱等,这让网络在中文语言的处理上能够独一无二。

受访专家也指出,由于汉语的特殊性,中国企业在研发大模型时面临的难度更大,但若突破了,也会在提供本土服务时,具备更大的优势。

法国里昂商学院人工智能与商业分析教授丁文璿日前对媒体指出,语言对话模型训练,需要让机器对文字产生理解,英语比中文稍微容易一些。 丁文璿解释,中国人工智能技术所处理的中文语言,大多都是象形词,而英文是解释性的,相较而言词语也并非特别丰富。

此外,上海交通大学约翰·霍普克罗夫特计算机科学中心助理教授林洲汉认为,未来大语言模型大概率会往多模态、交互式的方向发展,进一步将视觉、语音、强化学习等领域的技术综合进来。 李彦宏也表示:“多模态是生成式AI一个明确的发展趋势。 未来,随着网络多模态统一大模型的能力增强,文心一言的多模态生成能力也会不断提升。 ”

在多模态生成方面,李彦宏展示了文心一言生成文本、图片、音频和视频的能力。 文心一言在现场用四川话朗读了一段内容,并根据文本生成了一段视频。 但李彦宏透露,文心一言的视频生成成本较高,现阶段还未对所有用户开放,未来会逐步接入。

发布会前后,网络的股价经历了大落大起。 3月16日,港股网络盘中股价跌幅一度扩大超10%,报120.1港元。 截至收盘,网络股价跌幅为6.36%,报125.1港元。 但网络股价在美股势头强劲,当日网络美股开盘低开高走,振幅超7%。 截至收盘,报138.16美元,涨幅为3.8%。 3月17日,网络港股表现强势,盘中一度大涨超15%。 截至当日收盘,网络港股涨幅为13.67%,报142.2港元。

文心一言宣布开启邀请测试一小时内,排队申请文心一言企业版API调用服务测试的企业用户已达3万多家,申请产品测试网页多次被挤爆,网络智能云官网流量飙升百倍。

文心一言的市场热度持续飙升,资本市场也给予了价值重估。 张毅认为,这也代表了公众对大语言模型/生成式AI “既期待,又担忧,然后是希望”的心情。

02谁都不能错过的科技革命

事实上,“真的ready了吗?”并不仅针对网络,也是伴随此轮“ChatGPT”热潮以来,公众普遍的疑问。

李彦宏观察到,从2021年开始,人工智能技术开始从“判别式”向“生成式”转变。

创新工场董事长兼CEO李开复3月14日在一场趋势分享会上表示,AI 2.0时代的第一个现象级应用,就是以GPT-4为代表的AIGC,又称生成式AI(Generative AI)。 李开复表示,AI2.0 是绝对不能错过的一次革命,它将会是一个巨大的平台性机会,这个机会将比移动互联网大十倍。 他还表示,AI 2.0也是中国在AI领域的第一次平台角逐机会。

受访专家普遍认为,此前全世界的AI企业都遇到了一个极大的问题:即使技术储备十分丰富,AI应用并没有给它们带来丰厚的收益。 造成这一问题的原因在于,AI产品的应用主要集中在B端(企业用户)和G端(政府用户),AI产品在进入企业或机构时往往流程复杂,这在某种程度上会限制AI产品在市场上的快速扩张。

因此,张毅认为,AIGC的产品应用方向在C端更有可能产生巨大的商业机会。 他分析说,在美国市场,此前C端市场被谷歌、亚马逊、Meta等企业抢占,让微软压力非常大,更需要一款产品来扳回一局。 在中国市场,网络的优势和谷歌一样,都有强大的搜索引擎对数据的抓取能力,以及储存、整理、分析能力的基础。 中国本身拥有十几亿人口的巨大市场,网络完全可以做得很优秀。

“网络和微软、谷歌本质上是两个不同市场的竞争,所以我相信文心一言以及系列产品也一定会跑出来。 ”张毅说。

李彦宏坚称,文心一言不是“中美科技对抗的工具”。 但他也承认,ChatGPT 的成功,加快了网络推出该产品的进度。

网络CTO王海峰表示,人类进入AI时代,IT技术的技术栈可以分为四层:芯片层、框架层、模型层和应用层。 网络是全球为数不多、在这四层进行全栈布局的人工智能公司,在各个层面都有领先业界的自研技术。 例如,高端芯片昆仑芯、飞桨深度学习框架、文心预训练大模型以及搜索、智能云、自动驾驶、小度等应用。 王海峰认为,网络全栈布局的优势在于,可以在技术栈的四层架构中,实现端到端优化,大幅提升效率。

文心一言与ChatGPT一样,都使用了SFT(模型微调)、RLHF(从人类反馈中进行强化学习)以及Prompt(提示)作为底层技术。 此外,文心一言还采用了知识增强、检索增强和对话增强技术。 王海峰表示,这三项是网络已有技术优势的再创新。

陈端认为,在当前技术创新的集成性越来越高的当下,全栈式布局的单一公司在内部技术研发统筹能力和后期商业化进行中的协同能力上具有比较优势。

信心很重要,但差距无法忽视。

在本月初的两会期间,中国科技部部长王志刚在回应ChatGPT相关的问题时,用足球打比方,指出中国还有很多工作要做。 “踢足球都是盘带、射门,但是要做到梅西(足坛巨星利昂内尔·梅西)那么好也不容易。 ”

王志刚指出,中国在这方面也作了很多布局,在该领域的研究也进行了很多年,并且有一些

成果,“但目前要达到像 OpenAI 的效果可能还要拭目以待”他补充道。

王志刚说,ChatGPT出来以后,引起了大家的关注。 实际从技术本身源头来讲,它叫做NLP、NLU,也就是自然语言处理和自然语言理解。 ChatGPT之所以引起关注,在于它作为一个大模型,有效结合了大数据、大算力、强算法,计算方法有进步。 同样一种原理,做得有区别。 比如大家都能做出发动机,但质量是有不同的。

然而,无论是ChatGPT还是文心一言,其背后的大语言模型是核心竞争力。 北京大学王选计算机研究所研究员赵东岩告诉财经E法,国内大模型在数据、训练方法和费用投入方面和OpenAI还有一定差距。

一位科技系统人士则对财经E法指出,客观而言,中美目前在该领域的基础研究成果差距较大。 这些基础研究成果包含自然语言处理(NLP)、数据库、GPU产品,“美国切断GPU芯片(的供应),(中国的)算力就跟不上”。

大型算力的核心在于高性能GPU芯片。 北京航空航天大学软件学院助理教授周号益告诉财经E法,在GPU芯片等计算硬件上,中国与国际的差距在十年左右,硬件水平会严重制约大语言模型以及科学计算类模型的发展。

周号益认为,在技术和模型上,中国的科技公司与OpenAI并没有代差,差距仅在五年以内,在一些较小的技术领域差距只有2-3年。 在数据采集方面,以GPT-3大模型为例,其训练的语料中中文只占5%,中国科技企业对中文语料的积累具有一定优势,因此极有可能在中文领域实现突破。

03巨头下一步:构建生态

对于以ChatGPT为代表的大语言模型赛道如何实现盈利,是各方公认的难题(ChatGPT爆火的冷思考:盈利难题与治理挑战)。

开发出ChatGPT的OpenAI仍是一家亏损中的创业公司。 而2023年1月,投资银行摩根士丹利(Morgan Stanley)的一份分析报告称,ChatGPT的一次回复成本大约是谷歌搜索查询平均成本的6倍-28倍。

但腾讯研究院高级研究员曹建峰和经纬创投前副总裁庄明浩都认为,ChatGPT能带来多少盈利,并不是OpenAI关注的重点,重点是基于它的模型能长出什么样的服务和应用,从而构建起一个生态系统。 “ChatGPT的发展需要一个产业生态,比如它和微软相关应用的融合就是很好的思路。 ”曹建峰说。

当地时间3月15日,微软副总裁兼消费者首席营销官余瑟夫·梅迪发文表示,新版必应搜索引擎已经在 GPT-4 上运行。 另据OpenAI披露,GPT-4是在微软Azure AI 超级计算机上进行训练的,并将基于Azure 的AI基础架构向世界各地的用户提供 GPT-4服务。

谷歌则宣布开放其大语言模型PaLM的API接口,并推出面向开发者的工具MakerSuite。 通过PaLM API 接口,开发者们可以将PaLM用于各种应用程序的开发。 MakerSuite则可以让开发者快速对自己的想法进行原型设计,并且随着时间的推移,该工具将具有用于快速工程、合成数据生成和自定义模型调整的功能。

微软迅速跟进。 当地时间3月16日,微软宣布将把GPT-4接入Office全家桶。 新功能名为“Microsoft 365 Copilot”。

李彦宏则在发布会上表示,文心一言定位于人工智能基座型的赋能平台,将助力金融、能源、媒体、政务等千行百业的智能化变革。

根据文心一言的邀请测试方案,3月16日起,首批用户可通过邀请测试码,在文心一言官网体验产品,后续将陆续开放给更多用户。 此外,网络智能云即将面向企业客户开放文心一言API接口调用服务。 该服务于3月16日起开放预约。

截至3月18日早11点,排队申请网络智能云文心一言企业版API调用服务器测试的企业用户增加到9万家,网络收到关于文心一言合作的咨询 6588条。

陈端认为,这一轮的竞争,不仅是商业主体的竞争,实际上也是关乎下一轮国家数字竞争力的竞争。 所以,网络的当务之急不完全是技术层面的研发,也需要引领更多初创型企业、生态合作伙伴加盟生态阵营。

在陈端看来,中国在构建生态系统上具有优势。 陈端指出,中国的移动互联网经过多年发展,应用层生态化的配套创新已经非常成熟。 应用层的很多中小微创业团队,在过去配合移动互联生态做了大量的局部、垂类场景端的创新,把过去的这种模式以及底层基础设施从移动互联迁移到大模型领域依然适用。

04中小企业还有机会吗?

面对大语言模型的浪潮,中国企业该如何抓住机遇,避免风险?

在中国,布局ChatGPT的企业有两种类型:第一种是传统的互联网大公司,第二种是一些初创企业。

陈端认为,目前市场上的初创公司已经错过了布局大模型的初始创业阶段。陈端分析说,

重新打造生成式AI企业,跟时机、底层的生态支撑度,还有创始人自身的阅历、经验、视野、个人IP的自然调动能力都是息息相关的。 此外,大模型在前期的投入,不管是算力还是其他的成本,以及时间窗口都很重要。

陈端表示,目前,网络有能力把自己的其他的产品与文心一言协同,就像微软把Office与GPT-4协同推出Copilot,而“创业者单纯去拼大模型却没有配套生态,这是很成问题的”。

张毅也认为,对于能够有资金、实力支撑的企业来讲,单独构建大模型产品可能会更受资本和创业者的青睐。 但对于中小企业来讲,依托文心一言的开放平台去嫁接自己在细分领域的应用,也是一个不错的选择。

因为要做出大语言模型,需要长时间,以及巨额资金的投入。

OpenAI成功的背后,是微软多年来的巨额投入。 美国时间2023年1月23日,微软宣布将对OpenAI进行为期数年、价值数以十亿计美元的投资。 在2019年和2021年,微软曾向OpenAI两次投资。 2019年的投资为10亿美元,而2021年的投资未公开金额。

AI公司“彩云科技”的创始人袁行远在接受36氪采访时指出,要想跑通一次100亿以上参数量的模型,至少要做到“千卡/月”这个级别,即:用1000张GPU卡,然后训练一个月。 即使不用最先进的英伟达A100,按照一张GPU五万元的均价计算,1000张GPU意味着单月5000万的算力成本,这还没算上算法工程师的工资。

“无论是哪家公司,都不可能靠突击几个月就能做出这样的大语言模型。 ”李彦宏在发布会上表示,深度学习、自然语言处理,需要多年的坚持和积累,没法速成。 大模型训练堪称暴力美学,需要有大算力、大数据和大模型,每一次训练任务都耗资巨大。

网络提供的数据显示,网络近十年累计研发投入超过 1000 亿元。 2022 年网络核心研发费用 214.16 亿元,占网络核心收入比例达到 22.4%。 但网络并未透露大模型研发在核心研发费用中的占比。

李彦宏在发布会上表示,网络对文心一言的定位,是一个通用的赋能平台,金融、能源、媒体、政务等千行百业,都可以基于这个平台来实现智能化变革,实现效率提升,创造巨大的商业价值。 李彦宏认为,大模型时代将产生三大产业机会,分别为新型云计算公司、进行行业模型精调的公司和基于大模型底座进行应用开发的公司,即应用服务提供商。

李彦宏断言,对于大部分创业者和企业来说,真正的机会并不是从头开始做ChatGPT和文心一言这样的基础大模型,这很不现实,也不经济。 基于通用大语言模型抢先开发重要的应用服务,这可能才是真正的机会。 目前,基于文本生成、图像生成、音频生成、视频生成、数字人、3D等场景,已经涌现出很多创业明星公司,可能就是未来的新巨头。

“大模型、生成式AI最终的产品形态还不得而知,所以这条路注定是长跑,需要整个科技界在资本、研发、模式创新上密切、持续地跟跑。 ”张毅说。

李开复认为,AI2.0会最先应用在能容错的领域,而毫无疑问最大的应用领域现在是内容创造。 每个领域都可以把原有的App重写一次,创造出更赚钱的商业模式,最终AI2.0的生成能力会把成本降的几乎到0。

收敛速度最高8倍 准确率提升超30%!华科发布MoE Jet
大学含金量最高的五个专业 就业率极高 毕业生被企业哄抢