智源发世界模型Emu3 Ilya观点得证!仅靠预测下token原生多模态

OpenAI前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点:

虽然, 下一token预测 已在大语言模型领域实现了ChatGPT等突破,但是 在多模态模型中的适用性仍不明确 。多模态任务仍然由扩散模型(如Stable Diffusion)和组合方法(如结合 CLIP视觉编码器和LLM)所主导。

2024年10月21日, 智源研究院 正式发布 原生多模态世界模型Emu3 。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。

Emu3在 图像生成、视频生成、视觉语言理解 等任务中超过了SDXL 、LLaVA、OpenSora等知名开源模型,但是 无需扩散模型、CLIP视觉编码器、预训练的LLM 等技术, 只需要预测下一个token

图注:在图像生成任务中,基于人类偏好评测,Emu3优于SD-1.5与SDXL模型。在视觉语言理解任务中,对于12 项基准测试的平均得分,Emu3优于LlaVA-1.6。在视频生成任务中,对于VBench基准测试得分,Emu3优于OpenSora 1.2。

Emu3提供了一个强大的 视觉tokenizer ,能够将视频和图像转换为离散token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中。与此同时,该模型输出的离散token可以被转换为文本、图像和视频,为 Any-to-Any 的任务提供了更加统一的研究范式。而在此前,社区缺少这样的技术和模型。

此外,受益于Emu3下一个token预测框架的灵活性, 直接偏好优化 (DPO)可无缝应用于自回归视觉生成,使模型与人类偏好保持一致。

Emu3研究结果证明, 下一个token预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能 。通过将复杂的多模态设计收敛到token本身,能在大规模训练和推理中释放巨大的潜力。下一个token预测为构建多模态AGI提供了一条前景广阔的道路。

目前Emu3已 开源了关键技术和模型 。(开源模型和代码地址在文末)

Emu3一经上线便在社交媒体和技术社区引起了热议。

有网友指出,“这是几个月以来最重要的研究,我们现在非常接近拥有一个处理所有数据模态的单一架构。”

“Emu3 是一种非常新颖的方法(至少在我看来是这样),它有机会将多模态合并为一,只需将它们都视为token即可。虽然还处于初期,但展示效果很不错。想象一下,我们可以无限扩展视频和生成多种模态。”

甚至有网友评价:“也许我们会得到一个真正开放的 OpenAI v2?”

对于Emu3的意义和影响,有评论指出:“Emu3 将彻底改变多模态AI领域,提供无与伦比的性能和灵活性。”

“Emu3在各行各业的广泛适用性和开源灵活性将为开发者和企业解锁人工智能创新能力的机会。”

“对于研究人员来说,Emu3意味着出现了一个新的机会,可以通过统一的架构探索多模态,无需将复杂的扩散模型与大语言模型相结合。这种方法类似于transformer在视觉相关任务中的变革性影响。”

“Emu3的统一方法将带来更高效、更多功能的AI系统,简化多模态AI的开发和应用以及内容生成、分析和理解的新可能性。”

“Emu3 改写了多模态人工智能的规则…Emu3 重新定义了多模态AI,展示了简单可以战胜复杂。多模态AI的未来变得更加精炼与强大。”

效果展示

1. 视觉理解

Emu3 展现了强大的图像及视频的感知能力,能够理解物理世界并提供连贯的文本回复。值得注意的是,这种能力是在不依赖于基础LLM模型和CLIP的情况下实现的。

1.1 图像输入

用户问题: Describe the landmark.

模型回答: The image showcases the Brooklyn Bridge, a prominent suspension bridge in New York City, recognized by its distinctive towers and the web of cables that support it. This iconic structure connects the boroughs of Brooklyn and Manhattan.

用户问题: Please describe the image in detail.

模型回答: The image is the cover of a magazine titled “Parktakes,” which is the Fall 2017 issue. The cover features two individuals in a white kayak, paddling on a body of water. The kayak is positioned diagonally, with the two individuals seated towards the front. Both individuals are wearing life jackets, which are red with black straps, and they are holding paddles with orange blades. The person on the left is a woman with long dark hair, wearing sunglasses and a black top. The person on the right is a man with short hair, wearing a green shirt and a light-colored cap. They both appear to be smiling and enjoying their time on the water.

The background shows a natural setting with trees and greenery, indicating that they are likely in a park or natural reserve. The water is calm, and the sky is not visible, suggesting a serene and peaceful environment.

The magazine cover includes several text elements:

1.: “Parktakes” is prominently displayed at the top in large, bold, blue letters.

2. Fall 2017 Issue : The issue is marked in the top right corner in a smaller, white font.

3. Main Feature : “Enjoy Fall Adventures in Parks” is written in a large, bold, orange font, emphasizing the theme of outdoor activities.

4. Additional Features : The cover lists several topics covered in the magazine:

- “Birding, Boating, and Hiking”

- “Seasonal Festivals”

- “New Attractions”

5. Registration Information : At the bottom, there is a call to action to “Registration begins Aug. 1 for full classes” and a website link: “www.fairfaxcounty.gov/parks.”

Analysis and Description

The cover of “Parktakes” effectively conveys the theme of outdoor recreational activities, particularly in parks. The image of the two individuals in a kayak suggests that the magazine features content related to kayaking, canoeing, and other water sports. The inclusion of life jackets indicates a focus on safety and preparedness for water activities. The mention of seasonal festivals and new attractions implies that the magazine includes information on various events and attractions within the parks.

The cover also highlights the magazine’s commitment to providing a comprehensive guide to outdoor activities, with a clear emphasis on safety and accessibility. The registration information suggests that the magazine is a resource for planning and participating in various outdoor activities, likely targeting a wide audience interested in parks and recreational activities.

In summary, the magazine cover is designed to attract readers interested in outdoor adventures, safety, and seasonal events within parks. The use of a kayak and life jackets emphasizes the magazine’s focus on water sports and safety, while the inclusion of various features and registration information suggests a well-rounded resource for park visitors.

1.2 视频输入

用户问题: What is the man doing in the video?

模型回答: The man in the video appears to be performing a fire dance, a form of entertainment where a person uses fire to create dynamic and visually appealing movements. The sparklers he holds produce a mesmerizing display of light and shadows, capturing the intensity of his performance.

2. 图像生成

Emu3通过预测下一个视觉token来生成高质量的图像。该模型自然支持灵活的分辨率和不同风格。

3. 视频生成

与使用视频扩散模型以从噪声生成视频的Sora不同,Emu3只是通过预测序列中的下一个token来因果性的生成视频。

4. 视频预测

在视频的上下文中,Emu3可以自然地扩展视频并预测接下来会发生什么。模型可以模拟物理世界中环境、人和动物。

Emu3技术细节

1 数据

Emu3是在语言、图像和视频混合数据模态上从头开始训练的。

语言数据: 使用与Aquila模型相同的语言数据,一个由中英文数据组成的高质量语料库。

图像数据: 构建了一个大型图像文本数据集,其中包括开源网络数据、AI生成的数据和高质量的内部数据。整个数据集经过了分辨率、图片质量、类型等方面的过滤过程。训练了一个基于Emu2的图像描述模型来对过滤后的数据进行标注以构建密集的图像描述,并利用vLLM库来加速标注过程。

视频数据: 收集的视频涵盖风景、动物、植物和游戏等多个类别。

整个视频处理流程包括了场景切分、文本过滤、光流过滤、质量评分等阶段。并使用基于图像描述模型微调得到的视频描述模型来对以上过滤后的视频片段打标文本描述。

2 统一视觉Tokenizer

在SBER-MoVQGAN的基础上训练视觉tokenizer,它可以将4×512×512的视频片段或512×512的图像编码成4096个离散token。它的词表大小为32,768。Emu3的tokenizer在时间维度上实现了4×压缩,在空间维度上实现了8×8压缩,适用于任何时间和空间分辨率。

此外,基于MoVQGAN架构,在编码器和解码器模块中加入了两个具有三维卷积核的时间残差层,以增强视频token化能力。

3 架构

Emu3保留了主流大语言模型(即 Llama-2)的网络架构。不同点在于,其扩展了Llama-2架构中的嵌入层,以容纳离散的视觉token。网络中使用RMSNorm进行归一化。其还使用了GQA注意力机制、SwiGLU激活函数和一维旋转位置编码(RoPE)等技术,并并去除了注意力模块中QKV层和线性投影层中的偏置。此外,还采用了0.1的dropout率来提高训练的稳定性,使用QwenTokenizer对多语言文本进行编码。详细架构配置表。

4 预训练

在预训练过程中,首先要定义多模态数据格式。与依赖外部文本编码器的扩散模型不同,Emu3 原生集成了用于生成图像/视频的文本条件信息。在视觉和语言的固有token中新增了五个特殊token来合并文本和视觉数据,以为训练过程创建类似文档的输入。生成的训练数据结构如下:

[BOS] {caption text} [SOV] {meta text} [SOT] {vision tokens} [EOV] [EOS]

其中,和是QwenTokenizer中的原始特殊token 。

额外新增的特殊token包括:

此外,特殊token和作为换行符和换帧符插入到了视觉token中。元文本包含图像的分辨率信息,视频则包括分辨率、帧率和持续时间,均以纯文本格式呈现。在构建理解数据时,Emu3将部分数据中的 “caption text”字段移至[EOV] token之后。

训练目标: 由于 Emu3 中的视觉信号已完全转换为离散token,因此只需使用标准的交叉熵损失进行下一个token预测任务的训练。为了防止视觉token在学习过程中占据主导地位,对与视觉token相关的损失加权 0.5。

训练细节: Emu3 模型在预训练期间利用非常长的上下文长度来处理视频数据。 为便于训练,采用了张量并行(TP)、上下文并行(CP)和数据并行(DP)相结合的方法。同时将文本和图像数据打包成最大上下文长度,以充分利用计算资源,同时需要确保在打包过程中不会分割完整的图像。

预训练过程分为两个阶段,第一阶段不使用视频数据,训练从零开始,文本和图像数据的上下文长度为 5,120;在第二阶段,引入视频数据,并使用 131,072 的上下文长度。

5 SFT阶段

5.1 视觉生成

质量微调: 在预训练阶段之后,对视觉生成任务进行后训练,以提高生成输出的质量。使用高质量数据进行质量微调。

直接偏好优化: Emu3在自回归多模态生成任务中采用直接偏好优化(Direct Preference Optimization,DPO)技术,利用人类偏好数据来提高模型性能。

5.2 视觉语言理解

预训练模型经过两个阶段的视觉语言理解后训练过程:1) 图像到文本的训练以及 2) 指令调整。

第一阶段: 将图像理解数据与纯语言数据整合在一起,而与视觉token相关的损失则在纯文本预测中被忽略。

第二阶段: 利用 LLaVA 数据集中的约 320 万个问答对进行指令微调。低于 512 × 512 或高于 1024 × 1024 的图片将被调整到较低或较高的分辨率,同时保持相应的长宽比,而其他图片则保持原始分辨率。

开源地址

除了先前经SFT的Chat模型和生成模型外,智源研究院还在近日 开源了Emu3生成和理解一体的预训练模型以及相应的SFT训练代码 ,以便后续研究和社区构建与集成。

代码:https://github.com/baaivision/Emu3项目页面:https://emu.baai.ac.cn/模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

未来方向

Emu3为多模态AI指出了一条富有想象力的方向,有机会将AI基础设施收敛到单一技术路线上,为大规模的多模态训练和推理提供基础。统一的多模态世界模型未来有广泛的潜在应用,包括自动驾驶、机器人大脑、智能眼镜助手、多模态对话和推理等。预测下一个token有可能通往AGI。


清华邓志东教授:大模型助力自动驾驶特斯拉至少领先行业三年

自动驾驶加速发展,产业链将洗牌。

|Juice

|志豪

自动驾驶在走过低谷之后,正开始重新攀登高峰。

从去年开始,国内自动驾驶市场的整体表现并不算好,大额融资变得寥寥,而技术上的突破也并不明显,整个行业走向了低谷。

但今年,这一趋势发生了很大的变化。

从政策角度来讲,工信部等四部委联合发布《关于开展智能网联汽车准入和上路通行试点工作的通知》,正式对L3/L4自动驾驶的准入与上路进行了具体的规范,为L3/L4向商业化、规模化迈进进行了政策法规的创新引领与适度超前部署。

▲《关于开展智能网联汽车准入和上路通行试点工作的通知》

而从技术层面来看,以ChatGPT为代表的通用人工智能技术正在给自动驾驶的发展注入新活力。 传统的小模型、小数据弱人工智能方法正被换挡,通过大模型来布局自动驾驶的路径越发明显。

其中最典型的玩家当属特斯拉,通过端到端的大模型技术,其在自动驾驶方面的最新产品FSDV12在海外的表现已经非常稳定了,引进国内也指日可待,届时,特斯拉在自动驾驶领域可能会再次化身为鲶鱼,搅起新的风暴。

▲特斯拉FSD Beta在不同环境下的示意图

从用户接受度的维度来看,现阶段,部分新购车的用户尤其是新能源汽车的车主对于智能辅助驾驶NOA的接受程度已经越来越高了,完成了初步的用户教育,这也为自动驾驶的真正规模化落地提供了可能性。

可以说自动驾驶的发展正进入一波全新的发展周期。

而在大好形势下,我们也应该清晰地认识到,自动驾驶的发展也还有一些难题需要解决,比如说大模型如何为自动驾驶赋能?放开L3/L4准入政策后,怎样才能真正实现产品落地?多种技术路线之争应该如何决断?

如果不能很好地回答这些问题,那对于自动驾驶的发展来说仍然会产生不小的影响。 为了更好得到这些问题的答案,车东西特地采访了国内人工智能和自动驾驶领域的先行者——清华大学计算机系长聘教授,博士生导师,清华大学人工智能研究院视觉智能研究中心主任邓志东教授。

邓志东教授是国内最早一批开始从事人工智能研究的专家之一,同时在2009年就开始了自动驾驶的研发与实践,也属于最早的一批研究者,因此在这两方面无疑有着足够的积累和发言权。

另外预告一下,邓志东教授将参加12月19日由智一科技旗下智能汽车产业新媒体车东西联合硬科技讲解与服务平台智猩猩在深圳发起主办的2023全球自动驾驶峰会,并在主会场开幕式带来主题报告《大型视觉语言模型助力自动驾驶产业落地》。 另外,李弘扬、李志琦等学者以及来自智行者、元戎启行、Nullmax等企业的众多大咖也已确认参会演讲或参与圆桌讨论。 欢迎大家报名,线下参会交流。

ChatGPT是分水岭 人工智能发展提速

在人工智能领域,邓志东教授绝对算得上是老资历了,1992年在清华博士后期间就开始投身到了人工神经网络的研究方向。

当时研究的主要是人工神经网络与非线性系统学等,这些在当时还处在非常早期的阶段,人工神经网络模型还在缓慢的量变过程中,没有达到质变。

人工智能产业从2012年开始起步,十几年间,真正落地的产品并不算多,一些落地的产品主要为人脸识别、机器翻译与语音识别等,但机器翻译的“机器”味道似乎还比较浓,整个行业并未闭环一个良好的产业逻辑。

2022年,很多行业内的从业人员对于(弱)人工智能产业能否真正落地产生了怀疑。

而ChatGPT无疑是一个划时代的产品,大模型在某种意义上把人工智能这个产业又重新救活了。

▲ChatGPT聊天页面

不过大模型并不算是一个全新的概念。 预训练与微调的范式,2015年前后就出现了,2017年Transformer问世后就开始有了大模型。 事实上,2020年出现了两个重要的AI进展,一个是OpenAI推出的GPT-3,另一个则是谷歌的AlphaFold2,这两项成果被普遍认为是人工智能领域六十多年来产生的“诺奖级”成果。

事实也确实如此。 AlphaFold 2就成为了今年诺贝尔奖的候选成果之一,虽然最终没有获奖,但是这一成果和GPT-3基础大模型之重要性,可谓不言而喻。

这些大型语言模型与以往最大的不同之处在于,已开始出现了一些认知能力,这是此前不曾有过的,人工智能确实更聪明了。 从目前的视角回头来看,2022年11月30日ChatGPT惊艳问世之前的人工智能十年,应该叫做弱人工智能时代,当时一个模型只能解决一个任务。

当时是小数据、小模型,通常需要标签进行完全的监督学习,而且也还没有摆脱机器性。

现在最大的不同就是模拟并构建了人类语言模型与世界知识模型,开始运用人类的语言思维来理解和学习了。 这是一个非常大的突破,语言实际上属于高级文明,不仅可帮助人类沟通交流,而且还便于记载文明,促进人类知识传承,让下一代人站在人类知识总和的肩膀上前行。

相比于人类,机器对人类知识的传承效率更高,可以在短短数年时间内学完人类整个一般性的文本知识,甚至还能记忆得更加准确。

大模型的发展离不开Transformer的出现,2017年6月12日谷歌的NLP研发人员在进行神经机器翻译的时候提出了Transformer这种可规模化的新一代神经网络模型。

▲八位在谷歌工程师率先提出Transformer

邓志东教授认为,Transformer的诞生并不是突然出现的,当时行业内已有很多人都在研究LSTM模型的注意力机制,包括怎么使用多层的编码器,怎么使用多个解码器层,怎么去做隐含的特征表达等等,实际已经有了Transformer的雏形。

但是这样的突破性创新或许只能出现在巨头企业里,原因是相比于LSTM,Transformer更加复杂“冗余”了,这就需要更多的GPU算力,显然当时只有头部企业才能有足够的算力去考虑或支撑这样的研究。

不过,Transformer诞生之初还仅是为了做机器翻译,后来才开始用来做文本语言大模型。 OpenAI在2015年12月正式成立,初心就是要实现通用人工智能(AGI),而这一使命或愿景也是十分大胆的,此前极少有人敢提及这一观点。

▲OpenAI初始成员

实际上,OpenAI的核心团队都是硅谷非常成功的人士,新的阶段有了更加宏大的目标。

OpenAI早期并没有做出什么重要的成果,回过头去看,初期的GPT-1和GPT-2都没有太大的意义,不具有明显的优势,直到GPT-3的出现。

这主要跟模型的架构有关系,BERT等编码器架构的模型文本阅读理解与特征表达能力会比较强,但是生成能力相对较差,反过来,GPT等解码器架构的模型生成能力比较强,但阅读理解能力比较差,OpenAI正是选择了后一种技术路线。

后来通过Transformer神经网络规模的不断增加,特别是与GPU算力的交替跃升之后,才通过大型语言模型的自监督学习与构建,获得了非常大的性能提升。

随着算力和数据的不断扩增,人工智能的能力也在不断提升。 现在GPT-4 Turbo甚至已经可以开始利用外部工具了,包括可以调用很多Action来完成任务,这也是一个非常大的突破。

▲OpenAI CEO山姆·奥尔特曼发布GPT-4 Turbo

但也应该明确的一点是,通用人工智能的发展还刚刚拉开序幕,一切才刚刚开始。

从这个角度来看,我们正处在一个非常幸运的时代,还有大量机会见证通用人工智能更多的发展变化。

大模型赋能智能驾驶 特斯拉是先行者

从仅十年人工智能的发展角度来看,有三个人的作用非常突出,一个是图灵奖得主杰弗里·辛顿,另外两个则是辛顿的博士生,一个是前一段时间OpenAI“政变”的核心人物伊利亚·苏茨克维(Ilya Sutskever),另一个则是亚历克斯·克里切夫斯基(Alex Krizhevsky)。 AlexNet就是以后者的名字命名的,而伊利亚作为OpenAI的联合创始人与首席科学家,则在GPT的发展过程中做出了很大的贡献。

除此之外,特斯拉AI与Autopilot 视觉主管,斯坦福李飞飞教授的博士生Andrej Karpathy,曾是OpenAI的创始成员及研究员之一,2017年至2022年则成为特斯拉人工智能与自动驾驶的灵魂人物。

▲Andrej Karpathy(左)与马斯克(右)在特斯拉AI DAY上演讲

Karpathy在特斯拉负责人工智能与AutoPilot期间,于2020年主持将特斯拉EAP的所有底层代码都进行了Transformer重写,这与他的OpenAI工作经历不无关系。

也是在那个时候,马斯克才正式对外喊出了要推出FSDBeta。

所以特斯拉较早就知道要用大模型来落地自动驾驶。 为了更好地支撑多模态大模型的发展,特斯拉还专门研发了Dojo超算,也购置了大量的A100。

▲Dojo超算机柜

目前人类已经进入到了互联网和移动互联网时代,每天都有海量的数据涌现,因此必须要采用自监督或者无监督的学习方法,这就对数据本身的质量具有非常之高的要求。

而特斯拉既是一家人工智能算法与算力公司,也是一家自动驾驶公司,更是一家主机厂,不但具有足够多的数据,也拥有足够强的算力支撑,并且已经在大模型算法方向上走了较长时间了。

BEV+Transformer算法的使用,不用激光雷达也可以进行纵向距离的测算与补全,这也是一个创新性的做法。

大型语言模型的使用对于自动驾驶的性能提升非常明显,例如,通过视觉语言大模型就可以直接阅读理解道路交通场景,并生成详细的文本描述。

从GPT-4V的案例来看,视觉大语言模型对于整个驾驶场景识别的正确率已经比较高了,例如对高速、城市道路,对晴天、雨天、雾天,还有对不同时间段的分类等。 但对一些复杂场景的微观细节的检测与识别,则还有不少问题需要解决。

当大模型人工智能获得了道路交通场景的感知能力之后,再配合类似于Q之类的深度强化学习算法进行决策与规控,特别是利用多模态大型语言模型进行端到端的整体贯通之后,甚至直接通过交互就可进行智能体学习,这就和人一样,只要经过一些驾驶技能的培训与操练就能够上路了。

目前产业界和学术圈对于特斯拉FSDV12都很期待,这一版本正是用彻底的端到端思路来实现高阶智驾的,跟人类一样,输入是不断涌入的图像帧视频,输出就直接是转向、制动与加速这三个模拟量。

这个过程中会存在较多的问题,例如中间的感知、预测、决策与规控过程其实是不透明的,另外就是如何处理边缘事件?现在看来,特斯拉可能通过视觉大模型与超级算力有效地解决了后面这个问题。 这可能是因为他们已拥有了足够多的高质量训练数据,或多模态大模型出现了超强的零样本泛化能力。

另外特斯拉已经从2020年就开始做这个事情了,而且作为头部造车新势力,也积累了世界上最多的数据,而国内则在今年3月之后才开始加速布局,中间的差距至少有三年,所以在短时间内很难去超越特斯拉。

▲特斯拉基于视觉数据构建3D空间

国内的智驾玩家中,华为投入了大量的人力与资源进去,技术扎实,目前走得比较靠前。而网络、<a href=target=_blank

版本 提供 手机配置参数曝光 一加 13 24GB 等深四微
原来你忽略了这关键一步 揭秘!每天刷牙不吃糖 孩子牙齿还是坏