一套模型搞定图片 文本 视频 只基于下一个token预测 智源Emu3登场

网易科技10月21日消息,智源研究院正式发布了其最新的多 模态 AI模型——原生多模态世界模型3,该模型实现了视频、图像和文本三种模态的统一理解与生成。

智源Emu3登场:只基于下一个token预测,一套模型搞定图片、视频、文本

Emu3采用了完全基于下一个预测的技术架构,避免了以往复杂的扩散模型或组合式方法。它将图像、文本和视频统一编码为一个离散的表示空间,并在多模态混合序列上,从头开始联合训练一个Transformer模型。这种简化的统一架构,极大提升了模型的灵活性与效率。

在图像生成、视觉语言理解、视频生成任务中,Emu3的表现超过了 SDXL 、LLaVA-1.6、OpenSora等知名开源模型。

智源Emu3登场:只基于下一个token预测,一套模型搞定图片、视频、文本 图注:在图像生成任务中,人类评估得分Emu3高于SD-1.5与SDXL。在视觉语言理解任务中,12项基准测试的平均得分,Emu3领先于LlaVA-1.6与LlaVA-1.5。在视频生成任务中,VBench基准测试得分,Emu3优于OpenSora 1.2。

下一token预测被认为是通往AGI的可能路径,但这种范式在语言以外的多模态任务中没有被证明,此次Emu3则成功展示了下一个token预测技术在多模态任务中的适用性。

为了推动技术的广泛应用,智源研究院已将Emu3的关键技术和模型开源,并提供了生成和理解一体的预训练模型及SFT训练代码。

Emu3一经上线,就已经在海外开发者中引起了广泛热议。

智源Emu3登场:只基于下一个token预测,一套模型搞定图片、视频、文本

相关技术从业者纷纷表示:“对于研究人员来说,Emu3意味着出现了一个新的机会,可以通过统一的架构探索多模态,无需将复杂的扩散模型与大语言模型相结合。这种方法类似于transformer在视觉相关任务中的变革性影响。”

“Emu3的统一方法将带来更高效、更多功能的AI系统,简化多模态AI的开发和应用以及内容生成、分析和理解的新可能性。”

“Emu3将彻底改变多模态AI领域,提供无与伦比的性能和灵活性。”

"Emu3改写了多模态人工智能的规则...Emu3重新定义了多模态AI,展示了简单可以战胜复杂。多模态AI的未来变得更加精炼与强大。"

智源研究院院长王仲远表示:“Emu3证明了下一个token预测能在多模态任务中取得高性能的表现,为构建多模态AGI提供了广阔的技术前景。”他认为,Emu3有可能将多模态AI技术基础设施建设收敛到一条技术路线上,简化多模态任务的开发流程,有望推动产业化应用。

未来,Emu3将广泛应用于机器人大脑、自动驾驶、多模态对话和推理等场景,促进AI技术在实际应用中的突破与发展。(袁宁)

智源Emu3登场:只基于下一个token预测,一套模型搞定图片、视频、文本 图注:Emu3文生图案例

智源Emu3登场:只基于下一个token预测,一套模型搞定图片、视频、文本 图注:Emu3文生视频过程帧画面展示

智源Emu3登场:只基于下一个token预测,一套模型搞定图片、视频、文本

图注:Emu3图片理解案例

宝兰德等核心概念股有望持续上涨 iOS 鸿蒙 三分天下 安卓
设计猜想 SUV 雷军开法拉利 引发小米 SUV 出街被拍