一套模型搞定图片文本视频只基于下一个token预测智源Emu3登场

作者： 2024年10月21日创投浏览

网易科技10月21日消息，智源研究院正式发布了其最新的多模态 AI模型——原生多模态世界模型3，该模型实现了视频、图像和文本三种模态的统一理解与生成。

Emu3采用了完全基于下一个预测的技术架构，避免了以往复杂的扩散模型或组合式方法。它将图像、文本和视频统一编码为一个离散的表示空间，并在多模态混合序列上，从头开始联合训练一个Transformer模型。这种简化的统一架构，极大提升了模型的灵活性与效率。

在图像生成、视觉语言理解、视频生成任务中，Emu3的表现超过了 SDXL 、LLaVA-1.6、OpenSora等知名开源模型。

图注：在图像生成任务中，人类评估得分Emu3高于SD-1.5与SDXL。在视觉语言理解任务中，12项基准测试的平均得分，Emu3领先于LlaVA-1.6与LlaVA-1.5。在视频生成任务中，VBench基准测试得分，Emu3优于OpenSora 1.2。

下一token预测被认为是通往AGI的可能路径，但这种范式在语言以外的多模态任务中没有被证明，此次Emu3则成功展示了下一个token预测技术在多模态任务中的适用性。

为了推动技术的广泛应用，智源研究院已将Emu3的关键技术和模型开源，并提供了生成和理解一体的预训练模型及SFT训练代码。

Emu3一经上线，就已经在海外开发者中引起了广泛热议。

相关技术从业者纷纷表示：“对于研究人员来说，Emu3意味着出现了一个新的机会，可以通过统一的架构探索多模态，无需将复杂的扩散模型与大语言模型相结合。这种方法类似于transformer在视觉相关任务中的变革性影响。”

“Emu3的统一方法将带来更高效、更多功能的AI系统，简化多模态AI的开发和应用以及内容生成、分析和理解的新可能性。”

“Emu3将彻底改变多模态AI领域，提供无与伦比的性能和灵活性。”

"Emu3改写了多模态人工智能的规则...Emu3重新定义了多模态AI，展示了简单可以战胜复杂。多模态AI的未来变得更加精炼与强大。"

智源研究院院长王仲远表示：“Emu3证明了下一个token预测能在多模态任务中取得高性能的表现，为构建多模态AGI提供了广阔的技术前景。”他认为，Emu3有可能将多模态AI技术基础设施建设收敛到一条技术路线上，简化多模态任务的开发流程，有望推动产业化应用。

未来，Emu3将广泛应用于机器人大脑、自动驾驶、多模态对话和推理等场景，促进AI技术在实际应用中的突破与发展。（袁宁）

图注：Emu3文生图案例

图注：Emu3文生视频过程帧画面展示

图注：Emu3图片理解案例