的文生视频产品 Sora MiniMax 也许做出了最接近

作者： 2024年09月05日金融浏览

虽然晚到，但效果惊艳。

| 幸芙 | 郑玄

又一个国内的重要玩家，杀入「文生视频」这个今年最火的大模型风口。

几天前，MiniMax 发布了全新的视频模型 abab-video-1。用户可登录其产品「海螺 AI」的网页版，体验文生视频的功能。

尽管是一个晚入局者——继年初 OpenAI 发布 Sora 后，国内的科技公司纷纷跟进。包括大厂，比如快手的「可灵」、字节的「即梦」等；包括垂直的创业公司，比如生数科技、爱诗科技、智象未来等；也包括模型公司，比如智谱几个月前就嵌入了文生视频功能。但 MiniMax 很有信心，「这可能是目前国内最好的视频大模型。」创始人闫俊杰说。

极客公园一手体验了 MiniMax 的文生视频功能，在给定的一系列随机提示词下，MiniMax 的生成效果令人眼前一亮。而在海外社交平台 X 上，也有越来越多用户用其生成出惊艳的视频、并进行了分享。而在 MiniMax 自己释放出的样片里，可以看到这些视频已经逼近真实的商拍、乃至电影质感。

这正是 MiniMax 更晚推出该功能的原因，为了在技术上形成数倍、而不只是百分点的提升。 作为一家技术导向型的公司，MiniMax 相信技术决定产品体验，这也是它们不着急的原因。

如果说 Sora 到目前还没有开放使用的机会，那目前 MiniMax 该功能已经完全对用户开放。当很多国内已经公司针对这项功能收费，MiniMax 仍在免费阶段。也就是说，用户可以免费、且一手体验这款最接近 Sora 的产品。

在年初与极客公园的一次交流中，MiniMax 创始人闫俊杰表示，Sora 对大模型公司来说是一道「选答题」。因其存在着 PGC、UGC 等不同用法，AI 公司不一定要跟上。不过似乎现在他认为，这是一道「必答题」——还是出于提高用户渗透率的考虑。

在年初的访问中，他提到随着大模型每次拓展模态，用户渗透率就会提升，因为文字只是人类信息交互中的极小一部分，声音、图片、视频等模态也同等重要。MiniMax 的愿景是让 AI 为普通人所用，提高用户渗透率是他最看重的事情。在这道「必答题」上，MiniMax 看起来交出了一份不错的答卷。

在不同的 prompt 评测中，

文生视频 功能 都保持领先

打开 MiniMax 文生视频产品的官网，会发现它出奇的简单。如果说其他产品都给用户提供了许多选项，比如视频时长、视频比例、模式选择、运镜方式、情感氛围等。但 MiniMax 的产品非常简单：输入一段文字（prompt），直接生成视频。

笔者直接尝试了一段 prompt：「两位都市白领手里拿着星巴克咖啡，走在日光沐浴下的街道，她们本来表情平静地聊着天，突然一起笑了起来。」在这段 prompt 里，我既要求了人物的细节动作，比如手拿咖啡；也要求了场景的表现力，比如日光沐浴的街道；还有人物的表情，比如平静和微笑。这都是目前文生视频产品的技术难点。

仅就这段 prompt 的表现来看，MiniMax 的文生视频功能几乎完胜：两位人物无论是微笑的表情、还是拿咖啡的手部动作，都非常自然、没有变形，它还原了日光沐浴的场景，同时也还原了「星巴克」标识。

但再看其他产品：某热门产品生成的咖啡杯是变形的、人物的表情也是变形的；某产品虽生成很自然，但漏掉了「星巴克」标识；另外某产品也是人物完全变形、咖啡杯完全变形；某产品人物稍微变形，漏掉了「星巴克」标识；某产品生成的视频毫无稳定性，也没有清晰度可言。

在笔者的指令下，左边为 MiniMax 的文生视频效果；右边为其他国内热门文生视频产品的效果 | 图片来源：极客公园

此外，笔者又尝试了其他不同的 prompt，包括神情愉悦地打字的女孩等，最终 MiniMax 的文生视频功能都表现更为出色。如果说文生视频最重要的是对现实世界的模拟，那么可以看到，它对于真实世界的模拟会更好，同时也能输出更逼近真实的视频效果。

在 X 社交平台上，不少海外用户使用完 MiniMax 的文生视频产品后也评价很高。比如用户 @ryan_morrison 提到，「它的手部动作是我见过的最自然的。」用户 @hortega_andre 提到，「它的手部动作和面部表情是我见过的最自然的。」

专门探索用 AI 制作电影的用户 @Machine Mythos，则用 MiniMax 文生视频制作了一则名为《地狱之地》的微影片。该视频时长 2 分 20 秒，讲述了一个男子开车行驶的过程中，发现曾经人流交织的街道，现在已经被僵尸占据。「我的上一部电影是我迄今为止最现实的电影，我没想到它会这么快就被超越。」Mythos 这么评价道。

@Machine Mythos 制作的《地狱之地》微电影 | 图片来源：X

笔者注意到，它上一部电影发布于一个月前，是用国外领先的视频模型 Runway 的 Gen3 版本生成。但就影片真实效果而言，MiniMax 更胜一筹。

「我们内部评测，包括跑一些分，应该比国外 Runway 有更好的效果。」闫俊杰说。

三大核心技术指标：

文本响应好、压缩率高、风格多样

在表层的用户体验之下，MiniMax 将其文生视频的优势总结为：一、压缩率高；二、文本响应好；三、风格多样；四、可以生成原生高分辨率、高帧率视频，也就是接近电影大片质感。

关于文本响应好，它指的是产品的指令遵循更好。比如笔者在 prompt 中强调了星巴克，几乎只有 MiniMax 的视频模型把这个标识体现出来了。MiniMax 称，这主要得益于其模型在文本上的不断积累。

关于压缩率高，它指的是对高动态、变化多的信息有较好的表现力。比如 @JingXiangZ 给的指示是：「广角镜头中，一个长着猴头的肌肉男，赤裸上身，骑着电动滑板车穿过城市街道，然后飞上天空。」在最终的效果里，猴头、肌肉男、赤裸上身、以及迅速穿梭于城市的街景变化都得到了展现。

MiniMax 文生视频功能对高动态、变化多的信息有高表现力

关于风格多样，指的是无论电影大片场景、动画，无论是中式风格还是科幻、美漫等，它都可以驾驭。比如 AI 艺术家 @vladimircherner 生成的视频里，既有卡通动画、也有真实走秀、还有写实电影、甚至科幻电影等。

用户 @vladimircherner 用 MiniMax 生成的视频 | 图片来源：X

最重要的一点是能生成原生高分辨率、高帧率视频，这意味着视频能接近电影大片质感。目前，MiniMax 已经释放出一些通过 prompt 做出来的电影、广告片，效果令人惊艳。

比如有一段是星际大战的预告片、有一段是宣传沙发像云朵一样柔软的广告片、有一段是高速俯拍街道的电影片段、有一段是雪崩救援的记录片、还有一段是名为《魔法硬币》的科幻片——它讲述了一个小男孩通过一枚写着 MiniMax 的硬币，在不同时空进行穿梭的过程。无论是加勒比海盗的船上、还是多元宇宙、还是万里长城、还是北极熊身上、又或者是森林的豹子身上，所有的场景都非常逼真。

看完这些视频，一个很直接的感受是，已经不太能看得出它们是 AI 做出来的。这意味着在视频生成效果上，MiniMax 取得了关键性的突破。

极致的技术，

才有极致的用户交互

闫俊杰介绍，MiniMax 之所以在文生视频赛道更晚入场，原因是公司希望在技术上形成绝对优势。在他看来，不管是视频、文本、声音，核心不是在算法上提升 5%、10%，而是要看能不能提升几倍。「如果能提升几倍就一定要做出来，如果只提升 5% 就不太值得做。这是我们做研发的思路。」他说。

在他看来，在文生视频这件事上，技术能提升几倍的核心关键是，提高压缩率的问题。训练视频生成能力时，模型需要先把视频变成 token，但这个 token 会非常长，导致复杂度很高。因此，MiniMax 团队在算法上主要解决的是，怎么把压缩率变得更高、把 token 的复杂度降低。这花了他们很多的精力，因此比同行晚了近一两个月。

团队发现，当算法变得更强的时候，产品的效果确实好了很多。在文生视频这件事情上，再次印证了闫俊杰所说的，技术决定产品。

MiniMax 的文生视频功能 | 图片来源：MiniMax