做出了全球最大的原生3D大模型 这家AI公司

|八度

“在淘宝上,有特别多做3D创意设计的店铺,他们一年的销量能达到几十万件。原先他们是半人工操作,现在我们现在能够借助AI、通过3D生成直接打印就可以了。”DreamTech创始人张飞虎向「甲子光年」展示道。

DreamTech虽然是一家成立仅9个月的AI创业公司,但其战略路线明确,专注于原生3D生成,并且团队在这一领域的经验丰富。

CEO张飞虎博士毕业于牛津大学,师从英国皇家科学院、皇家工程院两院院士Philip Torr。Philip Torr教授在3D建模方面有重点研究。此外,DreamTech创始团队成员还曾成功创立多家3D领域标杆公司,后被苹果、谷歌等业界巨头收购。

这一次,DreamTech的成立,对于张飞虎和其团队来说,都是新的出发。不过在张飞虎看来,创业并非心血来潮,而是筹备已久: 3D生成,终于走到了商业化的门前。

2023年下半年,DreamTech团队发现了3D技术的新方向——能够实现端到端的生成模型,类似于图像或视频的处理方式。紧接着,他们又攻克了3D模型表征的关键难题。这两者技术突破,让张飞虎和他的团队看到了希望,随即开展了一系列紧锣密鼓的动作。

2024年5月,DreamTech团队公布了其研发的3D生成大模型Direct3D的算法研究论文,这也是全球首个公开发布的具备可扩展性的原生3D生成大模型。该学术成果受到行业的广泛关注,Meta、Apple、Adobe等企业相继跟进该研究论文。

8月份,DreamTech团队又推出了最新的Direct3D-5B版本,具备50亿参数规模,成为目前全世界参数规模最大的3D生成大模型,这一模型具备scaling up能力,基本结论为:3D生成模型参数量每增加4倍,生成结果质量精度提高2倍。

具体来说,在3D领域,动画人物的手指等精细部位也可以被立体地生成。在模型几何结构规整度、细节精度上,Direct3D-5B也都实现了明显的提升。

Direct3D-1B(上)与Direct3D-5B(下)对比

在产品即将正式上线前夕,张飞虎接受了「甲子光年」的专访,详细介绍了3D生成过去的痛点、如今在3D数据合成、算力、scaling law等方向上的突破。同时他还讲述了今年对DreamTech团队来说,最为重要的一件事。

以下为采访内容,经过整理。

1.3D技术创业:DreamTech的端到端原生3D之路

甲子光年:去年12月,DreamTech公司成立。当时,是什么契机促使你们决定回国创业?

张飞虎: 实际上,创业这个想法我准备了比较长的一段时间,但确实在去年下半年才开始融资。

当时,我们发现了一个核心的技术收敛:3D领域可以像图像或视频一样做出端到端的生成模型,这是其他公司或研究人员尚未发现的。 我们看到了3D领域scaling law的能力。

去年上半年还出现了一项新的技术进展,叫DiT架构,它被应用于文生图。紧接着, 我们自己解决了一个3D模型表征的问题,这是一个关键问题。 将这两者结合起来,我们看到了希望,认为这个项目可以开始实施,并有望在今年(2024年)商业化。

简单来说, 去年下半年我们判断今年可以开始进行3D生成的商业化,而在此之前这是不可能的。

甲子光年:你刚提到为创业筹备了很久,是你在此之前一直在等这个时机?

张飞虎: 对,其实在2022年初,我们就开始进行相关的研究和开发。那年,我们在WAIC大会上展示了相关的demo,当时关注度也比较高。但当时的技术水平仅限于制作一些展示,而且速度非常慢, 可能需要一个小时才能生成一个3D模型,效果也不理想。 我当时看到这个情况,就觉得它还没有达到商业化的程度,所以我们一直在不断地打磨和完善相关的技术。

直到去年,我们发现了新的算法实现方案,情况不一样了。只要算力够,我们能立马去训练这个模型并开展商业化,所以我们在去年下半年启动创业。

甲子光年:听起来,你们关于创业的整个决策过程是比较顺其自然的,并没有太多困惑和矛盾?

张飞虎: 我认为这是我们最自豪的一点。我们的战略决策做得就比较对,比如与市场上其他一些做3D生成的公司相比,包括海外的公司,他们在开始时选择了2D转3D这样一套方案,花费了几千万去做这样一个模型或者上线产品。

我们一直坚持做端到端的原生3D ,当我们推出新方案后,旧的方案就全部被淘汰了。即便你投入了数千万甚至上亿的资金,在新的方案出来之后,所有的资源都要推倒重来。

我们在战略决策上,由于我们自身的经验比较丰富, 我们团队是做3D领域起家的,也做过公司并出售过,在3D领域有十年以上的一个积累。 所以我们在战略决策时判断哪些算法可行,哪些事情该做,我们的方向就比较准确。

在融资拿到钱之后,我们就立马就把这套方案给做出来了,基本上没有浪费什么时间和资源。

甲子光年:在你看来创业最重要的是什么?或者说,你在创业之初的一个目标是什么?

张飞虎: 我的目标其实当时考虑得很简单。我2022年博士毕业前,也就是2021年,我已经拿到了包括Google、Facebook等大公司的offer,也拿到了教职的邀请。

但我当时想的是,我想要做出一些影响力较大的东西,而不是仅仅在学校或大公司的研究所里继续做一些小规模的研究。

比如,我想要开展一些大型项目,但无论是在学校还是在大公司,我都做不到这一点。因为在大公司,我不可能一进去就能独立开展一个非常大的项目,比如像现在的3D生成项目。

另外, 在学校里,资源是有限的,尤其是数据和算力资源,这是学校无法提供的。 因此,我当时就想,如果想要做一个有影响力的大型项目,我就出来自己搞呗。这就是我当时的想法。

2.3D技术突破:解锁3D生成的scaling law潜力

甲子光年:你刚刚提到,在高校中进行这项工作时,数据和算力无法满足需求,是吗?

张飞虎: 对,首先,数据方面确实是一个难题。 比如我们现在动辄需要处理的数据量达到1PB级别,这对于高校来说是无法支撑的。 不仅是国内高校,即便是世界顶尖的学府,像牛津大学这种,尽管有庞大的经费,但它的算力也是有限的。

实际上,我们要做一些好的工作,其实大部分情况下还是需要跟外部公司做合作的,算力和数据,都存在这样一个瓶颈。

甲子光年:创业时,如何解决数据算力难题?

张飞虎: 第一个是数据这块,3D数据的获取实际上非常困难。我们采取的策略是数据合成。

在我博士研究期间,我的课题是3D AI结合数据合成。因此, 我们从2022年开始到2023年初,持续在做3D数据合成的工作,合成了非常多3D的数据。 比如你刚才看到的那些二次元角色的数据,都是我们合成的成果。

利用合成的3D数据训练AI,这是我们的独家秘籍。

甲子光年:你们已经合成了2000万的数据?

张飞虎: 对,3D数据的成本非常高, 单个3D资产的平均制作成本大约是1000美元一个。

如果人工制作这些数据,成本将是2000万乘以1000美元,所以人工制作是不现实的,全世界没有那么多人力可以完成这样的工作,因此3D制作的难度非常大。 唯一的解决方案就是数据合成。

我们在这块做了比较领先的一些方案,而且把它做到了一个全球领先的程度,甚至有些大公司可能会来挖我们的人才。核心原因在于, 我们不仅理解了算法,而且拥有大规模的数据支撑。这些数据的规模可能比世界上任何一家公司都要大。

数据合成是一套非常复杂的系统,它需要日积月累的的经验和系统构建,以及反馈机制。它是一个机器学习系统,类似于我们早年看到的AlphaGo,涉及强化学习和监督学习,然后通过整个反馈过程,组合出一些真正有用的成果。

甲子光年:数据合成是从去年开始的吗?

张飞虎: 是的,去年年初开始,到现在有一年半了。

相比之下,其他公司可能需要购买数据,或者花钱去爬取数据,这当然存在一定的法律风险,属于灰色地带。另外,购买数据的成本非常高。所以 我们的优势在于可以用低成本获取大量合成数据。

甲子光年:你们是最开始就意识到数据是一个痛点,所以很早就往这个方向去突破了,是吗?

张飞虎: 确实,我们在算法之前,去年上半年,我们已经开始搞数据了。

因为我们坚定认为(数据)这件事比较重要,我对这方面的认识比较足。 我所在的牛津实验室是世界上非常知名的能够进行数据合成的实验室,为苹果公司提供过相关的服务。 我的导师认为,在算法层面,它并没有大家想象的那么困难,你不去做别人也会去做,但 数据工作属于基础研究的领域。

整个AI领域都是建立在数据基础之上的。例如,我们看大语言模型,Facebook开源的Llama 3与Llama 2相比,它的模型本身并没有大改,它只是更新了数据,将训练数据清洗得更干净,并使用了更多的训练数据,它的效果就直线提升了。实际上, 数据才是AI的一个本质问题。

有了数据的支撑,我们可以叠scaling law了。我们最近在研究中发现了一个非常重要的规律,在5月份时我还没有完全搞清楚,但最近我们迭代出新版本的模型后,发现了一个特别重要的事情:3D生成领域的scaling law,咱们看大语言模型生成了scaling law,图像模型生成了scaling law。

那到3D生成领域的scaling law是怎样的呢?

我们发现: 模型参数每提升4倍,模型的精细度就能提高2倍 ,也就是说我们生成的图像质量可以提高2倍。比如原来我能做1厘米厚度的东西,我现在就能做到5毫米。

比如从1B到现在公开的5B,精细度的提升非常明显。 1B的手指有些弯曲,但5B的手指就非常直了。

甲子光年:在你看来,目前市场上有哪些算是DreamTech的竞品?

张飞虎: 我们在数据上的优势是任何一家公司都不具备的,哪怕是大公司。在算法层面上,我们迭代得非常快,实际上各家可能主要在参考我们的一些相关研究,我们推动了这一波的技术革新。

长远看,数据一定是DreamTech最大的优势。

短期内,比如半年内,我们在算法上的优势也很大。从长远来看,可能取决于我们拥有多大规模的数据。这是一个持续的过程,而且是一个门槛非常高的领域。

3.3D技术革命:DreamTech的二次元创作神器

甲子光年:我看过资料,你们目前已经开发了两款产品,这其中哪款产品会被优先开发?

张飞虎: 你所看到的是Neural4D,这个产品是为创设计的。

另一款产品则是名为AnimeIt的应用程序,它具备聊天和陪伴等功能,更偏向于C端市场。

我们的商业化进程是有明确时间节点的,特别是在10月份,我们将重点放在创产品这一部分,并计划做一些活动,例如近期我们做了一个CuteMe的创意玩法,用户可以通过照片创作Q版风格化的3D形象,让普通用户也可以自由发挥创意。

Direct3D-1B 3D打印件效果

甲子光年:你们会为客户提供哪些服务模式?

张飞虎: 我们的服务模式之一是创意平台,通过我们的产品,设计师可以注册账号,并推出一些增值功能,例如付费用户能够体验到更多的功能。用户在网站上生成内容后,可以进行,并利用工具制作动画,这些操作都可以在网站上完成。

用户可以根据自己的需求使用这些内容,比如游戏开发者可以将其用于游戏开发,动画师可以用于动画制作,或者3D设计师可以将其打印出来,这是针对创的服务,我们称之为小B端的创作群体。

对于普通用户,可能平时没有意识到自己是3D资产的消费者,但实际上大众都是3D内容的消费者。

例如,在玩游戏时,我们可以为普通用户开放一个APP。这个APP的功能允许用户创造角色,包括Q版或二次元风格的角色,并与之进行互动,比如聊天和社交体验,还可以为角色装扮,类似于过去的QQ秀。

此外,用户还可以将这些角色打印出来作为礼物送给他人,比如将家人的形象转换成风格化的角色后,作为礼物送给朋友或家人。

用户还可以在APP上玩游戏,甚至自己制作小游戏,因为我们的生成技术非常强大,用户可以创造出场景,拼接资产,享受无限的可能性,比如自己创造游戏等。

甲子光年:现在生成需要多长时间?

张飞虎: 大约1~2分钟,这取决于后台用户排队的情况。如果等待时间较长,很可能是因为后台用户太多。去年这个时候,可能最快也需要20分钟。

甲子光年:你们是什么时候确定走二次元路线?

张飞虎: 我们在做3D生成的时候进行过市场调研,普通用户大多不喜欢那种真实还原的效果。比如我给自己拍一张照片,然后做成100%还原的样子,普通用户并不喜欢, 他们喜欢的是风格化、可爱、卡通化的效果。

而且,这种风格的受众和市场规模要比其他风格大得多。比如 二次元在整个3D内容消费市场中占据了50%的份额,加上Q版风格的,两者加起来超过了80%。

所以去年我们确定以风格化作为主要的路线。 我们不会追求100%的真实还原,而是会进行风格化处理,比如你输入的是一个人的真人图像,我们可能会将其转换成二次元形象,或者转换成Q版形象。

甲子光年:基于你刚刚提到的全世界最大,包括之前也有资料显示是全球首个原生3D大模型。我如何辨别或证明是否为全球首个?

张飞虎: 你可以看到我们5月份最早发表的一篇关于原生3D的论文。这是目前公开发表的第一篇达到这种水平的论文。在此之前,确实还没有类似的研究,大家都在尝试其他的方案,但我们的这套方案是目前大家公认的。例如,我们了解到欧美的大企业都在跟进这套方案,都在朝这个方向去做。

甲子光年:外界会对3D市场有刻板印象,认为3D的AI应用会是一个相对小众的市场,更适合设计师人群。你怎么看待这种观点?

张飞虎: 其实我刚才介绍行业的时候,每一个行业都非常非常大。当时我们在做市场调研的时候,就发现一个问题,比如现在非常热的图像和视频,大家传统意义上认为市场比较大,但大家会发现一个点,就是大众不太愿意为这些付费,因为互联网上这些东西都是天然存在的,是免费的。

但在3D领域,并不是如此。在3D领域,我们平时获取资产时,要么自己订阅软件,比如在海外,当付费习惯较好时,使用的都是正版软件,如3D Max等建模软件,年订阅费用约为1万美元。

而当用户需要购买模型时,这与图像和视频也不一样,因为图像和视频可以轻易地截图或录制。但购买3D资产或虚拟资产时都需要付费,比如在sketchfab上购买一个最简单的资产,可能需要花费大约10到15美元。即使在国内,用户不太愿意付费的情况下,他们也会知道在淘宝上购买盗版模型可能需要花费几块钱。

所以这些是3D领域与其它领域不同的地方,我们不必担心用户不愿意付费的问题,他们的付费习惯非常好,也愿意为这些3D资产付费。

另一个支撑这个行业庞大的因素是其下游应用场景非常广泛。

例如,游戏行业就是一个非常大的市场。再比如3D设计行业,它是一个万亿级别的行业。我们接触到的许多用户,比如珠宝设计师、鞋类设计师,或者其它类型的设计师,他们可能会设计出某个产品,生成一个3D模型,并将其制作成3D打印产品。此外,有些用户可能会购买一个花瓶,如果只是普通购买,可能只需要花费10元钱,但如果这个花瓶是用户自己创造的、独一无二的设计,那么他们可能愿意花费几百元。

在欧洲和国内,年轻人在创业和设计领域的需求非常大。具体来说,有几个非常大的行业。首先是创意设计领域,我们一直认为它是一个千亿甚至万亿级别的市场,这完全依赖于3D技术,因为它需要制作实物。另一个是游戏行业,我们看到了《黑神话:悟空》上线几天就赚取了十几亿的收入,它完全是基于3D技术。

当我们的3D生成技术成熟后,我们认为即使是小团队也能够开发3A级别的大作。

目前3D应用最困难的部分还是模型的制作,可能需要花费数年时间进行建模和扫描。但在3D技术成熟后,开发这类3A大作游戏将变得非常简单。还有动画行业,现在3D动画正成为主流,动画也是一个千亿级别的市场。

为什么说3D动画的体验感要比2D好很多?2D动画是一张张图画,然后将它们连接起来使动画动起来。而3D动画则是先建立3D模型,然后通过动作捕捉技术,让人的表情和动作驱动模型,最后渲染出一部动画,其流畅性和连贯性都非常好。还有大家期待非常高的AR和VR行业,整个生态完全依赖于3D技术。

甲子光年:3D其实是在迭代这些行业?

张飞虎: 对,它会让这些行业做得更好玩,而且让每一个用户都可以独立创作。同时,比如我们期待的元宇宙和AR、VR技术,为何之前的发展并不成熟,没有起来?核心原因有两个:一是内容太少,无法生产出好玩的内容。3D建模太难了,没有这类资产和数据,不像图像或视频那样简单,3D建模的难度确实很大。

另一个原因就是硬件设备还不成熟。设备的成熟可能是一个渐进的过程,当然,这需要硬件公司来解决。

我们把3D内容这块做好,这是3D生态的一个基础技术,它的重要性就像现在的文字和图像在互联网上的重要性一样,在XR这个生态系统中,3D是一个基础元素级别的关键要素。

甲子光年:你认为今年对DreamTech来说最重要的一件事是什么?

张飞虎: 我们认为最重要的是在年底前完成15B至16B模型,也就是我们称之为XL模型的迭代。

这个模型对我们的数据处理要求非常高, 它意味着我们从数据合成阶段进入到数据闭环阶段。 同时,在这一基础上,我们将开发出更多的商业应用。这是我们今年年底的目标,就是训练出一个具有160亿参数的模型。

目前,由于算力限制,我们实际上并没有使用全部数据进行训练,例如我们的5B版本模型仅使用了大约400万数据。而XL模型将使用全部2000万训练数据。

Direct3D 迭代路线图,DreamTech下一个目标:Direct3D-XL(16B)版本,将进一步提升生成结果质量精度

甲子光年:这个一旦做成其实也是一个里程碑。

张飞虎: 对,它将是一个非常大的里程碑。我们自己的C端产品都可以在这个基础上做得非常好。而在明年上半年,基于这个模型,我们可能会经历一个用户数量激增的阶段。


极越汽车正式推送OTA 1.4.0版本 包含超过200项功能升级

易车讯 3月25日,极越在北京举办了AI DAY 2024,并表示,即日起正式推送OTA 1.4.0版本,该版本包含多达200+项功能的升级优化,包含智能辅助驾驶、3D地图导航、智能互联、场景模式等功能。 此外,极越还即将发布全新语音大模型,以及全国都能开的PPA智驾辅助系统。 值得一提的是,在此次AI DAY中,自动驾驶、LD地图、人机交互领域的网络三项最新AI原生科技亮相,并将应用到极越汽车机器人。

V1.4.0版本也是极越01在90天内连续推出的第3次、上市后的第5次OTA。 此次升级涉及智能驾驶、智能座舱、智能互联、三电等诸多领域,共计升级200+功能,解决5300+用户反馈问题。 如升级OCC占用网络可视化效果、SIMO与文心一言大模型双向融合、基于大模型的人车家生态正式“上车”等。

得益于网络AI大模型生态支持,目前极越01已经深度融合文心一言、Apollo、网络地图、小度等技术能力。极越01创造了全球范围内率先实现AI大模型“上车”、国内唯一/全球唯二的纯视觉高阶智驾、首个OCC占用网络升级、首个AI语音算法全量本地化等诸多行业领先

在高阶智驾方面,基于网络Apollo纯视觉高阶智驾能力和安全体系赋能,极越完成OCC占用网络升级,已形成“B.O.T”完整技术体系。 在本次AI DAY上,网络Apollo自动驾驶视觉大模型VTA(Vision Takes All)正式发布,大幅升级包括动静态检测、时序跟踪、实时建图、场景理解等能力,再度提升极越纯视觉高阶智驾能力上限。

值得一提的是,为了让用户更好地感知OCC技术原理,并能更加安心地使用,V1.4.0版本新增OCC 3D地图彩蛋,用户可以通过车机屏幕清晰地看到汽车机器人眼中的世界。 如同积木一样不同颜色的方块标识出车外的障碍物/绿化带/其他车辆等,还有卡通的3D人物标识出过往的行人,给晦涩的AI技术增添了许多乐趣。 该功能还支持通过语音开启与关闭,操控十分便捷。

关于智能驾驶地图,“有图”、“无图”已经成为当前智能驾驶的热议话题。 网络地图LD地图(LD即车道级导航)是自动驾驶原生地图,由自动驾驶视觉感知大模型而生成,彻底重构传统的地图生产模式,实现端到端地图生成新范式,突破了车道级地图规模化的瓶颈。 LD为自动驾驶而生,对传统高精地图地图的要素、精度等最小化的要求,保留最必需的要素和精度;同时,增加了经验图层、安全图层、实时图层等传统高精地图不具备的要素,让自动驾驶开得更安全。

此外,城市PPA又新开一城——广州,这也是继北京、上海、杭州、深圳之后的第5个城市。 对于较为特殊的北京城市路段,PPA也进一步完善,扩大了覆盖范围,可全面覆盖五环内城区的主要道路。

在语音交互层面,为了让汽车机器人在与用户的交互过程中更聪明、反应更快。 基于网络语音交互底层能力,极越01凭借车载语音的“全域全端侧”已经将语音助手SIMO打造成了语音天花板,识别速度快至500ms,且在弱网/无网环境也能流畅交互。 未来,视频语音融合的多模态交互方案即将上车,全面提升多模态融合交互能力和用户隐私保护,并通过多合一端侧模型进一步提升语音识别准确率。

V1.4.0版本还升级了一系列行车体验优化,如:新增自动转向灯功能、新增PPA高速高架变道风格设置、转向自动图像辅助新增盲区预警等,并优化了前向碰撞预警FCW和自动紧急制动AEB之类的ADAS功能体验。 未来,还将更新城市PPA驾驶风格选择。

10家优秀虚拟数字人领域企业盘点

元宇宙浪潮下,数字人革命引领未来

2020年,随着元宇宙概念的火爆,数字人的需求犹如星火燎原,各行业纷纷借力生成式AI的力量,赋予数字人新角色,如主播、客服等,掀起了一场由数字人驱动的创新风暴。 各大互联网巨头和专业虚拟技术公司纷纷投入这场技术盛宴,探索数字人的无限可能。

在这个创新竞技场中,网络、京东云、小冰公司、腾讯等企业凭借强大的技术实力,为金融、媒体、运营商等多领域提供了丰富多样的数字人解决方案。 网络智能云不仅提供服务型和演艺型数字人,还涉及语音交互和内容生产,赋能智能客服与教育培训等场景。 京东云的言犀多模态数字人以对话交互模式,创造出全链路的自动生成内容,已在众多品牌直播间中大放异彩,推动了数十亿的交易额。

小冰公司作为微软背景的中国AI先锋,拥有众多AI模型,从虚拟名人到艺术创作,展示了数字人的多样性和创新性。 腾讯云智能数智人则以唇形同步和表情动作拟人技术,拓展了虚拟形象播报和实时语音交互的边界,广泛应用于金融、传媒等多个领域。

在大厂背后,硅基智能、相芯科技、元境科技等专注于数字人领域的公司,凭借自主研发的平台和产品,打造了从AIGC到3D全息技术的完整生态,为不同行业的商业化落地提供了有力支持。 蔚领时代以实时云渲染技术,构建高写实数字人生态,而魔珐科技则在虚拟人全栈式AIGC和美术能力上独树一帜。

世优科技和世优科技的世优实时3D数字人体系,不仅服务于政府、企业,还深入到广电、电商、教育等各个领域,构建元宇宙新世界。 AI数字人正深刻改变着生活的方方面面,成为企业提升竞争力和用户享受高效服务的重要途径。

未来,随着人工智能技术的不断进步,如何最大化利用数字人技术,将是企业们探索的前沿课题。 数字人不再仅仅是技术展示,而是实实在在的业务创新和用户体验提升的关键。 让我们共同期待,这个由数字人引领的新时代,如何重塑我们的生活与工作方式。

商汤绝影系列原生态大模型亮相2024北京车展

2024北京车展期间,商汤绝影携系列原生态大模型及相关产品矩阵亮相。

作为首个提出感知决策一体化自动驾驶通用模型的公司,商汤绝影在本届车展上首次向公众展示了面向量产的真·端到端自动驾驶解决方案UniAD(Unified Autonomous Driving)的道路测试表现,同时还带来了以多模态场景大脑为核心的AI大模型座舱产品矩阵以及全新座舱3D交互展示,全景展示了通用人工智能(AGI)技术驱动的灵活自适应、深度个性化、安全可信赖、有人文关怀的未来出行全新体验。

商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示:“未来汽车智能化的竞争,本质上是通用人工智能技术融合应用的比拼。 商汤绝影致力于成为加速智能汽车驶入AGI时代的核心技术伙伴,给智能汽车产业带来生产效率和交互体验的双重革新,将携手合作伙伴提供通用人工智能技术驱动的智能汽车全新体验,共同定义未来出行。 ”

(商汤绝影首次亮相北京车展)

像人一样开车!真·端到端自动驾驶解决方案UniAD上车首秀

凭借前瞻的行业洞察和率先布局,商汤及其联合实验室在2022年底便提出了行业首个感知决策一体化自动驾驶通用模型UniAD,并在次年荣获2023年国际计算机视觉与模式识别会议(CVPR)最佳论文,引领端到端自动驾驶的创新潮流。

此次在北京车展上,商汤绝影以UniAD自动驾驶解决方案令人惊艳的实车测试成果展现了中国端到端智驾的实力。 在无高精地图条件下,仅依靠视觉感知的实际道路测试成果。 无论是复杂城市道路还是无中线的乡村道路上,车辆能高效准确地完成包括大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作,做到“像人一样开车”。

(搭载UniAD方案的车辆可真正做到“像人一样开车”)

今年年初,特斯拉开始向部分用户推送FSD V12版本的端到端自动驾驶方案,业内随之出现了越来越多的“端到端”智驾方案,不过大部分端到端方案采用的是更容易落地的由感知和决策两个模型组成的 “两段式”架构,两个模型之间依然存在信息传递过滤或丢失的问题。 而UniAD将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,实现感知决策一体化的真·端到端自动驾驶。

(UniAD真·端到端:感知决策一体化的通用模型)

当前,行业需要真·端到端自动驾驶方案,因为基于规则的智驾方案的天花板已开始显现。 随着城区成为智驾落地的主战场,场景计算的复杂度呈指数级增长。 大量的人力资源投入也只是增加有限的规则,无法应对数量无限的复杂场景和长尾路况(corner case)。 端到端技术的出现开辟了一条全新的道路,开始推动自动驾驶范式从铺设大量人力转变为持续算力投入和高质量数据输入。

凭借商汤大装置的丰沛算力、高质量仿真数据和行业领先的模型性能,UniAD端到端方案有更高的能力上限,强大的学习和思考能力让它能够像人一样开车;数据驱动的端到端模型泛化能力强、迭代效率快,可以帮助车企低成本快速开城;纯视觉感知的无图方案,进一步降低系统的软硬件成本,助力智驾普及,实现全国都能开。

(新一代自动驾驶大模型DriveAGI:可感知、可交互、可信赖)

在端到端系统基础上,商汤绝影还在本次车展期间前瞻介绍了新一代自动驾驶大模型DriveAGI,推动自动驾驶从数据驱动向认知驱动的跃迁。 依托多模态大模型强大的世界理解、推理能力、决策能力以及交互能力,DriveAGI将是目前最贴近人类思维模式、最能理解人类意图并有最强解决驾驶困难场景能力的技术方案,向完全无人驾驶迈出重要一步。

敏锐洞察、深度思考、高效执行“多模态场景大脑”,提供真正懂你的智能座舱

前不久上市的小米SU7将AI大模型带进座舱,而商汤“日日新”大模型也全面助力小爱同学车载语音场景应用。

4月23日,商汤科技发布全新升级的“日日新SenseNova 5.0”大模型。 6000亿参数的“日日新5.0”采用混合专家架构(MOE),具备更强的知识、数学、推理及代码能力,成为国内首个全面对标甚至超越GPT-4 Turbo的大模型,多模态能力领先GPT-4V。 基于端云结合的架构,商汤端侧大模型大幅超越同量级大模型,越级比肩7B、13B大模型,更适合车端部署。

基于多模态大模型、大语言模型、文生图模型等能力组合,商汤绝影构建了以多模态场景大脑为核心的一系列全景感知、主动关怀且富有创造力的大模型座舱产品。

商汤绝影正在打造的敏锐洞察、深度思考、高效执行的多模态场景大脑,是助力智能汽车迈向AGI时代的核心产品之一。 通过应用场景和用户需求驱动,多模态场景大脑让智能汽车可以高效准确地全景感知和深度理解用户需求和周围环境,并以场景大脑为核心打通不同应用,将离散的单点功能聚合在一起,从而为用户提供更多深度个性化的主动关怀和服务。

(多模态大模型可以准确感知并识别车外信息)

基于地理位置推荐符合用户喜好的餐厅、介绍用户感兴趣的外部自然景物,并进行优质景点推荐是绝影AI大模型座舱产品的基础功能。 凭借强大的多模态感知能力,搭载商汤绝影方案的车辆能够准确感知并识别车外的信息,包括周围车辆的车型、标志性建筑物等,以语音、图片或者视频等方式为舱内人员提供更为准确和全面的内容,帮助用户了解和掌握外部环境信息,打破座舱本身的限制,让用户享受更为自由无束缚的出行体验。

此外,以多模态场景大脑为核心,商汤绝影还能提供更多基于汽车场景的AI大模型座舱产品。 以商汤“大医”医疗健康大模型为桥梁的“旅医”,让用户在座舱内就可以获得专业及个性化的健康管理服务,让出行更安心。 基于AIGC大模型技术的“神笔”,可以把用户简单的绘画线条转变成具有美感的艺术作品,增添驾乘乐趣。

(“旅医”让用户在座舱内就可以获得专业及个性化的健康管理服务)

(“神笔”可以把用户简单的绘画线条转变成具有美感的艺术作品)

人机交互的创新也是驱动座舱体验升维的重要因素,去年Apple Vision Pro的问世展现了3D交互的创新体验和应用潜力。 商汤绝影凭借深厚的感知技术研发实力和高效的创新迭代效率,将3D Gaze高精视线交互和3D 动态手势交互这两大全新座舱3D交互展示带到现场,让观众体验到更符合人类直觉的舱内交互方式,推动座舱交互向更安全、更便利的3D交互升维进化。

其中, 3D Gaze高精视线交互是商汤绝影全球首创的能够通过视线定位与屏幕图标进行交互的智能座舱技术,让用户无需点按屏幕,通过眼神即可精准控制中控图标,完成多种交互操作;3D 动态手势交互是行业领先的支持动态手势和手部微动作识别的智能座舱技术,用户通过手势“隔空”实现各类座舱精细化的交互,打破传统按键和屏幕触控方式的繁琐和局限。

(商汤绝影3D Gaze高精视线交互:通过眼神即可精准控制中控图标)

面向未来,商汤绝影还在进一步探索舱驾融合,实现智能驾驶和智能座舱在硬件、软件及应用层面的全面融合,提升用户体验、降低系统成本,进一步打破舱内外的界限和束缚,涌现更多创新功能,带来更安全、更加全方位,更具人文关怀的新体验。

如今,商汤绝影已经构建了智能驾驶、智能座舱和AI云的多元AGI产品体系,正在加速推动原生态大模型产品在汽车智能化领域的全方位深度应用,加速AGI融入汽车产业,与广大车企合作共赢,开启未来出行的新篇章。

超90%市值蒸发 190家机构撤离 精气神 酒鬼酒还能找回
读懂一张蓝图绘到底 一见·从一本书