要让机器人理解物理世界 对标李飞飞!前华为美研CTO创业

机器人前瞻(公众号:robot_pro) 许丽思漠影

在柏拉图的 洞穴隐喻 里,一群一辈子没出过山洞的人,对外界唯一的感知来源是投射在洞里墙壁上的影子。他们可以借助影子了解到外界的一些情况,但影子对真实世界的投射不一定是完全真实的。

现在的人工智能,也像处于“洞穴”之中,它对外界的理解来自于人为提供的二手信息,还没办法直接去感受真实世界、获取一手信息。

而对 胡鲁辉 来说,他想做的就是让人工智能可以 直接感知、理解物理世界 ,然后进行交互,从而逐步接近 通用人工智能

在清华大学、美国留学深造后,进入微软、亚马逊、华为美国研究院、Meta这样的顶尖科技巨头担任高管,胡鲁辉的履历堪称优秀。

前年年底,他萌发了“ 理解物理世界 ”的想法。今年,他下决心回国再创业,创办了 智澄AI ,“澄”的意思就是逐步走向真正的智能。“目前,国内还没有类似企业。我们对标的是美国 李飞飞 老师创办的空间智能公司。”胡鲁辉说。

AI 2.0时代的到来意味着什么?给机器人装上模型就可以让它实现具身智能?通用人工智能将会创造出机器人的“iPhone时刻”?最近,机器人前瞻和智澄AI创始人胡鲁辉进行了一场深入交谈,从他毅然转向的事业发展路径背后,看到了从多模态大模型到物理智能,实现通用人工智能的新答案。

▲前Meta首席工程师、智澄AI创始人 胡鲁辉

一、担任过多家科技巨头高管,手握30+专利

早年在清华大学毕业后,胡鲁辉就收到了美国西北大学等多所高校博士录取通知,赴美深造。毕业后,他选择留在西雅图,在这样一座汇集了一众世界顶尖科技巨头的城市工作。

他先是在 微软 亚马逊 总部工作了十来年,后面又加入 华为美国研究院 担任首席架构师兼首席技术官,最近的一段经历是在担任首席工程负责人,负责数据人工智能方面的工作。

除了各大科技巨头的高管头衔,他的从业生涯中浓墨重彩的一笔,是在美国获得的三十多项发明专利及申请。在这些专利里,胡鲁辉作为主要负责人,基本都是第一。

胡鲁辉回忆起在 2010年前后 ,负责了一个亚马逊线下零售的项目。原本亚马逊主攻线上业务,后来想要拓展以无人店为代表的线下业务。但管理线下的商品销售就需要人工流程,这可能会耗费时间和成本,并且可能难以准确地做出商业决策。

最初,他选择用软件处理这种问题。后来,他开始研发人工智能,还获得了一个“用于线下零售业务的数据驱动和自适应机器学习(ML)平台和技术”的专利,可以让多个机器学习算法为线下零售提供多样化的支持。

这是胡鲁辉第一个与AI相关的专利发明,也是从这里开始,他可以说是真正对AI领域产生了浓厚的兴趣。那个时候,AI尚未到火爆、备受关注的程度。

▲胡鲁辉第一个与AI相关的专利

二、 瞄准AI 2.0的机会,再次投身创业浪潮

2015年 ,以CNN卷积神经网络模型为核心的计算机视觉技术,正式拉开了 AI 1.0感知智能时代 的序幕。2016年,AlphaGo击败围棋世界冠军李世石,AI迎来了重要的高光时刻,受到广泛关注。

在AI 1.0时代,胡鲁辉看中了其中的机遇,选择在 2018年 回国,奔赴上海、北京两地创业。

“那次创业,主要聚焦在 智慧零售 方面的人工智能技术的应用,”胡鲁辉说,“当时AI技术的特点是 垂直性特别强 ,需要在垂直领域进行应用,也和永辉、京东、腾讯等平台进行了合作。”

而现在,当AI已经迈入 2.0时代 ,带来了平台式的变革。

在胡鲁辉看来,AI 2.0时代蕴藏着比上一个时代更多的机会,会对人类的生活、工作、产业等产生更大的影响,并且还更容易落地。

所以,他的第二次创业开始了。他找到了之前在微软、华为、Meta的一些同事,组成了公司的核心创始团队,公司的研发团队也基本都是毕业于国内外知名高校的硕士、博士、博士后。

面对深圳、上海等地发出的落地邀约,老家在浙江宁波的胡鲁辉最终决定将公司设立在杭州的菜鸟智谷产业园。

智澄AI的成立,还得到了投资界、政府部门等多方面的支持。

胡鲁辉表示,公司在成立前就已成功融资,不久后投资人还继续追加投资。同时当地政府部门也很重视,把智澄评为AI杭州市余杭区海外高层次领军人才项目,还在资金等多方面给予大力支持。

▲今年7月,智澄AI在杭州开业

三、低成本机械臂,也能实现具身智能

在AI 2.0时代,下一个爆发点及落地大方向将是 AI for Robotics ,而智澄AI正是瞄准了这一点。

“我们是一家通用人工智能公司,核心技术是理解物理世界的模型,”胡鲁辉解释道,“但是我们的产品并非是模型,而是 具身智能 ,也就是 人工智能机器人 。”

从前年年底,胡鲁辉就诞生了让人工智能理解物理世界的想法,并开始思考如何实施。这就要求模型不仅理解编程或语言处理,更要 深入到物理世界的具体应用中去

今年5月 开始,智澄AI的人工智能机器人原型一(TR1)、原型二(TR2)基本完成,已经进入了生产环节,并且和一些企业达成了合作,开始了商业化之路。胡鲁辉将智澄AI的人工智能机器人命名为TR,即Transforming Robot。

“虽然模型研发的时间比较长,但是集成智能本体的时间较短,迭代速度也很快,现在基本上 两个月 就实现了一次迭代。”胡鲁辉说。

▲智澄AI的TR2双臂机器人

不久前,智澄AI联合了来自哈佛大学、清华大学的人工智能专家,推出了一种低成本的 通用人工智能机器人学习框架(GRLF)

把这个框架装在机械臂上,机械臂仿佛变成了具有视觉能力、感知能力的个体,能够像人一样去执行精细的模仿学习任务。

它可以完全摆脱对仿真环境的依赖,实现从数据采集、模型训练到模型部署的端到端实景操作,还可以对多种物体进行放置、排序、操纵,具备了一定的通用能力。

▲装上了通用人工智能机器人学习框架的机械臂正在执行不同的任务

纵观目前的机器人行业,胡鲁辉觉得,许多企业的产品还处于展示、研究和教育的阶段,难以实现机器人真正的应用。机器人行业不仅面临着成本高、价格高的挑战,还存在泛化能力不足的问题,机器人难以适应不同场景需求和环境。

所以,他希望智澄AI能够 将通用人工智能真正应用到大众的工作和生活中 ,让机器人实现像人一样的智能。

“很多公司都专注于制造机器人,让机器人能够完成某项工作。但我们想做的是 能够感知、理解物理世界的机器人 ,它具有推理和思考能力,能够与外界进行智能的交互,而目前国内还没有这类企业。”胡鲁辉说。

在他的计划里,智澄AI会继续围绕实际应用场景、通过技术创新和突破来加快产品的迭代,并且继续推进和不同企业的合作,让产品的应用落到实地。

四、对标李飞飞,让AI走出“洞穴”

要让AI走出“洞穴”,就需要AI直接接触真实的物理世界。

今年4月,“AI教母” 李飞飞 创办了一家“致力于构建能够感知、生成并与 3D 世界互动的大型世界模型的空间智能公司”——。

“我们现在看到的大型语言模型和多模态语言模型,它们是底层表达其实是一种一维表示,”李飞飞在此前接受的公开采访中曾说道,“而空间智能是对世界的三维表达,从算法的角度来看,这是在用不同方式处理数据并从中获得不同类型的输出,最后解决不同的问题。”

简单来说,李飞飞的空间智能就是要让人工智能直接绕过一切中间障碍,直接地感受、理解所身处的三维世界,然后采取一些行动。

而胡鲁辉的想法,刚好和李飞飞不谋而合。

前年年底,他萌生出了“理解物理世界”的想法。“最初,我们关于物理智能的想法其实 没有多少人接受 ,毕竟这是比较有挑战性的,”胡鲁辉说,“通用人工智能有不同的实现方式,很多人都在探索,但通常都会采用 大模型 的方式。”

但是他认为,现有的多模态大模型只能局限于训练的范围中,对外界的理解还是有很大局限性。 只有让人工智能做真正理解物理世界,才能实现通用。

这也正是胡鲁辉创办智澄AI的愿景所在。

不过,在走向通用人工智能的路上,还是面临着不少的阻碍,不仅包括在算力、数据、算法方面,也包括在真正的实际应用落地上。胡鲁辉归纳出了“两个20”来概括当前人工智能发展的差距:

第一个“20”是从 算力 的角度,他提到如果让AI和人同时创作一首诗或一幅画,人可能只需要要20瓦的电量,而AI需要耗费巨大的电量,并且像OpenAI大模型的训练经常需要耗费数亿美元。

第二个“20”是从 数据量 的角度,人类可能花费20小时就能掌握很复杂的事情,例如学车,但是AI可能要花费数亿个小时的数据进行训练。

要实现通用人工智能,还是道阻且长。

五、结语:AGI的到来,会是机器人的“iPhone”时刻”

通用人工智能,到底还需要多久才会到来呢?

沿着物理智能的路径,胡鲁辉觉得,可能还需要 3到5年 左右。而等到通用人工智能实现的那一刻的到来,也将会给机器人领域带来颠覆性的变革。

这是机器人 “iPhone 时刻 ”。就如同当年iPhone的横空出世,它作为一个突破性的硬件平台,带动了整个软件应用生态的发展一样,通用人工智能也会创造出一个蕴含着巨大价值的生态。

它作为一个相对标准化的模型、软件,会走向平台化,可以广泛地应用到不同的机器人上,重新定义人们的生活方式。

那个时候,机器人会成为一个更为广泛的概念,不止是我们现在所熟悉的人形机器人,而是 一切都会走向机器人化 ,重新定义每个人的生活方式。

这个时刻的曙光,已经逐渐显现了。

彻底稳了 行家放话!骁龙8至尊版是一条大冰龙
GenAI浪潮下 智能硬件如何实现低延时AI语音交互