NVIDIA 的自动驾驶智能体 科学家 探索基于多模态LLM Research

让自动驾驶系统适应新环境和不同地区的习惯和法规是自动驾驶领域长期面临的挑战。NVIDIA Research 团队提出的自动驾驶智能体 LLaDA 能够利用 LLM 生成适应不同环境的驾驶策略和指令,为驾驶员和自动驾驶汽车提供多语言和地区交通规则的实时指导,帮助他们更轻松地在陌生的地方导航。此外,LLaDA 还能帮助自动驾驶汽车重新规划出与当地环境更加匹配的运动轨迹,调整自动驾驶汽车的运动规划策略。相关论文成果收录于。

然而,LLaDA 无法实现场景的自动识别,且对场景描述的质量有着较高要求。尽管 GPT-4V 能够提供这种描述,但是却不够准确。为此,NVIDIA Research 提出一个创新的自动化视频字幕生成框架 Wolf。Wolf 采用专家混合方法,利用视觉语言模型(VLMs)的互补优势,能够提升自动驾驶智能体的场景理解能力。

此外,LLaDA 通常是与用户直接交互,并主要处理文本信息。相比之下,自动驾驶系统则需要提供具体的位置和轨迹规划信息。基于这些差异,NVIDIA Research 团队专为自动驾驶领域设计出一种多模态大型语言模型(MM-LLM)TOKEN。TOKEN 通过将复杂的交通环境转化为对象级别的知识单元,增强了自动驾驶车辆在面对长尾事件时的规划能力。该模型还结合了端到端驾驶模型的优势,解决了数据稀缺和标记化效率低下的问题。相关论文收录于。

在上述背景下,智猩猩与 NVIDIA 策划推出「 智猩猩公开课 NVIDIA 自动驾驶智能体专场 」,并将于10月22日以视频直播形式进行。公开课邀请到 LLaDA 论文第一 NVIDIA Research 自动驾驶方向研究科学家李柏依 进行主讲,主题为《 探索基于多模态LLM 的自动驾驶智能体 》。

李柏依博士首先会重点讲解 LLaDA 如何利用 LLM 生成适应不同环境的驾驶策略和指令;之后会解读如何使用 Wolf 框架生成字幕提升智能体的场景理解能力。接下来,李柏依博士会讲解如何基于 TOKEN 分解复杂交通场景提升智能体在长尾事件的规划能力,最后会分享在自动驾驶智能体上的未来研究方向,并进行展望。


NVIDIA杰出科学家讲述视觉语言模型如何革命性地推动边缘AI的发展

本文整理自:边缘AI计算需求巨大,绿色表示计算供应,红色表示需求。 AI计算需求增长迅猛,而软件成本日益增加,成为关键因素。 工作包括深度压缩与EIE,通过剪枝与量化压缩神经网络,减少无效计算与工作量。 首次引入权重稀疏性加速与剪枝,稀疏性在2015-2016年间变得流行,近年来相关出版物众多。 高效机器学习项目目标缩小计算供应与AI需求差距。 降低延迟、减少内存消耗、降低能耗与提高性能是重点。 实现软件与硬件协同设计,适应小型与大型语言模型。 在小型模型与大型语言模型上实现协同设计,关注ST模型与稀疏模型,加速稀疏性与系统支持。 全精度与量化模型对比,从判别模型到生成模型,使用扩散技术。 从单一模态到多模态,聚焦多模态视觉语言模型。 量子机器学习CI项目也纳入研究。 K机器学习与MCET项目,设计轻量级神经网络适应低成本设备。 MC V1到MC V2,内存消耗从2256K字节压缩至32K字节,准确性增加。 基于补丁推理展示,MCET V2模型在Cortex M7微控制器上的OpenMV摄像头运行。 设备大小甚至比AirPods还小,支持人员检测功能,检测到远离设备的人。 在设备上进行推理与训练,展示Tiny Training。 设备训练定制模型,需要在边缘设备上本地执行反向传播,存储中间激活值,内存占用增加。 为解决此问题,提出8位量化训练中的量化感知缩放,稳定权重更新比率。 使用稀疏更新,发现并非所有层贡献同等,稀疏更新少数几层。 按钮提供本地标签,所有操作在设备本地进行。 基于补丁推理展示,MCET V2模型在搭载Cortex M7微控制器的OpenMV摄像头上的运行情况展示。 设备非常小,运行人员检测功能,检测到远离设备的人。 对资源有限的微型设备或微控制器来说,这是极具挑战性的,而方法解决了这个问题。 继续下一章内容,不仅是在设备上进行推理,还有训练。 展示Tiny Training。 设备训练帮助定制模型,挑战在于在边缘设备上本地执行反向传播,需要存储中间激活值,内存占用增加。 为解决此问题,提出8位量化训练中的量化感知缩放,稳定训练与推理之间的权重更新比率。 使用稀疏更新,发现并非所有层贡献同等,稀疏更新少数几层。 设备上的标签通过两个按钮提供,所有操作在设备本地进行。 展示基于补丁的推理,在搭载Cortex M7微控制器的OpenMV摄像头上的运行情况。 设备运行人员检测功能,检测到远离设备的人。 资源有限的微型设备或微控制器面对这一挑战,而方法成功解决了问题。 接下来讨论2.0版本的Edge AI基础模型,用于各种任务,如医疗成像、自动驾驶、智能制造、机器翻译等。 不同任务需要不同模型与数据,缺乏负样本阻碍某些用例,例如异常检测。 训练图像较小,泛化能力有限,易遇到特殊情况失败。 2.0版本要求使用具备世界知识的通用模型,通过Transformer大型语言模型与大容量实现。 2.0版本目标是创建一个单一模型,能够处理多个任务,具备零样本学习能力,通过大型语言模型、世界知识、高级推理能力、上下文学习能力、融合学习能力、视觉思维链能力实现。 模型能够遵循各种指令,处理地标识别、驾驶、患者监测、智能制造等场景。 多个实例将在Jetson Orin平台上展示,利用单个视觉语言模型处理所有情况。 演讲包含三个部分。 首先讨论视觉语言模型的预训练,尤其是即将发布的ViLA视觉语言模型。 ViLA模型拥有27亿参数,部署在Jetson Orin Nano上。 接着探讨大型语言模型的模型压缩与量化问题,特别是AWQ(Activation Aware Quantization)技术,用于对视觉语言模型和大型语言模型进行权重量化,避免权重内存带宽瓶颈,将大型模型压缩为仅使用四位的小型模型。 最后介绍TinyChat高效部署引擎,能在移动设备上部署视觉语言模型ViLA和其他大型语言模型。 边缘设备上的ViLA目标支持多模态大型语言模型,结合视觉AI与语言,增强视觉推理能力,实现跨图像上下文学习与推理。 通过图像文本对进行训练,ViLA能够在不破坏大型语言模型的前提下,从视觉输入中学习,并实现高效的边缘设备部署。 VILA模型部署在Jetson Orin,可执行各种任务,如医疗成像、自动驾驶、智能制造、机器翻译等。 不同任务需要不同模型与数据,缺乏负样本阻碍某些用例,例如异常检测。 训练图像较小,泛化能力有限,易遇到特殊情况失败。 2.0版本要求使用具备世界知识的通用模型,通过Transformer大型语言模型与大容量实现。 在Jetson Orin上展示多个实例,利用单个视觉语言模型处理所有情况,实现边缘AI的强大能力。 演讲的三个部分概述如下:首先讨论视觉语言模型的预训练,尤其是即将发布的ViLA视觉语言模型。 其次探讨大型语言模型的模型压缩与量化问题,特别是AWQ(Activation Aware Quantization)技术,用于对视觉语言模型和大型语言模型进行权重量化,避免权重内存带宽瓶颈,将大型模型压缩为仅使用四位的小型模型。 最后介绍TinyChat高效部署引擎,能在移动设备上部署视觉语言模型ViLA和其他大型语言模型。

IEEEFellow李世鹏:人工智能与机器人前沿研究之思考

|维克多|青暮2021年12月9日,由粤港澳大湾区人工智能与机器人联合会、雷峰网合办的第六届全球人工智能与机器人大会在深圳正式启幕,140余位产学领袖、30位Fellow聚首,从AI技术、产品、行业、人文、组织等维度切入,以理性分析与感性洞察为轴,共同攀登人工智能与数字化的浪潮之巅。 大会次日,思尔实验室主任、前深圳市人工智能与机器人研究院执行院长、国际欧亚科学院院士、IEEEFellow李世鹏在GAIR大会上做了《人工智能与机器人前沿研究之思考》的演讲。 李世鹏博士,IEEEFellow,国际欧亚科学院院士。 历任深圳市人工智能与机器人研究院首席科学家和执行院长、科大讯飞集团副总裁及讯飞研究院联席院长、微软亚洲研究院创始成员与副院长。 李院士在多媒体、IoT及AI等领域颇具影响力。 他拥有203项美国专利并发表了330多篇被引用了的论文。 被Guide2Research列为世界顶尖1000名计算机科学家之一。 培养出四位MITTR35创新奖的获得者。 是新一代人工智能产业技术创新战略联盟发起人之一及联合秘书长。 在演讲中,李世鹏介绍并展望了人工智能与机器人前沿研究方向,他指出:未来机器学习突破深度学习的数据瓶颈或许可以借助认知科学的方法得到突破,学习范式可从依靠大数据转变成依靠大规则;人机协作也要进化为人机谐作,只有将耦合、交互、增强、互补等目标纳入研究方向,才能实现人机的无缝连接。 以下是演讲全文,AI科技评论做了不改变原意的整理:今天的演讲题目是《人工智能与机器人前沿研究之思考》,分为三个部分,先谈人工智能和机器人研究全景,然后聚焦研究方向,包括机器学习、运动智能、人机谐作、群体协作;最后进行总结。 人工智能相关研究的关键元素有三个:人、机器人/物联网以及AI。 之所以将机器人和物联网归为一类,是因为这两者是物理世界和虚拟世界的接口。 如果三个元素两两之间发生联系就会形成一个新的学科,例如机器人和AI相结合会产生智能体,AI和人类相结合会产生人机耦合以及增强智能,而机器人和人类相融合会形成增强机体。 随着人工智能与机器人领域的发展,研究对象不再局限在单个智能体,而是越来越多地对多个智能体的协作进行研究,例如人类社会群体如何更好地相融合?如何设计出能够精妙协作的机器群体?总体而言,我认为重要的基本研究方向是:机器学习、运动智能、人机谐作、群体协作。 1聚焦方向之机器学习机器学习的发展离不开深度学习加持,它给行业带来许多研究成果,并赋能了语音识别、人脸识别、物体识别、自动驾驶等方面,推动人工智能产业高速发展。 虽然成果颇丰,但成也萧何败也萧何。 深度学习依赖于大数据,其瓶颈也在于大数据。 例如国内的智能语音技术尽管处于行业领先,但仍依赖技术积累和数据积累。 现在想要让深度学习发挥巨大威力,仍然需要大量数据的加持,如果想让深度学习从一个领域扩展到另一个领域,也少不了数据支撑。 如何突破?研究者已经探索了多条路径,其中一个解决方案是:扩展深度学习框架。 例如优化深度学习算法、知识图谱+深度学习、专家系统+深度学习等等。 另一条路径是因果推理,其目标是借助人类举一反三的能力,期望超越数据之间的相关性,进而探索数据之间的因果性,从而得到数据之间的逻辑推理。 第三条路径是类脑计算,从生物学角度,探索人脑认知元素和机制,以仿真方法再现人类大脑。 个人认为认知科学是突破深度学习框架的着力点。 理由是人类认知过程有两点需要我们去进一步借鉴:生而知之、学而知之。 生而知之是指部分认知能力与生俱来,新生儿的脑神经有很多先天的连接。 它给我们的启示是:现在的大多深度学习算法,大部分都是从零开始训练,而没有充分或者高效利用先验知识或者已有模型。 如何利用现有知识是深度学习的下一个热门方向。 学而知之是指大部分认知能力是后天学习到的,尤其是早期学习。 通过学习脑神经建立了更多的连接。 孩子很多能力,包括感知、应对、语言、读写和理解,甚至分析问题和解决问题的思路和能力在很小时候已经基本定型;以后基本都是知识的积累。 这意味着脑神经元很早的时候就连接定型成一个元模型,剩下的是只是利用这个元模型去解决具体领域的问题。 这个与当前的大规模预训练模型有着惊人的相似之处。 学而知之的另一层次是:人类学习过程依靠多源的、多传感的、多模态的、多角度的数据,例如视觉、听觉、嗅觉、触觉和语境等联合信息,而今天的深度学习依靠大都是一段语音、一张照片,因此,未来AI模型的输入数据可能不仅是单一的数据,而是多个信号源的融合。 如何模仿人类学习的过程,这是认知科学对深度学习的另一个启示。 再者,人类学习过程是一个从样本示例到原理归纳的过程,而不是仅停留在样本示例层面;目前深度学习却都是停留在样本层面。 那么,未来是否能够构造类人的机器学习框架,无论输入什么样的数据,只要逻辑相通,都会收敛到一致的模型?突破深度学习的数据瓶颈,可以尝试构建规则的众包系统,让人类教机器学习过程,其目的不是输入数据,而是让机器学习规则。 由于我们试图从日常的活动中学习规则,这种规则普通人都可以标注示教,这就打破了以前专家系统地需要专家的局限。 这种从大数据过渡到大规则模型构建方式显然也更符合人类的认知。 2聚焦方向之运动智能众所周知,在机器人领域,波士顿动力公司的产品最像人,如上动图,机器人跳舞丝毫看不出生硬的感觉。 但受计算资源、能量、运动控制的限制,它只能运行几十分钟。 其实,波士顿动力机器人的运行方式是基于电机驱动,存在很多缺点,例如刚性运动、自重比较大、反应速度和灵活性的矛盾以及耗能大。 对比人类和其他动物的运行方式,肌肉、骨骼、传感和神经的结合可以在低能耗情况下,实现灵活运行。 这给研究者的启示是,机器人的运行系统应该像人一样满足:高效、灵活、精确、鲁棒、刚柔并济、轻量、自适应等指标。 当前的运动智能可能在某一个维度表现优秀,但综合考量仍然有很多缺点。 因此,运动智能的一个重要研究方向是:仿生。 仿照动物的运动智能,例如运动控制采用逼近反馈式,运动过程视变化随时灵活调整。 如果说机器人是靠内力驱动,而医疗微纳米机器人是外力研究方向的代表。 例如依靠磁力,小机器人精确地将药物从一个管道运送到另一个管道。 3聚焦方向之人机谐作在人机谐作层面,区别于协作,谐作代表人机协作中的耦合、交互、增强、互补、协作、和谐等意思。 人机谐作的目标是:不需要告诉机器人类的意图,机器就能领会,从而达到人机的无缝连接。 在达成人机谐作的过程中,重点研究人机自然交互、感知及增强。 具体可能包括:生物特征检测和识别、人机接口、脑机接口、语音识别、动作识别、表情识别、语言理解、意图理解、体态感知、无隙增强,以及在扩展现实与远程现实的延伸等等。 人机增强智能方面,今天的机器学习框架大都是基于大数据的深度学习框架,肯定会遇到机器智能处理不了的情景。 这对于某些高风险领域,例如自动驾驶、金融等来说是致命的。 针对这一问题,当前的解决方案是人类接管。 这会涉及三个核心问题:核心问题1:机器智能如何感知自己处理不了一些情况,而主动要求人来接管?核心问题2:什么时候人类可以完全放手给机器自主完成任务?核心问题3:什么样的人机交互设计能充分发挥人和机器各自的长处,同时又无需非必要地麻烦对方?三个核心问题如果无法解决,会导致一些困境。 例如,以自动驾驶为例,目前安全员并不是开了自动功能就一劳永逸,仍然需要时时监测路况与路线,一刻都不能分神。 这其实增加了安全员的负担,因为在没有自动驾驶的时候,人类对自己的驾驶环境会有一定的预测,而机器驾驶的情况人类无法预测。 人机增强机体也属于人机谐作的一个领域,能够帮助人类增强物理机体能力,完成一些人类自身体力完不成的事情。 但机器可能过于复杂,需要人类培训后才能操作。 人机增强机体的未来目标是实现人与机器和谐共处,操控起来如同人类的自己的器官一样自然。 其中,涉及的核心研究课题包括:机器感知人的意图、人的姿态、理解人的自然语言命令、肢体语言等等,从而让机器以最适合人类接受、恰到好处的平滑方式帮助人解决问题。 4聚焦方向之群体协作目前单智能体已经可以完成许多任务,但如何发挥每个智能体集合起来的威力?这涉及群体协作的研究方向。 在仓储场景下,存在许多抓取分类的机器人,如果能够有效调度,那么必将大大提高工作效率。 当前主流的调度方式是中心化的控制方式,但面对成千上万的规模的智能体,则需要非中心化的控制,允许智能体之间存在自主行为,在相互协作的同时,还能做自己的事。 即单独的有智能可独立行动的智能体,通过协作而达到的更高效的群体/系统智能和行为。 智能体群体协作目前涉及的规则包括,群体行为模型和激励机制、群体智能协同决策。 这一方面,蚂蚁是我们的学习对象。 另外,在自动驾驶方面,越来越多自主驾驶机器人出现,它们之间如何做到协同感知和协同控制也是当今热门话题。 上述四个方面属于基础性的研究,任何一个领域出现了突破,那将对其领域以及下游应用而言都是革命性的突破,也将带来工业数智化原创技术的创新,会我们在竞争中占领优势地位!雷峰网雷峰网

Dolphins: 自动驾驶的多模态语言模型

自动驾驶的多模态语言模型Dolphins论文“Dolphins: Multimodal Language Model For Driving”由Nvidia公司、Wisconsin-Madison分校、Michigan大学和斯坦福大学的团队发布,致力于开发一种能够处理视觉、文本指令和历史控制信号等多模态输入的视觉语言模型(VLM),以增强自动驾驶汽车的类人理解和响应能力。 Dolphins旨在作为对话式驾驶助手,擅长生成与输入指令相匹配的明智输出。 为提升Dolphins的推理能力,首先在其基础开源预训练模型OpenFlamingo上采用了落地思维链(GCoT)过程。 之后,构建了特定于驾驶的指令数据集,并通过指令微调使其适应驾驶领域。 利用BDD-X数据集,Dolphins被设计并整合了四个不同的AV任务,以促进其对复杂驾驶场景的全面理解。 Dolphins的特征主要分为两部分:一是能够提供对复杂和开放世界长尾驾驶场景的全面理解,并解决一系列AV任务的能力;二是展现出的类人能力,包括上下文学习的无梯度即时适应和反思错误恢复。 当前自动驾驶系统在整体理解和解释动态复杂场景方面存在局限性,尤其是在数据分布长尾处的意外场景中。 此外,它们在即时学习和适应新场景时依赖大量数据训练,缺乏人类驾驶员在遇到新情况时快速学习的能力。 同时,自动驾驶系统在反思错误和基于反馈实时纠正行为方面表现不佳。 现有工作利用大型语言模型(LLM)处理与自动驾驶相关的任务,如感知、推理和规划等。 例如,DriveLikeHuman设计了一种基于LLM的模拟人类学习驾驶的过程,GPT Driver使用GPT-3.5进行可靠运动规划,SurralDriver在CARLA模拟器中构建了基于LLM的DriverAgent,具有记忆模块,模拟人类驾驶行为。 然而,这些方法主要接受语言输入,缺乏视觉特征。 Dolphins在视觉语言模型基础上,通过落地部署和指令调优,增加了对视觉输入的多模态理解能力,使得VLM能够全面理解复杂场景并提供类人响应。 针对自动驾驶背景,Dolphins设计了四种任务:行为理解、行为推理、控制信号预测和详细对话。 这些任务旨在提升模型在感知、预测和规划关键任务上的能力。 通过收集BDD-X数据集的视频片段和标签,Dolphins构建了一个适用于端到端自动驾驶系统的数据集,包含视频-指令-答案三元组,旨在增强其泛化能力。 为了解决自动驾驶指令跟从数据集短缺问题,Dolphins采用了上下文指令调整,通过检索上下文示例帮助模型从少量输入-输出示例中学习新任务。 该模型基于OpenFlamingo架构,结合视觉编码器、文本编码器和门控交叉注意层,增强其在视频理解方面的性能。 总之,Dolphins通过多模态语言模型的创新设计和任务优化,显著提升了自动驾驶汽车在复杂场景下的理解、响应能力和泛化能力,朝着构建更为智能和安全的自动驾驶系统迈出了重要一步。

内讧 一方指被迫赶工 一方归咎封装技术 英伟达与台积电被爆
河南一小学生给妈妈打了一碗饭吃 担心被批评 老师暖心发声