立大功 突破视频多模态大模型瓶颈! 合成数据 项目已开源

本文来自字节跳动,南洋理工大学 S-Lab 和北京邮电大学。其中第一为南洋理工大学 S-Lab 的博士生 Yuanhan Zhang (https://zhangyuanhan-ai.github.io/),主要研究领域为将基础模型适配于开放世界。本文的指导老师为 Ziwei Liu 教授 ((https://liuziwei7.github.io/) 和 Chunyuan Li 博士 (https://chunyuan.li/), 其中 Chunyuan Li 领导了这个项目。本文其他包括北京邮电大学 Jinming Wu,南洋理工大学 S-Lab 的博士生 Bo Li, 字节跳动研究员 Wei Li, Zejun Ma.

视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集,名为 LLaVA-Video-178K。

该数据集包含详细的视频的描述、开放式问答(QA)、和多项选择题。通过在该数据集和现有的视觉指令微调数据上训练模型,我们推出了新的视频 LMM——LLaVA-Video。实验表明,LLaVA-Video 在多个视频基准上表现出色,展示了该数据集的有效性。

先来看一组交互性展示,了解 LLaVA-Video 在真实世界中与人交互:

1.LLaVA-Video 教我下载 "TikTok":

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650939676&idx=3&sn=b46f7433c2ab7976a4fbea3fcf20745a&chksm=84e7e562b3906c74a3ac7337f9ef2c109bc95673095312f05e3b243db484a36bec808e952f90&token=1077590380&lang=zh_CN#rd

2.LLaVA-Video 描述我的客厅,并指导我找健康饮料:

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650939676&idx=3&sn=b46f7433c2ab7976a4fbea3fcf20745a&chksm=84e7e562b3906c74a3ac7337f9ef2c109bc95673095312f05e3b243db484a36bec808e952f90&token=1077590380&lang=zh_CN#rd

视频指令跟随数据合成

一个高质量的视频指令跟随数据集对于开发有效的视频语言模型至关重要。我们确定了构建此类数据集的关键因素:确保视频内容和语言注释的丰富性和多样性。我们对现有的视频基准进行了全面调查,涵盖了各种公共视频描述和问答数据集,然后确定了十个独特的视频来源,这些来源为超过 40 个视频语言基准提供了数据。从每个来源中,我们选择具有显著时间动态的视频。为了保持注释的多样性,我们建立了一条能够生成任何长度视频的详细描述的流水线。此外,我们定义了 16 种问题类型,指导 GPT-4o 生成问答对,以训练视频语言模型的感知和推理能力。

我们注意到,尽管不同的视频语言数据集侧重于各种视频理解任务,但大多数都来源于十个主要视频来源,这些来源提供了广泛的来自不同网站、拍摄视角和题材的视频。下图展示了这十个我们选择的视频数据集与其他现有视频语言数据集之间的关系。进一步,我们从这些来源中选择了动态视频,详细的选择逻辑在论文中描述。

自动生成视频详细描述

对于选定的视频,我们使用 GPT-4o 系统地描述其内容。我们从每秒一帧的频率开始采样视频。然而,由于 GPT-4o 的输入大小限制,我们无法一次性使用视频中所有采样的帧。因此,我们按顺序描述视频,如下图所示。我们在三个不同级别上创建描述,详细如下,简单来说,第一个层级(leve-1)指的是针对 10s 区间的视频描述,第二个层级(level-2)指的是针对 30s 区间的视频描述,第三个层级(level-3)指的是针对整个视频的描述。

视频描述的生成流程:通过递归方法对三个不同的视频描述层级(leve-1,level-2,level-3)进行描述。`t` 是时间区间在其自身层级的索引,`T` 是最后一个时间区间的索引。(a) 我们根据 level-1 的 `t` 内收集的帧、level-1 的 `t-1` 的描述,以及最近的一次 level-2 描述(如果有的话),来生成 level-1 时间区间 `t` 的视频描述。(b) 我们使用 level-2 的 `t-1` 的描述,以及最近的三个 level-1 描述,生成 level-2 的时间区间 `t` 的描述, (c) 我们基于最近一次 level-2 的描述和最近的一次 level-1 的描述,生成 level-3 的 `T` 的描述。

自动生成视频问答

除了详细的视频描述,我们的数据集中还包含设计用于复杂交互的各种问答对。这种设置提高了视频理解模型处理现实问题的能力。我们参考公共视频问答基准,将这些问题组织为 16 种特定类别,如图 3 所示。给定详细的视频描述,我们使用 GPT-4o 为每种问题类型最多生成一个问答对。有关问题类型和生成过程的更多细节,请参阅论文。

数据创建中用于生成视频问答对的问题类型。对于每种类型,我们提供其名称和示例问题。

数据集统计

我们从收集到的数据源中精心挑选,以形成一个平衡且全面的集合,最终得到总共 178K 个视频和 1.3M 个指令跟随样本。这包括 178K 个视频描述、960K 个开放式问答和 196K 个多项选择问答。

不同数据集和问题类型(描述、开放式 Q&A、多项选择 Q&A)中的数据分布。

一个用于说明 LLaVA-Video-178K 中视频指令跟随数据的示例。

数据集比较

LLaVA-Video-178K 和其他视频语言数据集的比较。平均 FPS 代表用于提示 GPT-4o/GPT-4V 进行注释的每秒帧数。★:VIDAL, WebVid, ActivityNet。◼:Panda-70M, Pexels, Pixabay, Mixkit, BDD100K, Ego4d。✸:HD-VILA-100M, Kinetics-700M, Ego4D, VidOR, InternVid, YouCook2, ActivityNet, Sth-sthv2, VIDAL, Charades。

我们提供了和其他高质量指令跟随视频语言数据集的比较,LLaVA-Video-178K 展现了如下优势

1. 广泛的动态视频集合: 在视频来源方面,虽然 LLaVA-Hound 包含最多的视频,但其 44% 的视频数据来自 [WebVid](https://ak.picdn.net/shutterstock/videos/21179416/preview/stock-footage-aerial-shot-winter-forest.mp4),其中大多数视频是静态的。ShareGPT4Video 的 30% 视频来自 [Pexels](https://www.pexels.com/video/a-bird-is-standing-on-the-beach-27916646/)、[Pixabay](https://pixabay.com/videos/plane-modelling-miniature-lockheed-134519/) 和 [Mixkit](https://mixkit.co/free-stock-video/a-young-woman-clad-in-snugly-black-sportswear-doing-lunges-52112/)。这些视频美学效果很好,但是同时存在视频本身较为静态的弊病。此外,其大部分视频来自 Panda-70M,这些是从较长视频中剪辑的短片,其情节较为简单。相比之下,我们精心选择了动态,情节复杂的视频,这对于开发强大的视频理解模型至关重要。

2. 高帧率: 关于采样的帧的频率,LLaVA-Video-178K 考虑了 1 FPS,而其他数据集考虑的 FPS 较低。LLaVA-Hound 从任意长度的视频中均匀采样 10 帧。平均 FPS 为 0.008,这样会错过一些细节。ShareGPT4Video 使用 CLIP 基于帧的独特性选择关键帧。此方法可能也会错过视频中的细微变化,因为 CLIP 的特征无法很好地捕捉细粒度动态。我们的方法以 FPS=1 进行采样,不使用关键帧选择算法,确保详细的时间信息能够在注释中得到高覆盖率的表达。

3. 多样化的任务: 所提出的数据集考虑了三种常见的任务类型,包括描述、自由形式和封闭形式问答,而现有的数据集仅考虑了其中的一部分。同时,我们数据集的样本质量和数量更高。

该数据集聚焦动态视频, 高帧率, 和多样化的任务, 让视频多模态大模型洞察每一瞬精彩。

视频表示

基于经典的 SlowFast 视频表示方法,我们开发了 LLaVA-Video_SlowFast,以在视频表示中,平衡帧数和视觉 token 的数量,同时考虑 LLM 的上下文窗口限制和 GPU 内存的限制。

具体来说,我们根据击中率 s 将帧分为两组,每隔 s 帧均匀选出形成 慢 帧组,剩下的帧被认为是 快 帧组。需要注意的是,当 s=1 时,只有一组帧,这种情况下 SlowFast 表示就简化为原始的简单表示。对于每组帧,我们使用 PyTorch 函数 avg_pool2d}() 应用不同的池化率。我们对慢帧使用 pXp 池化,对快帧使用 2pX2p 池化。

基准性能

LLaVA-Video 的表现。对于 VideoDC 和 VideoChatGPT 的,我们使用 5 分制度打分,其他评测集结果以准确率打分。所有结果均为 0-shot 准确率。 表示该评测集的训练集已在我们的训练集中使用。

我们在视频和图像数据的联合数据集上微调了 LLaVA-OneVision (SI)。具体而言,我们添加了来自 LLaVA-Video-178K 数据集和四个公共数据集的视频数据:ActivityNet-QA、NExT-QA、PerceptionTest 和 LLaVA-Hound-255K,此外,我们还使用了来自 LLaVA-OneVision 模型的 110 万个图像语言对。如表格所示,LLaVA-Video 展现了出色的性能。

结论

本研究介绍了高质量的专为视频语言指令任务设计的 LLaVA-Video-178K 数据集。它的特点是在较长的未修剪视频中进行密集的帧采样,覆盖了包括字幕制作、开放式和多项选择问答等多种任务。通过将 LLaVA-Video-178K 数据集与现有的视觉指令数据结合起来,我们开发了一系列新的模型,LLaVA-Video。这些模型改进了视频表现,更有效地利用了 GPU 资源,使我们能够在训练过程中处理更多帧。实验结果证明了所提出的合成数据集的有效性,LLaVA-Video 模型在各种视频基准测试中都表现出色。


Sora负责人与谢赛宁「隔空对话」,LLM先锋集结中国最硬核AI内行盛会!智源大模型全家桶亮相

:部在2024年的智源大会上,星光熠熠,干货满满,学术巨佬含量超标,展现了AI圈最不容错过的顶级盛会。 智源研究院不负众望,发布多项学术成果,包括全球首个低碳单体稠密万亿参数大模型Tele-FLM,以及全新思路的原生多模态「世界模型」Emu 3等。 此次大会汇聚了国内外顶尖学者和产业专家,共200+人,包括图灵奖得主、国际明星机构与技术团队代表,以及国内主流大模型公司的CEO与CTO。 技术路径判断下,智源大模型全家桶应运而生,包括语言大模型、多模态大模型、具身大模型、生物计算大模型,以及支撑这些大模型技术迭代的基座,即算力集群「操作系统」。 面对算力紧缺难题,智源研究院和中国电信人工智能研究院联合研发并推出Tele-FLM-1T,以低碳生长、高能效、良好的模型收敛性和稳定性,仅用112台A800服务器在4个月内完成训练,成功训练出万亿稠密模型。 评估结果显示,Tele-FLM-52B在英文能力上接近Llama3-70B,优于Llama2-70B和Llama3-8B;在中文能力上,Tele-FLM-52B为开源最强,优于Llama3-70B和Qwen1.5-72B。 在对话模型性能方面,Tele-FLM-Chat达到GPT-4中文语言能力的96%,总体能力达到GPT-4的80%。 此外,智源研究院在过去一年里发布多项引领整个开源社区的相关研究。 Emu 3正在紧锣密鼓地训练中,统一了文字、图像、视频,使用自回归的技术路线,实现图像、视频、文字的输入和输出,并具备更多模态的可扩展性。 BGE模型是全球下载量最高的国产AI模型,是基于创新性的监督预训练和多阶段的对比学习,以及构建多语言关联文本的数据集cmtp研发而出的。 具身智能大模型在多模态大模型的推动下,让计算机进一步感知和理解世界,更化身为强大智能体。 微软Build大会上公布的Copilot+ PC和苹果在WWDC上发布的Apple Intelligence展示了AI助手在PC上自主完成任务和在手机上实现智能控制的能力。 智源在过去一年里在这一领域取得了突破性成果,团队研发的Cradle可以操控一切软件,像人一样通过看屏幕、点击鼠标完成计算机上的任务,并进行自我反思和未来规划。 此外,智源还在机器人抓取、具身大小脑、导航、硬件等领域全面开展研发,取得了一系列亮眼成果。 生物计算大模型方面,智源设计了OpenComplex 2全原子生物分子模型,能够预测蛋白质和各种复合物。 在药物研发领域,AI在化合物筛选、预测大分子结构建模方面有潜力取得突破。 FlagOpen是面向异构芯片、支持多种框架的大模型全栈开源技术底座,能够真正实现一栈式领先的高效应用算法和工具,与Linux、Hugging Face等全球主流基金会合作,并构建了为大模型而生、支持异构芯片的算力集群「操作系统」FlogOS。 智源还发布了两个开源数据集,包括首个千万级中英文高质量指令微调数据集InfinityInstruct和全球最大的中英文多行业数据集IndustryCorpus。 同时,智源还发布了FlagEval大模型评测榜单,为业界打造了衡量模型能力的「尺子」。 通过开源承诺和持续创新突破,FlogOpen系列的开源模型框架工具在过去一年的全球总下载量超过了4755万次,在国内AI机构中处于绝对领先。 在2023年智源大会的「AI安全论坛」上,多位AI大佬汇聚,包括Hinton、Altman、Tegmark、Russell等,针对安全与对齐问题进行了深入讨论。 智源大会不仅成为AI安全领域的「追星现场」,还邀请到了Sora模型团队负责人Aditya Ramesh和纽约大学谢赛宁教授进行深度对谈。 Aditya Ramesh回顾了近年来生成式模型的发展,分享了DALL-E 1到DALL-E系列模型的扩展进程,并对大模型是否能真正学习到世界的压缩表征、通向AI智能进行了反思。 通过与谢赛宁教授的对谈,进一步探讨了大模型在学习视觉能力、构建世界模拟器方面的潜力。 智源作为AI领域的研发机构,不仅在国内乃至国际上树立了旗帜,而且成为了AI圈最具创新与活力的代表。 从模型发布开源到构建部署模型全链技术栈,再到举办顶级学术盛会,智源在学术社区、生态领域都发挥了重要作用,为中国AI企业提供了快速健康发展的平台和支持。 在大模型领域快速变化的背景下,智源作为引领者,将持续推动学术创新和AI前沿路线探索,为未来带来更多惊喜。

重磅!中山大学提出行人重识别新方法和史上最大数据集SYSU-30k,已开源!

中山大学的研究团队在行人重识别领域取得了突破,他们提出了一个创新的弱监督方法,结合可微图学习和弱监督学习,降低人工标注成本并保持高效性能。 这一成果体现在他们发布的大型数据集SYSU-30k上,该数据集包含惊人的29,606,918张行人图像,是CUHK03和Market-1501数据集的20倍,相当于ImageNet的30倍。 SYSU-30k不仅是一个评估行人重识别性能的基准,还反映了真实场景中的复杂挑战,如光照变化、遮挡、不同摄像机视角等。 研究者构建SYSU-30k时,利用电视节目视频,因为这些视频中的行人跨摄像机视角且适合弱标注。 通过袋级别的标注,他们收集了30,000个行人身份,每个身份平均有2,885张图像。 与现有数据集相比,SYSU-30k在行人身份类别数量和图像数量上都具有显著优势,且更具挑战性。 新方法通过图模型生成伪行人类别标签,结合深度神经网络进行训练,实现了弱监督与计算效率的双重提升。 实验表明,尽管使用的是弱监督学习,但研究者提出的W-MGN方法在SYSU-30k数据集上表现出色,验证了新方法的有效性。 此外,他们还展示了W-MGN在 Market-1501 数据集上的竞争性结果,进一步证实了方法在实际场景中的适用性。 为了与社区共享这些资源,研究者已将SYSU-30k和相关的代码开源,邀请大家加入CVer-Re-ID微信交流群进行深入学习和讨论。 这一系列创新成果不仅推动了行人重识别技术的发展,也展示了如何通过大规模数据和创新方法解决现实世界中的识别问题。

阿里开源首个DL框架,新型XDL帮你搞定大规模稀疏数据

阿里妈妈引领深度学习新纪元,全新开源框架X-Deep Learning (XDL)致力于解决大规模稀疏数据的挑战,为推荐、搜索和广告领域的高效处理打开新篇。 这款框架源于阿里内部实战经验,内置官方优化模型,专为行业深度学习难题量身打造。

在互联网数据的海洋中,机器学习的复杂性在于处理不完全信息。 XDL凭借其强大的处理能力,有效应对信息多样性问题,使得广告和推荐模型面对异构数据的嵌入和LSTM等复杂结构时,依然能实现高效训练,展现出强大的适应性。

对于模型的计算挑战,XDL不仅提供模型结构的优化,比如对TensorFlow的扩展,还支持模型的切分和参数管理,确保在大规模稀疏数据下,训练效率和存储需求得到显著提升。

以阿里妈妈验证过的明星模型,如DICM和DIEN为例,XDL能够高效利用图像信息进行广告点击率预测,证明了其在实际业务中的威力。 此外,XDL不仅开源框架和模型,还慷慨地分享部分数据集,为业界研究者提供了宝贵的资源和实践平台。

在高维稀疏数据的在线预估场景中,XDL预见到了算力瓶颈的问题。 为此,它计划开源高性能在线推理服务引擎,以分布式存储和计算为核心,解决大型模型的部署难题。 开发者可以轻松地将现有的TensorFlow模型迁移到XDL,通过添加分布式驱动代码,实现模型在稀疏数据处理上的无缝升级。

XDL构建的分布式计算图,如同一座智能的运算神经网络,由众多单机节点构成,支持复杂的网络扩展,特别适合搜索引擎、推荐系统和广告平台等大规模业务场景。 无论是分布式训练还是在线推理,XDL都提供了灵活的解决方案,用户只需专注于模型设计和优化,其余的运算处理,XDL将悄无声息地完成。

总结来说,XDL是阿里巴巴在深度学习领域的一次重大突破,它以高效、灵活和开放的姿态,引领着行业向着更高效处理大规模稀疏数据的新方向迈进。

上湾企 链
度假酒店正在成为热门景区