披露视频云出海全景图攻破AI视频大模型训练挑战！火山引擎送上神助攻方案已应用于豆包

作者： 2024年10月16日网红629浏览

智东西 ZeR0 漠影

智东西10月15日报道，今日，火山引擎在视频云技术大会上发布 大模型训练视频预处理方案 ，助力解决视频大模型训练的成本、质量、性能等方面的技术挑战。该技术方案现 已应用于豆包视频生成模型 。

火山引擎还发布并开源了 移动端后处理解决方案BMF lite 版本。BMF lite支持端侧大模型接入和算子加速，更加轻量、通用。

同时，火山引擎推出 跨语言同声复刻直播方案 、 多模态视频理解与生成方案 、 对话式AI实时交互方案 和 AIG3D&大场景重建方案 ，从视频的生产端、交互端到消费端，全链路融入AI能力。

去年推出的 字节自研视频编解码芯片 ，经过抖音集团内部的实践验证，在同等视频压缩效率下，成本节省了以上，还在2024MSU世界编码器大赛中一举夺得最佳ASIC编码器。该芯片将于近期 正式对外开放测试 ，招募首批种子用户，共同探索商业价值的可复制性。

火山引擎也与出海先锋携手，从趋势、技术、玩法等角度共同探索出海新增长机遇。火山引擎视频云国际业务负责人梁建在会上发布了 出海全景图 。

火山引擎总裁谭待在致辞时谈道，汹涌而来的技术浪潮带来前所未有的挑战：1）生成式AI带动视频数据指数级增长，对计算效能提出严峻考验；2）多模态媒体处理需求日益凸显，对音视频处理的生产端、交互端、消费端提出了全新要求；3）如何让技术应用真正落地并带来世纪业务价值，是当前必须面对的问题。

应对这些挑战， 火山引擎视频云基于抖音真实业务实践和与行业客户共创，正积极探索大模型AI与视频技术的深度融合 ；在 技术底座 层面，依托自研的算力编解码技术和多媒体处理框架，致力于优化成本并提升计算效率；在 处理链路 层面，结合大模型和AI技术，全面优化了生产交互和消费链路，以打造更智能、更交互、更沉浸的用户体验；在 业务增长 层面，与抖音平台生态紧密联动，构建从内容分发到变现的全链条业务增长模式。

一、应对AI视频时代技术挑战：自研芯片对外开测，BML视频处理框架上新

抖音集团视频架构负责人王悦分享了一组来自市场调研机构的数据：视频是云业务中增长最快的工作负载之一；到2026年，视频在数据中心基础设施中的占比将从10%增长到20%~25%；到2024~2030年，市场规模预计将达千亿美元。

他谈道，AI视频时代面临三重挑战：一是 计算效能 ，生成式AI技术大幅降低视频生成的门槛，导致视频数据以惊人的20倍速增长；二是 编解码极限 ，编解码技术的智能化升级正推动与AI/大模型技术的深度融合，不仅提升了编解码效率，而且为用户带来了更加优质的视频体验；三是 框架瓶颈 ，需要构建更强大、更灵活的多媒体处理框架，满足日多模态/跨模态预训练处理需求。

王悦宣布，火山引擎去年推出的 自研视频编解码芯片 取得显著进展，在抖音集团内部实践验证中实现了效率的显著提升和成本的大幅降低，在同等视频压缩效率下，成本节省了以上。火山引擎也将 首次正式对外开放测试 ，招募首批种子用户，共同探索商业价值的可复制性。该芯片的BVE1.2编码器，在2024MSU世界编码器大赛中首次亮相就以其优异的编解码性能和吞吐率的大幅领先，夺得最佳ASIC编码器。

在 智能编解码的算法层 ，火山引擎的图像视频压缩技术也取得了突破性进展，其自研编解码技术BVC升级到更高效的第二代，并融合了深度学习技术，推出了 传统-智能混合编解码解决方案 。

该方案在充分理解传统编码技术和深度学习压缩技术各自原理的基础上，将二者有机的融合成一体。传统编码框架加入了非对称四叉树划分等创新技术，智能编码模块则引入了基于深度学习的环路滤波、自适应变采样等技术。这种结合极大提升了编解码的效率，该方案在第六届深度学习图像压缩挑战赛的高码率和低马力两个压缩赛道上均取得了主观和客观的双料指标冠军。

在 框架层面 ，火山引擎自研视频处理框架BMF自去年开源以来，在助力AI初创项目落地和移动端开源层面不断演进，今日进一步 发布并开源移动端后处理解决方案BMF lite版本 。

BMF lite具有更轻量、更通用、更高效、更前沿等特点，比如它没有第三方依赖，具有轻量化的结构设计、多平台统一的接口形式、Kernel融合方案等，支持端侧大模型接入和算子加速、算法间复用资源。

目前BMF lite已广泛应用于抖音各业务上，每天服务超 10亿名 用户，处理视频图片 万亿次 。

由于端侧对功耗和内存非常敏感，火山引擎重点建设基于跨平台资源复用的算法包框架设计，整体对外将采用跨平台的数据结构设计，适配安卓、iOS、Web、PC等平台，复用相同的算法实例，不同算法可复用算子及数据资源。这个方案针对点播和直播后处理的场景收益明显。

在模块算法层面，火山引擎此次开源对外输出了 超分、降噪、大模型文生图算法能力 ，选取的模型是开源的，将在一些抖音实际落地的工程优化方案应用到模型加速中。火山引擎也同步开源了 基于GPU加速的7种常用基础图像算子能力 ，并充分扩充了客户端的一些异构能力，包括 DSP、NPU、端侧GPU 。

二、依托 BMF框架， 视频生成大模型已上线火山引擎

对训练视频进行预处理 是保障大模型训练效果的重要前提。预处理过程可统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息，从而使模型能更高效地学习视频中的特征和知识，提升训练效果和效率。

随着视频生成模型兴起，训练大模型的处理框架面临诸多挑战：首先是 成本挑战 ，超大规模视频训练数据集导致计算和处理成本激增；其次是 质量挑战 ，视频样本数据质量参差不齐，处理链路环节多、工程复杂，数据样本待分类、分段和清洗；三是 性能挑战 ，涉及多种异构算力资源的调度和部署。

借助英特尔CPU等资源， 火山引擎大模型训练视频预处理方案 依托于自研 多媒体处理框架BMF ，能有效应对模型训练的算力成本挑战。该方案还在算法和工程方面进行了调优，可以对海量视频数据高质量预处理，短时间内实现处理链路的高效协同，提高模型训练效率。

BMF通过和豆包大模型团队合作，对海量视频数据进行了预处理。基于火山引擎视频处理平台和BMF框架，火山引擎短时间内 生产了足够多高质量的视频素材用于模型训练 ，也 有力支撑了视频生成大模型的上线与调优 。

火山BMF大模型训练视频预处理方案 应对成本挑战 ，使用了海量的潮汐资源和精细化混部调度； 应对质量及性能挑战 ，使用30+种算子对视频进行了多维度分析和筛选，利用DMF框架灵活调度将复杂的算子处理流程灵活部署在多种资源上，实现了快速的性能调优； 应对协同挑战 ，利用BMF动态模块特性，实现插件化解耦、多语言开发，相比传统框架将迭代效率提升了数倍。

英特尔大数据高级首席工程师程从超分享说，大模型和生成式AI时代面临高算力、高质量数据集、改善描述复杂性、构建开源生态等方面的挑战。视频转码性能对CPU的计算能力敏感，CPU的频率、核数和cache的大小都很重要。通常视频处理的节点都是数据中心里性能较为高端的服务器。

英特尔能够为不同的视频处理选择最合适的平台，比如一机多卡高密度GPU可满足编解码密度和成本需求，CPU和GPU方案的灵活配置能够根据具体应用来分配资源，至强CPU可实现视频质量最优、编码灵活、稳定可靠。

三、多项“音视频+AI”技术方案，助力企业全链路适配AIGC

火山引擎视频云团队为字节跳动提供音视频技术，并通过火山引擎服务外部客户。

Bytedance Research负责人李航谈道， 豆包视频生成模型PixelDance 在训练过程中采用了火山引擎大模型训练视频预处理方案，充分利用了大量潮汐资源，为模型训练提供了有力支撑。

火山引擎视频云团队提供的 点播解决方案 还为PixelDance生产的视频提供了从、上传、转码、分发、播放的全生命周期一站式服务，让模型的商业化应用有了保障。

豆包视频生成模型PixelDance于9月24日发布，该模型采用DiT架构，通过高效的DiT融合计算单元和全新设计的扩散模型训练方法，突破了多主体运动的复杂交互、多镜头切换的内容一致性难题。目前，豆包视频生成模型 已通过火山引擎面向企业开启邀测 。

PixelDance1.4新版本 有四大特点：1、能生成人物的复杂连续动作；2、能生成复杂的多主体交互；3、能一次性生成多镜头视频；4、拥有超强的运镜控制能力。

其核心技术包括大规模扩散生成模型、高压缩比&高还原性视频编码解码模型、精准视频描述模型、大规模公开视频数据处理管线等。

火山引擎视频云负责人Yongyuan谈道，在AI视频时代，人和AI交互变得更加动态和生动，这要求 处理链路更加智能和交互 。

会上，火山引擎发布了 跨语言同声复刻直播方案 、 多模态视频理解与生成方案 、 对话式AI实时交互方案 和 AIG3D&大场景重建方案 ，从视频的生产端、交互端到消费端，全链路融入AI能力。

在 生产端 ，跨语言同声复刻直播方案能够优化同传直播，实现更加精准的字幕识别、更快输出并带有自然断句，还通过虚拟人技术调整口型，支持6国以上的语言输出；多模态视频理解与生成方案能够应用于短剧、赛事、教育等场景；多模态电商素材生成方案可生成图文、解说、AIGC视频和3D模型。

在 交互端 ，依托豆包大模型和火山引擎视频云自研的多项算法，对话式AI实时交互方案使得人与AI的交互更加自然，提供了智能对话和自然语言处理的强大能力、媲美真人的自然生动音色，也支持声音复刻，可实现毫秒级人声检测和打断响应，能过滤90%噪声，精准识别打断意图，并通过流式处理将端到端响应延时降低至1秒。

在 消费端 ，AIG3D方案使3D构建更便捷；大场景重建方案具有高效渲染速度，支持二次创作，可低成本生成直播布景，使场景重建更真实；6DoF直播方案提供实时3D模型渲染、低延时6DoF并能降低采集成本，让空间体验更沉浸。

例如，火山引擎通过AI生成3D内容和大场景重建方案，为山西高平二郎庙金代戏台和北京正乙祠两座珍贵的历史建筑生成了3D数字资产，并以虚拟直播间的形式应用于抖音戏曲直播场景。

抖音开放平台开发者运营负责人李建男分享了AI新产能助力业务增长的三个关键词—— 创建新场景 、 制造新体验 、 塑造新产能 。她分享了一些数据：AI智能体将直播间变现效率提升了36%；生成式AI大大降低创作门槛，带动图片、视频、故事、IP、办公、学习等优质内容量级增长200%；引入AI创作工具能带动视频投稿量、平均W数、内容丰富度的有效增长。

李建男总结道，通过三方模型引入数据场景开放，能够实现垂类深度支持，带动线索转化率提升，从而提升营销效果，这对服务商是一个非常好的机遇，可带动服务商商业价值提升，进而带来更多精准语料，进一步驱动技术进步，实现更好的模型训练效果提升。

结语：AI+视频技术深度融合，推动用户体验多维度转变

生成式AI为视频化社会带来了革命性变化，不仅能提升内容创作效果，还丰富了交互体验。在AIGC、多模态等技术的共同推动下，用户体验在多个维度上经历着深刻转变。

与此同时，AI+视频也给底层技术的效能化、编解码的智能化、处理框架的广泛化带来新挑战。作为AI视频时代智能底座的构建商，火山引擎希望让多媒体处理框架的部署更加规模化、普惠化，进一步控制算力成本和提高计算效率，推动编解码与智能技术更好融合，从而提升最终的体验效果。

对话火山引擎侯爽：字节原生的边缘云

对话火山引擎侯爽：字节跳动的边缘云战略

字节跳动在边缘云领域的探索中，火山引擎负责人侯爽分享了公司如何通过数据驱动和业务优势，打造适应复杂挑战的边缘云服务。以抖音业务为例，数据模型优化基础设施成为关键，它不仅提升了用户体验，还有效降低了成本。字节跳动的庞大业务规模和技术创新为边缘云的发展奠定了坚实基础，经受住了海量流量的考验。

在短期目标上，火山引擎聚焦于完善产品与服务，解决客户问题，推动创新，同时拓展海外市场，并深入音视频协同解决方案的开发。侯爽透露，海外市场的初期焦点在东南亚，利用技术优势为用户提供更优质的音视频体验。

长期策略上，边缘云将实现云边端的深度整合（云、边、端一体化）和全球范围的广泛连接。技术路径倾向于小型化、轻量化和集成化，以满足业务的灵活性，软硬件协同优化是核心。作为行业新秀，火山引擎致力于通过学习和合作，打造具有竞争力的差异化解决方案。

火山引擎的核心产品——边缘云，围绕终端网络、融合传输、边缘节点和数据中心构建，强调标准化、规模弹性、边缘云原生特性，以及技术创新如异构计算和融合链路加速。挑战中，技术标准化、生态开放性以及行业渗透是亟待突破的环节。边缘云被定义为分布式云，其价值在于提供广域接入、本地化计算、安全和AI的深入应用，直接体现在C端用户的低延时访问和沉浸式体验上。

面对关键业务场景，如直播、RTC和云游戏，边缘云在泛互联网和新兴行业如汽车和金融领域具有广阔前景。然而，自动驾驶和工业数字化的长期需求波动性大，需要灵活应对。在海外布局上，侯爽指出，边缘节点的建设需科学评估，以数据驱动为指导，兼顾业务需求和资源规划，实现更广泛和分布式的边缘侧服务。

总结来说，火山引擎的边缘云战略将围绕云原生技术、通用产品、小型化架构和软硬件协同优化展开，为全球用户提供更快、更安全、更智能的分布式云计算解决方案，推动边缘云向更深的融合与更广的连接迈进。

字节造芯新进展：编码提升30%、转码“以一当百”，将服务火山引擎

字节跳动在自研芯片领域取得新进展，其火山引擎首次公开发布的视频编解码芯片在性能上实现了显著提升。据字节跳动视频架构负责人、火山引擎视频云架构技术总监王悦介绍，这款芯片的视频压缩效率相比行业主流硬件编码器提升了30%以上。这款芯片将应用于抖音、西瓜视频等视频业务，同时通过火山引擎视频云开放给企业客户使用。面对视频化应用在全行业的深度渗透和视频数据的持续激增，火山引擎视频云在算力、体验和交互方面进行了一系列探索和实践。为应对算力挑战，火山引擎视频云实现了从通用计算到异构计算的进阶，沉淀了为不同视频场景提供专用且适用的算力支持。在体验边界方面，火山引擎视频云利用AI技术如AIGC（AI生成内容）视觉大模型应用于老片修复场景，显著提升画质。在交互边界方面，火山引擎视频云在3D和全景技术方面进行了深入探索，如实现VR 360°全景图像技术的突破。火山引擎视频云还在开源多媒体处理框架BMF（Babit Multi-Media Framework）方面取得了显著成果。 BMF作为火山引擎视频云全链路服务能力的基础“底座”，支持使用多种语言开发模块，实现调度引擎深度优化，提升灵活性和效率。其支持多语言接口，提供了丰富示例，帮助开发者低成本构建视频应用，并兼容了ffmpeg的功能和标准。总结而言，字节跳动在芯片和多媒体处理框架领域的探索和实践，展示了其在视频化时代的技术创新能力和行业领导地位。通过优化硬件性能、引入AI技术提升用户体验和推动交互创新，火山引擎视频云为用户和企业提供更加丰富、高效、智能的视频服务体验。

声明：本站内容均来自互联网，如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：https://www.szsranl.com.cn/keji312/8052.html

对话火山引擎侯爽：字节原生的边缘云

字节造芯新进展：编码提升30%、转码“以一当百”，将服务火山引擎

相关文章