机器之心在线观看(机器之心 电视剧)
feilongw 2025-07-31 23:57 6 浏览
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇,目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健为共同第一作者。
在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 帧率的标清视频为例,仅需数分钟即可产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。当面对影视级的长视频内容时,传统解决方案的不足愈加凸显:粗放式的帧采样策略往往造成关键帧信息遗漏,而特征融合方法虽能降低数据维度,却不可避免地导致语义完整性受损。
近日,蚂蚁和人大的研究团队带来了一个创新性的解决方案。他们提出视觉语言大模型 ViLAMP(Video-Language Model with Mixed Precision),实现了对超长视频的高效处理。这个方法的核心在于其独特的 “混合精度” 策略:对视频中的关键内容保持高精度分析,而对次要内容进行强力压缩,就像人类在观看视频时会重点关注关键场景,而对过渡时空信息只做快速扫描一样。
- 论文标题:Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
- 论文地址:https://arxiv.org/abs/
- Github:https://github.com/steven-ccq/ViLAMP
实验结果令人振奋:ViLAMP 在 Video-MME 等五个主流视频理解基准上全面超越现有方案,特别是在处理长视频时展现出显著优势。更重要的是,它可以在单张 A100 GPU 上连续处理长达 1 万帧(按每秒 1 帧计算约 3 小时)的视频内容,同时保持稳定的理解准确率。这一突破不仅大大提升了视频处理效率,更为在线教育、视频监控、直播分析等实际应用场景带来了新的可能。相关论文已被 ICML 接收。
横轴:处理的视频帧数(从 0 到 , 帧),纵轴: GPU 内存使用量(MB)。测试在单块 NVIDIA A100 GPU 上进行。
VideoNIAH(视频版本大海捞针任务)测试结果。横轴:视频总长度(2K-10K 帧);纵轴:表示目标视频在完整视频中的相对位置(0% 表示在开头,% 表示在结尾)。
视频信息在时空维度均呈现稀疏性与冗余性
为解决长视频处理的效率问题,研究团队首先对主流视觉语言模型(包括 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 和 LongVA)进行了系统性分析,发现了视频信息在时间和空间上均存在显著的稀疏性和冗余性:
- 帧间注意力分析:在现有模型中,用户 Query 对相应视频的注意力高度集中 ——% 的注意力仅分布在不到 5% 的视频帧上(称为关键帧)。更重要的是,这 5% 的关键帧之间往往存在很强的视觉相似度。
- 帧内注意力分析:在每一帧的内部,模型的注意力也展现出相似的稀疏性质 ——% 的 patch(帧划分的最小单位)就承载了 % 的模型注意力,但这些受关注的 patch 与关键帧中的对应 patch 具有远超随机基线水平的相似度。
这一发现表明现有模型在处理视频时存在大量计算资源的浪费。实际上,处理长视频不需要对每一帧、每个 patch 都投入同样的计算量。基于此,研究团队提出 “差分蒸馏原则”(Differential Distill Principle):识别并保留重要的视频信息,同时压缩那些虽然相关但高度冗余的信息。其中,重要信息应该同时满足两个条件:(1)高查询相关性:与当前用户 Query 高度相关;(2)低信息冗余性:包含独特的视频信息。这一原则为后续设计高效的视频处理算法奠定了理论基础。
ViLAMP: 基于差分蒸馏的双层混合精度架构
前文的注意力分析揭示了一个关键问题:现有视觉语言模型对视频中所有帧和 patch 都采用相同的处理方式,导致大量计算资源的浪费。基于这一认识,研究团队提出了专门面向长视频处理的高效架构 ViLAMP,它能够根据信息的重要程度自适应地分配计算资源。
ViLAMP 模型结构图
ViLAMP 通过层次化的压缩框架实现这一策略:在帧级别,对重要的关键帧保留完整的视觉 token 表示,以捕获关键信息;而对于非关键帧,则采用强力压缩策略;在 patch 级别,通过差分机制增大重要 patch 的权重。
模型具体包含两个核心机制:
1. 差分关键帧选择(Differential Keyframe Selection,DKS)
为实现关键帧的高效识别,ViLAMP 采用了基于贪心策略的选择算法。该算法在最大化与用户 Query 的相关性的同时,通过差分机制降低帧间冗余,确保选中的关键帧既重要又多样化。
2. 差分特征合并(Differential Feature Merging,DFM)
针对非关键帧的处理,ViLAMP 创新性地通过差分加权池化,将每个非关键帧压缩为单个信息量最大化的 token。在压缩过程中,模型赋予那些与用户 Query 相关且具有独特性的 patch 较高的权重,同时降低与相邻的关键帧有显著重复的 patch 的权重,从而在大幅降低计算量的同时保留关键信息。
这种双层混合精度架构既确保了模型能够准确捕获视频中的关键信息,又显著降低了计算开销。
突破性性能:全面超越现有方案
在五个主流视频理解基准上的实验表明:
1.ViLAMP 以 7B 参数量达到或超越了部分 70B 量级模型的表现,特别是在 Video-MME 长视频子集上比现有最优模型提升 %。
2. 针对当前视频理解基准中视频长度不足的问题,本文提出了面向视频理解场景的 “大海捞针” 任务 ——VideoNIAH。该任务将一段目标短视频(1 分钟以内)插入到小时级别的长视频中,要求模型在不依赖先验信息的情况下,从超长视频上下文中定位并理解该片段,进而回答相关问题。与传统基于文本的 NIAH 任务不同,VideoNIAH 中的答案无法直接从视频对应的文本描述中提取。因此,该任务本质上更具挑战性,难以达到语言模型在文本 NIAH 任务中所表现出的近乎完美的准确率(例如 %)。VideoNIAH 任务的性能上限受限于模型对目标短视频原始 QA 的理解水平,进一步凸显了该任务对视频内容深层次理解能力的严格要求。在这一新提出的超长视频理解基准上,ViLAMP 在处理包含 10K 帧(约 3 小时)的视频时仍能保持 % 的准确率(原始 QA 数据集准确率 %),超越 VideoChat-Flash 基线模型 %,展现出较强的长视频建模能力。
3. 计算效率显著提升:内存消耗相比 LLaMA-VID 基线降低约 %,在 8, 帧情况下计算量减少 % 以上。
4. 深入的消融实验表明:与已有的关键帧选择方案相比,DKS 在长视频场景下表现出明显优势;与 Q-former 和平均池化等特征融合方案相比,DFM 在所有数据集上都展现出 3 个百分点以上的性能优势。
模型表现
Video-MME 排行榜
计算效率对比
结语
ViLAMP 通过创新的差分蒸馏框架成功突破了长视频处理的计算瓶颈,不仅在性能上实现了飞跃,更为视频理解领域提供了新的研究思路。该工作的原理性贡献和实用价值将推动视频理解技术在更多实际场景中的落地应用。期待未来看到更多基于此框架的创新发展。
相关推荐
- 医王归来(久久小说免费下载网嫡女归来冷王盛宠小医妃)
-
如果你喜欢《兵王归来》,你可能会喜欢以下相似的小说:《特种兵王在都市》、《都市之最强兵王》、《都市之兵王归来》等。这些小说都以主角是退役特种兵或军人为背景,回归都市生活并展现出强大的战斗能力和智慧。它...
- 百度订酒店(百度订酒店)(百度酒店预订)
-
1、酒店环境整洁,房间布局堪称完美,优雅又不失情调,服务周到,让人无比舒心。给我营造了一种家的感觉,无论大处到小处都是那么无懈可击,价格也很合理。2、这家酒店的服务员个个彬彬有礼,热情周到,酒店装修的...
- 恐怖鬼片排行(恐怖世界最新鬼片电影大全恐怖电影大全恐怖电视剧大全惊悚片大全血腥片大全排行榜)
-
恐怖片因人而异,每个人对恐怖的感知不同,以下是一些被广泛认为是世界十大恐怖片的电影: -《驱魔人》:讲述了一个年轻女孩被恶魔附身的故事,充满了恐怖和惊悚的场面,是恐怖电影的经典之作。-《...
- 宠妃的佛系生活(宠妃的佛系生活)
-
佛系的妻子当然应该宠着啊!不管你的妻子是什么样的一个人你都应该宠着。许多事实证明越是宠老婆的男人幸福感越高的。再说佛性的妻子这个问题,妻子是否佛性相信并不是偶尔为之的,而是一直以来都是这样的一个人,当...
- 在哪能下载免费的全本小说(在哪能下载免费的全本小说)
-
可以使用小说快捕软件,可以自动搜索各大网站小说,并可以下载因为违规了。久久小说网的许多小说,都没有作者的授权而且他的名声太大了,被人给投诉然后违规追究了,就关闭了这个网站。所以平时看小说的时候,尽量到...
- 授课方式免费阅读全文阅读(授课方式免费阅读全文阅读)
-
授课形式分为以下5种:1、讲授法:教师通过口头语言向学生传授知识的方法。2、谈论法:亦叫问答法,是教师按一定的教学要求向学生提出问题,要求学生回答,并通过问答的形式引导学生获取或巩固知识的方法。3、演...
- 笑脸蜘蛛图片大全(笑脸蜘蛛图片大全花草类)
-
笑脸蜘蛛不咬人笑脸蜘蛛是美国夏威夷群岛特有的蜘蛛属蜘蛛目球腹蛛科动物笑脸蜘蛛体型小,只有5毫米长,腹部多呈球形,几乎是透明的。没有毒性。每个蜘蛛的图案各不相同,笑脸蜘蛛腹部的颜色是浅黄色,略透明。取决...
- 都市之最强兵王陈6合阅读(都市之最强兵王陈6合阅读理解答案)
-
陈六合沈轻舞这本书叫《都市之最强狂兵》。《都市之最强狂兵》是作者大红大紫创作的一部都市言情小说,小说男主是陈六合,女主是沈轻舞。小说节选:当陈六合带着沈清舞回到住所的时候,还没进门,赫然就看到大门外停...
-
- 华丽逆袭韩三千最新(华丽逆袭韩三千最新)
-
大结局中,主人公经历了重重的困难和挑战,终于获得了成功。她不仅在事业上取得了巨大的成就,也收获了美好的爱情。最后,她带着母亲回到了家乡,与家人团聚,过上了幸福的生活。韩剧《我是传说》高中时期与好友们组成麦当娜摇滚乐队的全雪熙(金廷恩饰)为了...
-
2025-09-14 15:47 feilongw
- 小时代结局谁放的火(小时代结局谁放的火郭敬明解释)
-
林萧放的火根据电影《小时代》的剧情,林萧是故事中的反派角色,他在剧中放火是为了报复和摧毁他认为背叛了他的人。林萧放火的原因是他对自己的过去和现实的不满,以及对其他角色的嫉妒和仇恨。他放火的行为导致了剧...
- 木地板十大名牌排行榜(木地板十大名牌排行榜十)
-
木地板品牌前十名的有:1:圣象地板。圣象地板质量可靠,销售网点遍布全国,最近发现在很多稍大点的集镇上都有圣象地板的专买店,感慨万千。在国内的生产基地已有8个以上,有很多的业内竞争对手常说圣象地板是贴牌...
- 顺丰24小时人工客服(顺丰客服24小时热线人工)
-
以下是我的回答,顺丰快递的95338服务时间是全天24小时。该服务热线提供寄快递、查快递、投诉咨询等相关服务,客户可以随时拨打热线进行咨询或下单寄件。顺丰快递通过不断优化服务流程和提高配送效率,致力于...
- 耄耋怎么读音是什么意思(耄耋的正确读音是什么)
-
“耄耋”这两个字读[màodié],意思是一、指老年;高龄;八九十岁。二、指年纪很大的人。màodié常用释义1.名七八十岁或八九十岁的年纪;老年。近义老年反义垂髫幼年例词耄耋之年寿登耄耋例句我已到...
- 西游之夺舍大妖(西游之夺舍黑龙)
-
死了。庞博常为叶凡着想,后也因为叶凡被迫离开师门,于青帝坟墓被青帝十九代孙附体。他肉身锤炼至四极,在叶凡和黑皇的帮助下重新掌控身体,取得妖帝古经和青莲法宝,习得妖帝九斩、天妖八式。在不死山中,庞博...
- 电影《致命狙击》(电影致命狙击)
-
传奇狙击手左英杰一战成名屡立奇功,却遭人构陷含冤入狱。狱中的他意外接到来自冷艳女特工沈雪的绝密任务——刺杀日本细菌战专家北野清张。左英杰临危受命,不料却被叛徒出卖,遭遇战场宿敌日军王牌狙击手下川国正伏...
- 一周热门
- 最近发表
- 标签列表
-