猫眼电影
猫眼电影记者 陈正理 报道Q8X2R7L1T4J5M9B6W3
金磊 发自 凹非寺量子位 | 公众号 QbitAI
啪!~~~
一篇入围顶会NeurIPS’25 Oral的论文,狠狠反击了一把DiT(Diffusion Transformer)。
毕竟自打DiT问世以来,视频生成这块,算是被它给稳稳拿捏住了。
但站稳了脚跟,并不意味着没有问题,因为它的计算复杂度高,在资源消耗和速度上有着诸多挑战。
而这篇来自字节跳动商业化技术团队的论文,则是提出了一个名叫InfinityStar的方法,一举兼得了视频生成的质量和效率,为视频生成方法探索新万博体育:可能的路径。
像下面这些有趣的动画片片段,便是由InfinityStar亲手打造:
视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ
整体来看InfinityStar的亮点,我们可以总结为如下三点:
首个在VBench上超越扩散模型的离散自回归视频生成器;视频生成不用再“慢慢熬”:从百步去噪到自回归,告别延迟任务通吃:文生图、文生视频、图生视频、交互式长视频生成等。
值得一提的是,InfinityStar目前的论文、代码、体验地址均已经发布(链接见文末),接下来我们就进一步实测一波~
实测给DiT上了一课的AI视频生成
首先我们来简单了解一下InfinityStar的体验方法。
它的入口就在Discord社区里面,大家登录账号之后,点击下面这个链接即可跳转。http://opensource.bytedance.com/discord/invite
在左侧导航栏的下方面,便有InfinityStar文生视频、图生视频等各种功能的选项。像刚才展示的视频,便是在“i2v-generate-horizontal-1”中实现:
接下来,我们来一个InfinityStar的文生图和图生视频的联动玩法
首先来到“infinity-8b-generate”,输入下图中的提示词来生成几张图片:
A hyper-detailed, ultra-realistic, cinematic portrait of a fluffy white Ragdoll cat with striking sapphire-blue eyes and long black eyelashes. The cat’s expression is calm, poised, and intensely self-assured — its gaze direct, steady, and dignified, conveying quiet confidence and elegant composure……
挑选一张比较满意的图像之后,我们再把图片“喂”到“i2v-generate-horizontal-1”中,配上下面的提示词来生成一段视频:
The cat opened its mouth and made a sound, then licked its nose with its tongue.
视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ
通过类似的方法,你也可以快速生成各种风格、影视级的镜头:
视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ
包括各种运动场景中,人物的复杂动作也是能hold住:
视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ
另外,正如我们刚才提到的,作为原生自回归模型,InfinityStar还支持交互式长视频生成
视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ
我们只需要先给一段5s的视频,然后InfinityStar能够接受新的提示词,根据参考视频和新的提示词继续往下生成:
为什么能比DiT快这么多?
InfinityStar的核心架构,是一个名叫时空金字塔建模的方法,这正是它能把图像、视频任务统一起来,并且比主流扩散模型快一个数量级的关键所在。
整体来看,InfinityStar借鉴了其前作(如VAR和Infinity)在空间维度上的下一尺度预测思想,并将其巧妙地扩展到时空维度;如此一来便弥补了传统方法往往难以在单一模型中同时处理静态图像和动态视频的问题。
其核心设计是将一个视频分解为两个部分。
1、首帧(外观信息):
视频的第一帧被视为一个独立的图像,采用与Infinity模型一致的图像金字塔进行由粗到精的建模。这一步专门负责捕捉视频的静态外观信息,如场景、物体和风格。
2、后续片段(动态信息):
首帧之后的视频内容被切分为若干个连续的视频片段(Clips)。这些片段金字塔在空间维度之外,额外引入了时间维度,专门负责捕捉视频的动态变化,如运动轨迹和镜头变换。
通过这种“首帧 + 视频片段”的分解策略,InfinityStar成功地将静态外观和动态信息解耦。所有这些金字塔内部(尺度之间)和金字塔之间(片段之间)的依赖关系,都由一个强大的时空自回归Transformer进行建模。
最终,无论是生成图像、生成视频还是图生视频,所有任务都被统一为“预测下一个尺度/下一个片段”的自回归问题,实现了架构的高度统一。
除了整体框架之外,InfinityStar还有两个关键技术。
首先是高效的视觉分词器
为了让Transformer能够处理视觉信息,首先需要将图像和视频翻译成离散的Token。InfinityStar为此训练了一个基于多尺度残差量化的视觉分词器,并提出了两项关键技术来克服训练难题:
知识继承 (Knowledge Inheritance)
训练一个离散的视觉分词器(Tokenizer)通常非常耗时。研究人员发现,相比于从零开始训练,继承一个已预训练的连续视觉分词器(如Video VAE)的结构和权重,能显著加快离散分词器的收敛速度,使其更快达到高保真度的重建水平。
2. 随机量化器深度 (Stochastic Quantizer Depth)
在视频金字塔中,信息分布存在严重的“不均衡”问题:大部分细节信息集中在最后几个精细尺度上,导致token数量相差几十甚至上百倍。这会妨碍Transformer的学习,使其过度依赖后续尺度,而忽略了决定全局语义的早期尺度。
为此,InfinityStar引入了一种名为随机量化器深度的正则化技术。在训练时,随机丢弃(Discard)后面精细尺度的Token,迫使模型在仅有前面粗糙尺度Token的情况下也能重建出有意义的信息。这使得信息在不同尺度上分布更均衡,显著提升了模型的学习效率和最终的生成质量。
其次是优化的时空自回归Transformer
为了应对视频生成带来的新挑战(如长上下文、时空依赖),InfinityStar对自回归Transformer本身也进行了三项关键改进:
语义尺度重复 (Semantic Scale Repetition)研究人员观察到,金字塔中靠前的几个尺度(语义尺度)控制着视频的全局信息,如整体布局和运动趋势。为了强化这一点,InfinityStar在预测时将这些语义尺度重复预测N次,允许模型对视频的全局语义信息进行“反复修正”。这一简单而有效的技巧,极大地增强了生成视频在结构上的一致性和运动的流畅性。时空稀疏注意力 (Spacetime Sparse Attention)视频生成,特别是长视频,意味着极长的Token序列,这对注意力机制的计算和显存是巨大的考验。InfinityStar设计了一种高效的时空稀疏注意力,它只关注必要的上下文信息(如前一片段的最后一个尺度),从而在保持时间一致性的同时,大大降低了注意力的计算复杂度,使得高质量、长上下文的视频生成成为可能。时空RoPE位置编码 (Spacetime RoPE)为了让模型精确感知Token在复杂时空金字塔中的位置,InfinityStar引入了增强版的RoPE位置编码,它同时编码尺度、时间、高度和宽度信息,为Transformer提供了精确的时空坐标感。
总结来看,InfinityStar之所以能做到比DiT快上一个数量级,关键在于DiT需要20–100步去噪迭代,而InfinityStar是纯自回归“一条过”生成;并且离散token+粗到精预测机制,大幅减少inference step数。
在如此方法之下,实验结果显示,在文生图(T2I)任务上,InfinityStar在GenEval和DPG两项基准上取得了优异的表现,尤其在位置、物体关系上展现出了明显的优势。
在文生视频(T2V)任务上,InfinityStar在VBench基准上表现优秀,不仅显著超越了先前所有的自回归模型,甚至取得了比CogVideoX、HunyuanVideo等基于DiT的方法更好的成绩。
在和HunyuanVideo的人类偏好评估中,InfinityStar-8B也取得了比HunyuanVideo-13B更好的效果,尤其是在指令遵循方面展现出了显著的优势。
在视频生成的效率方面,InfinityStar的生成速度比同尺寸的基于DiT的方法(如HunyuanVideo、Wan-Video)快一个数量级,在单张GPU上生成一个5s 720p的视频仅需不到1分钟
总而言之,字节的这篇论文证明了离散自回归模型不仅能快,还能做到好,更是打破了只有扩散才能高清的迷思。
论文链接:https://arxiv.org/pdf/2511.04675
代码链接:https://github.com/FoundationVision/InfinityStar
申请体验:http://opensource.bytedance.com/discord/invite
??时事1:欧美精品一区二区视频在线播放
??11月08日,风暴“伊莎”来袭 英国多地交通陷瘫痪,
突然,一片灿烂的光点从一片灌木丛中浮现,极速冲来,将小不点这里笼罩,噗噗声传来,石村的六七人当场被洞穿,倒在血泊中,痛地滚来滚去。
,男男基片gay在线观看。??11月08日,台青在桂探索咖啡新业态 盼呈现更多在地文化,
我们真诚的期望:通过入住嗨喽酒店,能进一步加深您对我们的了解,增进我们之间的深厚友谊,使我们能时刻以您的需求为出发点,更好的为您提供优质、快捷、高效的服务;同时,也期盼您对本酒店的服务和管理提出宝贵的意见和建议,我们将不胜感激!
,色综色黄片,日韩一区在线视频,日韩精品黄色免费在线观看。??时事2:免费🔞成人❌❌❌结照片巨根
??11月08日,智慧康养难题如何破?官员、学者、业界在上海共同“把脉”,
同学们,我国是一个森林覆盖率偏低的国家,但是我国木材的砍伐量,却非常的高。所以我们更应该珍惜绿色生命。作为一名株外的学子,我们应该做些什么呢?在校园中,我们要保护草坪,爱护植被,不要去踩踏它们,生活中,我们不仅要节约纸张,少用一次性筷子,更要多多植树,绿化环境。我们要热爱周围的一切花草树木,让它们像我们一样生机勃勃地成长,不断改善着地球环境。
,cos黄大全app,小满被c黄动漫,亚洲视频二区三区。??11月08日,瞄准年终奖 银行理财春节营销战打响,
“即便没有听到,族长爷爷也会派出人来接应我回去的,耐心等待,大婶坚持住,一切都会好起来的。”小不点以稚嫩的声音为它鼓劲。
,国内精品国产黄色网站,jizz5国产处女,国产精品1。??时事3:亚洲一区二区黄片
??11月08日,甘肃:法院“一站式建设”为诉讼提供“多选项”,
消防、消防,有“消”也有“防”!在“防”的方面,可能我们相对要注重一些。比如大家会很注意杜绝火灾隐患;每到节假日,我们的有关同志,分管院领导和院办的同志,也会特别重视消防安全,都会认真开展消防大检查。
,JiZZZZ成熟丰满韩国女人,日日干夜夜夜操,久久精品欧美曰韩精品。??11月08日,经济学家梁小民带读者回望十大商帮 解析五百年兴衰成败之谜,
三是推行“四议两公开”工作法。全面贯彻落实中办、国办新万博体育:村务公开民主管理的若干意见,认真组织群众学习 “四议两公开”工作法的基本知识、方法步骤、工作流程,顺应群众意愿,找准工作重心,规范程序运行,注重问题解决,群众关心什么、想说什么,党支部就提什么,村上发展什么、建设什么,就摆上桌子议什么,群众意见最大的啥问题、问题久拖不决的啥原因,就公开讨论什么,顺着民心议,和着民心干,逐步解决群众关心的热点难题。
,比利时家庭乱伦图片成视频,国产男女交性A片,久久久久久国产精品。??时事4:欧美肛交xxxx
??11月08日,韩国总统尹锡悦批准国防部长官辞呈,
“快,快,速度还要再快,去晚的话我们什么也得不到,拓跋一脉还有雨族早已深入进去了。”
,久久免费一级国产电影,久久久九九久久久久久精品R,白丝喷桨。??11月08日,中国多所高校刊文缅怀李政道, 陈玉祥严重违反党的组织纪律、廉洁纪律、工作纪律和生活纪律,构成严重职务违法并涉嫌受贿犯罪,且在党的十八大后不收敛、不收手,性质严重,影响恶劣,应予严肃处理。依据《中国共产党纪律处分条例》《中华人民共和国监察法》《中华人民共和国公职人员政务处分法》等有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予陈玉祥开除党籍处分;由国家监委给予其开除公职处分;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。,人人看人人干,精品国产鲁一鲁一区二区真希友田,国产综合精品视频。
责编:蒋林意
审核:黄楚程
责编:张亮疑












