近一年以来,统一理解与生成模型发展十分迅速,该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型(如 Emu3)与单任务的方法差距巨大,Janus-Pro、BAGEL 通过一步一步解耦模型架构,极大地减小了与单任务模型的性能差距,后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。
香港中文大学 MMLab 和美团的研究者相信,在不久的将来统一模型的性能一定能够达到单任务的水平,但同时也引起了他们的思考,目前通过拆解架构换取性能提升的方式真的是正确的吗,它是否背离统一模型的初衷,它能够提升性能的内在原因又是什么,这种方式真的是统一模型必须的吗?
「统一模型的初衷」以及「 架构解耦的缺点」
统一理解生成模型的初衷是为了通过透明化、合理化的图文交错思考过程,提高单任务的性能,例如让模型走迷宫时统一模型可以生成每一步对应的图像,可以在模型做数学题的时候给图像画上辅助线,或者是在生成一张图像的时候边画边思考有没有生成不合理的地方并且自动修正,这些都是 Uni-MMMU 等当前统一模型基准所关注,也是它本身被独立成一个领域的初衷。
再回到架构解耦的模型,例如 BAGEL 上,它本身如果要实现图文交错思考,需要经历隐空间解码到文字或者像素空间,然后再编码到隐空间的复杂过程,两个任务也几乎不在同一个模型空间中,具有计算开销大、信息丢失两大问题。虽然在当前情况下相比于其可观的性能,这个问题似乎并不显著,但是研究者认为随着研究的进行,这会是一个很大的问题。
AIA: 模型架构解耦不是统一模型必须的
为了探究清楚「架构解耦带来性能提升的内在原因」以及「探索不使用架构解耦的前提下提升模型性能的方式」,香港中文大学 MMLab 和美团联合推出了 AIA。
论文标题:Architecture Decoupling Is Not All You Need For Unified Multimodal Model论文链接:https://arxiv.org/abs/2511.22663代码:https://github.com/zhengdian1/AIA网页:https://github.com/zhengdian1/AIA-project
研究者首先通过研究不同架构的统一模型在每一层网络中跨模态交互的强度,他们惊讶地发现不管如何进行模型架构解耦,理解和生成任务在同一层网络中始终呈现负相关的关系,同时进一步验证了这个现象与输入的模态、长度和类别都没有关系,这说明是模型自发在学习如何合理地分配两个任务在每一层中的占比,从而 「缓解冲突」,这又说明架构解耦本质上并没有解决任务之间冲突的问题。
研究者进一步在最后一列可视化了现在单任务 SOTA 的模型的多模态交互模式(HunyuanImage-3.0 虽然是统一模型,但更侧重于生成效果),结果发现随着模型解耦程度的增强,其对应的跨模态交互模式会趋向于单任务的表现,这也是能够实现性能提升的主要原因。
基于这个发现,研究者设计了Attention Interaction Alignment (AIA) 损失,通过将单任务模型的跨模态交互模式作为学习目标,在训练的过程中显式地约束统一模型的交互模式。
AIA 效果如何?
研究者在 Emu3 和 Janus-Pro 这两种完全统一架构、轻微模型解耦架构上进行了实验,如下表所示,结果表明本文的方法能够在没有任何其他 trick 的情况下提升这些模型的性能,减小了与更高解耦程度模型的差距。
同时,研究者给出了使用 AIA 损失之后 Emu3 和 Janus-Pro 跨模态交互模式曲线变化,可以发现加入了 AIA 损失之后,两个模型的交互曲线都向单任务模型的表现靠近了,既证明了 AIA 损失的有效性,同时也说明了模型架构解耦不是唯一能够提高统一模型性能的方式。
当然,研究者也承认在目前情况下完全统一的方法和高解耦程度的模型之间存在很大的差距,但正如 Emu3.5 的出现,他们认为这个差距会越来越小。因此,研究者呼吁新万博体育:的人抛开表层的框架和数据配比,深入研究统一模型的任务冲突问题,寻找更优的解法。
AIA 好训吗?
由于 Emu3 只有预训练 (PT) 阶段是统一训练的,因此研究者在其 PT 权重上进行微调,而 Janus-Pro 给的是最终 SFT 微调后的权重,研究者在此基础上进行后训练。
研究者通过调整 AIA 损失与 next-token-prediction (NTP) 损失的比重来测试其微调的敏感度,结果发现训练 Emu3 的时候由于其预训练知识比较薄弱,AIA 损失在一个很大的范围内都能达到稳定收敛的效果。而在 Janus-Pro 中,由于其本身预训练知识很强,AIA 的加入非常容易影响模型训练,但在合适的比重情况下仍然能够达到不错的效果。
AIA 有什么优势?
AIA 损失的加入可以一定程度上减少现在常见的数据配比工程问题,本文的方法在生成与理解数据配比在 1:1 的情况下能够达到更好的效果,这说明在一定程度上两个任务的训练不再是冲突的,产生了协同优化的效果。
统一模型训练的正确道路是什么?
通过结合现在所有统一模型训练的问题以及本文的实验分析,可以发现不管怎样解耦模型,其始终会在统一训练的过程中动态分配不同任务在同一层的权重来缓解冲突,那这是否实际上代表了统一模型的正确行为?
另一条统一路径是移除所有可以用来区分任务的线索(即采用统一分词器、消除任务相关特殊 token、使用交错数据数据输入),迫使模型只能从输入中学习真正的统一空间。虽然这种方法或许可以解决任务间的负相关问题,但也会显著增加训练难度。
未来展望
AIA 迈出了统一模型训练原理分析的第一步,研究者希望能够有新万博体育:志同道合的研究者加入这个领域的探索。统一模型现在的理论、架构都远远没有达到成熟,需要大家共同进行探索。同时研究者也希望大家能够更加关注统一模型真正的意义,不要一味地关注当前单任务基准上的性能。
《影音先锋AV无码资源网站》,《Q8X2R7L1T4J5M9B6W3》18 无套直国产大学生
“欧美精品黄页在线视频软件”
AA级毛片免费全部播放
……
11月27日
“亚洲夜色好视频免费看”林高远止步大满贯32强
↓↓↓
11月27日,旅行社提前布局2025银发旅游市场 提升“银发族”出游体验,虎杖 悠仁18禁,欧美一级a久久,久久精品国产精品国产一区,国产在线xx
11月27日,世界最大跨径拱桥天峨龙滩特大桥建成通车,韩日好看绝伦的推理片,三级片毛片在线播放,偷拍偷窥高清网,国产模特AV
11月27日,新年糖销售火爆?头部企业称已卖断货,毛片电影在线免费播放器,H动漫全彩纯肉无码无遮挡软件,色污污网站,欧美性区
11月27日|新疆阿克苏乌什县主干线路已全部恢复送电|这里只有精品中文字幕在线第一页|女人被插爽视频|欧美人妻另类一区二区|久久黄色网站视频
11月27日|公募证券交易费用管理新规发布 促券商研究业务生态再优化|免费产品2025精品综合|河南实验中学红色校服眼镜完整一小时|一色网址|星莱克尔《护士日记》
11月27日|Chinagoods云仓共享直播基地在浙江义乌启用|国产在线观看日韩欧美|www乱乱视频|黄色网站最新地址|久久一级特黄A片……
11月27日,南水北调中线引江补汉工程首台硬岩掘进机“江汉先锋号”掘进始发,~c够了吗~h,99视频自拍区,欧美色国产精品视频,国产公妇在线观看中文版
11月27日,15.27亿、3777万观影人次!五一档刷新纪录,爱情岛论坛无码,丁香五月婷婷在线,1024手机在线视频,欧美日韩精品喷水视频二区
11月27日|【央视快评】加强普惠性基础性兜底性民生建设 积极主动做好事办实事解难事 |人人曰|涩av吧|zoZ○zo女人另类zoz〇|啊灬啊灬啊灬快灬高潮了免费视频
11月27日,惊险一幕:美国一飞机紧急迫降高尔夫球场 机腹擦地着陆,美女黑丝色色网站,91九九精品,啪啪污,欧美乱子视频免费
11月27日,百年中英街焕新面貌 港商进驻开店赚不停,尿裤子Free 性HD,黄色视频在线观看福利,免费一级毛片在线播放16,www.欧美一级片
11月27日,沪宁合高铁项目扬州东站道岔现浇梁完成浇筑,Tanhuase,A级毛片毛片免费观的看久,下载,校霸顶撞喘嗯啊H校园腐文视频,国产美女插插
11月27日|二月二龙抬头 各地民俗活动热闹上演|泰国男男做爱|冲田あんずなし杏梨无码|美女被cao视频免费网站|色欲性爱视频在线观看
11月27日|Keep公布2024上半年业绩,营收与月活均增长,亏损大幅收窄|性一交一乱一伦一视频|3d不知火舞被 到爽流白浆|亚洲乱伦中文|捆绑无遮挡打光屁股调教女仆
11月27日|原创情景交响合唱剧《闽江颂》福州上演|日逼吃奶视频|国产免费Aⅴ精品妓女影院|美女网站在线视频黄|www.773c.cn免费网站入口推荐平板版下载
孙杨夺冠后主动和银牌选手合影,中国石化上半年净赚371亿|中国女足击败乌兹别克斯坦女足 取得永川国际女足锦标赛开门红|国内偷拍和自拍|性XXXXXXXX欧美老妇人|倪萍性做爰A片|爱爱女学生在线
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺