app体育下载安装官方免费下载,拒绝平凡,让每一次打开都充满新鲜与期待_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding

2025-11-03 10:17:18
来源:

猫眼电影

作者:

赵宇瑛

手机查看

  猫眼电影记者 胡淑萍 报道Q8X2R7L1T4J5M9B6W3

在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。

近日,字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding——一款专为大规模推荐场景设计的全模态嵌入基础模型,不仅实现了视觉、文本、音频的统一表征,更在抖音真实业务场景中带来显著效果提升,相关技术报告已正式公开。

论文标题:SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model技术报告:https://arxiv.org/pdf/2510.12709HuggingFace:https://huggingface.co/BytedanceDouyinContent/collections

SAIL-Embedding 能力概览

突破传统局限:

全模态 + 工业级优化双管齐下

现有多模态嵌入模型主要分为两类:以 CLIP 为代表的双塔架构,虽高效但模态融合浅;以 MLLM 为基础的融合架构,虽语义能力强却多局限于图文模态。SAIL-Embedding 则从根源上解决这些痛点:

全模态输入:覆盖短视频核心信息维度

不同于仅支持图文的传统模型,SAIL-Embedding 可处理任意模态组合——包括视觉模态侧的视频关键帧/封面、文本模态侧的标题/标签/OCR/ASR 文本、以及音频模态侧的背景音乐/语音,以适配抖音等短视频平台的信息结构。例如,在视频检索任务中,模型能同时利用画面内容、字幕文本与背景音效,避免单一模态信息缺失导致的语义偏差。

SAIL-Embedding 架构图

训练稳定性升级:动态难负样本 + 自适应数据平衡

为解决大规模训练中的噪声干扰与数据分布不均问题,团队提出引入两种策略:

动态难负样本挖掘:通过 F1 分数自适应确定相似度阈值,筛选「难区分」的负样本(如主题相似但内容不同的视频),让模型更聚焦细粒度语义差异,避免简单负样本导致的训练低效。

自适应多源数据平衡:基于 Sinkhorn 算法计算训练集与验证集的分布相似度,自动分配各数据源权重,减少人工调参依赖,同时兼顾数据质量与多样性,缓解工业数据与开源数据的领域鸿沟。

创新训练体系:

从内容理解到推荐适配的全链路优化

SAIL-Embedding 的训练并非单一阶段,而是一套覆盖「基础能力-任务适配-推荐增强」的多阶段体系,确保模型既能理解内容语义,又能贴合真实推荐场景需求:

内容感知渐进式训练:从通用到领域的精准过渡

训练分三阶段逐步深入:

第一阶段:用超 10B 样本的大规模多模态数据(含图文音)预训练,奠定基础语义理解能力;第二阶段:聚焦与下游任务(如视频检索、标签分类)对齐的高质量数据,优化任务适配性;第三阶段:引入难负样本微调,强化模型对相似内容的判别能力。

内容感知的渐进式训练

推荐感知的增强训练:融入用户行为信号

针对推荐场景,团队将多模态表征向用户历史序列表征和线上 ID 表征两个维度进行知识蒸馏以融于用户协同行为信息:

序列到物品蒸馏:通过多维度的用户历史兴趣序列筛选机制,利用用户具有正向交互行为的历史观看序列(如最近 10 个观看视频)与目标视频的关联,让模型学习用户兴趣的时序延续性;

ID 到物品蒸馏:对齐推荐系统中的多元化 ID 表征嵌入,将用户偏好信号(如点击、关注等)融入多模态表征,使嵌入结果更贴合推荐侧应用需求。

协同感知的两阶段推荐增强训练

实测性能:

刷新多任务 SOTA,抖音业务指标显著提升

无论是标准数据集的基准测试,还是抖音真实场景的在线实验,SAIL-Embedding 均展现出卓越性能:

离线任务性能:多场景检索与分类任务综合领先

(1) Item-to-Item Retrieval (物品到物品检索)

在 21 个涵盖内容理解、搜索,以及协同感知的多任务场景下,SAIL-Embedding 显著优于 CLIP-based 模型与 VLM-based 的模型:

(2) Query-to-Item Retrieval (查询到物品检索)

在 9 个涵盖检索为导向和分类为导向的多任务场景下,模型的 AUC 与 Recall 指标均取得领先:

在线落地效果:抖音多场景推荐指标显著提升

在抖音 Feed 流、冷启动、抖音精选、消息推送等核心场景中,SAIL-Embedding 通过潜入向量与嵌入离散化的语义 ID 两种形式赋能推荐全链路,带来了一致的 LT 和 AUC 增益,体现了其显著的业务应用潜力。

SAIL-Embedding 的核心价值在于,它不仅是一款性能领先的全模态嵌入模型,更构建了一套从学术研究到工业落地的完整解决方案:通过全模态架构突破输入局限,用动态数据策略解决训练稳定性问题,以推荐增强训练填补产业鸿沟,最终在抖音真实场景中验证了技术价值,在短视频、直播等富模态推荐场景中,具备极强的推广价值。

抖音 SAIL 团队在未来将进一步探索 VLMs 与推荐系统的深度融合,例如通过生成式任务注入推荐知识,让模型不仅能「理解」内容,更能「预测」用户偏好。

??时事1:所有体育平台有哪些

??11月03日,李强结束出访回到北京,

  “小不点来我们云天宫吧,到时候我们带你去看雪海,喝最香醇的兽奶。”两个小姑娘开口,冲小石昊眨动眼睛。

,世界杯投注统计软件。

??11月03日,十四届全国人大二次会议表决通过了关于政府工作报告的决议,

  石子陵并不回头,他早已知晓,自从他动手的刹那,宗老就出动了,以太古遗种的宝骨封锁了整座府邸,防止战斗与呼喝的声音传到外界。

,betway体育入口,万能娱乐捕鱼什么时候好打,鸿博体育下载。

??时事2:必威登陆网址

??11月03日,国产新型高寒耐风沙内燃机车在临哈铁路投入使用出动直升机、无人机!辽宁葫芦岛全力抢修通讯 恢复供电,

  “藏经阁是空的,经书早已被搬走,猎杀他们的高层人物,身上一定有秘典!”有一头银色的大鳄吼道。

,杏彩手机网页版平台,凯时app链接,188宝金博在哪注册。

??11月03日,人民财评:比亚迪“议价”供应商,理所应当,  瑟比加也谈到乌克兰方面珍视两国传统友谊,恪守一个中国原则,愿意进一步密切两国各层级交往,加强各领域合作,推动双边关系发展取得新万博体育:更好成果。,澳门太阳神集团网址APP,99游戏网,彩票体育平台下载。

??时事3:开云投注登录

??11月03日,大朗代表团建议:创新打造停车共享模式,

  老狈吃惊,迅速躲避,嘴里符文闪烁,凝聚成一片霞光,喷吐而出,轰的一声与那只模糊的凶兽撞在了一起。

,足球买球平台,新宝6,365bet 手机客户端。

??11月03日,湖南祁阳用科技赋能助粮食产量提升,

  在这个金秋的八月,在这个阳光灿烂的日子里,我们,这群青春洋溢的青年,从四面八方走到了一起,走进了这个集体,从此,我们生活的轨迹有了一段同行的日子;从此,我们的心有了一份共同的牵挂;从此,我们便是不需血脉而相连的兄弟姐妹;从此,我们成了一家人。青春之路,一个多么美好的句子,一段多么值得记录的经历。在很多年以后的未来,它将是你人生中一笔最为宝贵的财富。让我们用心创造,用汗水和拼搏创造,创造我们心中的集体,为未来留一份回忆,留一篇青春的日记。走进一个新的集体,你便又拥有了一个温暖的家。

,大富豪下载网址谁有,英亚体育国际首页,银河999官网下载安装。

??时事4:w8优德官方网站

??11月03日,(文化中国行)“中国第一座公共博物馆”南通博物苑为何取名“苑”?,

  “所有人都聚在一起防御,林虎你祭祖器!”族长石云峰道。

,能提现的网络彩票,世界杯买球赚钱吗知乎,体育BBIN体育网。

??11月03日,法院支持爱心人士监护,“野娃儿”开心了,

  班的同学们,此时的你们,汇聚着老师们新万博体育:的关切的目光,倾注了老师们新万博体育:的心血,你们将承载着学校和家长的希望,开始最后一年的冲刺。希望你们利用一切可以利用的零散时间,坚持不懈地努力学习,明年以优异的中考成绩向母校交上一份满意的答卷。努力吧!亲爱的同学们。

,球探网365网站,澳门老虎机奖金,纵横天下B。

责编:金柱

审核:朱贤佳

责编:阿巴拉契亚山

相关推荐 换一换