在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。
近日,字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding——一款专为大规模推荐场景设计的全模态嵌入基础模型,不仅实现了视觉、文本、音频的统一表征,更在抖音真实业务场景中带来显著效果提升,相关技术报告已正式公开。
论文标题:SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model技术报告:https://arxiv.org/pdf/2510.12709HuggingFace:https://huggingface.co/BytedanceDouyinContent/collections
SAIL-Embedding 能力概览
突破传统局限:
全模态 + 工业级优化双管齐下
现有多模态嵌入模型主要分为两类:以 CLIP 为代表的双塔架构,虽高效但模态融合浅;以 MLLM 为基础的融合架构,虽语义能力强却多局限于图文模态。SAIL-Embedding 则从根源上解决这些痛点:
全模态输入:覆盖短视频核心信息维度
不同于仅支持图文的传统模型,SAIL-Embedding 可处理任意模态组合——包括视觉模态侧的视频关键帧/封面、文本模态侧的标题/标签/OCR/ASR 文本、以及音频模态侧的背景音乐/语音,以适配抖音等短视频平台的信息结构。例如,在视频检索任务中,模型能同时利用画面内容、字幕文本与背景音效,避免单一模态信息缺失导致的语义偏差。
SAIL-Embedding 架构图
训练稳定性升级:动态难负样本 + 自适应数据平衡
为解决大规模训练中的噪声干扰与数据分布不均问题,团队提出引入两种策略:
动态难负样本挖掘:通过 F1 分数自适应确定相似度阈值,筛选「难区分」的负样本(如主题相似但内容不同的视频),让模型更聚焦细粒度语义差异,避免简单负样本导致的训练低效。
自适应多源数据平衡:基于 Sinkhorn 算法计算训练集与验证集的分布相似度,自动分配各数据源权重,减少人工调参依赖,同时兼顾数据质量与多样性,缓解工业数据与开源数据的领域鸿沟。
创新训练体系:
从内容理解到推荐适配的全链路优化
SAIL-Embedding 的训练并非单一阶段,而是一套覆盖「基础能力-任务适配-推荐增强」的多阶段体系,确保模型既能理解内容语义,又能贴合真实推荐场景需求:
内容感知渐进式训练:从通用到领域的精准过渡
训练分三阶段逐步深入:
第一阶段:用超 10B 样本的大规模多模态数据(含图文音)预训练,奠定基础语义理解能力;第二阶段:聚焦与下游任务(如视频检索、标签分类)对齐的高质量数据,优化任务适配性;第三阶段:引入难负样本微调,强化模型对相似内容的判别能力。
内容感知的渐进式训练
推荐感知的增强训练:融入用户行为信号
针对推荐场景,团队将多模态表征向用户历史序列表征和线上 ID 表征两个维度进行知识蒸馏以融于用户协同行为信息:
序列到物品蒸馏:通过多维度的用户历史兴趣序列筛选机制,利用用户具有正向交互行为的历史观看序列(如最近 10 个观看视频)与目标视频的关联,让模型学习用户兴趣的时序延续性;
ID 到物品蒸馏:对齐推荐系统中的多元化 ID 表征嵌入,将用户偏好信号(如点击、关注等)融入多模态表征,使嵌入结果更贴合推荐侧应用需求。
协同感知的两阶段推荐增强训练
实测性能:
刷新多任务 SOTA,抖音业务指标显著提升
无论是标准数据集的基准测试,还是抖音真实场景的在线实验,SAIL-Embedding 均展现出卓越性能:
离线任务性能:多场景检索与分类任务综合领先
(1) Item-to-Item Retrieval (物品到物品检索)
在 21 个涵盖内容理解、搜索,以及协同感知的多任务场景下,SAIL-Embedding 显著优于 CLIP-based 模型与 VLM-based 的模型:
(2) Query-to-Item Retrieval (查询到物品检索)
在 9 个涵盖检索为导向和分类为导向的多任务场景下,模型的 AUC 与 Recall 指标均取得领先:
在线落地效果:抖音多场景推荐指标显著提升
在抖音 Feed 流、冷启动、抖音精选、消息推送等核心场景中,SAIL-Embedding 通过潜入向量与嵌入离散化的语义 ID 两种形式赋能推荐全链路,带来了一致的 LT 和 AUC 增益,体现了其显著的业务应用潜力。
SAIL-Embedding 的核心价值在于,它不仅是一款性能领先的全模态嵌入模型,更构建了一套从学术研究到工业落地的完整解决方案:通过全模态架构突破输入局限,用动态数据策略解决训练稳定性问题,以推荐增强训练填补产业鸿沟,最终在抖音真实场景中验证了技术价值,在短视频、直播等富模态推荐场景中,具备极强的推广价值。
抖音 SAIL 团队在未来将进一步探索 VLMs 与推荐系统的深度融合,例如通过生成式任务注入推荐知识,让模型不仅能「理解」内容,更能「预测」用户偏好。
《久毛片 在线播放》,《Q8X2R7L1T4J5M9B6W3》成年人黄色网站免费
“青山翔无码成人AV在线观看”
999啪啪免费视频
……
11月02日
“黑料巨乳”霉霉演唱会大电影票房破亿
↓↓↓
11月02日,深耕“地瓜经济” 浙江稳外贸稳外资走出“上扬曲线”,日本 中文在线,人人人干射孕妇,美女扒开腿让男生通爽app下载,欧美性生活喷水
11月02日,第十五届中国航展金凤台观演区迎开放首日,18 宅男视频在线观看,最新国产av黄色网站,男人鸡鸡插入女人逼逼的视频,小 伸进 网站免费
11月02日,土耳其总统回应土以贸易关系 :“已断绝与以色列的关系”,日本人视频亅iZZZZ页码69,www com黄色,工口里番H全彩肉啪啪触手3d,加勒比图片专区
11月02日|联合国机构间常设委员会集体声明呼吁世界“不要抛弃加沙人民” 中方回应|可以在线的免费观看的超污的视频软件的下载的大全|免费瑟瑟性爱视频|毛茸茸茸BBBBBB老B视频|南非妓女BBBwBBB
11月02日|首届外交官非遗盛典为世界文明交流互鉴搭建国际舞台|婬乱A欧美大片视频|无码无黄在线观看免费视频|天堂在线免费视频|亚洲性欲a片
11月02日|今年暑假档能否“好戏连台”?|XXXi2021卮賶賰賶卮|裸体美女黄网页入口|青色大脑手机版安装包下载|piperperrier黑白配……
11月02日,全国政协十四届二次会议在京闭幕,十八岁以前禁看网站,美女大胆一级A片免费观看,打扑克生猴子不盖视频,国产免费三级片视频
11月02日,港大医学院和多家机构研发的治疗艾滋病病毒疫苗取得突破江西南昌:农业产业日渐红火 “一村一品”助农增收,啪啪啪啪啪啪啪啪啪黄片大全,免费观看18禁网站入口,欧美黄片aa,操无码在线
11月02日|小账本里看发展 “小包裹”撬动全球大市场|久久泄欲网官网入口|91国精品一区在线观看|91乱淫视频|中文字在线视频
11月02日,2023年山西产煤13.78亿吨 先进产能占比超80%,锕锕锕锕锕锕锕锕锕好湿,专干屁股眼A片视频在线观看,进 里 片AV,王王的视频|vVK
11月02日,中国科研人员研究发现大熊猫表现出更高的进化或生态潜力,又粗又硬又黄A级毛片,乱伦图片欧美色图,欧美一级视频大全免费,午夜熟视频
11月02日,展望2024年A股市场 多家外资机构给出积极预判,十大黄色软件下载,女人18毛片A级大学毛片中国,岳丰满大屁股丰满的女人是谁,欧美黑人大尺度又粗又长最新章节
11月02日|贵州省持续稳步提高城乡低保标准|欧美激情A片久久久久久|关晓彤 扒腿自慰爽漫画|欧美后门菊门交4|逼软件
11月02日|古井贡酒·年份原浆独家特约中央广播电视总台2025乙巳蛇年《春节联欢晚会》|黄色视频入口在线观看|动漫女生被奖励片子|国产cao婊网|黄瑟视频免费在线观看
11月02日|中国新一代隐身战斗机歼-35A“新”在哪里?首席专家解读|69蝴蝶交友俱乐部视频|久久五月女厕所一区二区|又爽又紧的免费视频|国产Jizz精品免费观看中文
警方建议关闭FaceTime,Doinb暗示Kid不如Ning|广西南宁电信网络诈骗立案数同比下降37%浙江立法激励劳动者:高质量发展的“技能点”何以练就?|中国内一级婬片A片免费|九九热视频精品在线|国产亚洲精品精品国产亚洲综合|国产小马拉大车,免费
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺