(4秒详细教程)欧美爱爱视频免费观看最新版v60.39.62.20.515.78.62.753-2265安卓网_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

傅聪团队新作:OnePiece!通用生成式推荐模型新范式

2025-10-27 05:01:17
来源:

猫眼电影

作者:

布兰

手机查看

  猫眼电影记者 李永吉 报道Q8X2R7L1T4J5M9B6W3

投稿作者:OnePiece 团队

生成式推荐无疑是当前推荐系统领域最热门的方向,也是互联网应用中最前沿的研究主题之一。

从技术路径来看,生成式推荐主要沿着两大方向展开:一是基于大语言模型的推荐方法(LLM as Recommender),二是以生成式方式训练推荐模型(Generative Recommender)。

然而,在真实业务场景中,由于线上服务对成本极为敏感,LLM as Recommender 的落地仍面临显著挑战。这主要源于大语言模型在推理时通常需要大量显卡资源,且响应延迟较高,难以满足大规模推荐系统对高并发和低延时的严格要求。

另一方面,生成式推荐模型虽然在效率上更具优势,却难以具备类似大语言模型的推理能力。这主要是因为典型的生成式推荐模型通常基于用户历史行为序列进行训练,而该序列往往表示为一组物品 ID 序列:[item-1, item-2, item-3, …]。可以说,物品 ID 构成了推荐系统特有的“语言体系”。大语言模型之所以能够模仿人类的推理过程,很大程度上依赖于文本作为信息媒介,从而逐步解决问题。但在仅由 ID 构成的语义空间中,我们难以构造类似的“思维链条”来引导模型执行复杂推理,更无法像大语言模型那样实施上下文工程。

此外,传统生成式推荐模型(如 SasRec)通常仅接受物品 ID 或语义 ID 作为输入,不支持多模态或手工特征的引入。这一限制使得推荐系统长期积累的“特征工程”经验难以发挥价值,同时也制约了模型效果的进一步提升。

在这一背景下,来自 Shopee 的傅聪技术团队联合人大高瓴学院提出了一种全新的生成式推荐模型——OnePiece 范式,这是业内首个融合上下文工程、隐式推理和多目标训练策略的生成式搜推建模框架!

论文链接:http://arxiv.org/abs/2509.18091

该范式的核心创新包括三个方面:针对物品 ID 序列特点专门设计的上下文工程策略;基于隐式推理的块状推理(block-wise reasoning)技术;以及通过渐进式多目标训练强化推理过程监督的学习机制。

目前,OnePiece 已在 Shopee 个性化主搜索场景上线,并取得效果提升。这一实践不仅验证了生成式推荐在工业场景的可行性,更为构建通用生成式推荐模型迈出了关键性的第一步。

核心方法

LLM 的成功不仅仅源于其优秀的 scaling law,也源于上下文工程、推理能力。从真实系统应用角度思考,推荐模型需要实现极致的“性价比”,也就是实现一个大小适中,但能尽可能吸收 LLM 领域成功经验的模型。因此,生成式推荐模型不能过度依赖 scaling law,即膨胀模型参数来获取增量收益,也需要迁移上下文工程、推理等相关成功经验到推荐领域。

首先,从上下文工程角度看,研究团队主要利用的是 LLM 基于上下文工程的指令(prompt)做(test-time)few shot learning的能力。而 few shot learning 用大白话讲就是举例子,希望模型能获得举一反三的能力。而这种数据,后来也逐渐被固化到训练数据中,被称为 Instruct Following SFT。放到以 “item ID” 为语言体系的推荐数据上,可以举出的“例子”,就是一些用户可能会交互的“锚点物品序列”来实现。例如,在 Shopee Search 场景,他们把用户们在某个关键词下面的高频点击商品序列、高频下单商品序列,作为“样例”拼接在用户自己的交互序列之后,通过引入 domain expert knowledge 的方式引入一些特殊的 inductive bias。

他们提出了上下文工程框架不只有“锚点序列”,新万博体育:细节如下图:

其中:

Interation History(IH):就是常规理解的用户行为历史。

Preference Anchors(PA):根据工程师的领域知识,构造的锚点序列,辅助引导预测和思考方向。

Situational Descriptor(SD):一些表达场景或其它异构信息的特殊 token,一般放在序列末尾聚合信息,例如在搜索场用到的 user token、query token 等。

Candidate Item Set(CIS):潜在目标候选物品的集合,这个是 ranking 模式下特有的,也是相对于召回模式的优势所在,ranking 模式下,候选物品对模型可见,可提供新万博体育:上下文信息。

为了能够自然融合“特征工程”的知识,他们在每个 token 位置上叠加了 item ID 以外特征信息,用简单的 adapter(MLP)来压缩到一个 token 位置上:

其次,新万博体育:推理,他们参考了近期在 LLM 领域开始有关注度的一个话题“隐式推理”。顾名思义,这种推理方式不是在文本上将思考过程描述出来,而是在隐藏表征空间(latent space)内进行推理。具体来说,就是每一步推理的时候,都直接把上一步输出的 item latent embedding 信息直接复制,放到输入序列后面,让 transformer 继续运算:

这样的推理技术的好处是,可以用极少的 token 完成思考过程,对在线服务几乎不增加负担。

最后,他们也发现隐式推理的一个明显的短板,那就是推理过程不受监督。因为隐式推理是直接将模型的输出和输入循环对接到一起,他们就没办法控制中间的推理过程,也就不知道模型在想什么,所以,他们定义了一种渐进式的监督训练方式。通过利用推荐系统丰富的用户反馈来为隐式推理提供过程监督,例如用户的点击、加购物车、下单行为:

值得注意的是,在推理的过程中,他们要求“前面的思考步骤”看不到“后面的思考步骤”,所以形成了上图中的 attention mask。同时,为了增加推理的信息处理带宽,避免出现单 token 推理的信息瓶颈,他们同时选择前文中的多个 token 向后进行“推理”。

实验效果

为了深度分析 OnePiece 的效果,研究团队进行了详细的对比和 Ablation。

从 Table2 中可以看到,Shopee 的 DLRM 基线(传统深度学习推荐模型)是一个很强的 baseline,naive 的生成式推荐是难以 PK 的。

进一步地,PA 是通过上下文工程引入额外的 domain knowledge,这种手法是模型backbone 无关的,HSTU 和 ReaRec 都可以从中受益。

OnePiece 相对于ReaRec+PA 的提升,主要来源于 block-wise reasoning 带来的信息带宽收益和渐进式的训练策略。

从 Table3 中可以看出,side info 对模型效果有巨大影响。此外,延长、优化 PA 序列呈现了一定程度的 scaling law,SD token 对收拢、聚合全局信息有重要作用,上下文工程框架中的每个组分都能够提升效果。

表 4 和 5 说明双向注意力在搜推广范式下更有优势。这其实比较容易理解,目前主流的搜推系统的用户交互模式依然是“一次请求返回一个页面”的方式,GR 模型不会依赖自己生成的 token 逐步解码,每次请求来了以后,生成的过程都是“一锤子买卖”。因此,不存在解码性能压力的前提下,对 pre-filling 部分的序列施加双向注意力可以更好的聚合信息。

此外,多步推理有 scaling 的效果,但效果逐渐收敛。渐进式引导相比于只监督最后一步更有效。值得注意的是,对于 ranking 模式下,candidate item 在attention mask 内互相“可见”非常重要。

研究团队在 Shopee 主搜场景进行了实验,在召回阶段和 prerank 阶段两个正交的实验层进行了在线 AB 实验。

在召回阶段,他们将 OnePiece 召回替代了原有的 DeepU2I 召回,取得了 1.08% 的 GMV/user 增长;在 prerank 阶段,他们用 OnePiece ranking model 替换了原有的 DLRM model,取得了 1.12% 的 GMV/user 增长和 2.9% 的广告收入增长,可以说是相当大幅度的提升。

值得注意的是,他们对 OnePiece 召回进行了深度数据分析拆解:

“新上马”的 OnePiece 召回,相对于其它召回路来说,可以说是碾压式覆盖。通过优化、平衡上下文工程中的 IH 和 PA 序列,OnePiece 在覆盖了文本召回曝光的 60%+ 商品的同时,覆盖了个性化导向召回(如 SwingI2I)的 70%+。这在以往的召回迭代的经验下是几乎不可能的事情,以前要么是侧重个性化但相关性不足、损伤体验,要么是侧重相关性但个性化不足,损伤效率指标。相比于DLRM 的 U2I 召回,OnePiece 贡献了 10% 的独立曝光和 5.7% 的独立点击:

这说明 OnePiece 选出来的内容,通过了下游粗排、精排、重排的重重考验,获得了用户的认可,在 Explore&Exploit 这个推荐经典问题上实现了难以置信的平衡,证明了推理模型的强大外推能力。

未来工作

研究团队表示,OnePiece 是他们在 One For All 的通用推荐模型上的一次初步探索,证明了可以通过特殊的上下文工程和推理模式,引导模型的预测方向。OnePiece 1.0 证明,“提示词优化”可能会成为搜推广技术栈下的一个全新方向,OnePiece 2.0 将会在 General Recommender Model 的探索上更进一步,尝试用一个模型来建模多场景和多召回策略:

此外,OnePiece 1.0 虽然挖掘出了生成式推荐 style 的新型推理框架,但它也有着显而易见的劣势,即推理步骤和渐进多任务系统的绑定,研究团队会探索可变长的推理形态,充分挖掘序列推荐下真正的 test time scaling law。

新万博体育:详细内容,请查看原论文。

??时事1:99精品爱视频

??10月27日,韩媒炮轰中国裁判,日本球迷:是韩国队球员过于粗鲁,

  新的起点,蕴含新的机遇,展示新的希望。在此,我们衷心祝曹县中银富登村镇银行开业大吉,兴旺发达!祝各位领导、各位来宾工作顺利,身体健康,万事如意!

,国产一级A片特黄又大又粗WWW。

??10月27日,京昆高速成雅段发生多起追尾交通事故致1死多人受伤,

  围绕把临沂城建成鲁南地区经济、贸易、交通、科技中心城市的目标,按照建成现代化城市的要求,高标准规划好临沂城。规划要突出商贸城、历史文化名城、滨河水岸城市三大特色。要充分利用临沂批发城的基础优势,以发展现代物流业、现代服务业为重点,综合考虑产业调整、通讯、交通、仓诸等配套设施,抓紧制定批发城改造提升规划,形成临沂城区域现代物流中心的新优势。充分利用临沂城历史文化资源优势,结合旅游开发,作好历史文化名人、历史遗迹整体开发建设规划,形成临沂城浓厚的历史文化氛围。充分利用临沂城滨临沂河、多条河流穿城而过这一得天独厚的自然地理优势,抓紧进行河城综合开发建设规划,形成河绕城过,城绕河建的田园风光特色。要把沂河两岸和工贸开发区、罗庄新区作为临沂城建设的亮点,所有建筑都要高起点规划,最起码五十年不落后。要按照临沂城总体规划要求,通盘考虑三区规划,实行统一规划、分区实施。要继续实行市政府对临沂城三区规划的统一管理,三区政府和所有驻城单位都要服从总体规划,积极参与、支持和服务于城市建设。当前,要重点解决临沂城规划区内民房建设混乱问题,今后,规划区内的所有民房建设一律由市规划部门进行统一管理。

,久久超碰高清熟女一区二区,老扒和陈荣,亚州免费一区=区三区黄色视频。

??时事2:老师的婬肉泬被c

??10月27日,广东举办“南粤扶残·艺海友爱”暨国际残疾人日活动,

  作为一名学生,提高学习成绩最好的办法就是在认真学习的前提下,学会改进学习方法。为此就必须经常反思自己的学习。良好的学习习惯是搞好学习的重要保证,成绩好的同学大多有良好的学习习惯。因此,培养良好的学习习惯,对每一个学生来说都是非常重要的。但是不同的学生有不同的学习基础,良好学习习惯的形成必须适合自己的情况,真正有利于自己的学习成绩,你们现在每一个人都有固定的学习方法,但是我们可以借鉴别人的优秀成果,优化自己的方法,真正找到属于自己的、适合自己的学习方法才是最好的学习方法。

,男人天堂s8视频网站,免费A片吃奶玩乳视频无遮挡,小美女性爱车轮战。

??10月27日,湖南举行残奥冠军进校园主题活动,

  “这究竟是什么生灵,居然将太古神鸟后裔的卵给吃了,这……太败家子了,我恨不得活吞了他!”一个年轻的男子愤愤不已。

,一级做受黃色毛片,大鸡巴男男父子网站,国产产品产品免费。

??时事3:三级一级毛片

??10月27日,天津古文化街“换装”迎新春,

  兽皮化成了小不点的肉皮,光华璀璨,形成一个图案,化作一个古符,令他的整具小躯体都晶莹绚烂了起来,如火焰在燃烧,有一种滔天的凶威弥漫,震慑十方。

,国内精品国产黄色网站,wwwwwwwwwaa888,国产在线一。

??10月27日,赶大集 备年货……“烟火气”升腾 各地年味儿渐浓,

  第二、学习要讲究方法。好的学习方法是成功的基石。一名优秀的学生,总是以课堂为中心,努力做好预习和复习,这是科学学习方法的核心,课堂听课是最重要的,聪明的学生在课堂的注意力总是非常集中,他们的思维总是围绕在教师活动的周围,通常他们在课堂上就把问题解决了。上课应积极主动、大胆发言、积极思考、认真做笔记。

,人人色操人人,青青视频在线免费播放,徐伦被爆 羞羞漫画。

??时事4:一级性爱免费看

??10月27日,国家统计局:2023年全国居民人均可支配收入39218元,

  他光辉绚丽,手持战矛而行,每一步落下,都震的大地抖动,手中战矛极速刺出,黄金光洞穿太古凶禽,直接挑杀。

,红楼晶体直播,中文字幕在线免费 播放,妲己泳装。

??10月27日,(乡村行·看振兴)福建永定煤农吃上“生态饭”,

  纵然如此,他亦失去了战力,整个人像是苍老了十年,一下子跌落人群中,难以再战。

,可以直接看av资源的网站,亚洲一级aⅴ无码毛片九九影院,成人免费毛片 果冻漫画。

责编:宋建隆

审核:夏静

责编:陈舜耕

相关推荐 换一换