(10分钟完整评测)手机版美高梅线上娱乐安卓版v8.57.25.69.72.47.74-2265安卓网

首页 >新闻 >社会新闻

傅聪团队新作：OnePiece！通用生成式推荐模型新范式

2025-10-26 08:19:13

来源：

猫眼电影

作者：

熊诗婕

手机查看

　　猫眼电影记者蔡镇鸿报道Q8X2R7L1T4J5M9B6W3

投稿作者：OnePiece 团队

生成式推荐无疑是当前推荐系统领域最热门的方向，也是互联网应用中最前沿的研究主题之一。

从技术路径来看，生成式推荐主要沿着两大方向展开：一是基于大语言模型的推荐方法（LLM as Recommender），二是以生成式方式训练推荐模型（Generative Recommender）。

然而，在真实业务场景中，由于线上服务对成本极为敏感，LLM as Recommender 的落地仍面临显著挑战。这主要源于大语言模型在推理时通常需要大量显卡资源，且响应延迟较高，难以满足大规模推荐系统对高并发和低延时的严格要求。

另一方面，生成式推荐模型虽然在效率上更具优势，却难以具备类似大语言模型的推理能力。这主要是因为典型的生成式推荐模型通常基于用户历史行为序列进行训练，而该序列往往表示为一组物品 ID 序列：[item-1, item-2, item-3, …]。可以说，物品 ID 构成了推荐系统特有的“语言体系”。大语言模型之所以能够模仿人类的推理过程，很大程度上依赖于文本作为信息媒介，从而逐步解决问题。但在仅由 ID 构成的语义空间中，我们难以构造类似的“思维链条”来引导模型执行复杂推理，更无法像大语言模型那样实施上下文工程。

此外，传统生成式推荐模型（如 SasRec）通常仅接受物品 ID 或语义 ID 作为输入，不支持多模态或手工特征的引入。这一限制使得推荐系统长期积累的“特征工程”经验难以发挥价值，同时也制约了模型效果的进一步提升。

在这一背景下，来自 Shopee 的傅聪技术团队联合人大高瓴学院提出了一种全新的生成式推荐模型——OnePiece 范式，这是业内首个融合上下文工程、隐式推理和多目标训练策略的生成式搜推建模框架！

论文链接：http://arxiv.org/abs/2509.18091

该范式的核心创新包括三个方面：针对物品 ID 序列特点专门设计的上下文工程策略；基于隐式推理的块状推理（block-wise reasoning）技术；以及通过渐进式多目标训练强化推理过程监督的学习机制。

目前，OnePiece 已在 Shopee 个性化主搜索场景上线，并取得效果提升。这一实践不仅验证了生成式推荐在工业场景的可行性，更为构建通用生成式推荐模型迈出了关键性的第一步。

核心方法

LLM 的成功不仅仅源于其优秀的 scaling law，也源于上下文工程、推理能力。从真实系统应用角度思考，推荐模型需要实现极致的“性价比”，也就是实现一个大小适中，但能尽可能吸收 LLM 领域成功经验的模型。因此，生成式推荐模型不能过度依赖 scaling law，即膨胀模型参数来获取增量收益，也需要迁移上下文工程、推理等相关成功经验到推荐领域。

首先，从上下文工程角度看，研究团队主要利用的是 LLM 基于上下文工程的指令（prompt）做（test-time）few shot learning的能力。而 few shot learning 用大白话讲就是举例子，希望模型能获得举一反三的能力。而这种数据，后来也逐渐被固化到训练数据中，被称为 Instruct Following SFT。放到以 “item ID” 为语言体系的推荐数据上，可以举出的“例子”，就是一些用户可能会交互的“锚点物品序列”来实现。例如，在 Shopee Search 场景，他们把用户们在某个关键词下面的高频点击商品序列、高频下单商品序列，作为“样例”拼接在用户自己的交互序列之后，通过引入 domain expert knowledge 的方式引入一些特殊的 inductive bias。

他们提出了上下文工程框架不只有“锚点序列”，新万博体育：细节如下图：

其中：

Interation History（IH）：就是常规理解的用户行为历史。

Preference Anchors（PA）：根据工程师的领域知识，构造的锚点序列，辅助引导预测和思考方向。

Situational Descriptor（SD）：一些表达场景或其它异构信息的特殊 token，一般放在序列末尾聚合信息，例如在搜索场用到的 user token、query token 等。

Candidate Item Set（CIS）：潜在目标候选物品的集合，这个是 ranking 模式下特有的，也是相对于召回模式的优势所在，ranking 模式下，候选物品对模型可见，可提供新万博体育：上下文信息。

为了能够自然融合“特征工程”的知识，他们在每个 token 位置上叠加了 item ID 以外特征信息，用简单的 adapter（MLP）来压缩到一个 token 位置上：

其次，新万博体育：推理，他们参考了近期在 LLM 领域开始有关注度的一个话题“隐式推理”。顾名思义，这种推理方式不是在文本上将思考过程描述出来，而是在隐藏表征空间（latent space）内进行推理。具体来说，就是每一步推理的时候，都直接把上一步输出的 item latent embedding 信息直接复制，放到输入序列后面，让 transformer 继续运算：

这样的推理技术的好处是，可以用极少的 token 完成思考过程，对在线服务几乎不增加负担。

最后，他们也发现隐式推理的一个明显的短板，那就是推理过程不受监督。因为隐式推理是直接将模型的输出和输入循环对接到一起，他们就没办法控制中间的推理过程，也就不知道模型在想什么，所以，他们定义了一种渐进式的监督训练方式。通过利用推荐系统丰富的用户反馈来为隐式推理提供过程监督，例如用户的点击、加购物车、下单行为：

值得注意的是，在推理的过程中，他们要求“前面的思考步骤”看不到“后面的思考步骤”，所以形成了上图中的 attention mask。同时，为了增加推理的信息处理带宽，避免出现单 token 推理的信息瓶颈，他们同时选择前文中的多个 token 向后进行“推理”。

实验效果

为了深度分析 OnePiece 的效果，研究团队进行了详细的对比和 Ablation。

从 Table2 中可以看到，Shopee 的 DLRM 基线（传统深度学习推荐模型）是一个很强的 baseline，naive 的生成式推荐是难以 PK 的。

进一步地，PA 是通过上下文工程引入额外的 domain knowledge，这种手法是模型backbone 无关的，HSTU 和 ReaRec 都可以从中受益。

OnePiece 相对于ReaRec+PA 的提升，主要来源于 block-wise reasoning 带来的信息带宽收益和渐进式的训练策略。

从 Table3 中可以看出，side info 对模型效果有巨大影响。此外，延长、优化 PA 序列呈现了一定程度的 scaling law，SD token 对收拢、聚合全局信息有重要作用，上下文工程框架中的每个组分都能够提升效果。

表 4 和 5 说明双向注意力在搜推广范式下更有优势。这其实比较容易理解，目前主流的搜推系统的用户交互模式依然是“一次请求返回一个页面”的方式，GR 模型不会依赖自己生成的 token 逐步解码，每次请求来了以后，生成的过程都是“一锤子买卖”。因此，不存在解码性能压力的前提下，对 pre-filling 部分的序列施加双向注意力可以更好的聚合信息。

此外，多步推理有 scaling 的效果，但效果逐渐收敛。渐进式引导相比于只监督最后一步更有效。值得注意的是，对于 ranking 模式下，candidate item 在attention mask 内互相“可见”非常重要。

研究团队在 Shopee 主搜场景进行了实验，在召回阶段和 prerank 阶段两个正交的实验层进行了在线 AB 实验。

在召回阶段，他们将 OnePiece 召回替代了原有的 DeepU2I 召回，取得了 1.08% 的 GMV/user 增长；在 prerank 阶段，他们用 OnePiece ranking model 替换了原有的 DLRM model，取得了 1.12% 的 GMV/user 增长和 2.9% 的广告收入增长，可以说是相当大幅度的提升。

值得注意的是，他们对 OnePiece 召回进行了深度数据分析拆解：

“新上马”的 OnePiece 召回，相对于其它召回路来说，可以说是碾压式覆盖。通过优化、平衡上下文工程中的 IH 和 PA 序列，OnePiece 在覆盖了文本召回曝光的 60%+ 商品的同时，覆盖了个性化导向召回（如 SwingI2I）的 70%+。这在以往的召回迭代的经验下是几乎不可能的事情，以前要么是侧重个性化但相关性不足、损伤体验，要么是侧重相关性但个性化不足，损伤效率指标。相比于DLRM 的 U2I 召回，OnePiece 贡献了 10% 的独立曝光和 5.7% 的独立点击：

这说明 OnePiece 选出来的内容，通过了下游粗排、精排、重排的重重考验，获得了用户的认可，在 Explore&Exploit 这个推荐经典问题上实现了难以置信的平衡，证明了推理模型的强大外推能力。

未来工作

研究团队表示，OnePiece 是他们在 One For All 的通用推荐模型上的一次初步探索，证明了可以通过特殊的上下文工程和推理模式，引导模型的预测方向。OnePiece 1.0 证明，“提示词优化”可能会成为搜推广技术栈下的一个全新方向，OnePiece 2.0 将会在 General Recommender Model 的探索上更进一步，尝试用一个模型来建模多场景和多召回策略：

此外，OnePiece 1.0 虽然挖掘出了生成式推荐 style 的新型推理框架，但它也有着显而易见的劣势，即推理步骤和渐进多任务系统的绑定，研究团队会探索可变长的推理形态，充分挖掘序列推荐下真正的 test time scaling law。

新万博体育：详细内容，请查看原论文。

??时事1：威尼斯所有网址

??10月26日,“粤博之夜”再开场演绎陆丰皮影独特魅力,

　　石子陵继续开口，道：“我说过，你折我儿一根骨，我断你儿百根骨，今天就是天王老子来了也拦不住我！”

,2026世界杯买球公司。

??10月26日,美国“泄密门”嫌疑人被判15年监禁,

　　1、自觉遵守交通规则，注意交通安全。

,麻将推二八杠怎么玩,必威官方下载,世界杯体育彩票投注。

??时事2：世博体育软件官网

??10月26日,组织自助游有风险法律责任不能AA制,

　　而后，当人们得悉是战王所为后，又全都释然了，从其封号就可知其人，没有什么他不敢做的事。

,威尼斯5139手机版,世界杯在哪里买球,赢博平台怎么样。

??10月26日,“天价药”开出“平民价” 医保药品目录调整呈现三个新特点,

　　三、广阔的非洲市场。大家从这一张表可以看出来，非洲目前人口已经达到10亿人，而且每年增加2400万人。第一，非洲人口增长很快，对于吃穿住行的需求量增大。第二，根据世界银行报道，非洲将成为下一个经济增长热点。第三，非洲国家，特别是南部非洲国家，政治稳定，经济发展提速，是新的投资热点。同时，非洲最大的优势就是矿产资源丰富，并以此作为商品进口的交换。目前中国作为非洲各国最大的贸易伙伴，需要在座的各位去抢占先机，因为你们有资源，你们现在需要的就是一个平台，一个载体。非洲在20xx0xx年至20xx年，20xx年的GDP，每年平均GDP都超过10%。特别他的中产阶级，已经达到总人口的35%。也就是3.5亿人，而中产阶级正是零售商业的主力军。从一个数据可以显示，在莫桑比克平均每笔消费在过去5年间。涨了67%，也就是每笔消费是20美金，100多人民币。这个国内也很少做到，所以包括国际的零售业巨头沃尔玛，家乐福也在翘首进入非洲市场。为什么他们要关闭国内的超市进军非洲，因为他们看到这个市场的未来潜力。

,凯时app链接,新濠天地是不是正规平台,澳门城注册体验金。

??时事3：新好娱乐

??10月26日,从大都市回归，这个小伙想与乡土一起成长,

　　“林虎叔我累了。”小不点丢下大剑，轻声说道。

,凯发k8旗舰厅真人版,AG视讯网址,mg电子和jdb。

??10月26日,“顺德新港——海南洋浦港”内外贸同船班轮航线开通,

　　2、怎样去重视家庭教育呢？先从关心孩子的生活开始。对孩子不光是关心吃饭穿衣，还应关心他们的课余活动是否健康，结交的朋友是否正派，有些学生看了一些有暴力倾向的影视节目或书刊，则进行模仿，喜欢打打闹闹。前段时间有些孩子就带了那种水果刀来，晏老师就赶紧没收了。作为家长要多关注自己的孩子，不要出了事情你是最后一个知道的。作为家长，还应该让孩子参加健康有益的活动，拒绝参与不正当的游戏与活动，特别是不要让他打游戏机、进网吧上网玩游戏。孩子每天什么时候回家，做了些什么，节假日孩子在家里干些什么事，平时喜欢到哪里去玩，与谁在一起玩，都要做了如指掌。坚决抵制孩子进网吧，进电子游戏室，发现情况，及时班主任，家庭、学校共同进行教育。说实在的，做一个负责任的家长和做一个负责任的老师都同样意义重大，不容易啊！但这也是我们义不容辞的责任所在！

,皇冠体育在线app下载,免费送彩金大全,ca88游戏官网。

??时事4：银河999官网下载安装

??10月26日,中国驻美大使谢锋：“成长中的烦恼”完全可以克服,

　　狈村人的祭灵是一只狈，该族的姓都是藉此而来的。

,综合体育网页版登录入口,澳门现金官网注册,世界杯买球术语。

??10月26日,山西襄垣：新“鸡”遇唱响“致富曲”,

　　“天杀的猴子，你给老娘站住！”石村内，一个膀大腰圆的女人追了出来，前方一个拳头大的金色圆球举着一块上百斤的兽腿飞逃，跟在地上滚一般，很滑稽，而它一边跑还一边迅速地啃食。

,bepkay体育怎么下载,明發国际,leyu乐鱼官方入口。

【共建“一带一路” 专家学者强调借助语言正确解读彼此文化】

【奥运在中国·浙江杭州：攀岩运动迎来热潮新兴奥运项目激发小镇新活力】

责编：杨雄

审核：张晋龙

责编：林道长