Meta最新研究RecoWorld，从「猜你喜欢」到「听你指令」

Meta最新研究RecoWorld，从「猜你喜欢」到「听你指令」

大家每天都在和推荐系统打交道。无论是刷短视频、逛电商、听音乐还是看新闻，背后都有一套「聪明」的算法在猜测你可能喜欢什么。但你是不是偶尔觉得推荐内容千篇一律？这其实暴露了传统推荐系统的一个核心问题：它们大多数是基于过去数据来预测，被动的「猜你喜欢」，而缺乏和你真正的互动。

最近，Meta 推荐系统团队提出了一个全新的思路 ——RecoWorld。

RecoWorld的独特之处在于其双视图架构：模拟用户和智能体推荐系统进行多轮交互，旨在最大化用户留存率。

用户模拟器会查看推荐商品，更新其思维模式，并在察觉到用户可能脱离互动时生成反思性指令。智能体推荐系统则通过整合这些用户指令和推理轨迹，调整其推荐内容，形成一个主动吸引用户的动态反馈循环。这一过程利用了大语言模型出色的推理能力。

研究者探索了模拟器中的多样内容表示形式，包括基于文本、多模态和语义ID建模，并讨论了多轮强化学习如何使推荐系统通过迭代交互来不断完善其策略。RecoWorld还支持多智能体模拟，允许创作者模拟目标用户群体的响应。它标志着向一个新的推荐系统迈出了重要的第一步，在这个系统中，用户和智能体共同塑造个性化的信息流。他们设想了一种新的互动范式：「用户指令，推荐系统响应」，共同优化用户留存和参与度。

论文标题：RecoWorld: Building Simulated Environments for Agentic Recommender Systems论文链接：https://arxiv.org/abs/2509.10397

它不仅是一个推荐算法，而是一个「虚拟世界」，让推荐系统和模拟用户能在里面进行交互、反馈和优化，做到「你说我改」。

为什么推荐系统需要「进化」？

过去，研究人员想改进推荐系统，主要有两种办法：

1.用历史数据做离线评估：但这样容易「路径依赖」，系统会在老套路里兜圈子。

2.做线上 A/B 测试：能看到真实用户反馈，但风险很高，测试失败就可能伤害用户体验。

而随着「智能体（Agentic RecSys）」概念兴起，推荐系统不再只是被动推送，而是能理解指令、主动学习，甚至根据用户的语音、行为即时调整推荐。为训练 agentic recsys，Meta 提出 RecoWorld：一个仿真环境，把「模拟用户」和「推荐系统」放进一个虚拟世界，让它们多轮互动，避免和真实用户交互损害用户体验。

RecoWorld 是怎么工作的？

RecoWorld 的核心是一个「虚拟对手戏」。一边是「模拟用户」，会点击、跳过、点赞、抱怨等；另一边是「智能体推荐系统」，会根据这些反馈不断调整推荐内容。两者来回互动，帮助推荐系统学会如何真正留住用户。

关键要素与流程：

模拟用户（User Simulator）：像真人一样，它会抱怨、会点赞，还会给指令。比如说：「别再给我推美妆了，换点别的！」

大语言模型强大的推理和内容理解能力为模拟人类行为提供了巨大的潜力。研究者通过预测用户在看到推荐商品列表时的下一步操作来模拟真实用户的行为。

如图 2 所示，模拟用户针对每个商品的操作空间 A 包括：(1) 点击、(2) 评论、(3) 分享、(4) 点赞、(5) 观看 [指定时长（以秒为单位）]、(6) 跳过以及 (7) 离开会话。

如果用户选择离开（操作 7），系统会提示他们反思体验，说明不满意的原因，并向 RecSys 提供改进说明，或者用户可以直接退出，无需进一步输入。

用户的决策受到当前环境 C 和过去交互 H 的影响。如图 2 所示，研究者考虑与用户相关的环境因素，例如时间（一天中的时间、季节性）、人口统计（年龄、性别、位置等）、行为（花费的时间、搜索查询等）和社会联系（团体关系等）。

会话从用户打开应用程序开始，到用户退出应用程序结束。每个推荐都会呈现一个包含 k 个项目的列表，这些项目是从候选集 C 中选择出来的，并按顺序显示。

智能体和模拟用户可能在会话中多次交互，例如，用户请求新万博体育：有趣的内容，智能体会更新列表。每个列表显示后都会生成奖励信号。至关重要的是，其目标是优化长期用户留存作为奖励信号，即最大化会话时长并最小化会话间隔，这与每日活跃用户 (DAU) 相关。

具体来说，模拟用户会逐一浏览每个推荐。对于每个项目，用户需要采取三个步骤：1. 仔细思考：你回应的理由是什么？2. 采取行动：写下你实际会做的事情。3. 更新你的思维方式：这会如何影响你当前的想法？

图 3 显示了一个汇总表，其中包含初始模拟器结果，包括模拟用户对每个项目的操作和理由。