本周 17 篇推荐系统论文里,工业界把线上实际部署作为论证工具,三条技术主线非常清楚。 第一条线是生成式推荐落地的工程化转向。 京东 GenRec 在 JD App 跑了一个月 A/B,点击 +9.5%、成交 +8.7%。UniRec 把属性 token 显式注入 SID 解码,HR@50 比最强 baseline 再提 22.6%。字节 R3-VAE 在头条线上拿到 MRR +1.62%,同时把 CTR 模型的内容冷启提高 15.36%。三篇放一起看,生成式召回已经从"能不能跑通"转到"怎么把 prefill 成本压下来、怎么让 RL 训练稳定、怎么在训练期就评估 SID 质量"这些具体工程问题。 第二条线是基础模型不再硬上线。 Meta 的 SOLARIS 把 foundation model 异步预计算、offload 出关键路径,广告系统 top-line revenue +0.67%;Meta 的 Hierarchical Indexing 把扁平索引换成可学习层级结构,支撑 Facebook/Instagram 数十亿日活广告召回;字节 IAT 把单次交互压成 instance token、让下游继续用便宜的标准模型。蒸馏不再是默认解,工业界开始拆解 serving 关键路径。 第三条线是 LLM 的产出物从"推荐结果"退到"中间件"。 本周 LLM 相关的 4 篇——SAGER、local-life agentic reasoning、DUET、SemaCDR——都不让 LLM 直接出分数,而是让它输出 per-user policy skill、可验证推理链、可训练 profile、可迁移语义特征。这是对"LLM 直接当排序器"路线的集体回调。
本周推荐系统研究的技术主线清晰:生成式推荐正在从"单场景验证"快速演进到"全链路生产系统"。美团、Snapchat、Meta 等头部平台的论文不再探讨 Semantic ID 的基本可行性,而是深入到多业务扩展、codebook 公平性、增量更新和重排序等部署后的实际痛点。MBGR (2604.02684) 在美团外卖多业务场景实现线上 CTR +1.24%,是本周评分最高的工作。 与此并行的另一条主线是 LLM/Agent 范式对推荐与检索的深度渗透。快手将 LLM 推理能力引入电商搜索并设计了去偏 GRPO 变体,Google DeepMind 用 RL 反馈环路对齐对话推荐中的检索器与生成器,Amazon 将非稳态分类重构为基于检索的时序预测。RL 正在成为 LLM 推荐系统的标准训练组件。 工业搜索检索层面,Google 和 Walmart 的三篇论文分别瞄准了非语义查询召回、广告搜索的语义-行为信号统一、以及大规模复购推荐的时序建模,全部带线上 A/B 验证。场景特化的工程-算法协同设计正在取代通用方法论。