本周 12 篇论文中，工业部署论文占据主导——8 篇来自 YouTube、TikTok、快手、腾讯、沃尔玛等一线平台，均有线上 A/B 实验指标。研究聚焦于三个相互交织的方向：生成式推荐与LLM增强、大规模检索的 GPU 加速、以及工业系统的架构与归因优化。生成式推荐从“生成物品 ID”走向“生成物理物品”：快手提出的 RaG（Kuaishou）将生成式推荐与视频生成统一，在 4 亿 DAU 平台上实现广告收入 +1.87%。YouTube 的 TokenMinds（YouTube）将 Semantic ID 从物品侧扩展到用户侧，生成离散用户 token 与稠密 embedding 双输出，覆盖全量用户流量。两条路线指向同一个判断——生成式推荐正在从离线一致性验证进入线上收益兑现阶段。用户建模从“稠密向量”向“离散语义 ID”切换加速：快手与 YouTube 几乎同时发布了基于 SID 的框架。这不仅是表征形态的变化，更意味着推荐系统与 LLM 世界的底层 token 空间开始对齐，跨场景统一（短视频/长视频、推荐/广告）的成本大幅降低。工业归因与缩放方法论走向精细化： TikTok 的归因校正框架（TikTok）将因果实验与每日生产归因对齐，将蚕食率降低约 15 个百分点。腾讯的 NOVA（Tencent）用智能体自动化架构演化，L3 任务线上 GMV 提升 +2.02%。快手的 UniFormer（Kuaishou）提出模型中心缩放框架，将建模空间显式分解为特征和任务两个维度。三者共同揭示——当模型架构趋于收敛，工程自动化和测量准确性成为工业竞争的新壁垒。

文章详情

推荐系统

日报

[Agent + LLM 驱动推荐系统自动化]：从架构演化到特征筛选，工业界正系统性地引入 LLM Agent 来替代人工专家。腾讯的 NOVA 框架展示了 Agent 如何自动化完成“论文到生产”的模型升级，PayPal 的 EMA-FS 则用增益感知的筛选策略加速 GBDT 训练。核心趋势是从“调参自动化”走向“架构决策自动化”，但验证和风险控制（如 NOVA 的验证级联）是落地的关键。; [归因与增量性：从“归因”到“归因校正”]：广告归因领域正从简单的“最后一次点击”或“多触点归因”转向

文章详情

推荐系统

日报

生成式推荐进入工业落地爆发期：今日多篇论文（TokenMinds、RaG）将生成式推荐从概念验证推向大规模工业部署。核心趋势是使用统一的Semantic ID (SID) 体系同时表示用户和物品，实现跨场景（长/短视频）的统一建模，并显著降低训练和服务成本。这标志着生成式推荐正从“召回”环节向“排序”和“内容生成”全链路渗透。; 零样本与自适应推理成为降本增效新焦点：面对海量动态物品和复杂查询，工业系统开始探索更智能的资源分配策略。IRENE通过元分类器为未见物品即时合成分类器，解决零样本检索难

文章详情

推荐系统

日报

LLM 蒸馏替代点击信号，重塑工业级召回训练范式：今日两篇来自 Walmart 的工业论文均采用 LLM 作为教师模型，生成结构化标注（相关性或意图），替代传统点击信号来训练双塔召回模型。这解决了点击信号中的位置偏差和长尾稀疏问题，并展示了显著的线上收益，标志着工业界正从“数据驱动”向“模型生成数据驱动”的范式转变。; 图基础模型（GFM）评估趋于理性，PFN 范式或成新方向：学术界对 GFM 的评估揭示了其并非普遍优于传统 GNN。只有基于 Prior-data Fitted Networks

本周推荐系统研究集中在三个方向：大规模图检索的全生命周期协同设计、基于Transformer的序列建模在多平台落地、以及多任务排序架构从DNN向Transformer native的迁移。Meta、Airbnb、Alibaba、Shopee、NetEase Cloud Music等公司各自发布了线上部署工作，提供具体的AB指标。主线1（大规模图系统的端到端设计）： Meta的RankGraph-2（Meta）将图构建、表示学习、在线服务三个阶段耦合优化，在百亿节点图上计算成本降低83%、召回率是GAT+Deep Graph Infomax的3.8倍、线上CTR+0.96%、CVR+2.75%。同方向，HighLevel的ScoreGate（HighLevel）用双分数统计融合控制RAG检索数量，生产环境减少34.8% token、召回率97.77-99.34%。主线2（生成式推荐从理论走向生产）： Airbnb的JourneyFormer（Airbnb）在搜索排序中部署基于Transformer的序列模型，处理长且稀疏的用户行为；阿里巴巴的OneBar（Alibaba）用端到端生成式框架做视频电商查询推荐，GMV提升21.67%。两篇共同指向——生成式推荐需要在实际约束（冷启动、延迟、标签稀疏）下做工程折中，而非单纯追求离线指标。主线3（多任务排序的Transformer-native范式）： Shopee的OneRank（Shopee）消除编码器-预测器分离，在Transformer内部做任务私有通道和梯度分离，线上CTR+1.2%、CVR+0.8%。网易云音乐的PIANO（NetEase Cloud Music）用可学习[CLS] token实现列表级多目标重排，CTR+0.62%、CVR+4.45%。两者都说明：将多目标推理内化到Transformer堆中比外挂MLP更有效。

文章详情

推荐系统

日报

[大模型适配与效率优化]：今日多篇论文聚焦于如何将大模型（LLM/MLLM）高效应用于推荐与检索系统。核心思路包括将传统信号压缩为“软Token”以适配Transformer架构（Token Factory），以及通过磁盘存储+稀疏过滤（Stellar）或语义缓存校准（Closing the Calibration Gap）来降低推理和检索阶段的内存与计算开销。这表明工业界正从“能否用大模型”转向“如何低成本、高效率地用大模型”。; [多模态检索的冷启动与细粒度问题]：多模态检索是今日另一热点，

文章详情

推荐系统

日报

全链路协同设计成为工业界新范式：Meta 的 RankGraph-2 和 Airbnb 的 JourneyFormer 都展示了从数据构建、模型训练到在线服务的端到端协同优化思路。RankGraph-2 更是明确提出图构建、训练、服务三阶段生命周期协同设计，通过各阶段需求相互约束来提升整体效率，这标志着工业界推荐系统正从单点优化走向全链路系统级优化。; 多语言/跨域检索成为热点，工业界与学术界共同发力：今日有多篇论文聚焦多语言或跨域场景。Baidu 的 Querit-Reranker 通过标签无

文章详情

推荐系统

日报

大模型驱动的推荐系统范式升级：今日多篇论文聚焦于将大型语言模型（LLM）深度融入推荐系统，不再局限于特征工程，而是直接利用LLM进行用户行为序列建模、跨域知识迁移和冷启动物品理解。这表明业界正从“LLM辅助推荐”向“LLM原生推荐”演进，核心挑战在于如何平衡模型容量与推理效率。; 多模态与长序列建模的工程化突破：针对短视频、直播等富媒体场景，业界开始探索更高效的多模态特征融合与用户长期行为序列建模方案。例如，通过解耦注意力机制或记忆网络，在可控的计算成本下，将用户数月的交互历史纳入模型，以捕捉动

文章详情

推荐系统

日报

生成式推荐与多任务架构的深度融合：今日多篇论文（OneRank、OneBar、HoloRec）不约而同地将生成式或Transformer-native架构引入推荐核心环节，从精排到召回，试图用统一的生成式框架替代传统的多阶段级联设计，解决目标碎片化和信息瓶颈问题。; 挖掘被忽视的信号源：负行为与合成先验：工业界正积极从“数据”本身寻找增量。一方面，Beyond Positive Signals 论文系统性地将用户隐式负行为（跳过、低参与度）纳入序列建模，以极低成本带来显著AUC提升；另一方面，S

文章详情

推荐系统

日报

检索增强与自适应优化：今日多篇论文聚焦于优化RAG系统的检索环节，核心趋势是从“固定K值”转向“自适应”。无论是ScoreGate通过双分数统计融合动态决定检索数量，还是ADORE通过迭代检索-评估-扩展优化查询，亦或是TASR提出无需训练的停止规则，都旨在以最小的额外成本（零推理调用或轻量规则）提升检索效率与质量，这对工业级RAG系统降低延迟和成本极具价值。; 生成式推荐的时序与语义融合：以ChronoID为代表，生成式推荐正从“时间无关”的语义ID学习，转向显式注入时间信号。这揭示了现有方法

本周推荐系统研究围绕三条技术主线展开：生成式推荐从架构完备走向工业级工程落地，其中编辑性、长序列建模、物品级评分等关键能力被逐一攻克；LLM增强的推荐从离线推理迈向在线实时，谷歌与快手等团队实现了十亿用户规模的实时用户画像与意图推理；召回排序系统的成本与效率优化出现系统性方案，小红书以90%硬件成本节省为代价将聚类ANNS部署至SSD存储，同时CTR模型的残差路径设计开始突破缩放定律瓶颈。主线1（生成式检索工程化）：快手推出的OneRetrieval首次实现了可编辑的生成式检索，在替换倒排索引分支后显著提升订单量与CTR；Yandex的Gryphon引入联合训练的物品级评分组件，替换超过15个候选生成器与粗排阶段，召回量Recall@1000提升3.7%；京东的AdaGRPO通过自适应门控GRPO损失，将HR@10从11.01%提升至12.18%；Meta的Beyond Item IDs提出Global-Aware Compression Transformer，将峰值内存降低一个数量级；阿里的SSRLive通过动态语义ID融入用户-主播交互信号，线上观看时长+3.38%。主线2（LLM推荐实时化）：谷歌的LLM-Based User Personas框架实现了十亿用户规模的实时自然语言用户画像生成，结合知识蒸馏与异步推理在线上A/B测试中显著提升用户价值；快手的AIR通过离线生成原子意图、在线检索组合的方式实现了400倍推理加速，GMV+3.446%；DoorDash的Mind the Gap利用分层RAG从餐厅订单中生成多级分类特征，在零售品类上CTR+2.1%；OPPO的ToolRec为小布助手（1.5亿月活）构建了双层级点击校准机制，CTR显著提升。主线3（召回排序系统效率优化）：小红书的Helmsman在40台SSD服务器上替代了原需35000核与0.35PB DRAM的HNSW集群，硬件成本节省90%；DeRes通过双路径残差架构在工业CTR数据集上AUC+0.32%，且计算-AUC缩放定律显示8层DeRes匹配16层OneTrans（2倍计算节省）；Meta的DUET将用户行为分离为点击与转化两个流，分别用专用Transformer预训练，离线NE降低0.38%；eBay的Representation Curriculum通过分阶段训练缓解曝光依赖信号，冷启动Recall+5.2%。

文章详情

推荐系统

日报

生成式检索从概念走向工业落地：今日两篇高分论文均聚焦于用生成式模型统一或替代传统多阶段召回。快手的 OneRetrieval 首次在电商搜索中实现可编辑的生成式检索，统一多分支召回并显著提升订单量。这表明生成式检索正从学术概念向解决工业级“可编辑性”和“大规模部署”等核心痛点演进。; 向量检索系统架构向成本效率倾斜：小红书的 Helmsman 系统挑战了内存图索引（HNSW）的主导地位，通过构建基于全闪存服务器的聚类ANNS，结合用户态存储栈和GPU加速，将硬件成本降低90%。这揭示了在数据规模

文章详情

1 2 3 4 5 6

...