推荐周报 2026-W25 | Recsys Frontier

type

Post

status

Published

date

Jun 20, 2026 07:02

slug

rec-weekly-2026-W25

summary

本周推荐系统研究集中在三个方向：大规模图检索的全生命周期协同设计、基于Transformer的序列建模在多平台落地、以及多任务排序架构从DNN向Transformer native的迁移。Meta、Airbnb、Alibaba、Shopee、NetEase Cloud Music等公司各自发布了线上部署工作，提供具体的AB指标。主线1（大规模图系统的端到端设计）： Meta的RankGraph-2（Meta）将图构建、表示学习、在线服务三个阶段耦合优化，在百亿节点图上计算成本降低83%、召回率是GAT+Deep Graph Infomax的3.8倍、线上CTR+0.96%、CVR+2.75%。同方向，HighLevel的ScoreGate（HighLevel）用双分数统计融合控制RAG检索数量，生产环境减少34.8% token、召回率97.77-99.34%。主线2（生成式推荐从理论走向生产）： Airbnb的JourneyFormer（Airbnb）在搜索排序中部署基于Transformer的序列模型，处理长且稀疏的用户行为；阿里巴巴的OneBar（Alibaba）用端到端生成式框架做视频电商查询推荐，GMV提升21.67%。两篇共同指向——生成式推荐需要在实际约束（冷启动、延迟、标签稀疏）下做工程折中，而非单纯追求离线指标。主线3（多任务排序的Transformer-native范式）： Shopee的OneRank（Shopee）消除编码器-预测器分离，在Transformer内部做任务私有通道和梯度分离，线上CTR+1.2%、CVR+0.8%。网易云音乐的PIANO（NetEase Cloud Music）用可学习[CLS] token实现列表级多目标重排，CTR+0.62%、CVR+4.45%。两者都说明：将多目标推理内化到Transformer堆中比外挂MLP更有效。

本周概览

主线1（大规模图系统的端到端设计）： Meta的RankGraph-2（Meta）将图构建、表示学习、在线服务三个阶段耦合优化，在百亿节点图上计算成本降低83%、召回率是GAT+Deep Graph Infomax的3.8倍、线上CTR+0.96%、CVR+2.75%。同方向，HighLevel的ScoreGate（HighLevel）用双分数统计融合控制RAG检索数量，生产环境减少34.8% token、召回率97.77-99.34%。

主线2（生成式推荐从理论走向生产）： Airbnb的JourneyFormer（Airbnb）在搜索排序中部署基于Transformer的序列模型，处理长且稀疏的用户行为；阿里巴巴的OneBar（Alibaba）用端到端生成式框架做视频电商查询推荐，GMV提升21.67%。两篇共同指向——生成式推荐需要在实际约束（冷启动、延迟、标签稀疏）下做工程折中，而非单纯追求离线指标。

主线3（多任务排序的Transformer-native范式）： Shopee的OneRank（Shopee）消除编码器-预测器分离，在Transformer内部做任务私有通道和梯度分离，线上CTR+1.2%、CVR+0.8%。网易云音乐的PIANO（NetEase Cloud Music）用可学习[CLS] token实现列表级多目标重排，CTR+0.62%、CVR+4.45%。两者都说明：将多目标推理内化到Transformer堆中比外挂MLP更有效。

生成式推荐与序列建模

本周序列建模工作覆盖四个典型场景：Airbnb长用户旅程（JourneyFormer）、网易云音乐音乐搜索重排（PIANO）、电商视频查询推荐（OneBar）、以及纯学术的可解释意图挖掘（SAERec）和时间感知语义ID（ChronoID）。共同趋势是Transformer成为事实架构，但重点正从"模型设计"转向"数据选择与信号融合"。

JourneyFormer（Airbnb）— 部署在Airbnb搜索排序中。核心挑战是用户序列长、探索性强且标签（booking）稀疏。论文详细给出设计决策：事件选择上只保留关键行为（搜索、点击、收藏等），ID嵌入采用哈希降维，模型架构使用多层Transformer但控制了每层头数。最大贡献在训练加速：通过预计算固定长度的上下文、梯度累积、混合精度训练将训练时间从数周降至数天。两个线上表面均取得业务指标显著提升（具体数字未公开）。

PIANO（NetEase Cloud Music）— 针对音乐搜索重排，与JourneyFormer不同在于需要利用历史搜索查询（而非仅行为序列）来对齐当前意图。它提出Query-Driven Interest Refiner（QDIR），对历史查询做cross-attention；以及Information Aggregation Node（IAN），一个可学习的[CLS] token聚合候选列表并预测CTR和CVR。网易云音乐线上AB测试CTR+0.62%、CVR+4.45%。创新在于将查询历史引入了序列建模，而传统序列方法如DSIN只使用行为session。

OneBar（Alibaba）— 生成式查询推荐，直接用Transformer生成查询而非检索。核心设计：协同多模态意图对齐模块（融合视频多模态embedding与用户行为anchor）、端到端架构+提示压缩机制降低在线延迟、渐进偏好学习替代外部奖励模型。线上实验：Query曝光+16.91%、Query点击+18.68%、引导订单+20.36%、GMV+21.67%。相比HiGR的方案，OneBar将生成式推荐延展到了查询推荐这一新场景，且用行为数据直接引导生成策略。

SAERec（学术）— 用稀疏自编码器（SAE）从LLM文本嵌入中解耦细粒度意图，构建可解释意图空间。核心是将文本转为意图候选，然后用多分支注意力机制注入序列建模。在Amazon Beauty、Sports、Toys和Yelp上超越SASRec、BERT4Rec、MIND等基线。思路延续了PFN（Prior-data Fitted Networks）的理念但转向可解释方向。

ChronoID（Meta）— 首次系统探索将显式时间信号注入语义ID。设计空间沿时间编码、时间融合、时间对齐三个维度展开。实验表明：时间感知语义ID在生成式推荐（如OneRec、TIGER）上持续提升，尤其是当交互时间与物品语义有强关联时（如季节性商品）。该工作为生成式推荐引入了时间维度，弥补了TIGER等模型的时间无关缺陷。

SRPFN（学术）— 基于合成先验预训练的序列模型，无需目标域梯度更新即可做推荐。在25.6M合成序列上预训练，推理时用少量目标域支持集适配。在5个数据集上达到最佳或次佳性能，参数量仅约1.5M。思路来自Prior-data Fitted Networks（PFNs），但首次应用于序列推荐。该范式如果延展到工业级别，可大幅降低模型更新成本。

Takeaway： 序列建模的工业落地方案正在从"模型创新"转向"工程折中与信号融合"——如何选择事件、处理长序列稀疏标签、利用历史查询，比改进注意力机制更关键。生成式推荐（OneBar、ChronoID、SRPFN）正快速填补理论到生产的gap，但部署条件（延迟、冷启动）仍是主要瓶颈。

后续观察： Airbnb是否公开JourneyFormer的具体线上lift？SRPFN能否扩展到更大序列长度和更复杂行为（如购买后的退货）？时间感知语义ID（ChronoID）在Meta内部能否获得线上AB收益。

多模态与冷启动检索

本周多模态检索工作集中在两个场景：电商视频冷启动和通用多模态文档检索。四篇论文均涉及CLIP族模型的微调或扩展，但侧重点不同。

VCG（Zalando）— 部署在Zalando电商视频推荐中。采用领域微调的CLIP将用户和视频映射到同一语义空间，实现零样本检索。关键发现：生成式（LLM）embedding在属性预测上强但会发生embedding空间坍缩，导致检索性能下降；而判别式（CLIP）embedding更稳定。线上AB测试显示深度视频完成率提升50%。该工作延续了BiListing（Airbnb）的思路，但针对的是视频而非图文listing，且评估了不同embedding范式的差异。

Stellar（学术）— 解决多向量检索（如ColBERT）的内存问题。核心创新：Lexical Representation-based Filtering（LRF）用MLLM做稀疏编码实现高效过滤，Disk-backed Late Interaction（DLI）将token embedding存盘并按需加载。在4个标准基准+新构建的大规模数据集上，内存和延迟降低1-2个数量级且不损检索效果。与ColBERT相比，Stellar主要胜在工程化扩展性。

ELVA（学术）— 提出grain blindness概念，指多模态检索中对比学习将所有负样本同等对待、忽略不同相似度粒度。用Rule-based Reinforcement Learning（RLVR）替代奖励模型，将排序约束引入训练。在MRBench（新提出的多粒度查询基准）上比CLIP、BLIP-2等提升13.1%。该工作与ESANS的负样本采样理念相通但采用强化学习路径。

OneBar（本节已有分析，按主题归类已包含于“生成式推荐”，但聚类将其放入多模态，我们尊重但注意不重复。实际上OneBar被聚类到多模态冷启动检索？没错主题是"多模态与冷启动检索"，且OneBar涉及多模态视频理解。我们已在生成式推荐中分析，但在本章节应重新从多模态角度分析。注意不要简单复制。可简述其多模态意图对齐模块。）

OneBar的多模态视角：其协同多模态意图对齐模块融合视频帧的视觉embedding与用户行为协作anchor，这一点与VCG类似但将多模态信号用于生成（查询推荐）而非检索。两个系统都采用CLIP类模型做域自适应，但OneBar因为要生成文本查询，还结合了行为信号做偏好学习。

Takeaway： 多模态检索正从单任务走向多模态融合+冷启动专属设计。判别式embedding（CLIP）在检索上仍优于生成式embedding（LLM），但生成式在属性理解上有价值。电商视频冷启动（VCG、OneBar）成为热门场景，因为它们天然缺乏交互历史。

后续观察： Stellar能否被部署到RAG流水线中替代ColBERT？ELVA的RLVR训练在更大规模（千万级）数据集上是否稳定？电商视频场景的冷启动收益能否推广到其他领域（如直播电商）？

大规模系统与效率优化

系统效率方面，本周有四篇来自工业或接近工业的工作，它们从不同角度解决扩展性问题：图检索的全生命周期协同（RankGraph-2）、soft token压缩（Token Factory）、RAG语义缓存的校准指标（Closing the Calibration Gap）、多语言重排序的标签无关适配（Querit-Reranker）、以及自适应检索数量（ScoreGate）。值得注意的是，Meta的RankGraph-2和HighLevel的ScoreGate均已部署并给出线上指标。

RankGraph-2（Meta）— 部署在Meta的相似性检索（U2U2I、U2I2I）中。核心洞察：图构建、训练、服务三阶段互相约束，必须先解决相邻阶段的需求。具体做法：(1) 流行度偏差校正的子采样将百亿边缩至百亿；(2) 个性化PageRank预计算多跳邻域；(3) 残差量化聚类索引（co-learned with training）替代在线KNN，服务计算成本降83%。召回率领先GAT+Deep Graph Infomax 3.8倍、PyTorch-BigGraph 2.1倍。线上CTR+0.96%、CVR+2.75%，已赋能20+检索上线。相比之前MVCrec的图对比学习，RankGraph-2强调系统级协同而非模型创新。

Token Factory（Google）— 解决大型推荐模型中输入特征prompt过长的问题。将传统信号（密集/稀疏特征）转化为"soft token"，直接在Transformer的embedding空间注入而非文本化。目标是替代TIGER等模型的离散化方案，在production-scale环境中验证了有效性。虽然未报告线上AB指标，但其思路（用软token替代文本化）在LRM（Large Recommendation Model）推理中可显著降低解码长度。

ScoreGate（HighLevel）— 在RAG场景中放弃固定top-k，用bi-encoder相似度与cross-encoder重排序分的统计融合自适应决定检索数量。核心贡献：不需要额外推理调用，仅利用已有分数。在MS MARCO上MRR@10=0.401且减少35% chunks；内部生产环境（300查询，Fleiss kappa=0.87）零假阳性、34.8%更少token、仅31ms延迟。相比Unified Supervision的固定检索，ScoreGate实现了动态阈值校准。

Querit-Reranker（Baidu）— 多语言重排序器族（0.4B/4B参数），核心是标签无关的分布适应管道：合成查询挖掘+教师软标签+球形线性插值模型合并。在BEIR上nDCG@10从54.11提至59.28（+9.6%），在MIRACL上从59.87提至67.70（+13.1%）。方法延续了蒸馏+合成数据的思路，但加入了模型合并减少部署开销。工业价值：不需要标注即可迁移到新领域。

Closing the Calibration Gap（Redis）— 语义缓存评价指标的批判性分析。提出P-CHR AUC和Calibration Retention Rate（CRR），证明PR-AUC在部署时会导致系统性错误选择。核心结论：模型选择是校准问题而非排序问题。虽然不及其他工作广泛，但对RAG系统运维有直接指导意义。

Takeaway： 大规模系统的瓶颈已从模型设计转移到系统协同与工程折中。RankGraph-2的生命周期协同、ScoreGate的零额外推理控制、Token Factory的软token压缩，都指向"让已有组件更高效地配合"而非追求单点改进。校准和评价指标（Closing the Calibration Gap）正受到工业界重视。

后续观察： RankGraph-2的co-learned聚类索引能否惠及其他图检索方法？ScoreGate的自适应策略能否推广到多模态检索场景？Token Factory在完全线上部署中的延迟收益具体是多少？

精排多任务与广告竞价

本周精排多任务工作同时来自Shopee（OneRank）和网易云音乐（PIANO，已在生成式章节分析），广告竞价方面有美团的离线竞价工作（DRIVE）。

OneRank（Shopee）— Transformer-native多任务排序框架，消除传统DNN中的编码器-预测器分离。forward方向：自底向上建立任务私有通道（通过任务条件信息选择、候选感知上下文化、受控跨任务交互）。backward方向：跨任务梯度分离，防止负迁移。动态匹配评分替代静态MLP打分。在Shopee生产数据集上CTR+1.2%、CVR+0.8%，并在Criteo和Avazu上也有提升。相比MMOE和PLE等架构，OneRank将多任务逻辑内嵌到Transformer每一层而非仅在顶层，本质上是将多任务推理作为架构原生特性。

DRIVE（美团）— 离线自动竞价框架，基于Decision Transformer。核心设计三部分：分布建模（输出竞标价分布而非确定值）、检索增强候选生成（从历史高质量决策中检索相似示例）、价值评估（用价值函数选择最优点）。在AuctionNet上持续优于DT、CQL等。与PRO-Bid类似但不同之处在于引入了检索增强，缓解了长尾流量下的分布漂移。

Takeaway： 多任务排序正在从"DNN+MoE"转向"Transformer internalized"。OneRank的私有通道+梯度分离思路值得借鉴。广告竞价领域，离线强化学习+检索增强的混合方案（DRIVE）可能是趋势，与RAG在NLP的成功有异曲同工。

后续观察： OneRank在更多任务（如时长、评论数）上的扩展性如何？DRIVE能否上线AB测试并验证对抗分布漂移的能力？

值得关注的方向

序列建模的信号选择革命。 本周多篇工作不约而同地挑战"什么是序列"的基本预设：JourneyFormer详细讨论哪些事件入序列、哪些排除；Beyond Positive Signals（2606.15252）将负行为（跳过、低参与）与正行为混合编码，相对AUC提升1.9%-9.6%。这一方向说明：当模型架构趋同，数据侧的创新（信号选择、极性融合）能提供低成本的边际收益。后续应关注哪些负信号最具区分力，以及如何在生产流水线中低成本采集。

生成式推荐的实用化条件。 OneBar（Alibaba）和ChronoID（Meta）证明生成式推荐可以在真实电商和社交平台上产生线上收益。关键条件：(1) 高效的推理加速（OneBar的提示压缩、xGR的分阶段计算）；(2) 对时间维度的显式建模（ChronoID）；(3) 与多模态信号的融合（OneBar)。下一步观察：生成式推荐能否挑战传统检索-排序流水线中召回阶段的主导地位？需要更多跨平台证据。

系统效率不再是单点优化，而是生命周期协同。 RankGraph-2（Meta）的三阶段协同和ScoreGate（HighLevel）的零额外推理控制，都显示效率优化的思路正在从"压模型大小/加速算子"转向"重新设计系统各模块的交互方式"。后续指标：有多少系统能复制类似的全栈协同并获得可比收益？RankGraph-2的co-learned聚类索引是否成为图检索标配？

本周论文速览

生成式推荐与序列建模

JourneyFormer（Airbnb）— 部署在Airbnb搜索排序的Transformer序列模型，聚焦长序列稀疏标签，在2个线上表面显著提升业务指标。

SAERec — 利用稀疏自编码器从LLM文本嵌入构建细粒度可解释意图，在4个数据集上超越SASRec、BERT4Rec等。

Beyond Positive Signals — 提出混合极性行为序列（正+负行为交织），5种架构上相对AUC提升1.9%-9.6%。

HoloRec — 通过分层语义编码矩阵和内生链式思维实现生成式推荐，在稀疏场景提升显著。

SRPFN — 基于合成先验预训练的序列推荐模型，无需目标域梯度更新，5个数据集上最佳或次佳。

ChronoID — 首次系统将显式时间信号注入语义ID，在生成式推荐上持续提升。

多模态与冷启动检索

Stellar — 多向量检索的内存优化框架（LRF+DLI），内存和延迟降低1-2个数量级，不损检索效果。

ELVA — 将规则基强化学习（RLVR）用于多模态检索缓解粒度盲视，MRBench上提升13.1%。

VCG（Zalando）— CLIP域自适应实现电商视频零样本冷启动检索，线上深度视频完成率+50%。

OneBar（Alibaba）— 端到端生成式查询推荐，多模态意图对齐+渐进偏好学习，线上GMV+21.67%。

大规模系统与效率优化

RankGraph-2（Meta）— 百亿节点图检索的三阶段协同设计，服务成本降83%，线上CTR+0.96%、CVR+2.75%。

Token Factory — 将传统信号转为软token避免LLM prompt爆炸，在production-scale推荐环境中验证。

Closing the Calibration Gap — 提出P-CHR AUC和CRR，揭示语义缓存模型选择是校准问题而非排序问题。

Querit-Reranker — 多语言重排序器（0.4B/4B），标签无关分布适应，BEIR nDCG@10 +9.6%。

ScoreGate（HighLevel）— 双分数统计融合控制RAG检索数量，生产环境减少34.8% token，召回率97.77-99.34%。

精排多任务与广告竞价

OneRank（Shopee）— Transformer-native多任务排序，任务私有通道+梯度分离，线上CTR+1.2%、CVR+0.8%。

PIANO（NetEase Cloud Music）— 历史查询对齐+列表级可学习[CLS] token进行音乐搜索重排，线上CTR+0.62%、CVR+4.45%。

DRIVE — 分布建模+检索增强的价值评估自动竞价，在AuctionNet上泛化优于DT、CQL等。