type
Post
status
Published
date
Jun 20, 2026 07:02
slug
rec-weekly-2026-W25
summary
本周推荐系统研究集中在三个方向:大规模图检索的全生命周期协同设计、基于Transformer的序列建模在多平台落地、以及多任务排序架构从DNN向Transformer native的迁移。Meta、Airbnb、Alibaba、Shopee、NetEase Cloud Music等公司各自发布了线上部署工作,提供具体的AB指标。 主线1(大规模图系统的端到端设计): Meta的RankGraph-2(Meta)将图构建、表示学习、在线服务三个阶段耦合优化,在百亿节点图上计算成本降低83%、召回率是GAT+Deep Graph Infomax的3.8倍、线上CTR+0.96%、CVR+2.75%。同方向,HighLevel的ScoreGate(HighLevel)用双分数统计融合控制RAG检索数量,生产环境减少34.8% token、召回率97.77-99.34%。 主线2(生成式推荐从理论走向生产): Airbnb的JourneyFormer(Airbnb)在搜索排序中部署基于Transformer的序列模型,处理长且稀疏的用户行为;阿里巴巴的OneBar(Alibaba)用端到端生成式框架做视频电商查询推荐,GMV提升21.67%。两篇共同指向——生成式推荐需要在实际约束(冷启动、延迟、标签稀疏)下做工程折中,而非单纯追求离线指标。 主线3(多任务排序的Transformer-native范式): Shopee的OneRank(Shopee)消除编码器-预测器分离,在Transformer内部做任务私有通道和梯度分离,线上CTR+1.2%、CVR+0.8%。网易云音乐的PIANO(NetEase Cloud Music)用可学习[CLS] token实现列表级多目标重排,CTR+0.62%、CVR+4.45%。两者都说明:将多目标推理内化到Transformer堆中比外挂MLP更有效。
tags
推荐系统
周报
论文
category
推荐技术报告
icon
📚
password
priority
1
本周概览
本周推荐系统研究集中在三个方向:大规模图检索的全生命周期协同设计、基于Transformer的序列建模在多平台落地、以及多任务排序架构从DNN向Transformer native的迁移。Meta、Airbnb、Alibaba、Shopee、NetEase Cloud Music等公司各自发布了线上部署工作,提供具体的AB指标。
主线1(大规模图系统的端到端设计): Meta的RankGraph-2(Meta)将图构建、表示学习、在线服务三个阶段耦合优化,在百亿节点图上计算成本降低83%、召回率是GAT+Deep Graph Infomax的3.8倍、线上CTR+0.96%、CVR+2.75%。同方向,HighLevel的ScoreGate(HighLevel)用双分数统计融合控制RAG检索数量,生产环境减少34.8% token、召回率97.77-99.34%。
主线2(生成式推荐从理论走向生产): Airbnb的JourneyFormer(Airbnb)在搜索排序中部署基于Transformer的序列模型,处理长且稀疏的用户行为;阿里巴巴的OneBar(Alibaba)用端到端生成式框架做视频电商查询推荐,GMV提升21.67%。两篇共同指向——生成式推荐需要在实际约束(冷启动、延迟、标签稀疏)下做工程折中,而非单纯追求离线指标。
主线3(多任务排序的Transformer-native范式): Shopee的OneRank(Shopee)消除编码器-预测器分离,在Transformer内部做任务私有通道和梯度分离,线上CTR+1.2%、CVR+0.8%。网易云音乐的PIANO(NetEase Cloud Music)用可学习[CLS] token实现列表级多目标重排,CTR+0.62%、CVR+4.45%。两者都说明:将多目标推理内化到Transformer堆中比外挂MLP更有效。
生成式推荐与序列建模
本周序列建模工作覆盖四个典型场景:Airbnb长用户旅程(JourneyFormer)、网易云音乐音乐搜索重排(PIANO)、电商视频查询推荐(OneBar)、以及纯学术的可解释意图挖掘(SAERec)和时间感知语义ID(ChronoID)。共同趋势是Transformer成为事实架构,但重点正从"模型设计"转向"数据选择与信号融合"。
JourneyFormer(Airbnb)— 部署在Airbnb搜索排序中。核心挑战是用户序列长、探索性强且标签(booking)稀疏。论文详细给出设计决策:事件选择上只保留关键行为(搜索、点击、收藏等),ID嵌入采用哈希降维,模型架构使用多层Transformer但控制了每层头数。最大贡献在训练加速:通过预计算固定长度的上下文、梯度累积、混合精度训练将训练时间从数周降至数天。两个线上表面均取得业务指标显著提升(具体数字未公开)。
PIANO(NetEase Cloud Music)— 针对音乐搜索重排,与JourneyFormer不同在于需要利用历史搜索查询(而非仅行为序列)来对齐当前意图。它提出Query-Driven Interest Refiner(QDIR),对历史查询做cross-attention;以及Information Aggregation Node(IAN),一个可学习的[CLS] token聚合候选列表并预测CTR和CVR。网易云音乐线上AB测试CTR+0.62%、CVR+4.45%。创新在于将查询历史引入了序列建模,而传统序列方法如DSIN只使用行为session。
OneBar(Alibaba)— 生成式查询推荐,直接用Transformer生成查询而非检索。核心设计:协同多模态意图对齐模块(融合视频多模态embedding与用户行为anchor)、端到端架构+提示压缩机制降低在线延迟、渐进偏好学习替代外部奖励模型。线上实验:Query曝光+16.91%、Query点击+18.68%、引导订单+20.36%、GMV+21.67%。相比HiGR的方案,OneBar将生成式推荐延展到了查询推荐这一新场景,且用行为数据直接引导生成策略。
SAERec(学术)— 用稀疏自编码器(SAE)从LLM文本嵌入中解耦细粒度意图,构建可解释意图空间。核心是将文本转为意图候选,然后用多分支注意力机制注入序列建模。在Amazon Beauty、Sports、Toys和Yelp上超越SASRec、BERT4Rec、MIND等基线。思路延续了PFN(Prior-data Fitted Networks)的理念但转向可解释方向。
ChronoID(Meta)— 首次系统探索将显式时间信号注入语义ID。设计空间沿时间编码、时间融合、时间对齐三个维度展开。实验表明:时间感知语义ID在生成式推荐(如OneRec、TIGER)上持续提升,尤其是当交互时间与物品语义有强关联时(如季节性商品)。该工作为生成式推荐引入了时间维度,弥补了TIGER等模型的时间无关缺陷。
SRPFN(学术)— 基于合成先验预训练的序列模型,无需目标域梯度更新即可做推荐。在25.6M合成序列上预训练,推理时用少量目标域支持集适配。在5个数据集上达到最佳或次佳性能,参数量仅约1.5M。思路来自Prior-data Fitted Networks(PFNs),但首次应用于序列推荐。该范式如果延展到工业级别,可大幅降低模型更新成本。
- Takeaway: 序列建模的工业落地方案正在从"模型创新"转向"工程折中与信号融合"——如何选择事件、处理长序列稀疏标签、利用历史查询,比改进注意力机制更关键。生成式推荐(OneBar、ChronoID、SRPFN)正快速填补理论到生产的gap,但部署条件(延迟、冷启动)仍是主要瓶颈。
- 后续观察: Airbnb是否公开JourneyFormer的具体线上lift?SRPFN能否扩展到更大序列长度和更复杂行为(如购买后的退货)?时间感知语义ID(ChronoID)在Meta内部能否获得线上AB收益。
多模态与冷启动检索
本周多模态检索工作集中在两个场景:电商视频冷启动和通用多模态文档检索。四篇论文均涉及CLIP族模型的微调或扩展,但侧重点不同。
VCG(Zalando)— 部署在Zalando电商视频推荐中。采用领域微调的CLIP将用户和视频映射到同一语义空间,实现零样本检索。关键发现:生成式(LLM)embedding在属性预测上强但会发生embedding空间坍缩,导致检索性能下降;而判别式(CLIP)embedding更稳定。线上AB测试显示深度视频完成率提升50%。该工作延续了BiListing(Airbnb)的思路,但针对的是视频而非图文listing,且评估了不同embedding范式的差异。
Stellar(学术)— 解决多向量检索(如ColBERT)的内存问题。核心创新:Lexical Representation-based Filtering(LRF)用MLLM做稀疏编码实现高效过滤,Disk-backed Late Interaction(DLI)将token embedding存盘并按需加载。在4个标准基准+新构建的大规模数据集上,内存和延迟降低1-2个数量级且不损检索效果。与ColBERT相比,Stellar主要胜在工程化扩展性。
ELVA(学术)— 提出grain blindness概念,指多模态检索中对比学习将所有负样本同等对待、忽略不同相似度粒度。用Rule-based Reinforcement Learning(RLVR)替代奖励模型,将排序约束引入训练。在MRBench(新提出的多粒度查询基准)上比CLIP、BLIP-2等提升13.1%。该工作与ESANS的负样本采样理念相通但采用强化学习路径。
OneBar(本节已有分析,按主题归类已包含于“生成式推荐”,但聚类将其放入多模态,我们尊重但注意不重复。实际上OneBar被聚类到多模态冷启动检索?没错主题是"多模态与冷启动检索",且OneBar涉及多模态视频理解。我们已在生成式推荐中分析,但在本章节应重新从多模态角度分析。注意不要简单复制。可简述其多模态意图对齐模块。)
OneBar的多模态视角:其协同多模态意图对齐模块融合视频帧的视觉embedding与用户行为协作anchor,这一点与VCG类似但将多模态信号用于生成(查询推荐)而非检索。两个系统都采用CLIP类模型做域自适应,但OneBar因为要生成文本查询,还结合了行为信号做偏好学习。
- Takeaway: 多模态检索正从单任务走向多模态融合+冷启动专属设计。判别式embedding(CLIP)在检索上仍优于生成式embedding(LLM),但生成式在属性理解上有价值。电商视频冷启动(VCG、OneBar)成为热门场景,因为它们天然缺乏交互历史。
- 后续观察: Stellar能否被部署到RAG流水线中替代ColBERT?ELVA的RLVR训练在更大规模(千万级)数据集上是否稳定?电商视频场景的冷启动收益能否推广到其他领域(如直播电商)?
大规模系统与效率优化
系统效率方面,本周有四篇来自工业或接近工业的工作,它们从不同角度解决扩展性问题:图检索的全生命周期协同(RankGraph-2)、soft token压缩(Token Factory)、RAG语义缓存的校准指标(Closing the Calibration Gap)、多语言重排序的标签无关适配(Querit-Reranker)、以及自适应检索数量(ScoreGate)。值得注意的是,Meta的RankGraph-2和HighLevel的ScoreGate均已部署并给出线上指标。
RankGraph-2(Meta)— 部署在Meta的相似性检索(U2U2I、U2I2I)中。核心洞察:图构建、训练、服务三阶段互相约束,必须先解决相邻阶段的需求。具体做法:(1) 流行度偏差校正的子采样将百亿边缩至百亿;(2) 个性化PageRank预计算多跳邻域;(3) 残差量化聚类索引(co-learned with training)替代在线KNN,服务计算成本降83%。召回率领先GAT+Deep Graph Infomax 3.8倍、PyTorch-BigGraph 2.1倍。线上CTR+0.96%、CVR+2.75%,已赋能20+检索上线。相比之前MVCrec的图对比学习,RankGraph-2强调系统级协同而非模型创新。
Token Factory(Google)— 解决大型推荐模型中输入特征prompt过长的问题。将传统信号(密集/稀疏特征)转化为"soft token",直接在Transformer的embedding空间注入而非文本化。目标是替代TIGER等模型的离散化方案,在production-scale环境中验证了有效性。虽然未报告线上AB指标,但其思路(用软token替代文本化)在LRM(Large Recommendation Model)推理中可显著降低解码长度。
ScoreGate(HighLevel)— 在RAG场景中放弃固定top-k,用bi-encoder相似度与cross-encoder重排序分的统计融合自适应决定检索数量。核心贡献:不需要额外推理调用,仅利用已有分数。在MS MARCO上MRR@10=0.401且减少35% chunks;内部生产环境(300查询,Fleiss kappa=0.87)零假阳性、34.8%更少token、仅31ms延迟。相比Unified Supervision的固定检索,ScoreGate实现了动态阈值校准。
Querit-Reranker(Baidu)— 多语言重排序器族(0.4B/4B参数),核心是标签无关的分布适应管道:合成查询挖掘+教师软标签+球形线性插值模型合并。在BEIR上nDCG@10从54.11提至59.28(+9.6%),在MIRACL上从59.87提至67.70(+13.1%)。方法延续了蒸馏+合成数据的思路,但加入了模型合并减少部署开销。工业价值:不需要标注即可迁移到新领域。
Closing the Calibration Gap(Redis)— 语义缓存评价指标的批判性分析。提出P-CHR AUC和Calibration Retention Rate(CRR),证明PR-AUC在部署时会导致系统性错误选择。核心结论:模型选择是校准问题而非排序问题。虽然不及其他工作广泛,但对RAG系统运维有直接指导意义。
- Takeaway: 大规模系统的瓶颈已从模型设计转移到系统协同与工程折中。RankGraph-2的生命周期协同、ScoreGate的零额外推理控制、Token Factory的软token压缩,都指向"让已有组件更高效地配合"而非追求单点改进。校准和评价指标(Closing the Calibration Gap)正受到工业界重视。
- 后续观察: RankGraph-2的co-learned聚类索引能否惠及其他图检索方法?ScoreGate的自适应策略能否推广到多模态检索场景?Token Factory在完全线上部署中的延迟收益具体是多少?
精排多任务与广告竞价
本周精排多任务工作同时来自Shopee(OneRank)和网易云音乐(PIANO,已在生成式章节分析),广告竞价方面有美团的离线竞价工作(DRIVE)。
OneRank(Shopee)— Transformer-native多任务排序框架,消除传统DNN中的编码器-预测器分离。forward方向:自底向上建立任务私有通道(通过任务条件信息选择、候选感知上下文化、受控跨任务交互)。backward方向:跨任务梯度分离,防止负迁移。动态匹配评分替代静态MLP打分。在Shopee生产数据集上CTR+1.2%、CVR+0.8%,并在Criteo和Avazu上也有提升。相比MMOE和PLE等架构,OneRank将多任务逻辑内嵌到Transformer每一层而非仅在顶层,本质上是将多任务推理作为架构原生特性。
DRIVE(美团)— 离线自动竞价框架,基于Decision Transformer。核心设计三部分:分布建模(输出竞标价分布而非确定值)、检索增强候选生成(从历史高质量决策中检索相似示例)、价值评估(用价值函数选择最优点)。在AuctionNet上持续优于DT、CQL等。与PRO-Bid类似但不同之处在于引入了检索增强,缓解了长尾流量下的分布漂移。
- Takeaway: 多任务排序正在从"DNN+MoE"转向"Transformer internalized"。OneRank的私有通道+梯度分离思路值得借鉴。广告竞价领域,离线强化学习+检索增强的混合方案(DRIVE)可能是趋势,与RAG在NLP的成功有异曲同工。
- 后续观察: OneRank在更多任务(如时长、评论数)上的扩展性如何?DRIVE能否上线AB测试并验证对抗分布漂移的能力?
值得关注的方向
- 序列建模的信号选择革命。 本周多篇工作不约而同地挑战"什么是序列"的基本预设:JourneyFormer详细讨论哪些事件入序列、哪些排除;Beyond Positive Signals(2606.15252)将负行为(跳过、低参与)与正行为混合编码,相对AUC提升1.9%-9.6%。这一方向说明:当模型架构趋同,数据侧的创新(信号选择、极性融合)能提供低成本的边际收益。后续应关注哪些负信号最具区分力,以及如何在生产流水线中低成本采集。
- 生成式推荐的实用化条件。 OneBar(Alibaba)和ChronoID(Meta)证明生成式推荐可以在真实电商和社交平台上产生线上收益。关键条件:(1) 高效的推理加速(OneBar的提示压缩、xGR的分阶段计算);(2) 对时间维度的显式建模(ChronoID);(3) 与多模态信号的融合(OneBar)。下一步观察:生成式推荐能否挑战传统检索-排序流水线中召回阶段的主导地位?需要更多跨平台证据。
- 系统效率不再是单点优化,而是生命周期协同。 RankGraph-2(Meta)的三阶段协同和ScoreGate(HighLevel)的零额外推理控制,都显示效率优化的思路正在从"压模型大小/加速算子"转向"重新设计系统各模块的交互方式"。后续指标:有多少系统能复制类似的全栈协同并获得可比收益?RankGraph-2的co-learned聚类索引是否成为图检索标配?
本周论文速览
生成式推荐与序列建模
JourneyFormer(Airbnb)— 部署在Airbnb搜索排序的Transformer序列模型,聚焦长序列稀疏标签,在2个线上表面显著提升业务指标。
SAERec — 利用稀疏自编码器从LLM文本嵌入构建细粒度可解释意图,在4个数据集上超越SASRec、BERT4Rec等。
Beyond Positive Signals — 提出混合极性行为序列(正+负行为交织),5种架构上相对AUC提升1.9%-9.6%。
HoloRec — 通过分层语义编码矩阵和内生链式思维实现生成式推荐,在稀疏场景提升显著。
SRPFN — 基于合成先验预训练的序列推荐模型,无需目标域梯度更新,5个数据集上最佳或次佳。
ChronoID — 首次系统将显式时间信号注入语义ID,在生成式推荐上持续提升。
多模态与冷启动检索
Stellar — 多向量检索的内存优化框架(LRF+DLI),内存和延迟降低1-2个数量级,不损检索效果。
ELVA — 将规则基强化学习(RLVR)用于多模态检索缓解粒度盲视,MRBench上提升13.1%。
VCG(Zalando)— CLIP域自适应实现电商视频零样本冷启动检索,线上深度视频完成率+50%。
OneBar(Alibaba)— 端到端生成式查询推荐,多模态意图对齐+渐进偏好学习,线上GMV+21.67%。
大规模系统与效率优化
RankGraph-2(Meta)— 百亿节点图检索的三阶段协同设计,服务成本降83%,线上CTR+0.96%、CVR+2.75%。
Token Factory — 将传统信号转为软token避免LLM prompt爆炸,在production-scale推荐环境中验证。
Closing the Calibration Gap — 提出P-CHR AUC和CRR,揭示语义缓存模型选择是校准问题而非排序问题。
Querit-Reranker — 多语言重排序器(0.4B/4B),标签无关分布适应,BEIR nDCG@10 +9.6%。
ScoreGate(HighLevel)— 双分数统计融合控制RAG检索数量,生产环境减少34.8% token,召回率97.77-99.34%。
精排多任务与广告竞价
OneRank(Shopee)— Transformer-native多任务排序,任务私有通道+梯度分离,线上CTR+1.2%、CVR+0.8%。
PIANO(NetEase Cloud Music)— 历史查询对齐+列表级可学习[CLS] token进行音乐搜索重排,线上CTR+0.62%、CVR+4.45%。
DRIVE — 分布建模+检索增强的价值评估自动竞价,在AuctionNet上泛化优于DT、CQL等。