type
Post
status
Published
date
May 27, 2026 09:33
slug
daily-report-2026-05-27
summary
生成式推荐与检索增强的工业落地:今日多篇论文(QGS、DeGRe、Memento)将生成式序列模型或RAG范式应用于搜索排序、重排和长历史建模。核心趋势是从“全量序列建模”转向“条件生成”或“检索增强”,通过显式引入查询条件(QGS)、离线探索在线蒸馏(DeGRe)或MMR多样性检索(Memento),在保持生成式模型优势的同时,解决查询切换噪声、序列探索效率及长历史注意力稀释等工业级痛点,且均有线上效果验证。; 多模态与终身兴趣建模的统一框架:SIREN 提出了统一多粒度语义交互框架,通过软/
tags
推荐系统
日报
category
推荐技术报告
icon
📚
password
priority
1
Section 1: 📊 Trend Analysis
- 🔥 生成式推荐与检索增强的工业落地:今日多篇论文(QGS、DeGRe、Memento)将生成式序列模型或RAG范式应用于搜索排序、重排和长历史建模。核心趋势是从“全量序列建模”转向“条件生成”或“检索增强”,通过显式引入查询条件(QGS)、离线探索在线蒸馏(DeGRe)或MMR多样性检索(Memento),在保持生成式模型优势的同时,解决查询切换噪声、序列探索效率及长历史注意力稀释等工业级痛点,且均有线上效果验证。
- 💡 多模态与终身兴趣建模的统一框架:SIREN 提出了统一多粒度语义交互框架,通过软/硬检索策略(SemID)将多模态特征与协同ID特征在GSU+ESU两阶段架构中深度融合,解决了多模态与协同空间的对齐问题。这标志着工业界对多模态终身兴趣建模的探索,正从“后期融合”的粗粒度方案,转向“统一交互”的细粒度范式,并在腾讯广告全流量部署中验证了GMV提升。
Section 2: 📋 今日速览
- Alibaba 提出UTTSI,首次将test-time compute scaling引入CTR预测,通过不确定性触发选择性特征路径探索,平均推理开销2.8x但最坏延迟不变。线上A/B测试CTR相对提升5.3%。↗
- 浙大 & Alibaba 提出DeGRe生成式重排框架,用Lookahead Evaluator离线探索最优序列,再蒸馏为轻量Online Generator,实现单步贪心解码。在淘宝闪购上线,显著提升推荐效果。↗
- Tencent & 厦门大学 提出SIREN统一多粒度语义交互框架,通过多模态软检索和SemID硬检索实现终身兴趣建模,覆盖召回到精排全链路。在微信广告平台全流量部署,朋友圈GMV+2.28%,公众号+3.87%,视频号+1.61%。↗
- Alibaba & USTC 提出QGS,用query-conditioned生成式搜索解决查询切换噪声,并引入Linear HSTU将复杂度降至O(L)。在夸克搜索排序模块上线,CTR+0.62%,点击搜索比+0.38%,浏览时长+3.55%。↗
- Meta 提出Memento个性化RAG框架,将用户历史视为文档库,用MMR检索相关交互,支持365+天历史。通过时序分块、INT8量化等优化实现5-10x资源效率,Facebook Feed和Reels上CTR提升1%,CVR提升1.2%。↗
- Tencent 提出LENS模块,在粗粒度查询架构中恢复目标特定控制,通过TCQG和TCPB增强CTR预测。在三种骨干网络和四个数据集上均取得正向收益。↗
- Monash University等 提出Meta-Modal Agent (MMA),用LLM agent通过顺序证据路由解决多模态缺失下的重排问题。在仅有一种模态可用时,NDCG@10提升4.0%。↗
- University of Otago等 揭示Semantic-ID生成式推荐中SID碰撞导致评估偏差,碰撞率高达30.5%,Hit@10被高估最多103.36%。提出碰撞感知的item级指标和修正方法。↗
- Alibaba 提出RAG-Match,通过知识增强预训练、层次推理对齐和偏好校准三阶段框架,提升搜索相关性判断。在真实搜索基准上超越强LLM基线。↗
- 未知机构 提出HeteGenCTR,通过自平衡梯度分配解决CTR特征生成中难度不平衡问题,冷启动和长尾用户收益显著。线上A/B测试验证有效。↗
- 新加坡国立大学等 研究多臂老虎机中自由探索预算对遗憾最小化的影响,提出UFE-KLUCB-H算法,理论证明可降低遗憾。仿真实验验证了算法有效性。↗
- 未知机构 提出CF-RL-TOPSIS可解释融合模型,用于技能感知人才推荐。在JobHop数据集上NDCG@5达0.3040,显著优于GRU4Rec和SASRec。↗
- 马德里理工大学 提出RankAid重排序方法,在心理健康场景中优先安全内容,阻止有害推荐。在MovieLens 1M数据集上模拟验证,安全干预对NDCG影响可控。↗
- 天津大学等 提出GCIB框架,通过图信息瓶颈去噪辅助行为,结合跨行为对比学习增强目标行为表示。在多行为推荐任务上超越SOTA。↗
- Korea University等 提出SemBridge,利用多语言密集嵌入作为桥梁,为稀疏编码器初始化跨语言语义对齐。在五种语言和四种架构上提升零样本和微调后的检索性能。↗
- Stanford University 研究随机上下文线性bandit中的主动上下文采样,提出算法将样本复杂度降低最多√d倍。在warfarin剂量预测和笑话推荐任务上验证。↗
- KAIST 揭示图协同过滤中对比学习(SSM损失)的局限性,提出NT-SSM损失实现类型感知的邻居对权重更新。在多个数据集和GCF模型上一致提升。↗
Section 3: 📰 Daily Digest
1. Selective Test-Time Compute Scaling for Click-Through Rate Prediction via Uncertainty-Triggered Feature Path Exploration
🔗 原文: https://arxiv.org/abs/2605.24989
🏷️ 来源: 🏭 工业界 | Alibaba Group
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 首个将test-time compute scaling引入CTR预测,线上提升5.3%。
📝 摘要: 本文首次将test-time compute scaling引入工业CTR预测,解决训练数据稀疏导致的不确定性预测问题。核心创新是UTTSI框架,它通过双信号估计器(模型logit置信度+数据级频率先验)区分认知不确定性和偶然不确定性,对高不确定性样本触发随机特征路径探索并通过一致性加权集成聚合预测,而置信样本直接跳过探索。该方法无需重新训练,平均推理开销约2.8x但最坏延迟不变。在四个数据集和三种骨干网络上一致超越所有训练阶段基线,七天的线上A/B测试显示CTR相对提升5.3%(p<0.01),为CTR预测提供了一种实用的推理阶段补充方案。
2. DeGRe: Dense-supervised Generative Reranking for Recommendation
🔗 原文: https://arxiv.org/abs/2605.25749
🏷️ 来源: 🤝 产学合作 | Zhejiang University, Alibaba
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 密集监督生成式重排,离线探索在线高效,淘宝部署验证。
📝 摘要: 本文提出DeGRe生成式重排框架,解决现有方法中启发式标签偏差和信用分配问题。核心是离线-在线解耦设计:离线阶段,Lookahead Evaluator基于累积回归和beam search主动挖掘未曝光空间中的高价值前瞻序列;训练时,将评估器的逐步价值估计转化为密集监督信号,蒸馏到轻量Online Generator中。这使得在线推理时仅需单步贪心解码即可逼近全局最优。在公开基准和工业数据集上超越基线,并已在淘宝闪购成功部署,显著提升线上推荐效果。
3. SIREN: Unified Multi-Granularity Semantic Interaction for Multi-Modal Lifelong User Interest Modeling
🔗 原文: https://arxiv.org/abs/2605.25726
🏷️ 来源: 🤝 产学合作 | Tencent, Xiamen University
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 统一多粒度语义交互,多模态终身兴趣建模新范式
📝 摘要: 本文提出SIREN统一多粒度语义交互框架,解决多模态特征与协同特征在终身兴趣建模中的对齐问题。在GSU阶段,提出多模态相似性软检索和SemID硬检索两种策略,兼顾效果与工业服务效率;在ESU阶段,通过粗粒度相似性桶和细粒度前缀编码SemID实现目标感知的相关性计算,与协同ID特征在目标条件Transformer中统一交互。离线达到SOTA GAUC,线上在微信朋友圈(+2.28% GMV)、公众号(+3.87% GMV)和视频号(+1.61% GMV)均取得显著提升,自2025年7月起已在腾讯广告平台全流量部署。
4. From Item-Only to Query-Item: Query-Conditioned Generative Search with QGS in Quark
🔗 原文: https://arxiv.org/abs/2605.25514
🏷️ 来源: 🤝 产学合作 | Alibaba, USTC
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: 提出QGS,用query-conditioned生成式搜索解决查询切换噪声,线性复杂度编码器,工业部署验证。
📝 摘要: 本文提出QGS,将生成式序列模型应用于搜索排序,解决查询切换导致的语义不连续问题。核心创新是将每个交互编码为(query, item)对,训练query-conditioned next-item目标,将预测从有噪声的边际分布P(item|context)变为干净的条件分布P(item|context, query)。为满足在线延迟预算,提出Linear HSTU编码器,用因果线性递归替代全注意力,每层复杂度从O(L²)降至O(L)且不损失排序质量。同时提出HFG-Attention将传统手工特征融入生成式框架。在夸克搜索排序模块上线后,CTR+0.62%,点击搜索比+0.38%,浏览时长+3.55%。
5. Memento: Personalized RAG-Style Long-Retention Data Scaling for META Ads Recommendation
🔗 原文: https://arxiv.org/abs/2605.24051
🏷️ 来源: 🏭 工业界 | Meta
⭐ 评分: ⭐⭐⭐⭐⭐ (5/5)
🎯 推荐理由: Meta工业级长历史推荐方案,RAG+MMR实现高效个性化,线上显著提升CTR/CVR。
📝 摘要: 本文提出Memento,一个个性化RAG框架,解决长历史序列建模中的注意力稀释、系统效率和灾难性遗忘问题。它将用户历史视为文档库,广告请求视为查询,通过最大边际相关性(MMR)检索相关交互,平衡相似性与多样性。框架包含两种互补应用:Representation Memento检索历史嵌入用于特征增强,Data Memento检索历史训练样本用于多轮训练。通过时序分块、INT8量化和异步服务等基础设施协同设计,实现5-10倍资源效率,每日请求处理延迟低于10ms。在Facebook Feed和Reels上,CTR提升1%,CVR提升1.2%,支持365+天历史个性化。
🎯 今日主题:精排Transformer如何高效处理超长用户行为序列?
引子
工业推荐系统中,用户行为序列从数十步扩展到数千甚至上万步,带来显著效果提升的同时,也带来注意力O(N²)的计算瓶颈、存储递增和训练周期后遗忘等问题。近期Meta的Memento [Meta] 提出检索增强框架,避免全序列注意力;腾讯SIREN [Tencent] 融合多粒度语义交互与硬检索;快手SOLAR [Kuaishou] 利用低秩特性设计线性复杂度注意力;还有MIRRN [2411.15005]、LASER [Xiaohongshu]、ENCODE [Alibaba] 等一批工业级方案集中涌现。这些工作分别从检索增强、注意力压缩、分层分段三个方向解决超长序列的效率问题,但各有取舍。今天我们系统梳理三个方向的代表方案、技术细节与工业适用性。
子问题1:检索增强(RAG)的具体实现与延迟开销?
检索增强的核心思路是在线推演时从完整序列中快速检索出与当前候选最相关的子序列,再在子序列上做精确注意力。Meta的Memento [Meta] 将用户历史视为文档语料,广告请求视为查询,通过最大边际相关性(MMR)检索出Top-K个行为,然后仅对这些行为进行目标注意力计算。Memento 在Meta广告系统上验证,并采用INT8量化、异步服务、时序分块等优化,实现了sub-10ms的在线延迟,且CTR/CVR显著提升 [Meta]。
SIREN [Tencent] 提供了两种检索策略:多模态相似度软检索和基于Semantic ID的硬检索。硬检索将用户行为映射为离散Semantic ID,利用hash表直接匹配候选ID,延迟更低,适合工业部署;软检索则利用多模态嵌入计算余弦相似度,召回更准但计算量略大。SIREN在微信场景上线,GMV提升+2.28% ~ +3.87% [Tencent]。
MIRRN [2411.15005] 提出多粒度兴趣检索模块(MIRM),针对目标、局部、全局三种查询,利用SimHash进行快速近似检索,也能处理数千长度序列。其检索延迟在毫秒级 [2411.15005]。
更早的SIM(General Search Unit)使用硬/软检索,但检索查询只包含目标物品信息,可能遗漏用户多样兴趣 [2411.15005]。检索增强方案在工业中已证明可行,延迟可控(1-10ms),效果优于简单截断。主要开销在检索本身和存储行为表示,可通过量化、异步预处理(如Memento的离线索引)缓解。
子问题2:注意力机制的序列压缩方法(linear attention、token merging)在精排中的适用性?
注意力压缩旨在不丢失全局交互的前提下降低计算复杂度。快手提出的SOLAR [Kuaishou] 发现用户行为序列表示具有低秩特性(累积分布显示秩27即可捕获全信息),因此提出SVD-Attention:将Q、K矩阵投影到低维子空间后再计算softmax,复杂度从O(N²d)降至O(Ndr),且理论上对低秩矩阵无损失。SOLAR在快手线上获得0.68%视频观看提升,并能处理上万长度序列 [Kuaishou]。
ULTRA-HSTU [Meta] 引入半局部注意力(Semi-Local Attention),让每个token关注最近的K1个历史的局部窗口和最后K2个全局窗口,实现线性复杂度。这种稀疏模式在推荐中很合理:用户近期行为与候选最相关,同时保留长期兴趣的晚近行为 [Meta]。另外,MIRRN [2411.15005] 采用多头傅里叶变换(MHFT)替代传统注意力中的卷积,复杂度O(N log N),在频域捕捉交互,参数少且计算快。
线性注意力(如核方法 [Kuaishou])在推荐中也有研究,但注意:线性化会改变注意力分布,可能损失精度。SOLAR的SVD方法保留了softmax,效果更优。总体而言,注意力压缩方案适合序列长度在几千到一万的场景,延迟优化明显(ULTRA-HSTU报告5倍训练加速、21倍推理加速 [Meta]),且没有检索阶段的命中率损失。但稀疏策略需要在窗口大小上调参。
子问题3:分层分段建模如何平衡局部与全局信息?
分层分段方法将长序列按时间或语义切分,在每一段内提取细粒度兴趣,再对段聚合得到全局表示。LASER [Xiaohongshu] 设计了分段目标注意力(STA):先将序列按时间窗口分块,对每块做目标注意力,得到块级别表示;然后用全局堆叠目标注意力(GSTA)在块间建模,最终输出用户表示。这种设计在保持局部模式的同时压缩了序列长度,适合工业部署。
MIRRN [2411.15005] 的多粒度兴趣是另一种分层:构造目标、局部、全局三种查询,分别检索出不同时间尺度的子序列,再用多头目标注意力融合。实验表明,多粒度兴趣能捕获更全面的用户偏好,如同时考虑"鞋子"、"运动"、"黑色"的偏好 [2411.15005]。
SIREN [Tencent] 在精排阶段显式引入粗粒度相似度桶(coarse similarity buckets)和细粒度前缀编码(prefix-encoded SemIDs),使模型既能区分大致类别又能精细匹配,统一了多模态与协同特征。
ENCODE [Alibaba] 采用离线聚类+在线注意力两阶段:离线对用户整段历史做K-means聚类,每类压缩为一个兴趣向量;在线只对目标做一次目标注意力(复杂度O(C)),同时满足全序列利用(R1)和目标相关(R2)两个关键要求。其聚类过程通过度量学习降维以减少开销 [Alibaba]。
这些分层方法本质上是两阶段:先粗后精。在工业场景中,先检索(或聚类)到数百步,再做注意力,能兼顾效果与效率。关键在于第一阶段的压缩要保留相关信息,否则会丢失长尾信号。
工业落地启示
对于工业推荐工程师,处理超长序列的核心建议:
1. 数据量级决定方案:序列长度在1000以下可直接用全量Transformer + 注意力压缩(如SVD-Attention [Kuaishou] 或Semi-Local [Meta]);长度5000以上建议先做检索或聚类压缩到几百步,如Memento [Meta] 或ENCODE [Alibaba]。
2. 延迟要求:对于亚10ms场景,检索增强+RAG或聚类两阶段更可靠;如果允许10-20ms,可考虑SOLAR这类线性复杂度注意力。注意KV cache和量化优化(如OneTrans利用LLM的优化技巧 [ByteDance])。
3. 兴趣多样性:多粒度检索(MIRRN、SIREN)能捕捉不同时间尺度的兴趣,对目标物品推荐更准;但需要更多工程成本构建多种查询。
4. 冷启动与长尾:检索和聚类方案可能丢失罕见行为,导致冷启动物品表现差。可结合类似Memento的“rehearsal”或回放策略 [Meta] 缓解遗忘。
5. 工程共性:所有方法都受益于异步预处理(离线索引、聚类)、INT8/Float16量化、以及将序列建模与特征交互统一(如OneTrans [ByteDance] 减少碎片化)。