推荐算法日报 - 2026-01-23
2026-1-23
| 2026-2-12
字数 4174阅读时长 11 分钟
type
status
date
slug
summary
tags
category
icon
password
priority

Section 1: 📊 Trend Analysis

  • 🔥 生成式推荐(Generative-Rec)的可靠性优化:今日多篇论文聚焦于解决LLM/扩散模型等生成式推荐范式落地时的核心痛点。研究重点从“能否生成”转向“如何可靠地生成”,具体包括:严格消除OOD幻觉(RecLM)、解决微调引入的Context Bias(GDRT)、以及优化扩散模型的引导信号(CARD)。这标志着该领域正从概念验证迈向工程化实践。
  • 💡 模型合并与高效部署成为新焦点:随着大模型在推荐中的应用,模型参数量剧增,其高效部署与更新成为关键挑战。MMGRid首次系统研究了生成式推荐中的模型合并问题,为跨域、时序场景下的低成本模型整合提供了新思路。这反映了工业界对降低大模型推荐系统训练与运维成本的迫切需求。
  • 🛠️ 工业界关注多目标约束下的在线决策:工业界论文(BanditLP, CoNRec)展现出对复杂生产环境的深度思考。研究重点不仅是提升单一指标(如CTR),更在于如何在多利益相关者(用户、平台、广告主)的复杂约束(如退订率、负反馈率、业务线配额)下,通过集成探索(BanditLP)或精细化建模(CoNRec)来优化长期收益和用户体验。

Section 2: 📰 Daily Digest

1. MMGRid: Navigating Temporal-aware and Cross-domain Generative Recommendation via Model Merging

🔗 原文: https://arxiv.org/abs/2601.15930v1
🏷️ 来源: 🎓 学术界 | Nanyang Technological University, Zhejiang University
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 首个系统研究生成式推荐中模型合并的工作,针对跨域和时序演化场景,实验扎实,结论对工业界有启发。
📊 评分理由: 学术界主导(南洋理工大学、浙江大学等)。论文首次系统性地研究了生成式推荐(GR)中的模型合并(MM)问题,针对跨域和时序演化两个核心场景,构建了统一的实验框架MMGRid。实验扎实,发现了任务向量冲突、近因偏差等关键问题,并提出了基于历史检查点替换和加权合并的解决方案。虽无线上验证,但问题定义新颖、方法系统、结论对工业界部署大模型推荐有很强的启发价值,故上调至4分。
📝 摘要: 本文首次系统性地探索了模型合并(MM)在生成式推荐(GR)中的应用。针对工业界常见的跨域和用户行为时序演化场景,作者构建了统一的实验框架MMGRid,系统分析了三种主流GR范式(BIGRec, LC-Rec, HLLM)在合并时的表现。研究发现,从LLM微调得到的GR模型在合并时存在参数冲突,可通过替换基础模型来缓解;时序增量训练会引入近因偏差,可通过加权合并来平衡。这项工作为低成本整合和更新大规模生成式推荐模型提供了重要的方法论指导和实践洞见。

2. Does LLM Focus on the Right Words? Mitigating Context Bias in LLM-based Recommenders

🔗 原文: https://arxiv.org/abs/2510.10978v2
🏷️ 来源: 🤝 产学合作 | Zhejiang University, OPPO
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 发现LLM推荐微调中的Context Bias问题,提出Group DRO解决方案,实验提升显著,对LLM推荐落地有重要启发。
📊 评分理由: 学术界主导(浙大+OPPO合作),但OPPO作者提供工业视角。核心贡献是发现并解决LLM-based推荐中SFT引入的Context Bias问题,方法创新且实验扎实(NDCG@10平均提升24.29%)。虽无线上AB验证,但问题定义新颖(LLM微调特有偏差),方法(Group DRO)通用性强,对业界LLM微调实践有重要启发。4分。
📝 摘要: 本文揭示了LLM用于推荐时,监督微调(SFT)会引入一种新的“上下文偏差”(Context Bias):模型过度依赖提示词等辅助token,而忽视真正反映用户偏好的历史交互token。为解决此问题,作者提出了基于组分布鲁棒优化(Group DRO)的微调范式GDRT,通过强制模型在不同相关性的token组上表现一致,将模型注意力拉回用户交互本身。在三个公开数据集上的实验表明,该方法能显著提升推荐准确性(NDCG@10平均提升24.29%)和公平性,为LLM推荐模型的可靠微调提供了有效方案。

3. CoNRec: Context-Discerning Negative Recommendation with LLMs

🔗 原文: https://arxiv.org/abs/2601.15721v1
🏷️ 来源: 🤝 产学合作 | Alibaba, Fudan University
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 阿里巴巴提出首个LLM负反馈建模框架,结合语义ID与渐进式强化学习,在淘宝数据上显著提升负反馈预测准确率。
📊 评分理由: 工业界(阿里巴巴)。论文核心是解决负反馈建模问题,属于推荐系统核心问题。方法上结合了语义ID、LLM微调和GRPO强化学习,技术融合较深。有淘宝大规模数据集验证,并设计了模拟线上场景的Candidate Accuracy指标。创新点在于提出了负反馈建模的特定训练范式(渐进式GRPO、未来奖励)和评估指标。虽无线上AB验证,但工业背景扎实、问题定义清晰、方法系统。4分。
📝 摘要: 来自阿里巴巴的这项工作,首次提出了一个用于负反馈建模的LLM框架。针对负反馈数据稀疏、易受正反馈主导的问题,该方法采用语义ID表示物品,并设计了专门的Item-Level Alignment任务让LLM理解物品的正负属性。核心训练采用渐进式GRPO强化学习,使模型能动态平衡对用户正、负行为序列的利用。在淘宝数据集上的实验表明,该方法能有效预测用户可能讨厌的物品,为在排序后过滤负向内容、提升用户体验指标(如负反馈率)提供了可行的技术路径。

4. Variational Bayesian Personalized Ranking

🔗 原文: https://arxiv.org/abs/2503.11067v2
🏷️ 来源: 🎓 学术界 | SWJTU, SJTU, HUST
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 将BPR重构为变分推断框架,统一去噪、去偏和偏好对齐,提供理论保证和可控曝光机制。
📊 评分理由: 学术界主导(西南交通大学、上海交大等高校)。提出VarBPR,将BPR的pairwise学习重新形式化为变分推断问题,统一处理噪声、曝光偏差和偏好对齐。方法创新性强:推导了闭式后验解,提供了明确的曝光控制语义(先验定义目标,温度控制强度),并给出了理论泛化保证和机会成本分析。实验在多个数据集和骨干模型上验证了排序精度提升和可控的长尾曝光能力。虽无线上验证,但方法扎实、理论深刻、有明确的落地潜力,对工业界设计可控推荐系统有重要启发。4分。
📝 摘要: 本文对经典的BPR排序学习框架进行了根本性重构,提出了变分贝叶斯个性化排序(VarBPR)。它将pairwise学习形式化为一个变分推断问题,通过引入离散隐变量,在一个统一的变分下界(ELBO)中同时实现偏好对齐、噪声抑制和曝光去偏。该方法提供了清晰的曝光控制接口:先验分布编码目标曝光模式(如提升长尾),温度参数控制实现强度。理论分析揭示了追求特定曝光模式的“机会成本”。实验证明,VarBPR能在保持BPR线性复杂度的同时,提升多种骨干模型的排序精度,并实现可控的长尾物品曝光。

5. Eliminating Out-of-Domain Recommendations in LLM-based Recommender Systems: A Unified View

🔗 原文: https://arxiv.org/abs/2505.03336v2
🏷️ 来源: 🤝 产学合作 | Shenzhen University, Microsoft Research Asia
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: 统一对比LLM推荐中解决OOD问题的三大范式,方法扎实,对工业落地有强指导意义。
📊 评分理由: 学术界(深大+微软研究院)。论文核心贡献在于为LLM-based推荐系统提供了一个统一的框架,系统性地对比了三种解决OOD问题的范式(检索、约束生成、语义ID),并严格实现了OOD@10=0。方法设计精巧,实验扎实,对比充分,对业界落地LLM-as-Rec有很强的实践指导意义。虽无线上AB验证,但来自微软研究院,问题定义和解决方案直击工业痛点,价值显著。4分。
📝 摘要: 本文针对LLM推荐中生成不存在商品(OOD幻觉)的核心痛点,提出了RecLM统一框架。该框架在相同LLM主干和提示下,实例化了三种主流解决方案:基于嵌入的检索、基于重写标题的约束生成、以及基于语义ID的离散码生成。系统性的实验对比表明,所有RecLM变体都能严格消除OOD推荐(OOD@10=0),且约束生成和语义ID变体在多个数据集上达到了SOTA的排序精度。这项工作为业界选择可靠、高效的LLM-as-Rec技术路径提供了清晰的路线图和实践基准。

6. BanditLP: Large-Scale Stochastic Optimization for Personalized Recommendations

🔗 原文: https://arxiv.org/abs/2601.15552v1
🏷️ 来源: 🏭 工业界 | LinkedIn
⭐ 评分: ⭐⭐⭐⭐ (4/5)
🎯 推荐理由: LinkedIn工业实践:神经Thompson Sampling + 大规模LP,线上AB验证长期收益+3.08%,解决多利益相关者约束下的探索与优化。
📊 评分理由: 工业界(LinkedIn)。提出BanditLP框架,将神经Thompson Sampling与大规模线性规划结合,用于多利益相关者约束下的推荐决策。核心价值在于线上AB验证了长期收益(Revenue +3.08%)并降低退订率,解决了生产环境中探索与约束优化的平衡问题。方法扎实,有详细的部署调优经验(如校准、探索度监控)。创新在于将神经TS的探索能力注入到LP约束优化中,而非简单组合。虽非范式级突破,但作为工业实践价值高,锚定4分。
📝 摘要: 本文介绍了LinkedIn在邮件营销系统中应用的BanditLP框架。该框架将神经Thompson Sampling(用于探索性地学习转化率和退订率)与一个能处理数十亿变量的大规模线性规划求解器(用于满足多利益相关者约束)相结合。线上A/B测试显示,该方案在满足平台退订率、业务线发送量等多重约束的同时,显著提升了长期收入(+3.08%)并降低了退订率(-1.51%)。这项工作展示了如何在实际生产系统中,通过集成探索与约束优化来解决复杂的多目标推荐决策问题。

7. Unveiling and Simulating Short-Video Addiction Behaviors via Economic Addiction Theory

🔗 原文: https://arxiv.org/abs/2601.15975v1
🏷️ 来源: 🎓 学术界 | Renmin University of China, University of Science and Technology of China
⭐ 评分: ⭐⭐⭐ (3/5)
🎯 推荐理由: 结合经济学理论量化短视频成瘾行为,并构建LLM模拟器学习成瘾模式,方法新颖。
📊 评分理由: 学术界主导(人大、中科大、阿姆斯特丹大学)。核心贡献是结合经济学成瘾理论,利用大规模行为数据量化短视频成瘾模式,并构建了一个基于LLM的用户模拟器(AddictSim)来学习这些模式。方法新颖,实验在THU和KuaiRec数据集上验证了有效性,并模拟发现多样性重排算法可以缓解成瘾。虽无线上验证,但问题定义和方法论有一定启发性,属于推荐系统边缘但相关的问题(用户行为建模与模拟)。3分。
📝 摘要: 本文创新地将经济学中的成瘾理论引入推荐系统,用于量化分析短视频用户的成瘾行为模式。基于大规模行为数据,作者验证了短视频成瘾的存在性、强度及异质性。为进一步研究,作者提出了一个基于LLM的用户模拟器AddictSim,采用“平均到自适应”的两阶段训练策略,能够高保真地模拟用户的成瘾观看行为。模拟实验表明,引入多样性感知的重排算法有助于缓解成瘾行为。这项工作为理解和建模推荐系统对用户行为的长期影响提供了新的理论工具和实验手段。

8. Enhancing guidance for missing data in diffusion-based sequential recommendation

🔗 原文: https://arxiv.org/abs/2601.15673v1
🏷️ 来源: 🎓 学术界 | Sun Yat-sen University, Peng Cheng Laboratory
⭐ 评分: ⭐⭐⭐ (3/5)
🎯 推荐理由: 为扩散推荐模型设计反事实注意力机制,动态识别并增强序列中的关键兴趣转折点,提升缺失数据下的引导质量。
📊 评分理由: 学术界主导(中山大学、鹏城实验室)。研究扩散模型在序列推荐中缺失数据下的引导信号优化问题,提出基于反事实注意力的动态重加权方法。方法设计有创新性(反事实推理+路由机制),实验在Zhihu/KuaiRec数据集上取得SOTA,消融实验充分。但问题相对前沿且具体(扩散模型+序列缺失数据),工业落地场景有限,且无线上验证。属于扎实的学术工作,但影响范围可能局限在生成式推荐细分领域。3分。
📝 摘要: 本文针对扩散模型用于序列推荐时,因数据缺失导致引导信号质量下降的问题,提出了反事实注意力调控扩散模型(CARD)。该方法的核心是识别用户兴趣序列中的“关键转折点”,并利用反事实推理机制(计算包含/不包含某物品时的预测误差减少量)来动态重分配序列中物品的重要性权重,从而为扩散模型生成过程提供更高质量的引导信号。在公开数据集上的实验表明,CARD能有效提升生成式序列推荐的性能,为优化扩散推荐模型提供了新思路。
  • 日报
  • 推荐系统
  • 推荐算法日报 - 2026-01-24推荐算法日报 - 2026-01-22
    Loading...