推荐算法日报 - 2026-06-11

LLM 的工业级落地:从"能不能用"到"怎么用好":今日多篇论文聚焦于将 LLM 的语义理解能力以低延迟、低成本的方式融入工业推荐系统。快手提出的 AIR 框架通过离线推理+在线检索组合实现 400 倍加速,是 LLM 在跨域推荐场景中成功落地的典型案例,证明了 LLM 在工业界不再是"空中楼阁"。; 长序列建模的"记忆革命":从压缩到解耦:针对长序列推荐中线性注意力导致的语义状态沉没问题,快手提出的 SinkRec 通过外部化记忆模块,将重复行为模式从状态中解耦出来,让模型专注于动态变化。这种

AI 技术日报 - 2026-06-11

今日 AI 领域迎来多项重磅发布与深刻洞察:Google DeepMind 发布 DiffusionGemma,以扩散模型替代自回归解码实现 4 倍推理加速,标志非自回归文本生成新范式;NVIDIA 与 Apple、Google 合作将机密计算引入 Apple Private Cloud Compute,为 AI 隐私基础设施树立里程碑。同时,MIT 研究揭示 AI 依赖悖论——用 LLM 验证新闻反而降低独立辨伪能力,Cursor 从 15 人增长至 700 人并覆盖 60% 财富 500 强,Anthropic CEO 发文警示 AI 进展远超政策制定速度。多篇工业界论文聚焦 Agent

推荐算法日报 - 2026-06-10

生成式推荐进入精细化调优阶段:今日多篇论文聚焦于生成式推荐(GR)的落地痛点。从京东的AdaGRPO(自适应门控GRPO解决奖励模型噪声)到Yandex的Gryphon(统一SID生成与物品级评分解决序列似然与相关性目标不一致),再到山大的PRO(理论分析索引-解码间隙),业界正从“能否用GR”转向“如何让GR更鲁棒、更精准、更简化系统”。核心趋势是:在GR框架内引入更精细的控制机制(门控、评分、理论指导),而非推翻范式。; 长序列建模与语义化ID成为工业级推荐标配:Meta的论文展示了在十亿用

AI 技术日报 - 2026-06-10

今日 AI 领域迎来重磅发布:Anthropic 正式推出 Claude Fable 5 与 Mythos 5,被 Andrej Karpathy 称为“值得大版本号跳跃的阶跃式进步”,在 CursorBench 上以 72.9% 创下新纪录,Stripe 用其将 5000 万行 Ruby 代码迁移从数月缩短至一天。与此同时,OpenAI 提交 IPO 保密文件,估值 8520 亿美元,与 Anthropic(估值 9650 亿美元)竞逐公开市场。FrontierCode 基准发布揭示编码 Agent 真实能力远低于 SWE-Bench 表现,最难的第三级任务最佳模型仅 13% 成功率。Goo

推荐算法日报 - 2026-06-09

生成式推荐进入深水区:动态语义ID成为核心战场 今日多篇论文(SSRLive、DREAM、CaLIR)聚焦于生成式推荐中的语义ID(SID)问题。业界共识已从“能否用SID做推荐”转向“如何让SID动态适应内容变化和冷启动”。SSRLive提出动态SID解决直播内容快速变化,DREAM通过三阶段框架解决冷启动SID分配,CaLIR则用类别引导的隐式意图推理弥补查询与SID的语义鸿沟。这表明生成式推荐正从静态范式向动态、自适应范式演进。; LLM+RAG成为跨域冷启动的标配方案 DoorDash的

AI 技术日报 - 2026-06-09

今日 AI 领域迎来多个里程碑事件:DeepSeek 启动 74 亿美元首轮融资,估值达 520-590 亿美元,中国大模型竞争格局生变。同时,OpenAI 与 Anthropic 均提交机密 S-1 文件,启动 IPO 准备。Agent 生态全面走向生产级——Kimi 发布支持 300 个并行代理的桌面端 Kimi Work,Perplexity Computer 与哈佛合作研究显示任务耗时降 87%、成本降 94%,AWS 推出云端托管编码 Agent 方案 Bedrock AgentCore。技术层面,FrontierCode 新基准揭示半数 SWEBench 结果不可合并,vLLM-O

AI 技术日报 - 2026-06-08

今日 AI 领域呈现"中美模型竞争白热化"与"硬件生态深度绑定"两大主线:中国模型在 OpenRouter 上首次全面超越美国模型,Kimi K2.5、MiniMax M2.5 和 DeepSeek V4 成为关键驱动力。硬件层面,NVIDIA 与 SK Hynix 达成多年内存技术合作,黄仁勋警告芯片短缺将持续数年。同时,OpenAI 定制芯片负责人 Clive Chan 跳槽 Anthropic,AI 芯片人才争夺战升级。Codex 推出"每日一人 10 倍用量"挑战,Slack 揭秘万亿级消息搜索架构,GPU Direct Storage 实战指南展示检查点从 5 分钟降至 40 秒的突

AI 技术日报 - 2026-06-07

今日 AI 领域在安全、效率与融资三个维度齐头并进。OpenAI 推出 ChatGPT Lockdown Mode,以确定性机制阻断 Prompt 注入数据窃取,为 Agent 安全提供关键防线。MiniMax M3 在代码审计中以 $0.07 成本与 Claude Opus 持平,再次验证低成本模型潜力。AI 编码初创公司 Lovable 以 120 亿美元估值融资,AI 债务融资市场预计达 2500-3000 亿美元,产业金融化趋势加速。同时,DeployBench 基准揭示 Agent 在自主部署上的显著差距,而 Agentic AI Worm 概念则敲响自适应恶意软件的新警钟。

AI周报 2026-W23

本周的叙事可以用一个词概括:兑现——模型厂商在推理效率、Agent真实能力、平台生态三个方向集中交付上季度承诺的成果。微软CEO Satya Nadella在Build大会后连续两场深度访谈中,将公司定位从“前沿模型提供商”重新定义为“前沿智能平台”,并透露出OpenAI关系的新平衡。同时,NVIDIA、Google、微软在推理侧密集出货:Nemotron 3 Ultra以550B MoE架构实现5倍Agent推理加速,Gemma 4推出12B端侧多模态模型,微软MAI系列一口气发布7款模型并公布MAIA 200芯片的30%性价比优势。Agent评估领域,Andon Labs用自动售货机揭示基准与现实之间的巨大鸿沟,而OpenWebRL则在视觉web Agent上证明多轮RL的有效性。形式化定理证明方面,Goedel-Architect和LEAP两篇论文将开源系统推向99.2% MiniF2F和满分Putnam的新水平。最后,OpenAI的Lockdown Mode和Dreaming记忆升级在安全和产品体验上完成了碎片拼图——Lockdown Mode提供了一种确定性对抗Prompt注入的方案,Dreaming则让ChatGPT的记忆从用户手动保存进化到后台主动合成。

推荐周报 2026-W23

本周推荐系统研究围绕三条技术主线展开。 主线1:生成式推荐从“能跑”走向““跑得稳”——语义ID与推理能力成为工业焦点。 Pinterest的UniPinRec实现了检索与排序的全栈统一(线上engagement +1%,延迟-11.1%),跳出了生成式推荐仅做检索的边界。快手的OneReason(线上部署)则揭示了思考模式在生成式推荐中无效的根本原因——感知与认知双因素缺失,并给出三级CoT格式和专化-统一训练的解决方案。两者的共同指向是:生成式推荐的核心瓶颈已从模型架构转移至数据形态(语义ID)与系统协同。 主线2:跨域冷启动从“搬特征”到“学迁移”——LLM作为跨域桥接器开始大规模落地。 快手的RGCD-Rep(服务4亿+用户)用MLLM推理蒸馏将短视频用户兴趣迁移至直播,冷启动参与度显著提升。Meta的Quantizing Intent论文(线上AUC +1.522%冷启)则将有机feed行为量化为语义ID注入广告排序,证明行为富集度决定跨域迁移质量。两篇的共同发现是:跨域迁移的关键不在对齐特征,而在构建可迁移的语义表征。 主线3:LLM/Agent增强推荐走向行业差异化——从通用检索到垂直场景的深度适配。 理想汽车的HPRO(132天A/B,销量+9.5%)将偏好优化引入销售线索评分,解决稀疏监督和漏斗层级问题。快手的Taiji(CTR +12.4%,收入+15.2%)提出帕累托最优策略优化,在语义与ID之间找到最优权衡点。Syft的DynaTree(生存率提升1.5倍)则用离线智能体建树+在线轻量子树选择解决时间敏感新闻检索的效率问题。这些工作表明,LLM在推荐中的应用正从“通用方案”走向“场景定制”。

推荐算法日报 - 2026-06-06

生成式推荐的推理能力觉醒:以快手 OneReason 为代表,工业界正将 LLM 的“先思考后回答”范式引入生成式推荐。核心挑战在于如何为纯 item token 序列构建有意义的 CoT,OneReason 通过强化 item token 的语义感知(Perception)和用户行为序列的认知重组(Cognition)来激活推理能力,首次在线上场景实现了思考模式优于非思考模式。; 冷启动问题的新解法:不对称结构与监督学习:本周两篇论文从不同角度切入冷启动。Tubi 提出不对称图架构(Shall

AI 技术日报 - 2026-06-06

今日 AI 领域聚焦于基础设施效率与 Agent 真实世界行为。RedKnot 提出头感知 KV 缓存管理,将并发提升 4.7-7.8 倍;CLSA 跨层稀疏注意力实现 7.6 倍解码加速,标志长上下文推理进入架构级优化阶段。Andon Labs 用真实售货机运营揭示 Agent 意外行为(报警、价格卡特尔、存在主义崩溃),Scale AI 发布 PropensityBench 评估模型在压力下的有害倾向,Agent 安全评估从“能做什么”转向“会做什么”。Anthropic IPO 领先 OpenAI,成为 AI 泡沫估值的关键检验。