5 | Page | Recsys Frontier

[LLM 推荐进入"推理"深水区]：今日两篇论文（IntuRec、期刊推荐）均利用 LLM 进行偏好推理，但不再满足于简单的 prompt 匹配。IntuRec 引入认知科学中的"直觉"概念，用候选集引导 LLM 在连续隐空间进行多步推理，而非直接输出 token。这标志着 LLM 推荐正从"语义匹配"向"结构化推理"演进，工业落地需关注推理延迟与成本。; [重排/排序的可解释性与约束优化并重]：KakaoBank 的 ChunkGroupSHAP 解决了密集嵌入排序的特征粒度不匹配问题，Avi

文章详情

日报

技术趋势

今日 AI 领域迎来多个重磅动态：美团 LongCat 的 Owl Alpha 1.6T MoE 模型登顶 OpenRouter，完全基于 50k 中国 ASIC 训练，标志着国产算力生态的里程碑式突破。同时，阶跃星辰 Step 3.7 Flash 在自主 Agent 评测中排名第二，MiniMax M3 428B 在三台 Mac 上本地运行并自主创建股票组合，中国 AI 力量全面崛起。工具生态方面，Cursor 发布 iOS 应用、vLLM 深度优化 TTS 模型、LlamaParse 推出 Retrieval Harness，Agent 开发正从桌面走向移动端和生产级。学界方面，上海 AI

文章详情

周报

技术趋势

本周 AI 行业围绕一条核心叙事展开：大规模基础设施层的能力突破，正在加速从实验室到生产部署的转化。 OpenAI 在同一天发布两则重磅消息——自研推理芯片 Jalapeño 与 GPT-5.6 Sol——覆盖了从硬件到模型栈的完整闭环。这不是孤立的发布，而是上下游协同推进的节奏：芯片优化推理成本，模型提升能力上限，两者共用同一个基础设施栈。第二条主线是 Agent 工程从实验走向生产治理。Stripe 发布金融合规 Agent 实战案例，AWS 连续三篇博客聚焦 MCP 代理层与数据治理，GitHub 给出 Copilot agentic harness 的横评数据。与此同时，Anthropic 的 Claude Slack Tag 将 LLM 定位为组织级持久成员，Karpathy 评价这是 "LLM UI/UX 的第三次重大设计"。Agent 不再是单次对话，而是公司内部持续运行的角色。第三条主线是后训练范式从人工摸索向自动化、系统化演进。Amazon 发布 A-Evolve，在 30B 模型上实现无人干预的自主后训练；OpenAI 验证了有益行为 RL 在分布外泛化上的持久性；Qwen 的路标语言世界模型为 Agent RL 提供了可扩展的训练环境。这些工作共同指向一个信号：RL 不再只是 SFT 后的微调步骤，而是正在成为模型能力扩展的主引擎。

本周 12 篇论文中，工业部署论文占据主导——8 篇来自 YouTube、TikTok、快手、腾讯、沃尔玛等一线平台，均有线上 A/B 实验指标。研究聚焦于三个相互交织的方向：生成式推荐与LLM增强、大规模检索的 GPU 加速、以及工业系统的架构与归因优化。生成式推荐从“生成物品 ID”走向“生成物理物品”：快手提出的 RaG（Kuaishou）将生成式推荐与视频生成统一，在 4 亿 DAU 平台上实现广告收入 +1.87%。YouTube 的 TokenMinds（YouTube）将 Semantic ID 从物品侧扩展到用户侧，生成离散用户 token 与稠密 embedding 双输出，覆盖全量用户流量。两条路线指向同一个判断——生成式推荐正在从离线一致性验证进入线上收益兑现阶段。用户建模从“稠密向量”向“离散语义 ID”切换加速：快手与 YouTube 几乎同时发布了基于 SID 的框架。这不仅是表征形态的变化，更意味着推荐系统与 LLM 世界的底层 token 空间开始对齐，跨场景统一（短视频/长视频、推荐/广告）的成本大幅降低。工业归因与缩放方法论走向精细化： TikTok 的归因校正框架（TikTok）将因果实验与每日生产归因对齐，将蚕食率降低约 15 个百分点。腾讯的 NOVA（Tencent）用智能体自动化架构演化，L3 任务线上 GMV 提升 +2.02%。快手的 UniFormer（Kuaishou）提出模型中心缩放框架，将建模空间显式分解为特征和任务两个维度。三者共同揭示——当模型架构趋于收敛，工程自动化和测量准确性成为工业竞争的新壁垒。

文章详情

日报

技术趋势

今日 AI 领域迎来多项重磅进展：DeepSeek V4 发布 DSpark 推测解码框架，推理速度提升 80% 并全栈开源；SubQ 模型以 56 倍注意力加速挑战长上下文瓶颈；Grok 4.5 进入 SpaceX/Tesla 私有测试，GLM-5.2 以 1/6 成本击败 GPT-5.5 引发企业后训练热潮。苹果 Xcode 26.3 原生集成 Agentic Coding，微软 73 亿美元 Fairwater AI 园区启用，AI 基础设施与开发工具正全面走向生产级。

文章详情

推荐系统

日报

[Agent + LLM 驱动推荐系统自动化]：从架构演化到特征筛选，工业界正系统性地引入 LLM Agent 来替代人工专家。腾讯的 NOVA 框架展示了 Agent 如何自动化完成“论文到生产”的模型升级，PayPal 的 EMA-FS 则用增益感知的筛选策略加速 GBDT 训练。核心趋势是从“调参自动化”走向“架构决策自动化”，但验证和风险控制（如 NOVA 的验证级联）是落地的关键。; [归因与增量性：从“归因”到“归因校正”]：广告归因领域正从简单的“最后一次点击”或“多触点归因”转向

文章详情

日报

技术趋势

今日 AI 领域迎来里程碑式发布：OpenAI 正式预览 GPT-5.6 Sol，采用全新架构并支持 1M 上下文，但发布过程罕见地被美国政府干预，需商务部逐客户审批放行，标志着前沿模型监管进入新阶段。与此同时，智谱 AI 开源模型 GLM-5.2 在编码能力上首次超越 GPT-5.5，成本仅为其 1/6，开源社区迎来重要拐点。产业层面，Stripe 分享了年处理 1.4 万亿美元交易的生产级 Agent 架构，快手开源 AgentX 多智能体系统实现超 1 亿年化收入，AI 从能力展示正式进入规模化价值兑现期。

文章详情

推荐系统

日报

生成式推荐进入工业落地爆发期：今日多篇论文（TokenMinds、RaG）将生成式推荐从概念验证推向大规模工业部署。核心趋势是使用统一的Semantic ID (SID) 体系同时表示用户和物品，实现跨场景（长/短视频）的统一建模，并显著降低训练和服务成本。这标志着生成式推荐正从“召回”环节向“排序”和“内容生成”全链路渗透。; 零样本与自适应推理成为降本增效新焦点：面对海量动态物品和复杂查询，工业系统开始探索更智能的资源分配策略。IRENE通过元分类器为未见物品即时合成分类器，解决零样本检索难

文章详情

日报

技术趋势

今日 AI 领域迎来多个里程碑：OpenAI 发布 Agent 经济报告，揭示 Codex 占内部输出 token 的 99.8%，非开发者采用增长 137x；SWE-bench Pro 发布，因旧基准 59.4% 测试用例存在缺陷，Coding Agent 评测标准迎来根本性更新。同时，Sail 获 8000 万美元融资构建长时 Agent 推理基础设施，PimDeWitte 获 3.2 亿美元融资用于世界模型数据采集，标志 Agent 基础设施投资进入爆发期。Notion 集成 Claude 和 Cursor 作为外部 Agent，从生产力工具转型为 AI 编排中枢。

文章详情

日报

技术趋势

今日 AI 领域迎来多个重磅事件：OpenAI 与 Broadcom 发布首款 LLM 推理芯片 'Jalapeño'，推理吞吐提升 4 倍；Cursor 在 Colossus 上从零训练 1.5 万亿参数前沿模型，应用层公司自研模型趋势加速；Qualcomm 豪掷 140 亿美元收购 Modular 和 Tenstorrent，挑战 NVIDIA CUDA 垄断。同时，NVIDIA 发布 DFlash 投机解码实现 15 倍推理加速，Google 在 Gemini 3.5 Flash 中推出原生 Computer Use 工具，MCP 协议迎来最大结构更新转向 Stateless 设计。Ag

文章详情

推荐系统

日报

LLM 蒸馏替代点击信号，重塑工业级召回训练范式：今日两篇来自 Walmart 的工业论文均采用 LLM 作为教师模型，生成结构化标注（相关性或意图），替代传统点击信号来训练双塔召回模型。这解决了点击信号中的位置偏差和长尾稀疏问题，并展示了显著的线上收益，标志着工业界正从“数据驱动”向“模型生成数据驱动”的范式转变。; 图基础模型（GFM）评估趋于理性，PFN 范式或成新方向：学术界对 GFM 的评估揭示了其并非普遍优于传统 GNN。只有基于 Prior-data Fitted Networks

文章详情

日报

技术趋势

今日 AI 领域迎来多个里程碑：OpenAI 的 GPT-5 破解三年免疫学谜题，展示了从数据分析到假说生成的科学发现能力；Anthropic 发布 Claude Tag，将 AI 深度集成到 Slack 作为团队持久成员，被 Andrej Karpathy 称为 LLM UI/UX 的第三大范式变革。智谱 GLM-5.2 被推为世界顶级开源模型，母公司 Zai IPO 股价 120 港元。同时，Apple 研究揭示 LLM-as-Judge 评估面板存在“统计幻觉”，Sakana Fugu 发布即遭独立测试质疑，引发对基准测试与真实世界鸿沟的讨论。在效率方面，vLLM 集成 DFlash 投

文章详情

...

3 4 5 6 7

...