周报

技术趋势

本周的核心叙事是"发布密度与工程深度的共振"。OpenAI 一口气放出了 GPT-5.6 三模型、ChatGPT Work 和 GPT-Live 语音模型，这不是一次单纯的版本迭代，而是一次产品矩阵的重新排布——模型能力分层（Sol/Terra/Luna）、Agent 产品化（Work）、交互范式升级（全双工语音）同时到位。与此同时，Agent 工程领域进入了"工具调用精细化"阶段：GitHub Copilot 的实践复盘、AWS 的 MCP 设计指南、Amazon 和 Writer 关于编排层效率的论文，都在指向同一个判断——Agent 的价值不再取决于"能不能调用工具"，而取决于"调得好不好"。推理加速方面，vLLM 0.25.0 让 450+ Transformers 架构原生运行，DeepSeek 的 DSpark 在线上流量下将生成速度提升 60-85%，这些工程落地比架构论文更能直接影响下游决策。

文章详情

推荐系统

周报

论文

本周推荐系统研究围绕三条技术主线展开：生成式检索的工业落地与理论深化、LLM/Agent从概念验证走向真实部署、以及精排/联邦学习在工业环境中的鲁棒性优化。生成式检索加速落地与多兴趣精细化：快手在推送通知系统中部署了异构生成式架构 HGenPush，采用非自回归多token预测替代传统自回归解码，实现DAU提升0.181%。Walmart将库存感知RAG引入赞助搜索，InvAwr-RAG将广告填充率提升68%。理论层面，BACH通过贝叶斯混合头解决多兴趣双塔的路由坍塌问题，在三个基准上刷新召回率；DaV-Gen提出draft-and-verify机制统一生成式检索的效率与精度。此外，Signed MaxSim首次从理论上证明MaxSim的表达力不低于向量内积，并扩展至任意实值内积。 LLM/Agent推荐从原型走向生产： Meta的 SCOReD 是本周最突出的部署工作——通过学生感知的CoT优化将教师推理轨迹适配到小模型，线上获得NDCG+1.56%和Recall@5+1.9%，同时推理长度减少27.3%。Walmart使用LLAMA2 7B+LoRA做广告相关性三分类，准确率89.43%超越GPT-4。学术方面，MMEACR提出双轨记忆架构加强Agent的视觉推理能力；LBR系统性地揭示了LLM推荐中的长度偏差，并提出轻量校正方案（NDCG@5提升16.82%）；综述论文Autonomous Information Seeking为Agent推荐建立了三范式分类法。工业级精排与联邦学习优化：快手的 PIT-SUN 是一种可直接部署的经验边际变换框架，通过对重尾目标进行概率积分变换与期望一致性恢复，在线上全面改善点精度和校准。FeLiX则针对联邦学习中客户端流失问题，提出流式感知可用性层级和延迟鲁棒聚合，将收敛时间缩短2.37倍。

文章详情

周报

技术趋势

本周 AI 周报呈现出两条并行的主线：Agent 工程化正在从“能否运行”进入到“能否可靠规模化”阶段，同时推理基础设施的优化开始从通用框架走向针对特定硬件、特定模型的深度定制。第一条主线体现在大量关于 Agent 循环、技能工程、多 Agent 协调的讨论中。AI Engineer World's Fair 上周结束后，Latent Space 连续发布了多篇深度报道，最引人注目的是“自主循环”（Loops）辩论——支持方认为软件工厂已经可行，质疑方则指出 token 成本和可靠性仍然是硬约束。与此同时，Apple 发表的研究直接挑战了一个流行的设计假设：让多个专家 Agent 自由协作反而会降低性能。这让本周的 Agent 话题有了清晰的对立面。第二条主线来自 vLLM 0.24.0 的密集发布。一周内，vLLM 团队推出了 DeepSeek V4 的 DSpark 推测解码原生支持（~250 tok/s，接受长度 5），集成了百度 Unlimited-OCR（35% 快于 DeepSeek-OCR），还发布了 Omni TTS 的全面优化（吞吐提升 172%）。SGLang 也在本周展示了 Agent 辅助开发的工作流，多个 kernel 优化带来 71.4% 的吞吐提升。这些进展表明，推理框架的竞争正在从“跑通模型”转向“为一个模型做深度优化”。以下是对本周四个主题的详细分析。

本周24篇论文中，4篇来自工业在线部署（Meta、Netflix、阿里巴巴、快手），覆盖召回、排序、重排、全链路生成阶段。核心技术密度的分布逻辑在变——生成式推荐从"能生成"走向"能推理"，召回从嵌入匹配转向导航式探索，排序阶段则在约束和解释之间寻找平衡。生成式推荐进入"推理+强化学习"时代： GR2、ShopX和GenPage在同一周展示了三种不同的生成式架构走向。GR2在重排阶段首次引入推理链（CoT）和RL后训练，在工业流量上R@1提升18.7%。ShopX将生成式推荐从候选生成推向"意图到物品"的端到端执行，在淘宝Agent场景下复杂请求满足率提升55-75%。GenPage走得最远——用单Transformer替代Netflix整套多阶段主页流水线，核心指标+0.24%的同时延迟降低20%。三篇的共同指向是：生成式推荐的核心壁垒已从"能否生成"转向"能否在推理质量与部署效率之间找到工业可行解"。召回从静态匹配走向动态图探索： Meta的硬负采样通过LLM聚类生成实时同簇负样本，在线召回率+8.5%、流行度偏差-12.3%。快手的IID-Nav将召回建模为自主图探索，支持间接无限深度遍历。Kuaishou的POEM利用多任务排序分数构建偏序序列，实现请求级别的实时兴趣更新。三条技术路径共享一个趋势：召回正从静态嵌入查询转向动态、上下文感知的行为建模。约束优化与可解释性重回视野： Avito的PermR在5600万搜索查询上证明了相邻交换法能在生产延迟内逼近整数规划收益。KakaoBank的ChunkGroupSHAP用分组Shapley值弥合了词级解释与密集排序器之间的粒度鸿沟。这两个工作提醒行业：在大模型热潮中，渐进式工程优化和可解释性工具仍能产出具象收益。

文章详情

周报

技术趋势

本周 AI 行业围绕一条核心叙事展开：大规模基础设施层的能力突破，正在加速从实验室到生产部署的转化。 OpenAI 在同一天发布两则重磅消息——自研推理芯片 Jalapeño 与 GPT-5.6 Sol——覆盖了从硬件到模型栈的完整闭环。这不是孤立的发布，而是上下游协同推进的节奏：芯片优化推理成本，模型提升能力上限，两者共用同一个基础设施栈。第二条主线是 Agent 工程从实验走向生产治理。Stripe 发布金融合规 Agent 实战案例，AWS 连续三篇博客聚焦 MCP 代理层与数据治理，GitHub 给出 Copilot agentic harness 的横评数据。与此同时，Anthropic 的 Claude Slack Tag 将 LLM 定位为组织级持久成员，Karpathy 评价这是 "LLM UI/UX 的第三次重大设计"。Agent 不再是单次对话，而是公司内部持续运行的角色。第三条主线是后训练范式从人工摸索向自动化、系统化演进。Amazon 发布 A-Evolve，在 30B 模型上实现无人干预的自主后训练；OpenAI 验证了有益行为 RL 在分布外泛化上的持久性；Qwen 的路标语言世界模型为 Agent RL 提供了可扩展的训练环境。这些工作共同指向一个信号：RL 不再只是 SFT 后的微调步骤，而是正在成为模型能力扩展的主引擎。

本周 12 篇论文中，工业部署论文占据主导——8 篇来自 YouTube、TikTok、快手、腾讯、沃尔玛等一线平台，均有线上 A/B 实验指标。研究聚焦于三个相互交织的方向：生成式推荐与LLM增强、大规模检索的 GPU 加速、以及工业系统的架构与归因优化。生成式推荐从“生成物品 ID”走向“生成物理物品”：快手提出的 RaG（Kuaishou）将生成式推荐与视频生成统一，在 4 亿 DAU 平台上实现广告收入 +1.87%。YouTube 的 TokenMinds（YouTube）将 Semantic ID 从物品侧扩展到用户侧，生成离散用户 token 与稠密 embedding 双输出，覆盖全量用户流量。两条路线指向同一个判断——生成式推荐正在从离线一致性验证进入线上收益兑现阶段。用户建模从“稠密向量”向“离散语义 ID”切换加速：快手与 YouTube 几乎同时发布了基于 SID 的框架。这不仅是表征形态的变化，更意味着推荐系统与 LLM 世界的底层 token 空间开始对齐，跨场景统一（短视频/长视频、推荐/广告）的成本大幅降低。工业归因与缩放方法论走向精细化： TikTok 的归因校正框架（TikTok）将因果实验与每日生产归因对齐，将蚕食率降低约 15 个百分点。腾讯的 NOVA（Tencent）用智能体自动化架构演化，L3 任务线上 GMV 提升 +2.02%。快手的 UniFormer（Kuaishou）提出模型中心缩放框架，将建模空间显式分解为特征和任务两个维度。三者共同揭示——当模型架构趋于收敛，工程自动化和测量准确性成为工业竞争的新壁垒。

文章详情

周报

技术趋势

2026-W25 最清晰的叙事线是：开源模型前沿从追赶变为并跑，甚至在某些维度反超闭源。GLM-5.2、DeepSeek-V4、Nemotron 3 Ultra、Ling-2.6 四款模型在本周密集发布，参数规模从 284B 到 1.6T，上下文全部支持 1M token，且均以开源形式提供。社区评测和独立分析表明，这些模型在知识工作、编码、科学推理等任务上已不逊于 GPT-5.5 和 Opus 4.8——甚至更便宜。第二条主线是 Agent 基础设施从零散工具转向平台化。Amazon Bedrock AgentCore Harness 正式 GA，两个 API 调用即可部署生产级 Agent；Cursor 推出 Git 替代品 Origin 专为 Agent 工作负载设计。与此同时，Agent 评估方法正在经历从聚合排行榜到预测有效性的范式转换——IBM 论文直接质疑静态榜单向部署场景迁移的有效性。第三条主线是推理效率的微观创新加速。Pine AI 提出可编辑/可组合的 KV 缓存范式，将 p90 TTFT 降低 53-398x；LMSYS 用 SGLang-JAX 在 TPU 上优化 1T 参数 MoE 模型，prefill 减少 53%；Jeff Dean 发布 TPU 从 v2 到 Ironwood 的演进论文，30 倍能效提升。硬件与算法两端的协同正在使 1M token 推理变得经济可行。此外，监管博弈在本周剧烈升温——Anthropic 限制 Fable 模型的使用条款，美国商务部随后对 Fable 和 Mythos 实施出口许可要求，Andrew Ng 称此举将加速 AI 主权运动。医疗领域也有多项产品级进展，从罕见病诊断到全身体超声 CT。

本周推荐系统研究集中在三个方向：大规模图检索的全生命周期协同设计、基于Transformer的序列建模在多平台落地、以及多任务排序架构从DNN向Transformer native的迁移。Meta、Airbnb、Alibaba、Shopee、NetEase Cloud Music等公司各自发布了线上部署工作，提供具体的AB指标。主线1（大规模图系统的端到端设计）： Meta的RankGraph-2（Meta）将图构建、表示学习、在线服务三个阶段耦合优化，在百亿节点图上计算成本降低83%、召回率是GAT+Deep Graph Infomax的3.8倍、线上CTR+0.96%、CVR+2.75%。同方向，HighLevel的ScoreGate（HighLevel）用双分数统计融合控制RAG检索数量，生产环境减少34.8% token、召回率97.77-99.34%。主线2（生成式推荐从理论走向生产）： Airbnb的JourneyFormer（Airbnb）在搜索排序中部署基于Transformer的序列模型，处理长且稀疏的用户行为；阿里巴巴的OneBar（Alibaba）用端到端生成式框架做视频电商查询推荐，GMV提升21.67%。两篇共同指向——生成式推荐需要在实际约束（冷启动、延迟、标签稀疏）下做工程折中，而非单纯追求离线指标。主线3（多任务排序的Transformer-native范式）： Shopee的OneRank（Shopee）消除编码器-预测器分离，在Transformer内部做任务私有通道和梯度分离，线上CTR+1.2%、CVR+0.8%。网易云音乐的PIANO（NetEase Cloud Music）用可学习[CLS] token实现列表级多目标重排，CTR+0.62%、CVR+4.45%。两者都说明：将多目标推理内化到Transformer堆中比外挂MLP更有效。

文章详情

周报

技术趋势

上周的核心叙事可以浓缩成三个字——“够用了”。Claude Fable 5 的发布将通用模型能力拉到新高度，同时定价砍半。但更重要的是，围绕 Agent 的评估、安全、记忆和推理优化，工业界的交付物开始从“论文概念”变成“可运行的代码和框架”。Anthropic 的预填撤回风波、Kimi Work 的 300 个本地并行 Agent、MiniMax 的稀疏注意力内核——这些事件共同指向一个信号：2026 年上半年的 AI 工程化，正在从“能不能跑”转向“能不能可靠地跑”。

本周推荐系统研究围绕三条技术主线展开：生成式推荐从架构完备走向工业级工程落地，其中编辑性、长序列建模、物品级评分等关键能力被逐一攻克；LLM增强的推荐从离线推理迈向在线实时，谷歌与快手等团队实现了十亿用户规模的实时用户画像与意图推理；召回排序系统的成本与效率优化出现系统性方案，小红书以90%硬件成本节省为代价将聚类ANNS部署至SSD存储，同时CTR模型的残差路径设计开始突破缩放定律瓶颈。主线1（生成式检索工程化）：快手推出的OneRetrieval首次实现了可编辑的生成式检索，在替换倒排索引分支后显著提升订单量与CTR；Yandex的Gryphon引入联合训练的物品级评分组件，替换超过15个候选生成器与粗排阶段，召回量Recall@1000提升3.7%；京东的AdaGRPO通过自适应门控GRPO损失，将HR@10从11.01%提升至12.18%；Meta的Beyond Item IDs提出Global-Aware Compression Transformer，将峰值内存降低一个数量级；阿里的SSRLive通过动态语义ID融入用户-主播交互信号，线上观看时长+3.38%。主线2（LLM推荐实时化）：谷歌的LLM-Based User Personas框架实现了十亿用户规模的实时自然语言用户画像生成，结合知识蒸馏与异步推理在线上A/B测试中显著提升用户价值；快手的AIR通过离线生成原子意图、在线检索组合的方式实现了400倍推理加速，GMV+3.446%；DoorDash的Mind the Gap利用分层RAG从餐厅订单中生成多级分类特征，在零售品类上CTR+2.1%；OPPO的ToolRec为小布助手（1.5亿月活）构建了双层级点击校准机制，CTR显著提升。主线3（召回排序系统效率优化）：小红书的Helmsman在40台SSD服务器上替代了原需35000核与0.35PB DRAM的HNSW集群，硬件成本节省90%；DeRes通过双路径残差架构在工业CTR数据集上AUC+0.32%，且计算-AUC缩放定律显示8层DeRes匹配16层OneTrans（2倍计算节省）；Meta的DUET将用户行为分离为点击与转化两个流，分别用专用Transformer预训练，离线NE降低0.38%；eBay的Representation Curriculum通过分阶段训练缓解曝光依赖信号，冷启动Recall+5.2%。

文章详情

周报

技术趋势

本周的叙事可以用一个词概括：兑现——模型厂商在推理效率、Agent真实能力、平台生态三个方向集中交付上季度承诺的成果。微软CEO Satya Nadella在Build大会后连续两场深度访谈中，将公司定位从“前沿模型提供商”重新定义为“前沿智能平台”，并透露出OpenAI关系的新平衡。同时，NVIDIA、Google、微软在推理侧密集出货：Nemotron 3 Ultra以550B MoE架构实现5倍Agent推理加速，Gemma 4推出12B端侧多模态模型，微软MAI系列一口气发布7款模型并公布MAIA 200芯片的30%性价比优势。Agent评估领域，Andon Labs用自动售货机揭示基准与现实之间的巨大鸿沟，而OpenWebRL则在视觉web Agent上证明多轮RL的有效性。形式化定理证明方面，Goedel-Architect和LEAP两篇论文将开源系统推向99.2% MiniF2F和满分Putnam的新水平。最后，OpenAI的Lockdown Mode和Dreaming记忆升级在安全和产品体验上完成了碎片拼图——Lockdown Mode提供了一种确定性对抗Prompt注入的方案，Dreaming则让ChatGPT的记忆从用户手动保存进化到后台主动合成。

本周推荐系统研究围绕三条技术主线展开。主线1：生成式推荐从“能跑”走向““跑得稳”——语义ID与推理能力成为工业焦点。 Pinterest的UniPinRec实现了检索与排序的全栈统一（线上engagement +1%，延迟-11.1%），跳出了生成式推荐仅做检索的边界。快手的OneReason（线上部署）则揭示了思考模式在生成式推荐中无效的根本原因——感知与认知双因素缺失，并给出三级CoT格式和专化-统一训练的解决方案。两者的共同指向是：生成式推荐的核心瓶颈已从模型架构转移至数据形态（语义ID）与系统协同。主线2：跨域冷启动从“搬特征”到“学迁移”——LLM作为跨域桥接器开始大规模落地。快手的RGCD-Rep（服务4亿+用户）用MLLM推理蒸馏将短视频用户兴趣迁移至直播，冷启动参与度显著提升。Meta的Quantizing Intent论文（线上AUC +1.522%冷启）则将有机feed行为量化为语义ID注入广告排序，证明行为富集度决定跨域迁移质量。两篇的共同发现是：跨域迁移的关键不在对齐特征，而在构建可迁移的语义表征。主线3：LLM/Agent增强推荐走向行业差异化——从通用检索到垂直场景的深度适配。理想汽车的HPRO（132天A/B，销量+9.5%）将偏好优化引入销售线索评分，解决稀疏监督和漏斗层级问题。快手的Taiji（CTR +12.4%，收入+15.2%）提出帕累托最优策略优化，在语义与ID之间找到最优权衡点。Syft的DynaTree（生存率提升1.5倍）则用离线智能体建树+在线轻量子树选择解决时间敏感新闻检索的效率问题。这些工作表明，LLM在推荐中的应用正从“通用方案”走向“场景定制”。

文章详情

1 2 3 4