2017 年,Ilya Sutskever 读到《Attention Is All You Need》时,立即意识到”这就是我们需要的一切”。OpenAI 随即放弃了 RNN/LSTM 路线,全面转向 Transformer,催生出整个 GPT 系列。Transformer 的并行能力让他们得以实现一直相信的 Scaling 路径。八年后的今天,推荐系统终于走到了同样的路口。 2024 年之前,推荐领域有了 HSTU、TIGER 这样的工作,但大多数团队还在观望。2025 年,我观察到一个明显的转变:大家开始认真地把排序模型 Dense Scaling Up,搞生成式召回和端到端推荐。这很像 2017 年——当时大家忙着把 LR/GBDT/FM 切换到 Deep Model 和双塔,切换过程持续了一两年,之后再没人回头。我的判断是,2026 年将是推荐系统 All-In Transformer 的一年,不改变就落后。
深度网络依赖LayerNorm(RMSNorm),这创造了局部的尺度不变性(Scale Invariance),它带了独特的梯度动力学(Gradient Dynamics)。在这个独特的动力学场域中,我们关于机器学习的直觉被颠覆了,Norm的物理含义从特征强度表示变成了学习进度的旋钮,Norm理论上稳步增加,SGD自带学习率衰减,但是刹车踩的太狠导致了学习的早停,而Weight Decay从正则化项进化为有效学习率的动态调节阀。AdamW如何成为标配:Adam做到了梯度的步长恒定,有效学习率的平缓刹车;Warmup来处理训练早期的权重过小(梯度爆炸)和二阶矩估计不准的问题;AdamW修正了L2正则的问题,引入Weight Decay,把“方向更新”和“进度控制”拆成两个干净的旋钮。
W20 的叙事主线可以概括为:编码 Agent 工具链正在完成从“功能补全”到“平台级操作系统”的跃迁——OpenAI 对 Codex 的沙箱、移动端、hooks 三层能力的集中发布,叠加 Anthropic 官方技能仓库和社区《everything-claude-code》等基础设施的成熟,让编码 Agent 不再是 IDE 里的一个面板,而是一整套可远程调度、可定制、可审计的异步工作系统。与此同时,推理基础设施的竞争焦点也从“训练更大模型”转向“更高效地运行这些模型”——Nous 的 Token Superposition Training 带来 2-3x 训练加速,Perplexity 在 GB200 上优化 Qwen3 MoE 推理吞吐,SemiAnalysis 报告 SGLang 在 DeepSeek V4 上实现 4x 交互吞吐提升——这三个事件共同指向一个信号:模型能力的瓶颈正在从训练侧向 serving 侧迁移。 第二个值得关注的线索是Agent 安全与评估从“最佳实践”走向“系统化治理”。AWS 与 Cisco 联合发布的 AI Registry 试图为 MCP/A2A 代理建立统一可见性与自动化安全扫描层;Simons 的工业论文将制造领域工具调用的幻觉率从 43% 降到 0%;12 指标评估框架基于 100+ 真实部署提炼出了可复用的生产级评估体系。这三个条目分别覆盖了工具注册、领域约束、评估方法论三个维度,说明企业级 Agent 不再只是“会不会跑”的问题,而是“跑得安不安全、有没有被审计”。 第三个线索在产业经济层面:Cerebras IPO 20x 超募、Anthropic 讨论 300 亿美元融资、OpenAI 重新谈判微软协议节省 970 亿美元长期支出——这些数字背后是 AI 基础设施投入从“资本赌注”向“可量化资产”的转变。Epoch AI 报告一个 1GW AI 数据中心的总持有成本为 380 亿美元,其中服务器占比 60%,这为所有地缘政治叙事提供了一个具体的成本锚点。