Recsys Frontier | 分享推荐系统的技术理解，追踪推荐系统的前沿动态·

|

Scaling 这个词从 LLM 扩展到推荐系统，最近也是驱动了推荐系统的核心收益。它有 Scaling Law 的 paper 提出，原本是指算力、参数、数据和 Loss 的 powerlaw 经验关系。由于推荐系统一直也是用全数据的，那么实际就是指扩展推荐模型的网络参数量，能够持续稳定地提升离线指标。之前迭代了很久的成熟的工业模型，折腾网络结构和特征，每次迭代收益来到了千分位，突然又能有几个百分点地提升了，这就是网络参数 Scaling 的魅力，和转为业界共识的核心原因。但这不是推荐系统的第一次 Scaling，或者说网络参数Scaling 背后是一种做推荐目标优化的思维方式：放弃掉算法局部技巧的细枝末节，找到一个可以扩展的轴，转动它能够稳定地影响业务指标，你就把一个玄妙未定的算法研究问题转化成了稳定可预期的工程问题。

文章详情

|

LLM

最近 DeepSeek V4 的多专家整合方案采用了OPD（On-Policy Distillation），在工业级项目上证明了OPD 在后训练中占据一席之地。而它的进阶版本OPSD（On-Policy Self-Distillation）也在 Cursor 的模型训练上大规模使用，并且展现出在利用隐式反馈数据，定向纠错和持续学习上的潜力。文章包括： • 知识蒸馏的 3 种范式：KD，OPD，OPSD。 • RLVR 的信用分配问题与稀疏 Reward问题，OPSD能联合弥补，定向纠错 • OPSD 不局限于显式的人类标注（RLHF），有潜力利用文本隐式用户反馈持续学习。

文章详情

|

LLM

在 DeepSeek-V4，MiMo-V2，Minimax-M2，Qwen3-Next，GLM-4.5 的最新技术报告里，有一个被共同采用的技术模块MTP（Multi-Token Prediction）。它不仅作为预训练的辅助 loss，提升了模型效果，又能作为 draft model 进行投机解码推理加速，实现了多快好省，变成了 LLM 标配之选。

文章详情

|

LLM

思考

之前是一次开放性的问答，问到了这个问题。可以有非常多的答案，比如通常的说法，更专注于代码能力，代码加速了模型的研发，形成了飞轮；更加专注于 B 端付费客户，比起 C 端没有成型的商业模式，B 端可以一边赚钱，一边积累真实的问题解决反馈。这些肯定都是，但是我觉得那都是伴随着大量表象的或然，它背后的必然是什么？我认为是一种认知，我最近深刻地认识到：在技术的变革期，你的 Team 当下能落地什么，取决于一年前的认知，模型很大，建立新的 Infra 需要时间，这个放到推荐系统是这样，在 LLM 的发展期（20～26）就影响了更大的时间尺度。

文章详情

|

Transformer

LLM

最近模型从 Dense 切到了 MoE，MFU 也相应地暴跌了，大家直觉上觉得 Expert 被切的很小，所以计算强度上不去，但实际切分完的维度至少也有 1024，MFU 暴跌的原因一定不来自这里。深入理解这个问题，就是理解 GPU 的分布式并行计算，要在计算和访存 bound 之外，引入通信 bound，而解决吞吐和 MFU 的问题的手段，就是设计合理的 GPU并行策略，做好 GPU 计算和通信的遮掩（overlap）。 DeepSeek 的 H800 和昇腾卡，8 卡 nvlink 高速互联，跨节点都是 IB（InfiniBand）低速网络，我们手里虽然有 B200，但实际也也没用上 NVL72，所以DeepSeek 的并行策略有普适的借鉴意义——硬件基础相似，低成本方案，新的 MoE 的方案也做了开源。

文章详情

|

LLM

2026 年了，一个 LLM 的训练流程并不陌生——pre-train，SFT，RLHF/RLVR。但实际这是一个领域 LLM 的训练方案，比如 Coder/Match/文本专家，怎么整合成一个混合通用模型呢？最近的 DeepSeek V4技术报告把Post-Train 讲流程讲的更细致了，它先是 pre-train 得到一个 Base-Model，然后先按领域（数学、代码、agent、指令跟随等）分别训练 10 几个专家模型，每个专家都走过 SFT + GRPO 的完整 RL 流程，在自己领域里练到极致。然后关键的一步来了：把这些专家"合成"一个统一模型时，不是让 student 去抄 teacher 的输出分布，而是让 student 自己先 rollout 生成回答，再让多个 teacher 在 student 自己写出来的轨迹上逐 token 给反馈。

文章详情

|

工具

Agentic Engineering

用 Claude Code 模拟 openclaw 风格的个人助理——补齐心跳、记忆、进化三件事，知识库走 Karpathy 的 LLM Wiki。

|

在 Claude Code 里跑两天无人值守的 ML 实验循环，靠的不是更聪明的 Agent，而是三层 liveness 机制、TaskList 仪表盘和异步 Note 介入通道。

|

推荐系统 20 年来方法换了六七轮，但问题定义从未改变——始终是预测下一个 item。缺多样性、缺发现性、规则泛滥，根源都在这里。真正的范式改变不是换方法，而是重新定义问题：从 Next One 到 Next N。

文章详情

|

Agentic Engineering

Harness Engineering

从 context 管理到 harness 设计，10 个让你的 coding agent 告别 context rot、成功率翻倍的实用习惯。

文章详情

|

Agentic Engineering

Harness Engineering

Agent 写代码很快，但做 ML 实验却异常困难——代码写完只是开始，真正的验证要等几天甚至几周。一个实现 bug 可能让你放弃整条研究路线，一个 checkpoint 没保存让几天训练白费。本文介绍 Superpowers-ML：将软件工程的 TDD、code review、verification 延伸到 ML 领域，通过四层 Validation Pyramid 在几分钟内抓出问题，用 Watchdog 守护长时间训练，让 agent 每次出手都更准确。

文章详情

|