公告
📣 TikTok 电商基础模型组
🎉【持续招聘中】🎉
致力于打造下一代推荐系统
欢迎联系
 
为什么Anthropic能阶段反超OpenAI

之前是一次开放性的问答,问到了这个问题。可以有非常多的答案,比如通常的说法,更专注于代码能力,代码加速了模型的研发,形成了飞轮;更加专注于 B 端付费客户,比起 C 端没有成型的商业模式,B 端可以一边赚钱,一边积累真实的问题解决反馈。 这些肯定都是,但是我觉得那都是伴随着大量表象的或然,它背后的必然是什么?我认为是一种认知,我最近深刻地认识到:在技术的变革期,你的 Team 当下能落地什么,取决于一年前的认知,模型很大,建立新的 Infra 需要时间,这个放到推荐系统是这样,在 LLM 的发展期(20~26)就影响了更大的时间尺度。

DeepSeek-V4的并行策略和计算通信遮掩

最近模型从 Dense 切到了 MoE,MFU 也相应地暴跌了,大家直觉上觉得 Expert 被切的很小,所以计算强度上不去,但实际切分完的维度至少也有 1024,MFU 暴跌的原因一定不来自这里。深入理解这个问题,就是理解 GPU 的分布式并行计算,要在计算和访存 bound 之外,引入通信 bound,而解决吞吐和 MFU 的问题的手段,就是设计合理的 GPU并行策略,做好 GPU 计算和通信的遮掩(overlap)。 DeepSeek 的 H800 和昇腾卡,8 卡 nvlink 高速互联,跨节点都是 IB(InfiniBand)低速网络,我们手里虽然有 B200,但实际也也没用上 NVL72,所以DeepSeek 的并行策略有普适的借鉴意义——硬件基础相似,低成本方案,新的 MoE 的方案也做了开源。

从 DeepSeek V4 的多专家on-policy Distillation 反观人类学习

2026 年了,一个 LLM 的训练流程并不陌生——pre-train,SFT,RLHF/RLVR。但实际这是一个领域 LLM 的训练方案,比如 Coder/Match/文本专家,怎么整合成一个混合通用模型呢? 最近的 DeepSeek V4技术报告把Post-Train 讲流程讲的更细致了,它先是 pre-train 得到一个 Base-Model,然后先按领域(数学、代码、agent、指令跟随等)分别训练 10 几个专家模型,每个专家都走过 SFT + GRPO 的完整 RL 流程,在自己领域里练到极致。然后关键的一步来了:把这些专家"合成"一个统一模型时,不是让 student 去抄 teacher 的输出分布,而是让 student 自己先 rollout 生成回答,再让多个 teacher 在 student 自己写出来的轨迹上逐 token 给反馈。

zero-claw:把 Claude Code 变成 openclaw 风格的个人助理

用 Claude Code 模拟 openclaw 风格的个人助理——补齐心跳、记忆、进化三件事,知识库走 Karpathy 的 LLM Wiki。

Superpowers-ML 支持 Auto Research:跑两天的 Human on the Loop

在 Claude Code 里跑两天无人值守的 ML 实验循环,靠的不是更聪明的 Agent,而是三层 liveness 机制、TaskList 仪表盘和异步 Note 介入通道。

From Next-One to Next-N:这才是推荐系统的范式改变

推荐系统 20 年来方法换了六七轮,但问题定义从未改变——始终是预测下一个 item。缺多样性、缺发现性、规则泛滥,根源都在这里。真正的范式改变不是换方法,而是重新定义问题:从 Next One 到 Next N。

让 Claude Code 成功率翻倍的 10 个简单习惯

从 context 管理到 harness 设计,10 个让你的 coding agent 告别 context rot、成功率翻倍的实用习惯。

Superpowers-ML:用 Superpowers 给 ML 实验做的 Harness Engineering

Agent 写代码很快,但做 ML 实验却异常困难——代码写完只是开始,真正的验证要等几天甚至几周。一个实现 bug 可能让你放弃整条研究路线,一个 checkpoint 没保存让几天训练白费。本文介绍 Superpowers-ML:将软件工程的 TDD、code review、verification 延伸到 ML 领域,通过四层 Validation Pyramid 在几分钟内抓出问题,用 Watchdog 守护长时间训练,让 agent 每次出手都更准确。

生成式推荐 (Generative Recommendation) 工业界深度 Survey

覆盖 101 篇核心论文(58 篇工业界 + 43 篇学术精选),系统梳理 2022-2026 年生成式推荐从学术概念到工业主流范式的完整技术演进。以 TIGER、HSTU、OneRec 等里程碑论文为核心,深入分析 Semantic ID、模型架构、训练范式、推理增强、长序列建模等关键技术方向。

Vibe Coding 核心心法:管 Agent,如带团队

这不是一篇教大家怎么实操文章,不谈具体的工具和技术,我们来谈谈Vibe Coding的心法。 Vibe Coding 本质是利用 Agent 编码,Agent 背后是 LLM,LLM 是人类的”幽灵“,这出自 Karpathy 2025 年终总结**:”we're not evolving animals. We're summoning ghosts.“,**语言是人类世界的投影,LLM 是人类的幽灵。 工具和技术层出不穷,这是历史上从未出现过的新技术,没有人有经验。但是人性是一致的,拿捏住 Agent 的"人性",把 Agent 当人来管,会让Vibe Coding 从迷茫走向有迹可循。

TCA 51%,MFU 不足 8%——GPU 的隐藏性能损耗

TCA 是 GPU 的核心算力部件 Tensor Core 的时间周期的激活比率,它和 MFU 理论上应当非常接近,日常中会出现 10%~20% 的 GAP,相对稳定,我们就以观察 TCA 为准了。 本文的契机是,当我尝试优化 MFU,拿TCA 作为一个辅助的观察指标,我发现他们之间的 GAP 在一些特殊情况下是不稳定的。由此开始拆解MFU 和 TCA 的 GAP,发现了GPU 的时钟频率在变,矩阵维度不是cuBLAS选择的 kernel shape 的整数倍导致的padding 计算浪费,以及最诡异Flash Attention 2 的 TCA 是 51%,MFU 不到 8%,时钟频率矫正后TCA稳定的是 MFU的 4 倍!

Blackwell Ultra 平台让 agentic AI 的推理成本相比 Hopper 时代下降了35倍

NVIDIA 最近的博客文章显示,Blackwell Ultra 平台让 agentic AI 的推理成本相比 Hopper 时代下降了 35 倍(每 token 成本大幅崩盘),这不是孤立的巧合,而是符合 莱特定律(Wright's Law)的典型表现。