今日 AI 领域迎来多个里程碑事件:DeepSeek 启动 74 亿美元首轮融资,估值达 520-590 亿美元,中国大模型竞争格局生变。同时,OpenAI 与 Anthropic 均提交机密 S-1 文件,启动 IPO 准备。Agent 生态全面走向生产级——Kimi 发布支持 300 个并行代理的桌面端 Kimi Work,Perplexity Computer 与哈佛合作研究显示任务耗时降 87%、成本降 94%,AWS 推出云端托管编码 Agent 方案 Bedrock AgentCore。技术层面,FrontierCode 新基准揭示半数 SWEBench 结果不可合并,vLLM-O
今日 AI 领域呈现"中美模型竞争白热化"与"硬件生态深度绑定"两大主线:中国模型在 OpenRouter 上首次全面超越美国模型,Kimi K2.5、MiniMax M2.5 和 DeepSeek V4 成为关键驱动力。硬件层面,NVIDIA 与 SK Hynix 达成多年内存技术合作,黄仁勋警告芯片短缺将持续数年。同时,OpenAI 定制芯片负责人 Clive Chan 跳槽 Anthropic,AI 芯片人才争夺战升级。Codex 推出"每日一人 10 倍用量"挑战,Slack 揭秘万亿级消息搜索架构,GPU Direct Storage 实战指南展示检查点从 5 分钟降至 40 秒的突
本周的叙事可以用一个词概括:兑现——模型厂商在推理效率、Agent真实能力、平台生态三个方向集中交付上季度承诺的成果。微软CEO Satya Nadella在Build大会后连续两场深度访谈中,将公司定位从“前沿模型提供商”重新定义为“前沿智能平台”,并透露出OpenAI关系的新平衡。同时,NVIDIA、Google、微软在推理侧密集出货:Nemotron 3 Ultra以550B MoE架构实现5倍Agent推理加速,Gemma 4推出12B端侧多模态模型,微软MAI系列一口气发布7款模型并公布MAIA 200芯片的30%性价比优势。Agent评估领域,Andon Labs用自动售货机揭示基准与现实之间的巨大鸿沟,而OpenWebRL则在视觉web Agent上证明多轮RL的有效性。形式化定理证明方面,Goedel-Architect和LEAP两篇论文将开源系统推向99.2% MiniF2F和满分Putnam的新水平。最后,OpenAI的Lockdown Mode和Dreaming记忆升级在安全和产品体验上完成了碎片拼图——Lockdown Mode提供了一种确定性对抗Prompt注入的方案,Dreaming则让ChatGPT的记忆从用户手动保存进化到后台主动合成。
今日 AI 领域迎来多个里程碑:NVIDIA 发布 550B MoE 混合 Mamba-Attention 的 Nemotron 3 Ultra,专为长周期 Agent 工作流设计,推理加速 5 倍。Axiom Math 的 AI 系统在普特南数学竞赛中满分 120 分,超越人类顶尖本科生,形式化验证驱动推理能力质变。OpenAI 升级 ChatGPT 记忆系统至“做梦”范式,后台自动合成上下文记忆。微软 CEO Satya Nadella 在深度访谈中阐述 AI 平台转型战略,强调多模型生态与全栈构建者崛起。同时,Supabase 完成 5 亿美元融资估值达 100 亿美元,Cursor 推
今日 AI 领域迎来多个重磅发布与产业信号:微软发布自研推理模型 MAI-Thinking-1 及 7 个新模型,并推出 Agent Control Specification 开源标准,标志其 AI 战略全面加速。GitHub 发布 Agent-native 桌面控制中心 Copilot app,其 COO 透露 AI Agent 导致代码提交量激增 1400%,基础设施面临新挑战。OpenAI Codex 周活用户突破 500 万,非开发者占比激增,正从编程工具向通用生产力平台演进。同时,Anthropic 将 Project Glasswing 扩展至 15 国关键基础设施,发现超 10
本周 AI 产业的核心叙事围绕一条主线展开:Agent 从“帮开发者写代码”正式演变为“在后台独立工作”,而支撑这一转变的推理效率、安全评估和资本军备竞赛同步加速。Anthropic 的 Opus 4.8 和 Dynamic Workflows 将并行子 Agent 数量推到数百个,OpenAI 的 Codex 扩展至 Windows 平台并支持移动端远程监控,xAI 也以极低定价推出专长 agentic coding 的 grok-build-0.1——这些都不是“更好的 Tab 补全”,而是让 Agent 以异步队友身份参与开发的新范式。Latent Space 对 Cognition 和 OpenInspect 创始人的访谈系统梳理了从 Copilot (第一波) 到本地 Agent (第二波) 再到异步 Agent (第三波) 的演进,其中 Cursor CEO 提到的“第三时代”在本周被多家实际操作验证。 与范式并行的是资本对 Agent 赛道的押注:Anthropic 完成 965 亿美元 H 轮(估值 9650 亿),营收年化 470 亿;Cognition 以 260 亿估值融得 10 亿美元 D 轮,预计年底 ARR 超 10 亿。模型层同样密集更新——Claude Opus 4.8 在多项编码和 Agent 基准上超越 GPT-5.5,诚实性提升约 4 倍;MiniMax-M2 以 9.8B 激活参数实现 229.9B 总参的 MoE 性能;Qwen-VLA 则将视觉-语言-动作统一进单一模型,在 7 个机器人基准上达到 SOTA。推理效率方面,vLLM 集成 fastokens 用 Rust BPE tokenizer 消除长上下文瓶颈,MobileMoE 在商品手机上实现 1.8–3.8× 加速,Orbit 基础设施(tweet)甚至能在单节点 8×B200 上训练万亿参数模型的 RL。安全侧同样有进展,OpenAI 发布第三方评估共享手册,Redpanda 提出 out-of-band 元数据通道架构用于 Agent 安全治理,Onyx Security 推出企业级 Agent 监控。 以下是四个主题的详细分析。