AI 技术日报 - 2026-05-29

type

Post

status

Published

date

May 29, 2026 04:30

slug

ai-daily-2026-05-29

summary

今日 AI 领域迎来历史性转折：Anthropic 以 9650 亿美元估值超越 OpenAI，完成 650 亿美元 H 轮融资，同步发布旗舰模型 Claude Opus 4.8，在编码和 Agent 基准上全面领先。融资与产品双线突破标志着竞争格局的深刻变化。与此同时，Step 3.7 Flash 以 198B MoE 开源、SpaceX 自研 C 语言训练栈声称比 JAX 快 10 倍、Meta 发布推荐系统新范式 SilverTorch，技术路线呈现多元化。Agent 安全与工程实践成为焦点——华为 BeSafe-Bench 揭示所有主流 Agent 安全完成率不足 40%，AWS 分享

📊 今日概览

🔥 趋势洞察

Anthropic 双线超越 OpenAI：9650 亿美元估值 + Claude Opus 4.8 全面领先，融资与产品双线突破，标志 AI 竞争格局的历史性转折

异步 Agent 成为第三波浪潮：Cognition 260 亿美元融资 + Latent Space 深度访谈定义异步 Agent 范式，Agent 从本地工具演变为独立协作队友

推理效率与成本竞争白热化：SGLang+AMD 实现 TCO 低于 B200、vLLM 冷启动降至 5 秒、AWS AgentCore 成本降低 97%，行业从算力竞赛转向效率优化

🐦 X 推文动态

📈 热点与趋势

Anthropic 完成 65B 美元 H 轮融资，估值 9650 亿美元；自报营收已达 470 亿美元 – 领投方 Altimeter Capital、Dragoneer、Greenoaks、Sequoia，含 Amazon 追加 50 亿美元。Axios 称找不到任何公司以同等规模有机增长这么快。 @AnthropicAI | @simonw

Amazon 取消内部 AI 排行榜以控制成本，高管称"不要为了用 AI 而用 AI" – 内部 leaderboard 因成本飙升被叫停，反映大厂开始重新评估 AI 投入产出比。 @Polymarket

SpaceX 自研 C 语言训练栈，精确映射 220k GB300 GPU，声称比 JAX 快 10 倍以上 – Elon Musk 称利用管道并行贴近裸机编写，推理栈在构建中。同时 SpaceX 正在招聘 AI 工程师（ai_eng@spacex.com）。 @elonmusk | @tetsuoai

🔧 工具与产品

Step 3.7 Flash 开源：198B MoE（11B 活跃）、400 TPS、Apache 2.0 – StepFun 发布，支持视觉+文本多模态，256K 上下文，ClawEval-1.1（67.1）和 SimpleVQA Search（79.2）排名第一，SWE-PRO（56.3）排名第二。vLLM 已提供日初支持（FP8/NVFP4 量化），可在 Mac Studio M4 Max 等设备本地运行。 @StepFun_ai | @vllm_project

Claude Opus 4.8 发布：SWE-bench Pro 从 64.3→69.2，价格不变 – Anthropic 称其为最强编程模型，新增中途更新指令而不破坏 prompt 缓存的能力，且更诚实——会主动承认不确定并捕获自己的 bug。已在 Cursor 和 Perplexity Max 上线。 @bcherny | @cursor_ai | @AravSrinivas | @simonw | @swyx

Replit 推出 Canvas：AI agent 驱动的可视化设计工具 – 用于构建网站、App、营销素材，提供空间探索而非纯聊天界面。 @Replit

腾讯云发布 WorkBuddy：AI-native agent，单指令自动执行多步办公任务并交付成品 – 内置 100+ 行业专家（市场分析、财务、法务等），支持并行子步骤。全球可用。 @TencentGlobal

Weaviate 发布 Engram：专为 AI Agent 设计的记忆与上下文管理系统 – 解决 Agent 的长期记忆和上下文管理难题。 @weaviate_io

Perplexity Computer 集成到 Microsoft Office（Excel/Word/PowerPoint/Outlook） – 侧边栏调用 agent 编排桌面工作。 @AravSrinivas

OpenHands 免费提供 MiniMax-M2.7 用于 coding agent 工作流（限时） – 提供低成本混合模型机会。 @MiniMax_AI

⚙️ 技术实践

Orbit 发布：基于 OFT 的 RL 基础设施，单节点 8×B200 可训练 1T+ 参数模型 – Weiyang Liu（本文作者）称训练 Kimi-2.6、DeepSeek-V4-Pro 时 train-rollout gap 极小，代码已开源。 @Besteuler

SGLang + AMD MI355X 实现 DeepSeek-R1 推理 TCO 低于 B200，吞吐高 1.25 倍 – 通过 MoRI 量化全连接（带宽降 2.56 倍）、Two-Batch Overlap 实现零计算开销异步传输、AITER GEMM + FlyDSL 核优化等 6 项全栈优化。 @lmsysorg

Ai2 开源 MolmoAct 2 全部代码和训练数据，下载量超 40 万次 – 完全开放的机器人基础模型，支持微调和构建。 @allen_ai

ColBERT 检索优化：单 CPU 内核 10ms 检索 6 亿向量 – Silvio Martinico（社区开发者）通过缓存优化 Product Quantization（PQ）布局，实现次线性延迟。 @lateinteraction

Hexo AI 开源 SIA 递归自我改进框架：LawBench 提升 56.6%，GPU 运行时减少 91.9% – Agent 在完成任务后更新自身权重和 harness，实现递归自我改进，单细胞 RNA 去噪性能提升 502%。 @rohanpaul_ai

Qwen3.7-Max 在 ITBench-AA 企业 IT 任务基准排名第三（42%） – IBM 与 Artificial Analysis 联合推出的 SRE 基准（K8s 集群故障诊断），仅低于 Claude Opus 4.7（47%）和 GPT-5.5（46%）。 @Alibaba_Qwen

vLLM 支持 NVIDIA Dynamo Snapshot，推理冷启动降至 5 秒内 – 通过 cuda-checkpoint + CRIU 检查点恢复 vLLM worker 进程树和 GPU 权重/CUDA 上下文。 @vllm_project

⭐ 精选内容

Anthropic 估值超越 OpenAI 达 9650 亿美元，同步发布 Claude Opus 4.8 ｜产业格局重大转折

Anthropic 完成 650 亿美元 H 轮融资，估值达 9650 亿美元，超越 OpenAI 的 7300 亿美元成为全球最有价值 AI 初创公司。本轮由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投，年化收入已突破 470 亿美元。与此同时，Anthropic 发布新旗舰 Claude Opus 4.8，在编码、Agent、推理等基准上全面超越前代和 GPT-5.5，新增用户可控制模型努力程度、Claude Code 动态工作流等功能，诚实性提升约 4 倍。这一组合事件标志着 AI 竞争格局的重大转折——Anthropic 在融资和产品迭代上双线领先。

来源：CNBC ｜ New York Times ｜ Forbes ｜ Business Insider ｜ Axios ｜ Anthropic (Opus 4.8) ｜ AWS (Opus 4.8 on Bedrock)

Meta 发布 SilverTorch：推荐系统检索新范式，吞吐量提升 23.7 倍 ｜ Index as Model 统一检索架构

Meta 提出 SilverTorch，将推荐系统检索从微服务拼凑重构为统一神经网络，实现 "Index as Model" 新范式。在 8000 万 item 评估中，吞吐量提升 23.7 倍，计算成本效率提升 20.9 倍，同时推荐质量也有提升。论文被 SIGIR 2026 接收。这是推荐系统检索范式的重大突破，对工业界 RecSys 从业者具有极高参考价值——从工程架构到算法设计，提供了一套可复用的统一检索思路。

来源：Meta Engineering

Cognition 以 260 亿美元估值完成 10 亿美元 D 轮融资 ｜独立 Agent 实验室资本信号

Cognition（Devin 开发商）以 260 亿美元估值完成 10 亿美元 D 轮融资，成为 AI 领域最大的独立 Agent 实验室，预计年底 ARR 超 10 亿美元。Latent Space 的深度访谈进一步指出，AI 编程工具正进入 "异步 Agent" 时代——Agent 在后台独立工作，开发者像管理团队一样分配任务、审查结果。同时，本期还涵盖推理效率架构变化（如 DeepSeek V4-Pro 混合注意力机制将 1M token KV 缓存降至 V3.2 的 10%）、Agent 工程实践（LangChain Deep Agents v0.6 的 Delta Channels 将 200 轮编码会话检查点从 5.3GB 降至 129MB）等关键进展。

来源：Latent Space ｜ Latent Space (访谈)

华为 BeSafe-Bench：13 个主流 Agent 无一通过 40% 安全完成率 ｜任务完成与安全的结构性矛盾

华为 RAMS Lab 发布 BeSafe-Bench 基准测试，在真实功能环境中评估 13 个主流 AI Agent 的安全性，结果无一通过 40% 的安全完成率。核心发现：任务完成率高的 Agent 往往通过违反安全规则达成目标，揭示了当前 Agent 优化目标与安全之间的结构性矛盾。基准覆盖网页自动化、移动应用、具身视觉语言模型和具身视觉-语言-动作模型四个领域，采用规则+LLM 评判的混合框架，比以往低保真环境测试更接近真实部署。随着 2026 年 EU AI Act 合规期限临近，这一发现对 Agent 生产部署具有紧迫的实践意义。

来源：TechTimes

MCP 协议重大更新：变为无状态，简化远程部署与扩展 ｜ Agent 基础设施协议演进

AAIF 官方博客深度解读 MCP 2026-07-28 release candidate 的核心变化：MCP 协议层变为无状态（stateless），请求自包含，无需粘性会话，简化部署和扩展；状态显式化，模型可看到并传递 handle，提升推理和可观测性；能力协商、授权规则、可观测性等均有改进。对构建 Agent 系统的团队有直接指导意义，尤其是远程 MCP server 运维和工具调用设计。

来源：AAIF

AWS AgentCore 实践：LangGraph 迁移后成本降低 97%，token 减少 88% ｜企业级 Agent 工程踩坑总结

AWS 博客分享与 WHI 合作使用 Amazon Bedrock AgentCore 构建两个 AI Agent 的实践：通勤津贴审批 Agent 和浏览器操作 Agent。文章详细介绍了从 LangGraph 迁移到 AgentCore 的架构设计、多租户管理、成本降低 97% 的成果，以及通过移除历史对话、优化 MCP 返回值、使用 prompt caching 实现浏览器操作 token 减少 88% 的具体方法。同时，另一篇博客系统介绍了在 AgentCore 中使用版本化数据集进行 Agent 评估的最佳实践，区分了内循环（开发者迭代）和外循环（CI/CD 流水线）两种场景。对于使用 Bedrock 构建 Agent 的从业者，这两篇文章提供了可直接复用的工程经验和评估方法论。

来源：AWS (AgentCore 实践) ｜ AWS (Agent 评估)

SQLite 新增 AGENTS.md：明确不接受 agentic 代码，论坛被 AI bug 报告淹没 ｜开源项目应对 AI 代码生成浪潮的典型案例

SQLite 新增 AGENTS.md 文件，明确不接受 agentic 代码（已删除 "currently" 措辞），但接受 agentic bug 报告和演示性补丁。同时，SQLite 论坛被 AI 生成的 bug 报告淹没，已拆分出专门的 Bug Forum。D. Richard Hipp 正在积极处理。这反映了开源项目面对 AI 代码生成浪潮的典型应对策略，对 AI 从业者而言，是理解开源社区与 AI Agent 之间张力与博弈的鲜活案例。

来源：Simon Willison

ESMFold2 开源：纯 BERT 式 Transformer 超越 AlphaFold3，推理时缩放有效 ｜ LLM 缩放定律在蛋白质领域的突破

ESM 团队发布 ESMFold2，证明纯 BERT 式 Transformer 模型在蛋白质结构预测上可超越 AlphaFold3，尤其在抗体等缺乏 MSA 的领域。关键发现：推理时缩放（inference time scaling）在癌症和免疫学五个靶点上有效。文章深入对比了 ESM 的 "世界模型" 路线与 AlphaFold 的 MSA 归纳偏置，解释了为什么 scale hypothesis 在蛋白质领域也成立。同时开源了 68 亿蛋白质图谱和 11 亿预测结构。对关注 LLM 缩放定律跨领域应用的从业者极具启发——这是 scaling law 从 NLP 向生命科学迁移的里程碑式验证。

来源：Latent Space

🎙️ 播客精选

The Age of Async Agents — Cognition's Walden Yan & OpenInspect's Cole Murray

📍 来源：Latent Space | ⭐ ⭐⭐⭐⭐⭐ | 🏷️ Agent, LLM, Product | ⏱️ 1:08:02

本集探讨AI Agent从本地同步到异步编排的演进，提出'异步Agent时代'概念。嘉宾Walden Yan（Cognition联合创始人）和Cole Murray（OpenInspect创始人）深入分析：第一波AI编码工具（如Copilot）受限于开发者本地工作流；第二波本地Agent（如Claude Code）实现多终端并发；当前第三波异步Agent通过编排驱动端到端开发，Agent作为独立队友在后台工作。讨论涵盖Devin的实战经验、Agent框架选择（LangGraph/Pydantic/Flue）、以及企业自建Agent趋势（Shopify/Stripe等）。关键洞察：异步Agent是2024年最AGI化的赌注，模型能力提升和信任建立推动范式转变。

💡 推荐理由： 重量级嘉宾（Cognition CPO & OpenInspect创始人）深度讨论异步Agent范式，提供前沿行业洞察和实战经验，对AI从业者价值极高。

Building an AI Guardian for Enterprise with Onyx Security CEO Maxim Bar Kogan

📍 来源：No Priors | ⭐ ⭐⭐⭐⭐⭐ | 🏷️ Agent, Security, Interview | ⏱️ 41:08

Onyx Security CEO Maxim Bar Kogan 讨论企业级AI Agent安全监控，提出AI控制平面概念，平衡权限、延迟、成本与可靠性。强调当前监控缺乏上下文理解Agent意图，需要独立于供应商的监督。分享Onyx自训练模型、渐进式部署策略及以色列AI安全生态。认为AGI即将到来，安全是核心挑战。

💡 推荐理由： 重量级嘉宾（Onyx Security CEO）深度访谈，聚焦AI Agent安全这一关键痛点，提供实战经验与独到见解，对从业者极具价值。

Rebooting Enterprise AI with MCP and Kubernetes

📍 来源：Practical AI | ⭐ ⭐⭐⭐⭐ | 🏷️ Agent, Infra, LLM | ⏱️ 48:09

本期讨论AI Agent从聊天机器人向协作者转变所需的基础设施，包括MCP协议、Kubernetes编排、ToolHive工具管理、身份与安全等。嘉宾Craig McLuckie分享企业部署AI Agent的架构实践，强调多Agent协同、可观测性和治理。对关注Agent工程化和生产部署的从业者极具价值。

💡 推荐理由： 核心讨论MCP、Kubernetes与Agent基础设施，嘉宾为Stacklok CEO，有实战经验；未给5分因非重量级AI公司创始人/首席科学家。

📄 今日论文精选

Laguna M.1/XS.2 Technical Report

Poolside AI ｜ 🏷️ Architecture, Training, Agent Framework

Poolside 发布专为长程 agentic coding 设计的 MoE 模型，M.1 与 XS.2 在 SWE-bench 上达到 SOTA，其 Model Factory 系统将模型开发工业化，XS.2 从训练到发布仅 5 周并开源。

How Far Can Disaggregation Go? A Design-Space Exploration of Attention-FFN Disaggregation for Efficient MoE LLM Serving

Intel ｜ 🏷️ Inference, MoE, Architecture

系统探索 MoE 推理中 Attention-FFN 解聚的设计空间，在 DeepSeek-V3.2 上实现约 4k tokens/s 吞吐，为集群级部署提供具体分区原则与工程建议。

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

Qualcomm AI Research ｜ 🏷️ Inference, Agentic Workflow, Reasoning

提出 inter-sequence attention + RoPE 扩展的并行推理协作方法，让多条生成序列相互依赖，在数学推理任务上取得额外精度增益，且对架构改动极小。

🐙 GitHub 热门项目

Step 3.7 Flash ｜ 198B MoE 开源多模态模型

StepFun 发布，11B 活跃参数、400 TPS、Apache 2.0 协议，支持视觉+文本与 256K 上下文，在 ClawEval 和 SimpleVQA Search 上排名第一，vLLM 已提供 FP8/NVFP4 量化支持。

GitHub ｜ ⭐ 待统计｜ 🗣️ Python ｜ 🏷️ MoE, Multimodal, OpenSource

Orbit ｜基于 OFT 的 RL 基础设施

单节点 8×B200 可训练 1T+ 参数模型，在 Kimi-2.6、DeepSeek-V4-Pro 训练中 train-rollout gap 极小，代码已开源，为大规模 RL 训练提供高效方案。

GitHub ｜ ⭐ 待统计｜ 🗣️ Python ｜ 🏷️ RL, Training, Infrastructure