AI 技术日报 - 2026-05-26

type

Post

status

Published

date

May 26, 2026 09:20

slug

ai-daily-2026-05-26

summary

今日 AI 领域迎来多个里程碑：OpenAI 与 DeepMind 双线攻克 80 年未解数学难题，标志 LLM 推理能力质变。同时 HRM-Text 以 1500 美元成本挑战 Scaling Law，DeepSeek 永久降价 75% 至 GPT-5.5 的 1/9，行业从“算力军备竞赛”转向“效率与成本竞争”。Agent 生态全面走向生产级，AWS MCP Server 正式 GA、auth.md 认证协议发布、微软 SkillOpt 提出系统化技能优化。中国 AI 模型周使用量连续四周超美国，DeepSeek-V4-Flash 居榜首。

📊 今日概览

🔥 趋势洞察

预训练效率革命：HRM-Text 用 1/100 的计算量达到 SOTA，叠加 DeepSeek 永久降价 75%，行业正从“算力军备竞赛”转向“效率与成本竞争”

Agent 技能工程化：微软 SkillOpt 将技能文件视为可训练参数，52 种设置下最优，Agent 技能正从手写/生成走向系统化优化

AI 数学推理质变：OpenAI 与 DeepMind 双线攻克 80 年未解数学难题，AI 首次在数学上取得如此突破，对 LLM 推理能力研究有深远启示

🐦 X 推文动态

📈 热点与趋势

Grok Build Beta 面向所有 SuperGrok 和 X Premium+ 用户开放 – 支持 Plan Mode、Imagine 生成图片/视频，以及 CLI 自动化与编排 @xai

中国 AI 模型周使用量超美国，连续 4 周第一 – 周使用量 9.223 万亿 tokens，环比增 19.89%；美国为 4.93 万亿 tokens，环比增 16.27%。DeepSeek-V4-Flash 居榜首 @zerohedge

Google AI Studio 支持免费构建原生 Android 应用，一周内创建超 25 万个 – 无需编码，<1% 用户此前有开发经验 @OfficialLoganK

字节跳动/微软/OpenAI 动态：字节Seed 发表 LLM 缩放定律论文，微软推 SkillOpt，DeepSeek 称推理成本比 OpenAI 低 50 倍 – DeepSeek 永久降价 75%后，10 亿输出 token 成本约 $3,480，同级 OpenAI 约 $30,000、Claude 约 $15,000 @BullTheoryio | @fly51fly | @omarsar0

🔧 工具与产品

Qwen3.7-Max 公布 Code Arena 排名第二 + 隐式缓存上线 – Qwen 官方：Qwen3.7-Max（阿里通义系列模型）在 Code Arena 得分 1541，仅次于 Claude；同日上线隐式缓存，无需配置即可加速降本，可切换显式缓存 @Alibaba_Qwen | @alibaba_cloud

Unitree 发布 WVLA 2.0 模型：多任务全自动收拾会议室 – 该机器人模型实现全自主多任务操作，单次拍摄完成，存在强外部干扰 @UnitreeRobotics

微软因成本取消 Claude Code 许可，Uber 发现低阶模型就够了？ – 报道称微软因 token 成本取消数千工程师的 Claude Code 许可，转向 GitHub Copilot；Uber 全年 AI 预算 4 月即耗尽 @BullTheoryio（独立博主）

Codex Shim 指南大更新，支持任意模型在 Codex 中全功能运行 – 社区开发者 Terp 发布更新，解决所有兼容修复 @OnlyTerp

MathCode 0.2.0 发布：最大化 prompt-cache 命中率，API 成本降低最多 90% – Yifan Zhang（MathCode 作者）推出新版本 @yifan_zhang_

⚙️ 技术实践

Google DeepMind 发布 AlphaProof Nexus：基于 Gemini 的 agentic 形式化证明框架 – 自主解决 9 个 Erdős 开放问题（含两个 56 年未解问题）、44 个 OEIS 问题，以及一个 15 年未解的代数几何问题 @pushmeet

微软研究院 SkillOpt：将 agent skill 文件视为可训练参数，52 种设置下最优 – 用验证门控优化器编辑 skill 文档，GPT-5.5 上提升 23.5 分，技能可跨模型/框架迁移 @omarsar0

RAG、文档理解和 AI Agent 三年演进全景图：116 页幻灯片开源 – Jerry Liu（LlamaIndex 创始人）发布 workshop 完整材料，覆盖 12 个朴素 RAG 痛点、重排/查询重写、文档解析瓶颈 @jerryjliu0

DR Tulu 被 ICML 2026 接收为 Oral：共演化 agent 与奖励方法 – Rulin Shao 团队验证弱模型也可作为评估器 @RulinShao

On-policy distillation 成为热门后训练技术，已有 183 篇引用论文 – Niels Rogge（Hugging Face 工程师）称该技术在 PapersWithCode 已收录 @NielsRogge

NanoGPT 训练世界纪录刷新至 81.2 秒 – Alex Wa 使用 learnable XSA（可学习每头标量注意力减法），应用于 6 个非配对头层 @_djdumpling

Sakana AI 发布 CUSP 基准：AI 无法预测科学突破，但可预测自身基准 – 与 Oxford、Stanford、Allen AI 合作，用 4760 个科学事件测试前沿模型 @hardmaru

Any2Any：仅用 1% 计算/数据实现人形机器人跨本体全身跟踪迁移 – 将 Gear-Sonic 策略从 Unitree G1 迁移至 LimX Oli/Luna @YJH_GIGIYE

SkillOpt 深度解读：技能文件训练化+自身经验总结 – Garry Tan（Y Combinator 创始人）引用社区实践，提出技能文件描述与体分离问题、保护段不变性 @garrytan

给你 agent 写技能时的token 效率提升技巧 – Peter Steinberger（PSPDFKit 创始人）分享技能文件和 token 效率检测工具 @steipete

ByteDance Seed 论文：从 Shannon 视角分析 LLM 容量和缩放定律 – 论文标题《LLMs as Noisy Channels》 @fly51fly

⭐ 精选内容

AI 攻克 80 年未解数学难题：OpenAI 与 DeepMind 双线突破 ｜两大实验室各自解决 Erdős 猜想

OpenAI 与 Google DeepMind 几乎同时宣布在数学推理上取得里程碑式突破。OpenAI 的 LLM 解决了 Paul Erdős 于 1946 年提出的平面单位距离猜想（困扰数学家 80 年），突破源于一个简单的提示词：“Erdős 是否错了？”。DeepMind 的 AlphaProof Nexus 系统则以每次推理仅数百美元的成本，自主解决了九个开放的 Erdős 难题，其中两个已悬而未决 56 年。与 OpenAI 的自然语言方法不同，DeepMind 使用 Lean 编译器自动验证每一步证明。剑桥数学家 Tim Gowers 评价称，若人类写出此证明可直接发表。这是 AI 首次在数学上取得如此突破，对 LLM 推理能力的研究方向有深远启示。

来源：New Scientist ｜ The Guardian ｜ The Decoder ｜ Phys.org

HRM-Text：1500 美元训练出匹敌 7B 模型的 1B 模型 ｜突破 Scaling Law 的效率新范式

HRM-Text 提出分层循环模型（HRM）替代标准 Transformer，通过 MagicNorm 稳定深度循环训练，并采用任务完成目标（PrefixLM）替代原始文本预训练。1B 参数模型仅用 40B token、1500 美元预算、1.9 天训练，在 MMLU（60.7%）、GSM8K（84.5%）、MATH（56.2%）上达到 2-7B 开源模型水平，计算量减少 96-432 倍。代码已开源。该工作直接挑战了“大规模预训练必须依赖海量数据和算力”的假设，为低成本高效预训练提供了实证突破。

来源：arXiv

2026 开源 LLM 选型指南：专业化取代通用排名 ｜按 Coding/RAG/Agent 等场景选模型

2026 年开源 LLM 市场进入“专业化元年”。多篇综述和排行榜（LLM Stats、Stormap、CodeSOTA）显示，MoE 架构和小参数模型（7B-14B）在特定任务上已超越通用大模型。核心洞察：应摒弃传统通用基准排名，转而按 Coding、RAG、Agents、本地部署等具体工作负载评估模型。榜单中，GLM-5、Kimi K2.6、DeepSeek-V4-Pro-Max、Qwen3.5-397B 等新模型竞争激烈，其中 Kimi K2.6 是前十中最便宜的开源模型（$0.95/M tok）。同时，Scale Labs 发布的排行榜还包含大量未公开模型（如 GPT-5.5、Muse Spark）的基准数据。

来源：Stormap ｜ LLM Stats ｜ Scale Labs ｜ CodeSOTA

LLM Agent 评估的“披露危机”：12 篇基准论文平均得分仅 0.38/1.0 ｜可重复性系统性缺失

一篇元研究论文对 12 篇知名 LLM Agent 基准论文进行披露审计，设计了包含基准身份、框架规范、推理设置、成本报告、失败分解的 5 维度评分框架。结果发现，Agent 基准的平均披露得分仅 0.38/1.0，远低于经典静态基准的 0.66；最大缺口在于推理成本（0 篇披露）和框架规范（无完整容器镜像）。作者发布了 JSON Schema、代码簿和原始评分表。另一项工作 AgentAtlas 则提出超越传统 outcome leaderboard 的评估框架，包含六状态控制决策分类和九类轨迹失败分类。对 Agent 从业者而言，这些是理解当前基准结果差异根源的必读材料。

来源：arXiv (审计) ｜ arXiv (AgentAtlas)

AWS MCP Server 正式 GA，MCP 生态走向生产级 ｜完整 API 覆盖 + IAM 治理

AWS 托管 MCP 服务器正式 GA，提供完整 API 覆盖和基于 IAM 的治理，成为 AI 编码代理安全访问 AWS 服务的标准接口。该服务器是 AWS Agent Toolkit 的一部分，支持最新文档、认证 API 访问和沙盒脚本执行。同时，一篇关于 MCP 服务器成熟度的深度分析提出了六层模型：从 Level 1 的简单 API 封装到 Level 6 的写意图安全模式，发现仅不到 2% 的服务器达到 Level 4（领域知识集成），约 70% 停留在 Level 1。另一份生态追踪报告则编目了 56 个生产就绪的 MCP 服务器，揭示了注册表碎片化、OAuth 2.1 成为主流认证等关键趋势。

来源：InfoQ ｜ Dev|Journal ｜ Digital Applied

DeepSeek 永久降价 75%，定价战重塑 API 市场格局 ｜ V4-Pro 价格仅为 GPT-5.5 的 1/9

DeepSeek 将旗舰模型 V4-Pro 的 API 价格永久下调 75% 至每百万 token 0.44 美元，远低于 OpenAI GPT-5.5 的 5 美元和 Anthropic Claude Opus 4.7 的约 3 美元。公司正以 440 亿美元估值寻求首轮外部融资，OpenRouter 市场份额已升至 23.1%。V4-Pro 是最大的开源权重模型（1.6T 参数），全球排名第 9。这一永久性低价策略直接冲击美国 AI 实验室的定价体系，可能重塑 AI 市场经济学，对从业者的 API 选型成本产生直接影响。

来源：Caixin Global ｜ TheStreet

AI Agent 认证协议与术语标准化：auth.md 与 Hugging Face 术语表 ｜基础设施走向规范化

WorkOS 发布 auth.md 开放协议，解决 AI Agent 在 Web 服务上的注册与认证问题。协议基于 OAuth 标准，定义 Agent Verified（ID-JAG 令牌）和 User Claimed（OTP 邮箱验证）两种流程，支持作用域、审计和撤销。另一篇对比文章系统评估了 WorkOS、Stytch、Auth0 等平台在 MCP 认证场景下的适用性。同时，Hugging Face 发布 Agent 术语表，系统定义了 model、scaffolding、harness、agent、context engineering、policy、tool use 等易混淆概念，为 Agent 工程社区提供了统一的 mental model。

来源：MarkTechPost (auth.md) ｜ MarkTechPost (认证平台对比) ｜ Hugging Face

📄 今日论文精选

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

Microsoft ｜ 🏷️ Agent Framework, Agentic Workflow, Fine-tuning

首个系统性的可控制文本空间优化器，将 Agent 技能文件视为可训练参数，52 个评估单元全部最优，GPT-5.5 上提升 23.5 分，技能可跨模型/框架迁移。

FastKernels: Benchmarking GPU Kernel Generation in Production

Snowflake AI Research ｜ 🏷️ Agent Framework, Inference, Benchmark

覆盖 96.2% HuggingFace 架构的生产级 GPU Kernel 基准测试，揭示最强 agent 仅 0.94x 加速，基准-生产不匹配是当前核心瓶颈。

Same Model, Different Weakness: How Language and Modality Reshape the Jailbreak Attack Surface in Frontier MLLMs

Appen ｜ 🏷️ Safety, Multimodal, Agentic Workflow

首次系统揭示跨语言多模态越狱攻击面差异：语言和模态的 alignment 失效机制不同，安全排名在语言间不保持，Qwen Omni 在西班牙语下反超 Pixtral 成为最脆弱模型。

🐙 GitHub 热门项目

claude-cookbooks ｜ Claude 官方使用指南

Anthropic 官方发布的 Jupyter Notebook 集合，覆盖函数调用、多步推理、Agent 工作流等高级用法。直接运行学习，是掌握 Claude 最佳实践的最权威起点。

GitHub ｜ ⭐ 44,202 ｜ 🗣️ Jupyter Notebook ｜ 🏷️ LLM, Agent, DevTool

OpenBB ｜ AI Agent 金融数据平台

面向分析师和 AI Agent 的统一金融数据接口，支持自然语言查询和 Agent 集成，内置量化分析功能，填补了 Agent 在金融领域的数据接入空白。

GitHub ｜ ⭐ 68,104 ｜ 🗣️ Python ｜ 🏷️ Agent, Data, DevTool