type
Post
status
Published
date
May 26, 2026 09:20
slug
ai-daily-2026-05-26
summary
今日 AI 领域迎来多个里程碑:OpenAI 与 DeepMind 双线攻克 80 年未解数学难题,标志 LLM 推理能力质变。同时 HRM-Text 以 1500 美元成本挑战 Scaling Law,DeepSeek 永久降价 75% 至 GPT-5.5 的 1/9,行业从“算力军备竞赛”转向“效率与成本竞争”。Agent 生态全面走向生产级,AWS MCP Server 正式 GA、auth.md 认证协议发布、微软 SkillOpt 提出系统化技能优化。中国 AI 模型周使用量连续四周超美国,DeepSeek-V4-Flash 居榜首。
tags
AI
日报
技术趋势
category
AI技术报告
icon
📰
password
priority
1
📊 今日概览
今日 AI 领域迎来多个里程碑:OpenAI 与 DeepMind 双线攻克 80 年未解数学难题,标志 LLM 推理能力质变。同时 HRM-Text 以 1500 美元成本挑战 Scaling Law,DeepSeek 永久降价 75% 至 GPT-5.5 的 1/9,行业从“算力军备竞赛”转向“效率与成本竞争”。Agent 生态全面走向生产级,AWS MCP Server 正式 GA、auth.md 认证协议发布、微软 SkillOpt 提出系统化技能优化。中国 AI 模型周使用量连续四周超美国,DeepSeek-V4-Flash 居榜首。
🔥 趋势洞察
- 预训练效率革命:HRM-Text 用 1/100 的计算量达到 SOTA,叠加 DeepSeek 永久降价 75%,行业正从“算力军备竞赛”转向“效率与成本竞争”
- Agent 技能工程化:微软 SkillOpt 将技能文件视为可训练参数,52 种设置下最优,Agent 技能正从手写/生成走向系统化优化
- AI 数学推理质变:OpenAI 与 DeepMind 双线攻克 80 年未解数学难题,AI 首次在数学上取得如此突破,对 LLM 推理能力研究有深远启示
🐦 X 推文动态
📈 热点与趋势
- Grok Build Beta 面向所有 SuperGrok 和 X Premium+ 用户开放 – 支持 Plan Mode、Imagine 生成图片/视频,以及 CLI 自动化与编排 @xai
- 中国 AI 模型周使用量超美国,连续 4 周第一 – 周使用量 9.223 万亿 tokens,环比增 19.89%;美国为 4.93 万亿 tokens,环比增 16.27%。DeepSeek-V4-Flash 居榜首 @zerohedge
- Google AI Studio 支持免费构建原生 Android 应用,一周内创建超 25 万个 – 无需编码,<1% 用户此前有开发经验 @OfficialLoganK
- 字节跳动/微软/OpenAI 动态:字节Seed 发表 LLM 缩放定律论文,微软推 SkillOpt,DeepSeek 称推理成本比 OpenAI 低 50 倍 – DeepSeek 永久降价 75%后,10 亿输出 token 成本约 $3,480,同级 OpenAI 约 $30,000、Claude 约 $15,000 @BullTheoryio | @fly51fly | @omarsar0
🔧 工具与产品
- Qwen3.7-Max 公布 Code Arena 排名第二 + 隐式缓存上线 – Qwen 官方:Qwen3.7-Max(阿里通义系列模型)在 Code Arena 得分 1541,仅次于 Claude;同日上线隐式缓存,无需配置即可加速降本,可切换显式缓存 @Alibaba_Qwen | @alibaba_cloud
- Unitree 发布 WVLA 2.0 模型:多任务全自动收拾会议室 – 该机器人模型实现全自主多任务操作,单次拍摄完成,存在强外部干扰 @UnitreeRobotics
- 微软因成本取消 Claude Code 许可,Uber 发现低阶模型就够了? – 报道称微软因 token 成本取消数千工程师的 Claude Code 许可,转向 GitHub Copilot;Uber 全年 AI 预算 4 月即耗尽 @BullTheoryio(独立博主)
- Codex Shim 指南大更新,支持任意模型在 Codex 中全功能运行 – 社区开发者 Terp 发布更新,解决所有兼容修复 @OnlyTerp
- MathCode 0.2.0 发布:最大化 prompt-cache 命中率,API 成本降低最多 90% – Yifan Zhang(MathCode 作者)推出新版本 @yifan_zhang_
⚙️ 技术实践
- Google DeepMind 发布 AlphaProof Nexus:基于 Gemini 的 agentic 形式化证明框架 – 自主解决 9 个 Erdős 开放问题(含两个 56 年未解问题)、44 个 OEIS 问题,以及一个 15 年未解的代数几何问题 @pushmeet
- 微软研究院 SkillOpt:将 agent skill 文件视为可训练参数,52 种设置下最优 – 用验证门控优化器编辑 skill 文档,GPT-5.5 上提升 23.5 分,技能可跨模型/框架迁移 @omarsar0
- RAG、文档理解和 AI Agent 三年演进全景图:116 页幻灯片开源 – Jerry Liu(LlamaIndex 创始人)发布 workshop 完整材料,覆盖 12 个朴素 RAG 痛点、重排/查询重写、文档解析瓶颈 @jerryjliu0
- DR Tulu 被 ICML 2026 接收为 Oral:共演化 agent 与奖励方法 – Rulin Shao 团队验证弱模型也可作为评估器 @RulinShao
- On-policy distillation 成为热门后训练技术,已有 183 篇引用论文 – Niels Rogge(Hugging Face 工程师)称该技术在 PapersWithCode 已收录 @NielsRogge
- NanoGPT 训练世界纪录刷新至 81.2 秒 – Alex Wa 使用 learnable XSA(可学习每头标量注意力减法),应用于 6 个非配对头层 @_djdumpling
- Sakana AI 发布 CUSP 基准:AI 无法预测科学突破,但可预测自身基准 – 与 Oxford、Stanford、Allen AI 合作,用 4760 个科学事件测试前沿模型 @hardmaru
- Any2Any:仅用 1% 计算/数据实现人形机器人跨本体全身跟踪迁移 – 将 Gear-Sonic 策略从 Unitree G1 迁移至 LimX Oli/Luna @YJH_GIGIYE
- SkillOpt 深度解读:技能文件训练化+自身经验总结 – Garry Tan(Y Combinator 创始人)引用社区实践,提出技能文件描述与体分离问题、保护段不变性 @garrytan
- 给你 agent 写技能时的token 效率提升技巧 – Peter Steinberger(PSPDFKit 创始人)分享技能文件和 token 效率检测工具 @steipete
- ByteDance Seed 论文:从 Shannon 视角分析 LLM 容量和缩放定律 – 论文标题《LLMs as Noisy Channels》 @fly51fly
⭐ 精选内容
AI 攻克 80 年未解数学难题:OpenAI 与 DeepMind 双线突破 | 两大实验室各自解决 Erdős 猜想
OpenAI 与 Google DeepMind 几乎同时宣布在数学推理上取得里程碑式突破。OpenAI 的 LLM 解决了 Paul Erdős 于 1946 年提出的平面单位距离猜想(困扰数学家 80 年),突破源于一个简单的提示词:“Erdős 是否错了?”。DeepMind 的 AlphaProof Nexus 系统则以每次推理仅数百美元的成本,自主解决了九个开放的 Erdős 难题,其中两个已悬而未决 56 年。与 OpenAI 的自然语言方法不同,DeepMind 使用 Lean 编译器自动验证每一步证明。剑桥数学家 Tim Gowers 评价称,若人类写出此证明可直接发表。这是 AI 首次在数学上取得如此突破,对 LLM 推理能力的研究方向有深远启示。
HRM-Text:1500 美元训练出匹敌 7B 模型的 1B 模型 | 突破 Scaling Law 的效率新范式
HRM-Text 提出分层循环模型(HRM)替代标准 Transformer,通过 MagicNorm 稳定深度循环训练,并采用任务完成目标(PrefixLM)替代原始文本预训练。1B 参数模型仅用 40B token、1500 美元预算、1.9 天训练,在 MMLU(60.7%)、GSM8K(84.5%)、MATH(56.2%)上达到 2-7B 开源模型水平,计算量减少 96-432 倍。代码已开源。该工作直接挑战了“大规模预训练必须依赖海量数据和算力”的假设,为低成本高效预训练提供了实证突破。
来源:arXiv
2026 开源 LLM 选型指南:专业化取代通用排名 | 按 Coding/RAG/Agent 等场景选模型
2026 年开源 LLM 市场进入“专业化元年”。多篇综述和排行榜(LLM Stats、Stormap、CodeSOTA)显示,MoE 架构和小参数模型(7B-14B)在特定任务上已超越通用大模型。核心洞察:应摒弃传统通用基准排名,转而按 Coding、RAG、Agents、本地部署等具体工作负载评估模型。榜单中,GLM-5、Kimi K2.6、DeepSeek-V4-Pro-Max、Qwen3.5-397B 等新模型竞争激烈,其中 Kimi K2.6 是前十中最便宜的开源模型($0.95/M tok)。同时,Scale Labs 发布的排行榜还包含大量未公开模型(如 GPT-5.5、Muse Spark)的基准数据。
LLM Agent 评估的“披露危机”:12 篇基准论文平均得分仅 0.38/1.0 | 可重复性系统性缺失
一篇元研究论文对 12 篇知名 LLM Agent 基准论文进行披露审计,设计了包含基准身份、框架规范、推理设置、成本报告、失败分解的 5 维度评分框架。结果发现,Agent 基准的平均披露得分仅 0.38/1.0,远低于经典静态基准的 0.66;最大缺口在于推理成本(0 篇披露)和框架规范(无完整容器镜像)。作者发布了 JSON Schema、代码簿和原始评分表。另一项工作 AgentAtlas 则提出超越传统 outcome leaderboard 的评估框架,包含六状态控制决策分类和九类轨迹失败分类。对 Agent 从业者而言,这些是理解当前基准结果差异根源的必读材料。
AWS MCP Server 正式 GA,MCP 生态走向生产级 | 完整 API 覆盖 + IAM 治理
AWS 托管 MCP 服务器正式 GA,提供完整 API 覆盖和基于 IAM 的治理,成为 AI 编码代理安全访问 AWS 服务的标准接口。该服务器是 AWS Agent Toolkit 的一部分,支持最新文档、认证 API 访问和沙盒脚本执行。同时,一篇关于 MCP 服务器成熟度的深度分析提出了六层模型:从 Level 1 的简单 API 封装到 Level 6 的写意图安全模式,发现仅不到 2% 的服务器达到 Level 4(领域知识集成),约 70% 停留在 Level 1。另一份生态追踪报告则编目了 56 个生产就绪的 MCP 服务器,揭示了注册表碎片化、OAuth 2.1 成为主流认证等关键趋势。
DeepSeek 永久降价 75%,定价战重塑 API 市场格局 | V4-Pro 价格仅为 GPT-5.5 的 1/9
DeepSeek 将旗舰模型 V4-Pro 的 API 价格永久下调 75% 至每百万 token 0.44 美元,远低于 OpenAI GPT-5.5 的 5 美元和 Anthropic Claude Opus 4.7 的约 3 美元。公司正以 440 亿美元估值寻求首轮外部融资,OpenRouter 市场份额已升至 23.1%。V4-Pro 是最大的开源权重模型(1.6T 参数),全球排名第 9。这一永久性低价策略直接冲击美国 AI 实验室的定价体系,可能重塑 AI 市场经济学,对从业者的 API 选型成本产生直接影响。
来源:Caixin Global | TheStreet
AI Agent 认证协议与术语标准化:auth.md 与 Hugging Face 术语表 | 基础设施走向规范化
WorkOS 发布 auth.md 开放协议,解决 AI Agent 在 Web 服务上的注册与认证问题。协议基于 OAuth 标准,定义 Agent Verified(ID-JAG 令牌)和 User Claimed(OTP 邮箱验证)两种流程,支持作用域、审计和撤销。另一篇对比文章系统评估了 WorkOS、Stytch、Auth0 等平台在 MCP 认证场景下的适用性。同时,Hugging Face 发布 Agent 术语表,系统定义了 model、scaffolding、harness、agent、context engineering、policy、tool use 等易混淆概念,为 Agent 工程社区提供了统一的 mental model。
📄 今日论文精选
SkillOpt: Executive Strategy for Self-Evolving Agent Skills
Microsoft | 🏷️ Agent Framework, Agentic Workflow, Fine-tuning
首个系统性的可控制文本空间优化器,将 Agent 技能文件视为可训练参数,52 个评估单元全部最优,GPT-5.5 上提升 23.5 分,技能可跨模型/框架迁移。
FastKernels: Benchmarking GPU Kernel Generation in Production
Snowflake AI Research | 🏷️ Agent Framework, Inference, Benchmark
覆盖 96.2% HuggingFace 架构的生产级 GPU Kernel 基准测试,揭示最强 agent 仅 0.94x 加速,基准-生产不匹配是当前核心瓶颈。
Same Model, Different Weakness: How Language and Modality Reshape the Jailbreak Attack Surface in Frontier MLLMs
Appen | 🏷️ Safety, Multimodal, Agentic Workflow
首次系统揭示跨语言多模态越狱攻击面差异:语言和模态的 alignment 失效机制不同,安全排名在语言间不保持,Qwen Omni 在西班牙语下反超 Pixtral 成为最脆弱模型。
🐙 GitHub 热门项目
claude-cookbooks | Claude 官方使用指南
Anthropic 官方发布的 Jupyter Notebook 集合,覆盖函数调用、多步推理、Agent 工作流等高级用法。直接运行学习,是掌握 Claude 最佳实践的最权威起点。
GitHub | ⭐ 44,202 | 🗣️ Jupyter Notebook | 🏷️ LLM, Agent, DevTool
OpenBB | AI Agent 金融数据平台
面向分析师和 AI Agent 的统一金融数据接口,支持自然语言查询和 Agent 集成,内置量化分析功能,填补了 Agent 在金融领域的数据接入空白。
GitHub | ⭐ 68,104 | 🗣️ Python | 🏷️ Agent, Data, DevTool