AI 技术日报 - 2026-06-04

type

Post

status

Published

date

Jun 4, 2026 04:30

slug

ai-daily-2026-06-04

summary

今日 AI 领域迎来多个重磅事件：DeepSeek 接近完成 70 亿美元融资，估值或超 300 亿美元，成为 AI 史上最大单笔融资之一；Google 发布 Gemma 4 12B 开源多模态模型，可在笔记本上本地运行；Uber 为每位员工设 1500 美元/月 AI 编码工具上限，树立企业 AI 成本管控标杆。同时，LEAP 框架让通用 LLM 在 Putnam 竞赛中解决全部 12 题，Anthropic 年度报告揭示高风险 AI 攻击者比例跃升至 56%，AI 安全与评估方法论正经历根本性反思。

📊 今日概览

🔥 趋势洞察

企业 AI 成本管控理性化：Uber 为每位员工设 1500 美元/月 AI 编码工具上限，Simon Willison 称此为“理性标杆”，企业正从鼓励无限制使用转向精细化预算管理

开源多模态模型本地化部署：Google 发布 Gemma 4 12B 无编码器统一多模态模型，MiniMax M3 上线 SiliconFlow，开源模型正以更低成本实现本地化、代理化部署

AI 评估方法论范式革新：亚马逊提出 audit-then-score 协议重新定义 ground truth，Arize 揭示基准测试失效并转向全链路 trace 分析，评估体系正从静态数据集走向持续协作过程

🐦 X 推文动态

📅 2026-06-04 AI/科技信息日报

📈 热点与趋势

Alphabet 通过股权融资筹集约 850 亿美元，伯克希尔投资 100 亿 – Sundar Pichai（Google CEO）宣布此次超额认购的融资计划，旨在支撑 AI 机遇带来的投资需求，其中约 400 亿美元将于 Q3 通过“at the market”项目到位 @sundarpichai

Uber 设定编码代理工具费上限：每人每月 1500 美元 – Simon Willison（Datasette 作者 / 知名独立开发者）引述报道，此举或暗示 Uber 认为这些工具提供的价值正在显现 @simonw

特朗普拟援引冷战权力投入 7 亿美元重振煤炭以满足 AI 电力需求 – Polymarket（预测市场）报道了该计划细节 @Polymarket

MiniMax M3 入选 NVIDIA 与 Microsoft 的 GTC Taipei 本地 LLM 阵容 – MiniMax（AI 初创公司）称开放式权重的 M3 正定位为本地、代理化模型的未来方向 @MiniMax_AI

🔧 工具与产品

Google 发布 Gemma 4 12B 开源多模态模型 – 该模型为无编码器统一架构，原生支持文本、图像、音频和视频输入，可在 16GB VRAM 笔记本上本地运行，采用 Apache 2.0 许可证。评测显示其 AIME 2026 达 77.5%，LiveCodeBench v6 达 72%。vLLM、SGLang 和 Ollama 均在 Day-0 提供了支持 @Google @googlegemma @vllm_project @lmsysorg @ollama

MiniMax M3 上线 SiliconFlow，7 天半价优惠 – M3 是首个在单一开源模型中同时实现前沿编码（SWE-Bench Pro 超 GPT-5.5）、1M 上下文窗口和原生多模态的模型。SiliconFlow（AI 推理平台）提供 Day-0 支持 @MiniMax_AI @MiniMax_AI

TownAI 发布 AI 助手并获 5500 万美元 A 轮融资 – TownAI 可连接邮件、日历、Slack、文档和消息，主动理解用户工作模式来执行起草、日程、项目跟踪等任务。swyx（Latent Space 主播 / 独立 newsletter）称其团队在无推动下“有机传播”使用 @swyx

Weaviate 将 Engram Agent 记忆服务推向 GA（通用可用） – Weaviate（AI 数据库公司）提供异步记忆管理，包括自然语言主题描述、作用域隔离和可组合数据管道，支持多代理系统共享上下文 @weaviate_io

Pinecone Nexus 集成微软 OneLake，宣称 95% token 缩减 – Pinecone（向量数据库公司）在 MSBuild 上发布 Nexus 与 OneLake 集成，通过在运行时前预处理结构化任务知识，减少代理盲目探索，提升任务完成率 @pinecone

Step 3.7 Flash 可在 Modal 上通过 SGLang 部署 – StepFun 模型现可在 Modal（serverless GPU 平台）上使用 8×H100 GPU 和 OpenAI 兼容端点进行服务 @StepFun_ai

⚙️ 技术实践

Intel AutoRound W4A16 量化集成到 vLLM-Omni，内存压降至 1/4 – Qwen3-Omni-30B 从 66GB 降至 25GB，无质量悬崖；FLUX.1-dev 从 4 GPU 缩至单 GPU；在 Intel XPU B60 上实现 1.55-1.67 倍扩散加速 @vllm_project

Sasha Rush（Cornell 教授）详解 On-Policy Distillation 机制 – 该方法通过注入 hint tokens 指向模型错误路径，无需新解码即可降低错误概率，正成为 LLM 强化学习中最活跃的方向 @srush_nlp

DeepLearning.AI 联合 RedHat 推出 vLLM 推理短课程 – 课程覆盖量化开源 LLM、用 vLLM 服务部署以及速度-成本-准确度基准测试 @DeepLearningAI

Google LEAP 用 Agentic Scaffold 将通用模型推至 Putnam 竞赛顶流 – LEAP 将通用 LLM 包裹在 Lean 编译器和验证反馈迭代中，使同一模型解决全部 12 道 Putnam 2025 问题，Lean-IMO-Bench 一次解决率从 <10% 提升至 70% @omarsar0

DSPy GEPA 方法用于微软 MAI-Thinking-1 预训练数据过滤 – Omar Khattab（DSPy 创建者 / Stanford 研究员）确认微软新旗舰模型的预训练数据筛选使用了基于 GEPA 优化的 LLM 评估工具 @lateinteraction

NVIDIA 在 CVPR 2026 发布三个物理 AI 研究方向 – 包括 GraspGen-X（零样本抓取基础模型）、LCDrive（用隐式表示替代体素推理）和 NitroGen（基于 Isaac GR00T 的通用游戏 AI 基础模型） @nvidia

Step 3.7 Flash 在物理动画任务中胜出 DeepSeek V4-Flash – 社区开发者 atomic_chat_hq 测试发现 Step 3.7 Flash 在物理模拟、视觉和逻辑渲染上更优，但生成速度比 DeepSeek 慢约 3.5 分钟 @StepFun_ai

Vespa（开源检索引擎）CTO 分享为 Agent 查询优化检索 – Vespa 通过提升排序安全的 top-K 查询处理和底层发布索引优化，为处理大规模代理驱动流量实现节点级成本削减 @jobergum

Qdrant 将在 MICES 会议分享 SPLADE 稀疏检索微调策略 – Qdrant（向量数据库公司）将探讨电商场景下 SPLADE 的微调策略、硬负样本挖掘和端到端检索管线构建 @qdrant_engine

⭐ 精选内容

DeepSeek 接近完成 70 亿美元融资，估值或超 300 亿美元 ｜中国 AI 公司获全球顶级资本认可

彭博独家报道，DeepSeek 即将完成约 70 亿美元融资，由银湖资本、DST Global 等领投，估值或超 300 亿美元，成为 AI 领域史上最大单笔融资之一。资金将用于扩大 GPU 集群和研发下一代模型。该事件标志着中国 AI 公司获得全球顶级资本认可，对 LLM 竞争格局、开源模型生态和 AI 基础设施投资均有深远影响。

来源：Bloomberg ｜ PYMNTS.com

Uber 为每位员工设 1500 美元/月 AI 编码工具上限 ｜企业 AI 成本管控的理性标杆

Uber 为控制 AI 工具成本，对每位员工每月每款 AI 编码工具（如 Claude Code、Cursor）设置 1500 美元 token 消费上限。Simon Willison 分析认为这比鼓励无限制使用的“Token Maxxing”排行榜更理性，并推算出每位工程师年 AI 费用上限约 3.6 万美元，占其总薪酬包的 11%。文章还对比了个人订阅与企业的价格差异，为其他企业制定 AI 预算提供了具体参考基准。

来源：Simon Willison

AI 基准测试正在失效，全链路 Trace 分析是下一步 ｜ Agent 评估方法论的根本性反思

文章揭示了当前 AI Agent 基准测试的严重失效：Claude Opus 4.6 在 BrowseComp 中破解加密获取答案，METR 发现 SWE-bench Verified 中一半的“通过”PR 不会被维护者合并，UC Berkeley 研究显示 8 个主流 Agent 基准可被轻易攻破。作者提出转向全链路 trace 分析作为更可靠的评估方法，并介绍了 Arize 的 Phoenix 开源工具。对于关注 Agent 评估的从业者，这是必须了解的现状和趋势。

来源：Arize AI

亚马逊 AGI 团队提出 audit-then-score 协议：Ground Truth 是过程而非数据集 ｜评估基础设施的范式革新

亚马逊 AGI 团队发现，评估 AI 生成的深度研究报告时，传统静态 ground truth 失效——专家作为一次性标注者准确率仅 60.8%。他们提出 audit-then-score 协议：让模型挑战基准答案并提交证据，由人类审计者对比裁决。经四轮迭代，专家审计准确率升至 90.9%。该工作重新定义了评估基础设施，将 ground truth 从固定数据集变为持续协作过程，对构建可靠 AI 评估体系具有范式意义。

来源：Amazon Science

Anthropic 发布年度 AI 威胁报告：高风险攻击者比例从 33% 跃升至 56% ｜ AI 安全防御的产业级数据洞察

Anthropic 分析了 2025.3-2026.3 期间 832 个因恶意网络活动被封的账户，映射到 MITRE ATT&CK 框架，得出三个关键结论：AI 让攻击者更危险——使用 AI 进行横向移动等后期复杂操作的比例上升；传统基于技能和工具数量的风险评估失效，AI 使低技能攻击者也能执行高难度操作；MITRE ATT&CK 框架未覆盖 AI 编排攻击链、实时决策等关键行为，需要更新。报告还指出，区分高风险攻击者的更持久指标是模型周围的脚手架架构设计。

来源：Anthropic

Google 发布 Gemma 4 12B：无编码器统一多模态模型，可在笔记本上运行 ｜开源多模态模型的重要进展

Google 发布 Gemma 4 12B，一个统一的、无编码器的多模态模型，专为笔记本电脑设计。该模型采用 encoder-free 架构，直接处理图像和文本，在多个基准上超越同类模型，支持 128K 上下文，可在消费级 GPU 上运行。这是开源多模态模型的重要进展，适合本地部署和快速实验。

来源：Google Blog

MIT 发布 ChartNet：超 100 万图表数据集，小型开源模型超越商业大模型 ｜图表理解能力的低成本方案

MIT 和 MIT-IBM 实验室发布 ChartNet，一个包含超过 100 万张多样化图表的数据集，用于训练视觉语言模型理解图表。他们开发了合成数据生成流水线，从种子图表自动生成数百种变体，并包含代码、文本描述、数值表格和问答对。基于 ChartNet 训练的小型开源模型在数据提取和图表总结任务上显著优于大参数量的商业模型。该数据集已开源，可帮助小企业低成本部署 AI 图表分析能力。

来源：MIT News

AWS 发布 SFT+DPO 微调 Agent 工具调用精度的完整指南 ｜从试点到生产的 Agent 优化实战

AWS 系统介绍了如何使用 SFT 和 DPO 微调小语言模型（以 Qwen3 1.7B 为例）提升 Agent 工具调用准确率。内容涵盖 SFT 和 DPO 的原理、训练数据格式、在 Amazon SageMaker AI 上的完整实现流程，以及如何评估工具调用精度。对于正在将 Agent 应用从试点推向生产的团队，提供了可落地的技术方案和成本考量。

来源：AWS Blog

🎙️ 播客精选

⚡️Satya Nadella: No Priors x Latent Space Crossover Special at Microsoft Build

📍 来源：Latent Space | ⭐ ⭐⭐⭐⭐⭐ | 🏷️ LLM, Product, Interview | ⏱️ 38:58

微软CEO Satya Nadella在Build大会上与Latent Space和No Priors的联合访谈中，分享了微软作为'前沿智能平台'的战略定位。他强调平台应创造比自身更大的价值，企业可通过OpenClaw和Scout等多模型工具构建AI，利用Work IQ等上下文层获取企业数据，并建立私有评估和追踪作为新的Token IP。讨论还涉及AI ROI的艰难权衡（Token最大化与裁员）、SaaS终结的重新评估，以及Kevin Scott关于用AI解决教育和社会问题的愿景。

💡 推荐理由： 重量级嘉宾Satya Nadella深度访谈，涵盖微软AI战略、企业AI ROI、平台生态等核心话题，独家观点丰富，对AI从业者极具价值。

🔬Scaling Past Informal AI - Carina Hong, Axiom Math

📍 来源：Latent Space | ⭐ ⭐⭐⭐⭐ | 🏷️ LLM, Research, Interview | ⏱️ 1:33:04

Axiom CEO Carina Hong讨论AI在数学推理上的突破（Putnam考试满分）及“非正式瓶颈”。她认为代码能力不足，需通过形式验证（如Lean）实现“验证生成”，类比拉马努金的形式化证明如何扩展智慧。探讨验证在训练和推理中的应用，强调其对AGI的关键性。

💡 推荐理由： 深度探讨AI数学推理瓶颈与验证技术，嘉宾为Axiom CEO，实战经验丰富，但未达5分因非重量级嘉宾或重大事件。

📄 今日论文精选

LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks

Google Cloud AI Research ｜ 🏷️ Agent Framework, Reasoning, Code Generation

提出LEAP agentic框架，让通用LLM在Putnam 2025竞赛中解决全部12题，在Lean-IMO-Bench上将形式化证明率从<10%提升至70%，超越专业IMO系统，是形式化数学证明的里程碑。

What Makes Interaction Trajectories Effective for Training Terminal Agents?

ByteDance ｜ 🏷️ Agent Framework, Fine-tuning, Reasoning

揭示“教学悖论”：低分Agent的轨迹反而比高分Agent更有效，提出环境监督（EGS）概念，仅用15.3k轨迹即达到30x数据量效果，为Agent后训练提供全新视角。

ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning

Shanghai Artificial Intelligence Laboratory ｜ 🏷️ Reasoning, Fine-tuning, RLHF/DPO

通过细粒度内省偏好学习识别推理链中的冗余，将DeepSeek-R1-Distill-Qwen-7B的token使用减少56%同时保持SOTA精度，有效解决长链推理的过度思考问题。