日报

技术趋势

今日 AI 领域火药味十足：Apple 起诉 OpenAI 窃取商业机密，被 Stratechery 解读为 AI 竞争受挫后的情绪宣泄；OpenAI GPT-5.6 Sol/Terra/Luna 三款模型在 Amazon Bedrock 正式上线，Agent 基准显著领先；微软发布 109 页 MAI-Thinking-1 技术报告，完整揭秘 LLM 训练全流程。产业层面，vLLM 生态三天内密集落地三项 RL 训练框架，Meta 用开源 BPF 调度器将广告服务 p99 延迟降低 28%，MIT 推出 SceneSmith 用三个 VLM Agent 协作生成机器人训练场景。Sakana

文章详情

日报

技术趋势

今日 AI 领域呈现“开源监管风暴”与“效率创新”并行的格局。开源模型面临“6个月生存期”的监管与地缘政治夹击，而 Z.ai 发布 ZCode IDE 与 GLM-5.2 模型，以 2500 万美元成本实现全球第二的 Coding 能力，挑战 Cursor 与 Claude Code。Anthropic 发现 Claude 内部“思考空间”，为 LLM 可解释性带来新突破。同时，Oracle 因 OpenAI 风险被降级至垃圾级边缘，vLLM v0.25.0 发布，Arm CEO 预测推理侧硬件格局正从 GPU 转向 CPU。

文章详情

日报

技术趋势

今日 AI 领域迎来多重里程碑：Anthropic 估值达 1.2 万亿美元首次超越 OpenAI，并正式启动 IPO 进程，标志产业格局重大拐点。技术层面，Moonshot 发布 Kimi K2 开源模型（1T/32B MoE），在 SWE-Bench 取得开源 SOTA；Bun 用 AI 重写为 Rust 仅花费 $165k 替代 3 人年工作量，展示了 AI 辅助工程化的成本效益。安全研究方面，Google DeepMind 揭示 CoT 监控在对抗性说服攻击下反而有害，并提出跨模型事实核查的缓解方案。同时，Perplexity CEO 预测 6-12 个月内模型成本将降 3-4 倍，O

文章详情

周报

技术趋势

本周的核心叙事是"发布密度与工程深度的共振"。OpenAI 一口气放出了 GPT-5.6 三模型、ChatGPT Work 和 GPT-Live 语音模型，这不是一次单纯的版本迭代，而是一次产品矩阵的重新排布——模型能力分层（Sol/Terra/Luna）、Agent 产品化（Work）、交互范式升级（全双工语音）同时到位。与此同时，Agent 工程领域进入了"工具调用精细化"阶段：GitHub Copilot 的实践复盘、AWS 的 MCP 设计指南、Amazon 和 Writer 关于编排层效率的论文，都在指向同一个判断——Agent 的价值不再取决于"能不能调用工具"，而取决于"调得好不好"。推理加速方面，vLLM 0.25.0 让 450+ Transformers 架构原生运行，DeepSeek 的 DSpark 在线上流量下将生成速度提升 60-85%，这些工程落地比架构论文更能直接影响下游决策。

文章详情

日报

技术趋势

今日 AI 领域迎来里程碑式突破：GPT-5.6 Sol Ultra 以 64 子 Agent 在一小时内证明 50 年未解数学猜想 Cycle Double Cover，标志着公开模型首次实现重大数学突破。同时，GPT-5.6 成为 Microsoft 365 Copilot 首选模型，Agent 生态全面走向生产级。Cursor 开发 AI Agent 与 Claude Cowork 直接竞争，编码 Agent 赛道进入白热化。效率与成本成为新焦点：Unsloth 动态量化压缩模型 75%，Writer 论文揭示编排层可降本 41%。ICML 2026 获奖论文揭晓，扩散语言模型与对齐审查

文章详情

日报

技术趋势

今日 AI 领域迎来产品与模型的双重里程碑：OpenAI 发布 ChatGPT Work 超级应用与 GPT-5.6 三模型家族，Sol 在 Agents' Last Exam 上以 53.6 分超越 Claude Fable 5 达 13.1 分，并引入 Programmatic Tool Calling 等关键新特性。与此同时，SpaceXAI 发布 Grok 4.5，专为 Coding/Agent 场景训练，定价仅为 $2/$6 每百万 token，模型竞争从通用能力向 Agent 专用场景进一步分化。Meta 自研 AI 芯片 Iris 将于 9 月量产，算力目标翻倍至 14GW，芯片

文章详情

日报

技术趋势

今日 AI 领域迎来多项重磅发布：OpenAI 推出 GPT-Live 全双工语音模型，实现真正自然对话；同时宣布 GPT-5.6 Sol 周四发布，用户使用量已达此前 5 倍。Cursor 与 SpaceXAI 合作训练 Grok 4.5，Cognition 发布 SWE-1.7 达 1000 tok/s。基础设施层面，MCP v2 协议重大变更走向无状态化，Hugging Face 发布 vLLM transformers 建模后端性能追平原生，NVIDIA Nemotron 在 LangChain 基准中以 10 倍低成本达开源最高准确率。Lilian Weng 发表 Harness E

文章详情

日报

技术趋势

今日 AI 领域格局加速重塑：微软被曝在部分应用中用自研 AI 替代 OpenAI/Anthropic，标志产业从依赖外部转向内部自研的战略转向；同时中国 AI 模型在美国企业使用率突破 30%，DeepSeek 等以成本优势持续渗透。技术层面，NVIDIA 发布 Audex 统一音频 LLM 并开源，腾讯推出 295B MoE 开源模型 Hy3 挑战 GLM-5.2，Anthropic 发现 Claude 内部“全局工作空间”可干预推理过程。Agent 生态走向生产级——Google 扩展 Managed Agents 支持后台任务和远程 MCP，Perplexity 与 NVIDIA 合作

文章详情

日报

技术趋势

今日 AI 领域迎来多个里程碑：Anthropic 发现 Claude 内部存在类似意识的全局工作空间 J-space，标志着 LLM 可解释性重大突破；腾讯混元发布 295B MoE 开源模型 Hy3，Mistral 推出数学证明代理 Leanstral 1.5，两大模型均获 SGLang/vLLM 即日支持。同时，Fable 在 GPU 内核生成上创下 18.71X 加速纪录，Netflix 用 decoder-only transformer 端到端生成主页，阿尔伯塔省政府用 Claude 在 20 小时内扫描 4.66 亿行代码修复安全漏洞，AI 正从"能力展示"全面走向"生产级落地"

文章详情

日报

技术趋势

今日 AI 领域聚焦于效率与实用性的双重突破：Mistral 发布 Leanstral 1.5 数学证明模型，以 6B 激活参数在多项数学基准上达到 SOTA，每道题成本仅约 4 美元，标志着开源模型在专业推理领域的重大进展。与此同时，Simon Willison 用 Claude Fable 以 149 美元成本完成 sqlite-utils 4.0 的审查与修复，展示了 AI 编码 Agent 的实际工作流价值。产业层面，GenAI 经济体过去 12 个月创收 1100 亿美元，增速为移动/互联网浪潮的三倍，印证了 AI 商业化的强劲势头。此外，X 官方发布 XMCP 服务器，为社交平台

文章详情

日报

技术趋势

今日 AI 领域迎来多个重要动态：OpenAI 提议向美国政府捐赠 5% 股权，探索 AI 公司与国家资本关系的新模式；Anthropic 发布 Claude Science Workbench 并宣布亲自开发药物，AI for Science 战略全面升级。同时，研究揭示 RL 后训练改进高度集中于 Transformer 中间少数层，为优化训练策略提供了反直觉发现；Snowflake 发布 Cortex Sense 解决企业 Agent 因缺乏语义视图而查询失败的核心痛点。开源生态方面，开源 AI 差距地图 v0.1 发布，系统索引 421 个项目；MCP 服务器生态虽近 2 万注册量但噪

文章详情

周报

技术趋势

本周 AI 周报呈现出两条并行的主线：Agent 工程化正在从“能否运行”进入到“能否可靠规模化”阶段，同时推理基础设施的优化开始从通用框架走向针对特定硬件、特定模型的深度定制。第一条主线体现在大量关于 Agent 循环、技能工程、多 Agent 协调的讨论中。AI Engineer World's Fair 上周结束后，Latent Space 连续发布了多篇深度报道，最引人注目的是“自主循环”（Loops）辩论——支持方认为软件工厂已经可行，质疑方则指出 token 成本和可靠性仍然是硬约束。与此同时，Apple 发表的研究直接挑战了一个流行的设计假设：让多个专家 Agent 自由协作反而会降低性能。这让本周的 Agent 话题有了清晰的对立面。第二条主线来自 vLLM 0.24.0 的密集发布。一周内，vLLM 团队推出了 DeepSeek V4 的 DSpark 推测解码原生支持（~250 tok/s，接受长度 5），集成了百度 Unlimited-OCR（35% 快于 DeepSeek-OCR），还发布了 Omni TTS 的全面优化（吞吐提升 172%）。SGLang 也在本周展示了 Agent 辅助开发的工作流，多个 kernel 优化带来 71.4% 的吞吐提升。这些进展表明，推理框架的竞争正在从“跑通模型”转向“为一个模型做深度优化”。以下是对本周四个主题的详细分析。

文章详情

1 2 3 4 5 6

...