日报

技术趋势

今日 AI 领域迎来多个重要节点：OpenAI 代理产品使用量一周暴增 2.5 倍，Codex 用户达 600 万，同时 GPT-5.6 sol 价格减半、效率翻倍，成本降至四分之一。腾讯开源 295B Hy3 的 1-bit 量化版，仅损失约 5% 性能即可在单 GPU 运行，被 Stable Diffusion 创始人称为"今日最大新闻"。Apple 洽谈收购 PrismML，其量化技术可将 54GB 模型压缩至 4GB 运行于 iPhone，端侧 AI 能力跃升在即。蚂蚁集团将 Zero RL 扩展到万亿参数规模，揭示涌现行为；Anthropic 平台负责人详解 Agent 三层架构与开

文章详情

推荐系统

日报

LLM 驱动的可解释性与决策智能：今日多篇论文探索了 LLM 在推荐系统中的应用，从生成自然语言解释（RashomonLLM）到作为路由决策的候选模型（LLM Routing）。这表明 LLM 正从单纯的“特征提取器”向“推理与规划引擎”演进，为提升系统可解释性和决策效率提供了新路径。; 理论驱动的在线学习与探索策略：多篇工作聚焦于 bandit 和 Top-k 识别等在线学习问题，并提出了具有理论保证的算法（如 TOFU-POV、渐近最优 Top-k 识别）。这反映了工业界对在有限样本和不确定

文章详情

日报

技术趋势

今日 AI 领域火药味十足：Apple 起诉 OpenAI 窃取商业机密，被 Stratechery 解读为 AI 竞争受挫后的情绪宣泄；OpenAI GPT-5.6 Sol/Terra/Luna 三款模型在 Amazon Bedrock 正式上线，Agent 基准显著领先；微软发布 109 页 MAI-Thinking-1 技术报告，完整揭秘 LLM 训练全流程。产业层面，vLLM 生态三天内密集落地三项 RL 训练框架，Meta 用开源 BPF 调度器将广告服务 p99 延迟降低 28%，MIT 推出 SceneSmith 用三个 VLM Agent 协作生成机器人训练场景。Sakana

文章详情

日报

技术趋势

今日 AI 领域呈现“开源监管风暴”与“效率创新”并行的格局。开源模型面临“6个月生存期”的监管与地缘政治夹击，而 Z.ai 发布 ZCode IDE 与 GLM-5.2 模型，以 2500 万美元成本实现全球第二的 Coding 能力，挑战 Cursor 与 Claude Code。Anthropic 发现 Claude 内部“思考空间”，为 LLM 可解释性带来新突破。同时，Oracle 因 OpenAI 风险被降级至垃圾级边缘，vLLM v0.25.0 发布，Arm CEO 预测推理侧硬件格局正从 GPU 转向 CPU。

文章详情

日报

技术趋势

今日 AI 领域迎来多重里程碑：Anthropic 估值达 1.2 万亿美元首次超越 OpenAI，并正式启动 IPO 进程，标志产业格局重大拐点。技术层面，Moonshot 发布 Kimi K2 开源模型（1T/32B MoE），在 SWE-Bench 取得开源 SOTA；Bun 用 AI 重写为 Rust 仅花费 $165k 替代 3 人年工作量，展示了 AI 辅助工程化的成本效益。安全研究方面，Google DeepMind 揭示 CoT 监控在对抗性说服攻击下反而有害，并提出跨模型事实核查的缓解方案。同时，Perplexity CEO 预测 6-12 个月内模型成本将降 3-4 倍，O

文章详情

推荐系统

日报

多兴趣建模与端到端生成式检索的范式突破：今日两篇工业界高分论文（Amazon BACH、Alibaba DaV-Gen）分别从不同路径挑战传统多阶段级联架构。BACH 用贝叶斯软混合替代硬路由，解决多兴趣头坍塌问题；DaV-Gen 则借鉴投机解码的 Draft-and-Verify 机制，试图统一检索与排序的优化目标。这标志着工业界正从“多阶段拼装”向“端到端联合优化”加速演进。; 回归任务中的长尾与期望一致性成为精排核心挑战：快手与人大合作的 PIT-SUN 论文，聚焦于停留时长、GMV 等长

文章详情

日报

技术趋势

今日 AI 领域迎来里程碑式突破：GPT-5.6 Sol Ultra 以 64 子 Agent 在一小时内证明 50 年未解数学猜想 Cycle Double Cover，标志着公开模型首次实现重大数学突破。同时，GPT-5.6 成为 Microsoft 365 Copilot 首选模型，Agent 生态全面走向生产级。Cursor 开发 AI Agent 与 Claude Cowork 直接竞争，编码 Agent 赛道进入白热化。效率与成本成为新焦点：Unsloth 动态量化压缩模型 75%，Writer 论文揭示编排层可降本 41%。ICML 2026 获奖论文揭晓，扩散语言模型与对齐审查

文章详情

推荐系统

日报

[大模型 Agent 与多模态记忆的深度融合]：今日多篇论文探索了将 LLM Agent 应用于推荐系统的新范式。MMEACR 提出了双轨记忆架构，将 Agent 的符号推理与多模态嵌入匹配分离，并通过属性引导的强化反思机制更新记忆。这标志着 Agent 推荐正从纯文本推理向融合视觉、文本等多模态信号的更精细、更鲁棒的记忆系统演进，为构建可解释、高保真的下一代推荐系统提供了新思路。; [面向生产环境的联邦学习与在线学习优化]：针对推荐系统对模型新鲜度的严苛要求，FeLiX 框架直面客户端流失、数

文章详情

日报

技术趋势

今日 AI 领域迎来产品与模型的双重里程碑：OpenAI 发布 ChatGPT Work 超级应用与 GPT-5.6 三模型家族，Sol 在 Agents' Last Exam 上以 53.6 分超越 Claude Fable 5 达 13.1 分，并引入 Programmatic Tool Calling 等关键新特性。与此同时，SpaceXAI 发布 Grok 4.5，专为 Coding/Agent 场景训练，定价仅为 $2/$6 每百万 token，模型竞争从通用能力向 Agent 专用场景进一步分化。Meta 自研 AI 芯片 Iris 将于 9 月量产，算力目标翻倍至 14GW，芯片

文章详情

推荐系统

日报

[LLM推理蒸馏走向精细化]：今日多篇论文聚焦于如何高效地将大模型（LLM/VLM）的推理能力迁移到小模型。从Meta的SCOReD（学生感知的CoT轨迹优化）到PORTS（偏好优化对齐检索器与LLM），核心思路不再是简单的SFT，而是根据学生模型的能力动态裁剪、改写教师轨迹，或利用LLM的perplexity信号作为偏好标签，实现更精准、更高效的蒸馏。; [检索模型的理论基础与表达能力受关注]：学术界开始深入探究检索模型（尤其是Late-Interaction模型）的理论上限。UMass的论文

文章详情

日报

技术趋势

今日 AI 领域迎来多项重磅发布：OpenAI 推出 GPT-Live 全双工语音模型，实现真正自然对话；同时宣布 GPT-5.6 Sol 周四发布，用户使用量已达此前 5 倍。Cursor 与 SpaceXAI 合作训练 Grok 4.5，Cognition 发布 SWE-1.7 达 1000 tok/s。基础设施层面，MCP v2 协议重大变更走向无状态化，Hugging Face 发布 vLLM transformers 建模后端性能追平原生，NVIDIA Nemotron 在 LangChain 基准中以 10 倍低成本达开源最高准确率。Lilian Weng 发表 Harness E

文章详情

推荐系统

日报

生成式推荐进入工业深水区：今日多篇工业论文（快手、阿里、沃尔玛）将生成式推荐从概念验证推向生产部署。核心创新点不再是简单的“用生成替代检索”，而是聚焦于异构内容生成（同时推荐视频和作者）、库存感知（RAG动态改写广告查询）以及多token预测（替代低效的自回归生成），以解决实际业务中的效率与效果平衡问题。; 重排器价值再发现：从“后处理”到“训练信号”：Yandex的论文提出利用重排器（精排模型）的分数来指导召回嵌入的学习，打破了传统“召回-精排”的流水线隔离。这一趋势表明，工业界正试图将精排模

文章详情

1 2 3 4 5 6

...