亚马逊AWS AI实验室的研究展示了如何利用强化学习(RL)高效定制多轮AI代理。该方法的核心在于利用现有环境模拟器和基于可验证真实情况的稀疏奖励函数,即使使用小模型(如Qwen2.5-32B-Instruct)和小训练数据集(仅72个示例),也能将任务完成率从39.20%大幅提升至72%。实验覆盖了个人助理代理(AppWorld基准)和代理式RAG场景,详细阐述了包含在线模拟器和在线RL训练器的
今日收录 7 篇文章,精选 6 篇,另有 13 条 KOL 推文,覆盖 nesbitt、simonwillison、MarkTechPost、aws、Towards Data Science 等来源。
今日收录 3 篇文章,精选 2 篇,另有 10 条 KOL 推文,覆盖 Simon Willison、Towards Data Science、MarkTechPost 等来源。
文章基于数百个客户的企业级优化经验,系统性地提出了16条减少Dependabot警报噪音的具体策略。核心实践包括引入30天的“依赖冷却期”以过滤短期波动、延长更新检查间隔、要求跨职能团队审查关键更新,以及通过fork关键依赖、直接vendor化或从版本控制中移除lockfile等方式来掌控核心依赖。作者还建议使用包别名、合并项目为monorepo,甚至用GitHub Copilot Autofix
苹果研究团队提出了一种创新的分层记忆增强预训练架构。其核心思想是将海量的长尾世界知识存储在独立的参数化记忆库中,而让一个相对较小的语言模型作为“锚点”,专注于掌握通用知识和推理能力。实验表明,一个 1.6 亿参数的模型通过从 460 亿参数的记忆库中动态检索 1800 万个记忆块,其性能可媲美参数翻倍的常规模型。该方法在万亿 token 规模上得到验证,并展示了扩展到超过 210 亿参数的潜力,且