PLAY PODCASTS
Seventy3

Seventy3

619 episodes — Page 2 of 13

【第564期】Trace-Free+:课程学习驱动的LLM智能体工具接口优化归纳

Apr 16, 202623 min

【第563期】贝叶斯教学:提升大语言模型的概率推理能力

Apr 15, 202621 min

【第562期】ActionEngine:状态机驱动的程序化GUI智能体

Apr 14, 202619 min

【第561期】AgentConductor:强化学习驱动的多智能体代码生成拓扑演化

Apr 13, 202615 min

【第560期】Doc-to-LoRA:学习即时将上下文内化为模型参数

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Doc-to-LoRA: Learning to Instantly Internalize ContextsSummary长输入序列是大语言模型(LLM)进行语境学习(In-context Learning)、文档理解和多步推理的核心。然而,Transformer 架构中注意力机制的平方级计算代价使得推理过程极其耗费内存且速度缓慢。虽然上下文蒸馏(Context Distillation, CD)可以将信息转移到模型参数中,但由于训练成本和延迟过高,针对每个提示词(Prompt)进行蒸馏在实际应用中并不现实。为了解决这些局限性,我们提出了 Doc-to-LoRA (D2L):一种轻量级的超网络(Hypernetwork),它通过元学习(Meta-learning)实现在单次前向传播中进行近似上下文蒸馏。给定一个未见过的提示词,D2L 会为目标 LLM 生成一个 LoRA 适配器,使得后续查询无需重新消耗原始上下文即可获得答案。这降低了目标 LLM 推理时的延迟和 KV 缓存(KV-cache)的内存消耗。在长上下文“大海捞针”(Needle-in-a-haystack)任务中,D2L 成功学会了将上下文映射到存储“针”信息的适配器中,在序列长度超过目标 LLM 原生上下文窗口 4 倍以上的情况下,实现了近乎完美的零样本(Zero-shot)准确率。在计算资源有限的真实问答数据集上,D2L 的表现优于标准上下文蒸馏,同时显著降低了峰值内存消耗和更新延迟。我们预见 D2L 能够促进 LLM 的快速自适应,为频繁的知识更新和个性化聊天行为开启新的可能性。原文链接:https://arxiv.org/abs/2602.15902

Apr 12, 202623 min

【第559期】PAHF:基于人类反馈的个性化智能体持续学习

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Learning Personalized Agents from Human FeedbackSummary现代 AI 代理虽然功能强大,但往往难以与个体用户特有的、不断演变的偏好保持一致。以往的方法通常依赖于静态数据集,要么在交互历史上训练隐式偏好模型,要么将用户画像编码在外部存储中。然而,这些方法在面对新用户以及随时间变化的偏好时显得力不从心。我们提出了 PAHF(Personalized Agents from Human Feedback):这是一个用于持续个性化的框架,代理通过使用显式的单用户内存(per-user memory)从实时交互中进行在线学习。PAHF 执行一个三步循环流程: 行动前澄清:通过询问来消除歧义; 行动对齐:将行动植根于从内存中检索到的偏好; 行动后反馈:当偏好发生漂移时,整合反馈以更新内存。为了评估这一能力,我们开发了一个四阶段协议,并在具身操控(embodied manipulation)和在线购物两个场景中建立了基准测试。这些基准量化了代理从零开始学习初始偏好、以及随后适应人格特质转变的能力。我们的理论分析和实验结果表明,将显式内存与双重反馈通道相结合至关重要:PAHF 的学习速度显著加快,且表现持续优于无内存或单通道的基准模型,有效降低了初始个性化误差,并实现了对偏好转移的快速适应。原文链接:https://arxiv.org/abs/2602.16173

Apr 11, 202622 min

【第558期】Trace-Free+:大语言模型智能体工具描述改写框架

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool UseSummary基于 LLM 的代理性能不仅取决于代理本身,还取决于其调用的工具接口质量。尽管此前的工作主要集中在代理微调上,但包括自然语言描述和参数架构在内的工具接口仍主要面向人类设计,往往成为性能瓶颈,尤其是在代理必须从大规模候选工具集中进行选择时。现有的工具接口优化方法依赖于执行轨迹(execution traces),但在冷启动或受隐私限制的场景中,这些轨迹通常难以获取;此外,这些方法通常独立优化每个工具,限制了其扩展性以及对未知工具的泛化能力。我们提出了 Trace-Free+:一个课程学习框架,该框架将监督信号逐步从轨迹丰富的场景转移到无轨迹的部署环境,鼓励模型抽象出可复用的接口使用模式和工具使用结果。为了支持这一方法,我们通过结构化工作流针对多种工具构建了一个大规模的高质量工具接口数据集。在 StableToolBench 和 RestBench 上的实验结果表明: 在未知工具上取得了持续的性能提升; 展现出强大的跨领域泛化能力; 当候选工具规模扩展至 100 个以上时,依然保持稳健。这证明了工具接口优化是代理微调的一种实用且可部署的补充手段。原文链接:https://arxiv.org/abs/2602.20426

Apr 10, 202622 min

【第557期】代码化上下文:大型代码库的 AI 智能体架构

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Codified Context: Infrastructure for AI Agents in a Complex CodebaseSummary基于 LLM 的代理式编程助手普遍缺乏持久化内存:它们会在不同会话间失去连贯性、遗忘项目规范,并重复已知的错误。近期研究描述了开发者如何通过清单文件(manifest files)配置代理,但如何在大规模、多代理项目中扩展此类配置仍是一个公开的挑战。本文提出了一种代码化的上下文基础设施(codified context infrastructure),该架构由三个组件构成,是在构建一个包含 10.8 万行代码的 C# 分布式系统过程中开发的: 热内存章程(Hot-memory Constitution):用于编码开发规范、检索钩子(retrieval hooks)和编排协议; 19 个专业领域专家代理; 冷内存知识库:包含 34 份按需调用的规范文档。我们报告了在 283 次开发会话中,关于基础设施增长和交互模式的量化指标,并结合四个观察性案例研究,阐述了“代码化上下文”如何在不同会话间传递,从而防止失效并保持一致性。该框架已作为一个开源配套仓库发布。原文链接:https://arxiv.org/abs/2602.20478

Apr 9, 202623 min

【第556期】深度思维率:量化大模型推理效能的新维度

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking TokensSummary大语言模型(LLM)通过长思维链(CoT)扩展测试时计算(test-time compute),展现了令人印象深刻的推理能力。然而,近期的研究表明,原始 Token 数量并不能可靠地代表推理质量:生成长度的增加并不总是与准确率正相关,反而可能预示着“过度思考”(overthinking),导致性能下降。在这项工作中,我们通过识别深度思考 Token(deep-thinking tokens)来量化推理时的努力程度。这些 Token 的特征是:在模型层级收敛之前,其内部预测在更深的模型层中经历了显著的修正。我们在四个具有挑战性的数学和科学基准测试(AIME 24/25、HMMT 25 和 GPQA-diamond)以及一系列专注于推理的模型(GPT-OSS、DeepSeek-R1 和 Qwen3)上进行了实验。结果表明,深度思考占比(生成序列中深度思考 Token 的比例)与准确率之间存在稳健且持续的正相关性,其表现显著优于基于长度或基于置信度的基准指标。基于这一洞察,我们提出了 Think@n:一种优先考虑高深度思考占比样本的测试时缩放策略。我们证明了 Think@n 在匹配或超越标准自洽性(self-consistency)性能的同时,通过根据简短前缀提前拒绝(early rejection)无望的生成内容,显著降低了推理成本。原文链接:https://arxiv.org/abs/2602.13517

Apr 8, 202624 min

【第555期】编码代理中 AGENTS.md 上下文文件的效用评估

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?Summary在软件开发中,一种普遍的做法是通过手动或自动生成的上下文文件(如 .cursorrules)为特定仓库量身定制编程代理(Coding Agents)。尽管代理开发者强烈鼓励这种做法,但目前尚无严谨的研究调查此类上下文文件在处理真实任务时是否真的有效。在本研究中,我们在两种互补的场景下评估了编程代理的任务完成性能: SWE-bench 任务:针对知名仓库的既有任务,根据代理开发者的建议,使用 LLM 生成上下文文件。 原创任务集:从包含开发者亲手编写(Developer-committed)的上下文文件的仓库中收集的新问题。通过对多个编程代理和 LLM 的测试,我们发现: 性能下降与成本上升:与不提供仓库上下文相比,上下文文件往往会降低任务成功率,同时增加超过 20%的推理成本。 行为影响:无论是 LLM 生成还是开发者提供的上下文文件,都会促使代理进行更广泛的探索(例如更彻底的测试和文件遍历),且编程代理倾向于遵守这些指令。最终我们得出结论:上下文文件引入的冗余要求反而增加了任务难度;因此,人工编写的上下文文件应仅描述最少限度的必要需求。原文链接:https://arxiv.org/abs/2602.11988

Apr 7, 202621 min

【第554期】从AGI到SAI:超越通用人工智能的专业化进路

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:AI Must Embrace Specialization via Superhuman Adaptable IntelligenceSummary从 AI 高管、研究人员到末日预言者、政治家和活动人士,每个人都在讨论通用人工智能(AGI)。然而,他们似乎往往无法在其确切定义上达成共识。AGI 的一个常见定义是“能做人类能做的一切事情的 AI”,但人类真的是“通用的”吗?在本文中,我们探讨了目前 AGI 概念中存在的缺陷,以及为什么即便是在其最连贯的表述下,它依然是一个不足以描述 AI 未来的错误概念。我们审视了那些被广泛接受的定义是否合理、有用且真正具备“通用性”。我们认为,AI 应当拥抱专业化(Specialization)而非追求通用性,并在专业化中力求达到超人性能。基于此,我们引入了 超人自适应智能(Superhuman Adaptable Intelligence, SAI) 概念。SAI 被定义为: 能够通过学习,在任何人类能做的重要事情上超越人类; 能够填补人类能力无法企及的技能空白。随后,我们阐述了 SAI 如何帮助厘清曾被过度解读的 AGI 定义所模糊的 AI 讨论,并推演了以 SAI 作为未来指南所带来的深远影响。原文链接:https://arxiv.org/abs/2602.23643

Apr 6, 202620 min

【第553期】混乱之源:自主AI代理红队测试研究报告

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Agents of ChaosSummary我们对部署在真实实验室环境中的、由语言模型驱动的自主代理(autonomous agents)进行了红队探索性研究。这些代理具备持久化内存、电子邮件账户、Discord 访问权限、文件系统以及 Shell 执行能力。在为期两周的时间里,20 名 AI 研究员在良性和对抗性条件下与这些代理进行了交互。我们聚焦于因语言模型与自主性、工具调用及多方通信相结合而引发的失效问题,并记录了 11 个具有代表性的案例研究。观察到的行为包括: 越权行为:未经授权即服从非所有者的指令。 信息泄露:泄露敏感信息。 破坏性操作:执行系统级的破坏行为。 资源风险:引发拒绝服务(DoS)状况及失控的资源消耗。 身份与传播:身份冒用漏洞以及不安全行为在代理间的交叉传播。 系统控制权:系统部分控制权被夺取。在多个案例中,代理报告任务已完成,但底层系统状态却与报告内容相矛盾。我们同时也报告了一些攻击失败的尝试。研究结果证实,在现实部署场景中,代理存在与安全、隐私及治理相关的显著漏洞。这些行为引发了关于问责制、授权委托以及下游损害责任归属等尚未解决的法律与伦理问题,需要法学学者、决策者和跨学科研究人员的紧急关注。本报告旨在为这一广泛讨论提供初步的实证贡献。原文链接:https://arxiv.org/abs/2602.20021

Apr 5, 202619 min

【第552期】SKILL-INJECT:大模型智能体技能注入攻击基准测试

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:SKILL-INJECT: Measuring Agent Vulnerability to Skill File AttacksSummaryLLM 代理正凭借代码执行、工具调用以及近期推出的“代理技能”(agent skills)功能迅速演进。技能插件允许用户通过特定的第三方代码、知识和指令来扩展 LLM 应用。尽管这能将代理能力延伸至新领域,但也导致代理供应链日益复杂,为提示词注入攻击(prompt injection attacks)提供了新的攻击面。我们认定基于技能的提示词注入是一项重大威胁,并推出了 SkillInject:一个用于评估常用 LLM 代理对通过技能文件实施注入的敏感程度的基准测试。SkillInject 包含 202 个“注入-任务”对,攻击类型涵盖了从显而易见的恶意注入,到隐藏在合法指令中、与上下文相关的隐蔽攻击。我们在 SkillInject 上对前沿 LLM 进行了评估,同时衡量了其安全性(对有害指令的规避能力)和效用性(对合法指令的遵循能力)。结果显示: 高度脆弱性:当前的代理极易受到攻击,即便使用前沿模型,攻击成功率也高达 80%。 严重危害:代理经常执行极具危害性的指令,包括数据窃取、破坏性操作以及类似勒索软件的行为。 系统性挑战:研究进一步表明,该问题无法通过模型规模缩放(scaling)或简单的输入过滤来解决。稳健的代理安全将需要上下文感知的授权框架。原文链接:https://arxiv.org/abs/2602.20156

Apr 4, 202617 min

【第551期】AgentSkiller:面向通用智能体的全自动大规模合成数据框架

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data SynthesisSummary大语言模型(LLM)代理在通过工具解决现实世界问题方面展现出巨大潜力,但通用智能的进一步提升却受限于高质量、长程(long-horizon)数据的匮乏。现有方法要么收集受隐私限制的 API 日志,要么生成缺乏多样性的脚本化交互,难以产生扩展模型能力所需的数据。我们提出了 AgentSkiller:一个全自动化的框架,用于在真实的、语义关联的领域中合成多轮交互数据。它采用基于 DAG(有向无环图) 的架构,具有明确的状态转换,以确保确定性和可恢复性。该流水线的工作流程如下: 环境构建:构建领域本体和“以人为中心的实体图”(Person-Centric Entity Graph)。 接口定义:通过“服务蓝图”为 Model Context Protocol (MCP) 服务器定义工具接口。 数据填充:使用一致的数据库和严格的领域策略填充环境。 跨域融合:利用跨域融合机制链接不同服务,以模拟复杂任务。 任务生成:通过验证解决方案路径、执行验证过滤,并使用“基于画像的模拟器”(Persona-based Simulator)生成查询进行自动演练,从而创建用户任务。这一流程产生了具有清晰状态变化的可靠环境。为了证明其有效性,我们合成了约 1.1 万条交互样本;实验结果表明,在该数据集上训练的模型在函数调用(function calling)能力上较基准模型有显著提升,在参数规模较大的模型中表现尤为突出。原文链接:https://arxiv.org/abs/2602.09372

Apr 3, 202622 min

【第550期】AdaptEvolve:基于置信度自适应选择的进化智能体系统

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model SelectionSummary演化代理系统(Evolutionary agentic systems)通过在推理过程中反复调用大语言模型(LLM),加剧了计算效率与推理能力之间的权衡。在这种背景下,产生了一个核心问题:代理如何能动态地选择一个既足以胜任当前生成步骤,又能保持计算高效的 LLM?虽然模型级联(model cascades)为平衡这种权衡提供了一种实用机制,但现有的路由策略通常依赖于静态启发式算法或外部控制器,且未显式考虑模型的不确定性。我们提出了 AdaptEvolve:一种用于多 LLM 演化优化(Evolutionary Refinement)的自适应 LLM 选择框架。该框架在演化序列优化过程中,利用内在生成置信度(intrinsic generation confidence)来评估实时的可解性。实验结果表明,这种由置信度驱动的选择机制产生了优越的帕累托前沿(Pareto frontier):在保持静态大模型基准 97.5% 准确率上限的同时,将各基准测试的总推理成本平均降低了 37.9%。原文链接:https://arxiv.org/abs/2602.11931

Apr 2, 202623 min

【第549期】EchoJEPA:超声心动图潜在预测基础模型

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:EchoJEPA: A Latent Predictive Foundation Model for EchocardiographySummary超声心动图的基础模型通常难以从超声波固有的随机斑点噪声(Speckle)和采集伪影中分离出解剖信号。我们提出了 EchoJEPA,这是一种在来自 30 万名患者的 1800 万份超声心动图上训练的基础模型,代表了迄今为止该领域最大的预训练语料库。通过利用潜变量预测目标(Latent Predictive Objective),EchoJEPA 学习到了能够忽略斑点噪声的稳健解剖表征。我们使用一种新型的、基于冻结骨干网络的**多切面探测框架(Multi-view Probing Framework)**对其进行了验证。结果显示,EchoJEPA 在左心室射血分数(LVEF)估算方面优于领先的基准模型约 20%,在右心室收缩压(RVSP)估算方面优于基准模型约 17%。此外,该模型表现出卓越的样本效率:仅使用 1% 的标注数据,其切面分类准确率即可达到 79%,而表现最好的基准模型在 100% 标注数据下的准确率仅为 42%。至关重要的一点是,EchoJEPA 展示了优异的泛化能力。在受物理启发的人工声学扰动下,其性能仅下降了 2%,而竞争模型则下降了 17%。最引人注目的是,它在儿科患者上的**零样本(Zero-shot)**表现甚至超过了经过充分微调的基准模型。这证明了潜变量预测是构建稳健、泛化性强的医疗人工智能的卓越范式。原文链接:https://arxiv.org/abs/2602.02603

Apr 1, 202620 min

【第548期】Agyn:基于多智能体协作的自主软件工程系统

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Agyn: A Multi-Agent System for Team-Based Autonomous Software EngineeringSummary大型语言模型在处理单个软件工程任务方面展现出了卓越的能力,然而大多数自主系统仍将问题修复视为一个单一的任务或流水线过程。相比之下,现实世界的软件开发是一项由团队按照共享方法论开展的协作活动,具有清晰的角色分工、沟通和评审机制。在这项工作中,我们展示了一个全自动多智能体系统,该系统明确地将软件工程建模为一个组织过程,复制了工程团队的结构。我们的系统构建于开源智能体团队配置平台 agyn 之上,为不同智能体分配了专门的角色(如协调、研究、实现和评审),为它们提供了用于实验的隔离沙箱,并启用了结构化沟通。该系统遵循一套既定的开发方法论来处理问题,包括分析、任务规范制定、拉取请求(PR)创建以及迭代评审,且无需任何人工干预。值得注意的是,该系统是为实际生产环境设计的,并未针对 SWE-bench 进行特定调优。在 SWE-bench 500 的事后评估中,它解决了 72.2% 的任务,表现优于使用同类语言模型的单智能体基准测试。我们的研究结果表明,复制团队结构、方法论和沟通机制是自主软件工程的一种强大范式,未来的进展可能同样取决于组织设计和智能体基础设施,而不仅仅是模型本身的提升。原文链接:https://arxiv.org/abs/2602.01465

Mar 31, 202615 min

【第547期】InftyThink+:基于强化学习的无限视野高效迭代推理框架

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement LearningSummary大型推理模型通过扩展推理时思维链(CoT)实现了强大的性能,但这种范式面临着二次方成本、上下文长度限制以及由于“迷失中间”(lost-in-the-middle)效应导致的推理能力退化。迭代推理虽然可以通过定期总结中间思路来缓解这些问题,但现有方法依赖于监督学习或固定启发式规则,无法优化何时总结、保留什么以及如何恢复推理。我们提出了 InftyThink+,这是一个通过模型控制的迭代边界和显式总结来优化整个迭代推理轨迹的端到端强化学习框架。InftyThink+ 采用了两阶段训练方案:首先进行监督冷启动,随后进行轨迹级强化学习,使模型能够学会策略性的总结与衔接决策。在 DeepSeek-R1-Distill-Qwen-1.5B 上的实验显示,InftyThink+ 在 AIME24 上的准确率提升了 21%,显著优于传统的长思维链强化学习,并且在分布外(OOD)基准测试中展现出更好的泛化能力。此外,InftyThink+ 大幅降低了推理延迟并加速了强化学习训练,证明了在提升性能的同时也增强了推理效率。原文链接:https://arxiv.org/abs/2602.06960

Mar 30, 202622 min

【第546期】SKILLRL:基于递归技能增强强化学习的智能体进化

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:SKILLRL: Evolving Agents via Recursive Skill-Augmented Reinforcement LearningSummary大语言模型(LLM)智能体在复杂任务中展现了惊人的成果,但它们往往处于“孤立运行”状态,无法从过往经验中学习。现有的基于记忆的方法主要存储原始执行轨迹,而这些轨迹通常冗长且充斥着噪声,导致智能体难以提取出对泛化至关重要的、高层次且可复用的行为模式。在本文中,我们提出了 SkillRL,这是一个通过自动技能发现与递归演化,弥合原始经验与策略改进之间鸿沟的框架。我们的方法引入了三种创新机制: 基于经验的蒸馏机制:用于构建层级化的技能库 SkillBank; 自适应检索策略:用于获取通用及任务特定的启发式信息; 递归演化机制:允许技能库在强化学习过程中与智能体的策略共同进化。这些创新在显著降低 Token 消耗的同时,提升了推理的实用性。在 ALFWorld、WebShop 以及七个搜索增强型任务上的实验结果表明,SkillRL 达到了当前最先进的性能(SOTA),优于强基准模型 15.3% 以上,并在任务复杂度增加时保持了鲁棒性。原文链接:https://arxiv.org/abs/2602.08234

Mar 29, 202616 min

【第545期】LLaDA2.1:通过令牌编辑加速文本扩散

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:LLaDA2.1: Speeding Up Text Diffusion via Token EditingSummary虽然 LLaDA 2.0 展示了千亿级块扩散(Block-diffusion)模型的扩展潜力及其固有的并行化优势,但在解码速度与生成质量之间寻找微妙的平衡,依然是一个难以逾越的前沿课题。今天,我们推出了 LLaDA 2.1,旨在通过范式转换超越这一权衡。通过将 Token 到 Token(T2T)编辑无缝织入传统的掩码到 Token(M2T)方案中,我们引入了一种联合且可配置的阈值解码机制。这种结构创新催生了两种截然不同的模式: 速度模式(S Mode):大胆降低 M2T 阈值以突破传统约束,同时依赖 T2T 对输出进行细化; 质量模式(Q Mode):倾向于保守阈值,以可控的效率损耗换取卓越的基准测试表现。为了进一步推进这一演进,在超长上下文窗口的支持下,我们实现了首个专门为扩散语言模型(dLLMs)定制的大规模强化学习(RL)框架,并辅以稳定的梯度估计专门技术。这种对齐不仅提高了推理精度,还提升了指令遵循的忠实度,弥合了扩散动力学与复杂人类意图之间的鸿沟。我们最后发布了 LLaDA 2.1-Mini (16B) 和 LLaDA 2.1-Flash (100B)。在 33 项严苛的基准测试中,LLaDA 2.1 展现了强大的任务性能和极快的解码速度。尽管拥有千亿参数规模,它在编程任务上的表现依然令人惊叹:在 HumanEval+ 上达到 892 TPS,在 BigCodeBench 上达到 801 TPS,在 LiveCodeBench 上达到 663 TPS。原文链接:https://arxiv.org/abs/2602.08676

Mar 28, 202618 min

【第544期】ALMA:通过元学习自动化智能体记忆设计

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Learning to Continually Learn via Meta-learning Agentic Memory DesignsSummary基础模型的无状态性瓶颈了智能体系统持续学习的能力,而持续学习是长时程推理和自适应的核心。为了解决这一局限性,智能体系统通常结合记忆模块来保留和复用过去的经验,旨在推理阶段(Test time)实现持续学习。然而,现有的大多数记忆设计都是人工构建且固定的,这限制了它们适应现实任务多样性和非平稳性的能力。在本文中,我们引入了 ALMA(智能体系统记忆设计的自动元学习),这是一个通过元学习生成记忆设计以取代人工设计的框架,从而最大限度地减少人力投入,并使智能体系统能够成为跨不同领域的持续学习者。我们的方法采用了一个元智能体(Meta Agent),以开放式的方式搜索以可执行代码表达的记忆设计。从理论上讲,这允许发现任意的记忆设计,包括数据库模式及其检索和更新机制。在四个顺序决策领域的广泛实验表明,在所有基准测试中,学习到的记忆设计比目前最先进的人工记忆设计能更有效、更高效地从经验中学习。在安全开发和部署的前提下,ALMA 代表了向自强型(Self-improving)AI 系统迈出的一步,使其能够学会成为自适应的持续学习者。原文链接:https://arxiv.org/abs/2602.07755

Mar 27, 202623 min

【第543期】智能体原语:多智能体系统的可复用潜空间构建模块

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Agent Primitives: Reusable Latent Building Blocks for Multi-Agent SystemsSummary虽然现有的多智能体系统(MAS)能够通过协作处理复杂问题,但它们通常具有高度的任务特定性,依赖人工设计的角色和交互提示词,这导致了架构复杂度的增加以及任务间复用性的受限。此外,大多数 MAS 主要通过自然语言进行通信,使得它们在长上下文、多阶段的内部交互中容易受到错误累积和不稳定性的影响。在本文中,我们提出了 Agent Primitives(智能体原语)——一套用于大模型多智能体系统的可复用潜分量构建模块。受神经网络设计的启发(即复杂模型由可复用组件构建),我们观察到许多现有的 MAS 架构可以分解为少数反复出现的内部计算模式。基于这一观察,我们实例化了三种原语:审查(Review)、投票与选择(Voting and Selection),以及规划与执行(Planning and Execution)。所有原语内部均通过 键值缓存(KV Cache) 进行通信,通过减轻多阶段交互中的信息降解,提升了系统的鲁棒性与效率。为了实现系统的自动构建,组织者(Organizer) 智能体会在轻量级成功配置知识池的引导下,为每个查询选择并组合原语,从而形成基于原语的 MAS。实验表明,与单智能体基准相比,基于原语的 MAS 将平均准确率提升了 12.0%–16.5%;与基于文本通信的 MAS 相比,其 Token 使用量和推理延迟降低了约 3 到 4 倍,而相对于单智能体推理仅增加了 1.3 到 1.6 倍的开销,并在不同骨干模型上提供了更稳定的表现。原文链接:https://arxiv.org/abs/2602.03695

Mar 26, 202616 min

【第542期】A-RAG:层次化检索接口驱动的智能体RAG框架

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval InterfacesSummary前沿语言模型已展示出强大的推理和长时程工具使用能力。然而,现有的 RAG(检索增强生成)系统未能充分利用这些能力,仍依赖于两种范式:(1) 设计一种单次检索片段并将其拼接至模型输入的算法;(2) 预定义工作流并提示模型逐步执行。这两种范式都无法让模型参与检索决策,从而阻碍了随模型性能提升而实现的高效扩展。在本文中,我们推出了 A-RAG,这是一个直接向模型开放层级检索接口的智能体 RAG 框架。A-RAG 提供了三种检索工具:关键词搜索、语义搜索和块读取,使智能体能够跨多个粒度自适应地搜索和检索信息。在多个开放域问答基准测试中的实验表明,A-RAG 在使用相同或更少检索 Token 的情况下,表现始终优于现有方法,证明其能有效利用模型能力并动态适应不同的 RAG 任务。我们进一步系统研究了 A-RAG 如何随模型规模和推理时计算量进行扩展。我们将发布代码和评估套件以促进后续研究。原文链接:https://arxiv.org/abs/2602.03442

Mar 25, 202617 min

【第541期】InfMem:超长文本智能体的系统2记忆控制策略

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:InfMem: Learning System-2 Memory Control for Long-Context AgentSummary在超长文档上进行推理,要求在严格的内存限制下,综合分布在遥远段落中的稀疏证据。虽然流式智能体(Streaming Agents)能够实现可扩展的处理,但其被动的记忆更新策略往往无法保留多跳推理所需的低显著性桥接证据。我们提出了 InfMem,这是一种以控制为中心的智能体,通过“预思考-检索-写入”(PreThink-Retrieve-Write)协议实例化了 System-2 式的控制。InfMem 主动监测证据的充分性,执行针对性的文档内检索,并应用证据感知的联合压缩来更新有限的记忆。为了确保控制的可靠性,我们引入了一种实用的“从 SFT 到 RL”的训练方案,使检索、写入和停止决策与最终任务的正确性相对齐。在 32k 到 1M Token 的超长文本问答基准测试中,InfMem 在不同骨干模型上的表现始终优于 MemAgent。具体而言,InfMem 在 Qwen3-1.7B、Qwen3-4B 和 Qwen2.5-7B 上分别将平均绝对准确率提升了 10.17、11.84 和 8.23 个百分点,同时通过自适应提前停止机制,将推理时间平均缩短了 3.9 倍(最高达 5.1 倍)。原文链接:https://arxiv.org/abs/2602.02704

Mar 24, 202618 min

【第540期】基于策略拍卖的小型智能体规模化扩展

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Scaling Small Agents Through Strategy AuctionsSummary小语言模型正日益被视为实现智能体 AI(Agentic AI)的一种极具前景且成本效益高的方法,支持者认为它们足以胜任智能体工作流。然而,虽然小型智能体在简单任务上能与大型智能体平分秋色,但目前尚不清楚其性能如何随任务复杂度的增加而变化、何时必须使用大模型,以及如何更好地利用小型智能体处理长时程工作负载。在本研究中,我们通过实证展示了小型智能体在深度搜索和编程任务上的性能无法随任务复杂度同步提升。为此,我们引入了 SALE(基于工作负载效率的策略拍卖),这是一个受自由职业者市场启发的智能体框架。在 SALE 中,智能体通过简短的战略计划进行投标,这些计划由系统的“成本-价值”机制评分,并通过共享的拍卖记忆进行完善,从而实现逐任务路由(Per-task Routing)和持续自我改进,而无需训练专门的路由模型或运行所有模型直至结束。在不同复杂度的深度搜索和编程任务中,SALE 将对最大智能体的依赖降低了 53%,总成本降低了 35%,并始终优于最大智能体的 Pass@1 表现,且除执行最终轨迹外,其开销几乎可以忽略不计。相比之下,现有的依赖任务描述的路由器要么性能不如最大智能体,要么无法降低成本(通常两者兼有),凸显了它们与智能体工作流的适配性极差。这些结果表明,虽然小型智能体可能不足以独立处理复杂负载,但可以通过协调的任务分配和推理时(Test-time)自我改进来有效“扩展”。更广泛地说,这激发了对智能体 AI 的系统级视角:性能提升不再仅仅源于不断增大的单个模型,而是更多地源于受市场启发的协调机制,将异构智能体组织成高效、自适应的生态系统。原文链接:https://arxiv.org/abs/2602.02751

Mar 23, 202619 min

【第539期】xMemory:超越RAG的智能体解耦与聚合存储系统

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Beyond RAG for Agent Memory: Retrieval by Decoupling and AggregationSummary智能体记忆系统通常采用标准的检索增强生成(RAG)流水线,但其底层假设在此场景下已发生变化。RAG 针对的是大型异构语料库,检索到的片段具有多样性;而智能体记忆是一个有界的、连贯的对话流,其中高度相关的跨度往往是重复的。在这种转变下,固定的 Top-k 相似度检索容易返回冗余上下文,而事后修剪可能会删除正确推理所需的、具有时间连续性的先决条件。我们认为,检索应当超越相似度匹配,转而在潜分量(Latent Components)上运行,遵循“解耦到聚合”的逻辑:将记忆拆解为语义分量,将其组织成层级结构,并利用该结构驱动检索。我们提出了 xMemory,它构建了一个完整单元的层级结构,并通过“稀疏性-语义”目标函数引导记忆的拆分与合并,从而维持一个可搜索且忠实的高层节点组织。在推理阶段,xMemory 执行自顶向下的检索,为多事实查询选择精简且多样的主题与语义,并仅在能降低阅读器不确定性时才扩展至具体的片段(Episodes)和原始消息。在 LoCoMo 和 PerLTQA 基准测试中,针对三种最新大语言模型的实验表明,该方法在答案质量和 Token 效率上均有显著提升。原文链接:https://arxiv.org/abs/2602.02007

Mar 22, 202622 min

【第538期】TinyLoRA:仅需13个参数的学习推理之旅

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Learning to Reason in 13 ParametersSummary最近的研究表明,语言模型可以通过强化学习(RL)学会“推理”。虽然部分研究采用低秩参数化来实现推理能力,但传统的 LoRA 无法将秩降低到模型维度以下。我们质疑:即便秩为 1(Rank=1)的 LoRA 是否也是学习推理所必需的?为此,我们提出了 TinyLoRA。这是一种能将低秩适配器(Adapters)缩减至仅有一个参数规模的方法。在这一全新的参数化框架下,我们仅通过训练 13 个 bf16 格式的参数(总计 26 字节),就能使 8B 规模的 Qwen2.5 模型在 GSM8K 测试集上达到 91% 的准确率。我们发现这一趋势具有普适性:在 AIME、AMC 和 MATH500 等一系列更具挑战性的“学习推理”基准测试中,我们仅需训练少 1000 倍的参数,即可恢复 90% 的性能提升。值得注意的是,这种极强的性能表现仅能通过强化学习(RL)实现:使用有监督微调(SFT)训练的模型,若要达到相同的性能水平,所需的参数更新量要比前者大 100 到 1000 倍。原文链接:https://arxiv.org/abs/2602.04118

Mar 21, 202613 min

【第537期】AI攻克埃尔德什数学难题进展报告

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős ProblemsSummary我们展示了一项关于半自动数学发现的案例研究,利用 Gemini 对 Bloom 的“埃尔多斯问题”(Erdős Problems)数据库中 700 个标记为“未解决”(Open)的猜想进行了系统评估。我们采用了混合方法论:首先通过 AI 驱动的自然语言验证来缩小搜索空间,随后由人类专家评估其正确性与新颖性。我们处理了数据库中标记为“未解决”的 13 个问题:其中 5 个通过看似新颖的自主解法完成,另外 8 个则通过识别现有文献中的既有解法完成。我们的研究结果表明,这些问题的“未解决”状态更多是因为其冷僻程度而非难度。此外,我们还识别并讨论了在大规模应用 AI 处理数学猜想时出现的问题,重点指出了文献检索的困难以及 AI 存在“潜意识剽窃”的风险。最后,我们对 AI 辅助攻克埃尔多斯问题的经验教训进行了反思。原文链接:https://arxiv.org/abs/2601.22401

Mar 20, 202619 min

【第536期】【shownotes彩蛋】让AI给自己当家教

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com今天的主题是:Self-Improving Pretraining: using post-trained models to pretrain better modelsSummary确保大语言模型生成内容的安全性、事实性及整体质量是一项严峻挑战,尤其是在这些模型日益广泛应用于现实场景的背景下。目前解决这些问题的主流方法是收集昂贵且精心策划的数据集,并进行多阶段的微调与对齐。然而,即便采用如此复杂的流程,也无法保证能彻底纠正模型在预训练阶段习得的模式。因此,在预训练阶段解决这些问题至关重要,因为预训练塑造了模型的核心行为,并能从源头上防止不安全或幻觉输出的根深蒂固。为了应对这一挑战,我们提出了一种全新的预训练方法:通过流式处理文档,并利用强化学习(RL)在每一步优化后续生成的 K 个 Token。该方法引入一个强大的后验模型,对包括模型预测序列(Rollouts)、原始后缀及重写后缀在内的候选生成内容进行评分,评估其质量、安全性与事实性。在训练初期,该过程依赖于原始和重写的后缀;随着模型能力的提升,强化学习将奖励高质量的模型预测序列。这种方法从底层构建了更高质量、更安全且更具事实性的模型。实验表明,与标准预训练相比,我们的方法在事实性和安全性方面分别带来了 36.2% 和 18.5% 的相对提升,在整体生成质量的胜率上最高提升了 86.3%。原文链接:https://arxiv.org/abs/2601.21343

Mar 19, 202617 min

【第535期】SDPO:通过自我蒸馏强化丰富反馈学习

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Reinforcement Learning via Self-DistillationSummary大型语言模型越来越多地在可验证领域(如代码与数学)中通过强化学习后训练。然而,当前用于具有可验证奖励的强化学习(RLVR)的方法通常只从每次尝试得到的单一标量结果奖励中学习,从而造成了严重的信用分配(credit assignment)瓶颈。事实上,许多可验证环境能够提供丰富的文本反馈,例如运行时错误信息或评测器(judge)的评估,这些反馈可以解释一次尝试为何失败。我们将这一设定形式化为具有丰富反馈的强化学习(reinforcement learning with rich feedback),并提出 Self-Distillation Policy Optimization(SDPO)。该方法能够在无需外部教师模型或显式奖励模型的情况下,将token 化的反馈转化为密集的学习信号。SDPO 将当前模型在给定反馈条件下的输出视为一种自教师(self-teacher),并把其基于反馈生成的下一 token 预测蒸馏回策略模型中。通过这种方式,SDPO 利用模型在上下文中事后识别自身错误的能力来进行学习。在科学推理、工具使用以及 LiveCodeBench v6 上的竞赛编程任务中,SDPO 相较于强基线 RLVR 方法,在样本效率和最终准确率方面均取得了提升。值得注意的是,在仅返回标量反馈的标准 RLVR 环境中,SDPO 仍然优于基线方法,因为它能够利用成功的 rollout 作为对失败尝试的隐式反馈。最后,当在测试时对单个问题应用 SDPO时,该方法还能加速在困难的二值奖励任务中的解发现过程:与 best-of-k 采样 或 多轮对话策略相比,SDPO 仅需 约三分之一的尝试次数就能达到相同的解发现概率。原文链接:https://arxiv.org/abs/2601.20802

Mar 18, 202617 min

【第534期】VibeTensor:AI智能体全生成的深度学习系统软件

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:VibeTensor: System Software for Deep Learning, Fully Generated by AI AgentsSummaryVIBETENSOR 是一个用于深度学习的开源研究型系统软件栈,由 LLM 驱动的编程智能体在人类高层指导下生成。在本文中,“完全生成(fully generated)”指的是代码来源:实现变更由智能体提出补丁(diff)并应用;验证则依赖智能体执行的构建、测试以及差异检查,而不是对每一次变更进行人工逐条审查。该系统实现了一个 类 PyTorch 的即时执行(eager)张量库:核心使用 C++20(CPU + CUDA) 实现,并通过 nanobind 提供一个 类似 torch 的 Python 封装层,同时还包含一个实验性的 HTTP URL 接口。不同于仅提供薄封装(thin bindings)的方案,VIBETENSOR 还包含: 自有的 tensor / storage 系统 schema-lite 调度器(dispatcher) 反向模式自动求导(reverse-mode autograd) CUDA 运行时组件(streams / events / graphs) 一个按 stream 顺序工作的缓存分配器,并带有诊断功能 一个稳定的 C ABI,用于动态加载算子插件我们将这一发布视为 AI 辅助软件工程的一个里程碑:它表明编程智能体能够生成一个结构连贯的深度学习运行时系统,其范围从语言绑定一直延伸到 CUDA 内存管理,并主要通过构建和测试完成验证。本文介绍了系统架构,总结了用于生成和验证该系统的工作流程,并对该工件进行了评估。我们报告了代码仓库规模与测试套件组成,并总结了来自一个AI 生成的内核套件的可复现微基准测试结果,其中包括 融合注意力(fused attention) 与 PyTorch 的 SDPA / FlashAttention 的对比。此外,我们还报告了在 NVIDIA H100(Hopper,SM90) 与 Blackwell 级 GPU 上进行的三个小规模端到端训练任务的基本可行性测试(sequence reversal、ViT、miniGPT)。多 GPU 结果仅在 Blackwell 平台上提供,并使用一个可选的基于 CUTLASS 的 ring-allreduce 插件,该插件需要 CUDA 13+ 与 sm103a 工具链支持。最后,我们讨论了在生成式系统软件中可能出现的失败模式,其中包括一种被称为 “Frankenstein 组合效应” 的问题:即多个在局部上正确的子系统组合在一起时,可能导致整体性能表现不佳。原文链接:https://arxiv.org/abs/2601.16238

Mar 17, 202618 min

【第533期】AI辅助对编程技能形成的冲击研究

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:How AI Impacts Skill FormationSummaryAI 辅助在各类专业领域中带来了显著的生产力提升,尤其对新手从业者更为明显。然而,这种辅助如何影响人们发展有效监督 AI 所需的技能,目前仍不清楚。对于需要完成不熟悉任务的新手来说,如果过度依赖 AI,可能会在这一过程中削弱自身的技能习得。我们通过随机对照实验,研究开发者在有 AI 辅助与无 AI 辅助的情况下,如何掌握一个新的异步编程库。研究发现,使用 AI 会削弱参与者的概念理解、代码阅读能力以及调试能力,而平均来看并未带来显著的效率提升。那些完全将编码任务委托给 AI的参与者确实获得了一定的生产力提升,但代价是未能真正学习该编程库。我们识别出 六种不同的 AI 交互模式,其中 三种涉及认知参与,即使参与者获得 AI 辅助,也能够保持良好的学习效果。研究结果表明,AI 带来的生产力提升并不是通往能力提升的捷径。在将 AI 辅助纳入工作流程时应谨慎设计,以保护技能的形成——尤其是在安全关键领域。原文链接:https://arxiv.org/abs/2601.20245

Mar 16, 202618 min

【第532期】词元级过滤切除AI危险知识

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Shaping capabilities with token-level data filteringSummary当前减少语言模型不良能力的方法大多是事后处理(post hoc)的,因此很容易被对抗者绕过。一种更自然的替代方案是在预训练阶段就对能力进行塑造。以移除医疗相关能力这一代理任务为例,我们表明,仅通过过滤预训练数据这一简单干预,就能够在大规模情况下实现高度有效、稳健且成本低廉的效果。受到数据归因(data attribution)相关研究的启发,我们进一步表明,与过滤文档相比,过滤 token 更为有效:在对不希望出现的能力造成同等抑制效果的同时,对正常能力的影响更小。通过训练跨越两个数量级规模的模型,我们还展示了:随着模型规模增大,过滤策略的效果也会增强。在我们最大的模型上,token 级过滤会使模型在“需要遗忘的领域(forget domain)”上的计算效率降低 7000 倍。我们还表明,通过 token 过滤训练得到的模型,依然可以在该遗忘领域上进行对齐。在这一过程中,我们提出了一种方法:利用稀疏自编码器(sparse autoencoders)对 token 进行标注,并蒸馏出低成本且高质量的分类器。我们还证明,只要预训练计算量足够,过滤方法在存在噪声标签的情况下依然具有鲁棒性。原文链接:https://arxiv.org/abs/2601.21571

Mar 15, 202616 min

【第531期】Kimi K2.5 技术报告:迈向通用智能体之路

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Kimi K2.5: Visual Agentic IntelligenceSummary我们介绍 Kimi K2.5,一个开源的多模态智能体模型,旨在推动通用智能体能力的发展。K2.5 强调对文本与视觉的联合优化,使两种模态能够相互增强。这一过程包含一系列技术,例如文本—视觉联合预训练、零视觉监督微调(zero-vision SFT),以及文本—视觉联合强化学习。在这一多模态基础之上,K2.5 引入了 Agent Swarm,一种自驱动的并行智能体编排框架,能够将复杂任务动态分解为异构子问题,并并发执行。大量评估表明,Kimi K2.5 在多个领域(包括编程、视觉、推理以及智能体任务)上达到了当前最先进的水平。与单智能体基线相比,Agent Swarm 还可将延迟降低最多 4.5 倍。我们发布了经过后训练的 Kimi K2.5 模型检查点,以促进未来在智能体智能领域的研究和实际应用。原文链接:https://arxiv.org/abs/2602.02276

Mar 14, 202615 min

【第530期】变形门罗币交易:规避反洗钱监管的技术挑战

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Anamorphic Monero Transactions: the Threat of Bypassing Anti-Money Laundering LawsSummary在本文中,我们分析了以隐私为导向的加密货币与新兴打击金融犯罪法律框架之间的冲突,尤其聚焦于欧盟近期出台的相关法规。我们分析了 Monero(门罗币)这一领先的“隐私币”,它也是执法机构重点关注的对象,并研究在新法律下针对 Monero 交易平台必须履行的尽职调查范围,以及这些要求如何映射到 Monero 协议的技术能力之上。我们既指出了该立法中的缺陷,也识别出一些技术层面的陷阱,这些陷阱可能威胁到例如 Monero 交易所的有效合规,或是 Monero 自身的匿名化目标。另一个具有独立研究价值的方面是,我们引入了变形密码学(anamorphic cryptography)(这也是该概念最早的实际应用之一),并利用它在 Monero 区块链中构建了一个隐藏的交易层,用以混淆非法资金流动,并规避欧盟法律在交易层面实施监管的尝试。原文链接:https://eprint.iacr.org/2025/1961

Mar 13, 202619 min

【第529期】区块链系统信息隐私:攻击、保护与多层级评价综述

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:A Systematic Literature Review of Information Privacy in Blockchain SystemsSummary在这篇文献综述中,我们对区块链系统中的隐私问题不断发展的研究格局进行了批判性分析,重点关注隐私攻击与防护措施在三个不同层级中的差异: 链上层(on-chain layer) 链下层(off-chain layer) 基础设施层(infrastructure layer),即 点对点网络层(peer-to-peer network layer)在综述中,我们对常见的隐私攻击进行了分类,例如: 交易追踪(transaction tracing) 数据泄露(data leakage) 网络监控(network surveillance)并分析这些攻击在不同层级上的具体表现及其影响。此外,我们还评估了一系列隐私保护技术,包括: 密码学方法(cryptographic methods) 零知识证明(zero-knowledge proofs) 其他隐私保护协议(privacy-preserving protocols)同时,我们探讨了这些隐私技术与现有区块链系统之间的兼容性。通过综合当前的研究成果和实际应用案例,本综述旨在: 提供对区块链环境中隐私挑战与解决方案的全面理解 识别当前研究中的空白与不足 为未来**区块链隐私增强技术(privacy-enhancing technologies)**的发展提供指导。原文链接:https://www.mdpi.com/2624-800X/5/3/65

Mar 12, 202618 min

【第528期】AI编程智能体:效率提升与质量债的博弈

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:AI IDEs or Autonomous Agents? Measuring the Impact of Coding Agents on Software DevelopmentSummary基于大型语言模型(LLM)的编程智能体(coding agents)正越来越多地作为自主贡献者参与软件开发,例如自动生成并合并 Pull Request。然而,与目前广泛使用的IDE 内置 AI 助手相比,这些智能体在真实软件项目中的影响仍不清楚。我们开展了一项纵向因果研究(longitudinal causal study),分析智能体在开源仓库中的采用效果。研究方法采用分阶段差分中的差分(staggered difference-in-differences)设计,并配合匹配对照组。基于 AIDev 数据集,我们将“采用智能体”定义为仓库首次出现由智能体生成的 Pull Request,并分析仓库按月统计的项目级指标,包括:开发速度(development velocity) 提交次数(commits) 新增代码行数(lines added)软件质量(software quality) 静态分析警告(static-analysis warnings) 认知复杂度(cognitive complexity) 代码重复度(duplication) 注释密度(comment density)研究结果表明: 开发速度提升具有明显的“前期集中效应”:当智能体是项目中首次出现的 AI 工具时,开发速度会出现显著提升。 如果仓库此前已经使用过 AI IDE 助手,那么引入智能体带来的吞吐量提升很小或持续时间很短。相比之下,代码质量风险则更加持久。在不同情境下都观察到: 静态分析警告增加约 18% 认知复杂度增加约 39%这表明即使开发速度优势逐渐消失,由智能体引入的技术债(technical debt)仍会持续累积。这些异质性效应表明 AI 辅助开发存在边际收益递减的现象,同时也凸显出以下需求: 质量保障机制(quality safeguards) 代码来源追踪(provenance tracking) 对自主智能体进行选择性部署本研究为理解智能体式工具(agentic tools)与 IDE AI 助手之间的相互作用提供了实证基础,并推动未来研究探索:在 AI 融合的软件开发流程中,如何在开发效率与可维护性之间取得平衡。本研究的**可复现代码与数据包(replication package)**已通过论文中的链接公开发布。原文链接:https://arxiv.org/abs/2601.13597

Mar 11, 202616 min

【第527期】MCP-SIM:自校正多智能体物理仿真框架

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:A self-correcting multi-agent LLM framework for language-based physics simulation and explanationSummary基于物理的模拟在科学和工程领域至关重要,但构建这类模拟通常需要对数值求解器和控制方程(governing equations)具备专业知识。大型语言模型(LLM)为通过自然语言创建模拟提供了新的可能性,但当提示模糊、不完整或包含多语言时,它们往往会失败。为了解决这一问题,我们提出 MCP-SIM(Memory-Coordinated Physics-Aware Simulation),这是一个具备自我纠错能力的多智能体框架,能够将信息不充分的提示转化为经过验证的模拟结果和解释性报告。该系统通过结构化的智能体协作以及持久记忆机制,整合了多个功能模块,包括: 输入澄清(input clarification) 代码生成(code generation) 错误诊断(error diagnosis) 多语言解释(multilingual explanation)与一次性代码生成(one-shot code generation)不同,MCP-SIM 通过迭代式的“计划–执行–反思–修订”(plan–act–reflect–revise)循环来模拟专家式推理过程。在 12 个复杂度逐步提升的任务上进行评估时,该框架成功解决了所有基准测试案例。在本研究定义的特定评估指标下,它在收敛效率方面优于基于 GPT 的方法以及人类参与(human-in-the-loop)的基线方法。除了数值精度之外,该系统还能够生成可解释的报告,并支持多语言输出,用于说明每个模拟背后的物理逻辑。MCP-SIM 向通用型自主科学助手迈出了一步:这种系统能够通过自然语言进行模拟、适应并解释科学问题。尽管在本研究的测试任务中表现出较强的鲁棒性,但在更专业领域以及超出当前基准分布的任务上的表现仍有待未来进一步验证。原文链接:https://www.nature.com/articles/s44387-025-00057-z

Mar 10, 202618 min

【第526期】Terminal-Bench 2.0:复杂命令行任务智能体基准测试

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line InterfacesSummaryAI 智能体很可能很快就能在多个领域中自主完成具有价值的长期任务(long-horizon tasks)。然而,现有基准测试要么无法反映真实世界任务,要么难度不足以有效评估前沿模型。为此,我们提出 Terminal-Bench 2.0:一个精心构建的高难度基准测试。该基准包含 89 个任务,全部在计算机终端环境(terminal environments)中完成,并且这些任务都来源于真实工作流程中的问题。每个任务都包含: 独立的运行环境 人工编写的参考解决方案 完整的自动化测试(用于验证结果)实验结果表明,当前的前沿模型和智能体在该基准上的得分低于 65%。我们还进行了错误分析(error analysis),以识别模型和智能体在未来需要改进的关键能力方向。为了支持开发者和研究人员的进一步研究,我们公开发布了数据集和评测框架(evaluation harness),可通过论文中的链接获取。原文链接:https://arxiv.org/abs/2601.11868

Mar 9, 202616 min

【第525期】OneFlow:基于单智能体基准重构多智能体工作流价值

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Rethinking the Value of Multi-Agent Workflow: A Strong Single Agent BaselineSummary最近基于大型语言模型(LLM)的多智能体系统(Multi-Agent Systems, MAS)取得了显著进展。研究表明,由多个 LLM 智能体组成的工作流——每个智能体具有不同的角色、工具和通信模式——在复杂任务上可以优于单一 LLM 的基线方法。然而,大多数现有框架实际上是同质(homogeneous)的:所有智能体使用同一个基础 LLM,只是在提示词、工具使用方式以及在工作流中的位置上有所不同。这就引出了一个问题:这样的工作流是否可以通过一个单一智能体在多轮对话中进行模拟?我们在 七个基准测试上对此进行了研究,这些基准涵盖: 编程(coding) 数学(mathematics) 通用问答(general QA) 领域特定推理(domain-specific reasoning) 真实世界规划与工具使用(real-world planning and tool use)实验结果表明:一个单一智能体可以达到同质多智能体工作流的性能,同时由于能够复用 KV cache(键值缓存),在推理效率上具有优势。进一步地,它甚至能够匹配**自动优化的异构工作流(heterogeneous workflow)**的性能。基于这一发现,我们提出了 OneFlow 算法。该算法可以自动将多智能体工作流转换为适用于单一智能体执行的形式。与现有的自动化多智能体设计框架相比,OneFlow 在不降低准确率的情况下显著降低推理成本。这些结果表明:用单一 LLM 实现多智能体工作流可以作为多智能体系统研究中的一个强有力基线(baseline)。同时我们也指出,单一 LLM 方法仍然存在局限:由于不同 LLM 之间无法共享 KV cache,单模型方案无法真正模拟异构(heterogeneous)工作流。这也表明未来仍然存在重要研究机会,即开发真正异构的多智能体系统。原文链接:https://arxiv.org/abs/2601.12307

Mar 8, 202618 min

【第524期】AI智能体认知压缩器:长程任务中的记忆控制

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:AI Agents Need Memory Control Over More ContextSummaryAI 智能体正越来越多地被用于长期、多轮的工作流程中,无论是在科研还是企业环境中。随着交互轮数的增加,智能体的行为往往会逐渐退化,原因包括:约束目标逐渐失焦、错误不断累积,以及由记忆引发的行为漂移(drift)。这一问题在真实世界部署中尤为明显,因为上下文会持续变化、会出现各种干扰,而且决策需要在较长时间内保持一致。一种常见做法是为智能体提供持久记忆,例如通过对话记录回放(transcript replay)或基于检索的机制(retrieval-based memory)。虽然这种方式实现起来比较方便,但它会导致上下文无限增长,并且容易受到**噪声检索和记忆污染(memory poisoning)**的影响,从而造成行为不稳定以及更严重的漂移问题。在这项工作中,我们提出了 Agent Cognitive Compressor(ACC),一种受生物系统启发的记忆控制器。ACC 不再依赖完整对话记录回放,而是使用一个有界的内部状态(bounded internal state),并在每一轮交互时在线更新。ACC 的关键设计是将“信息检索(artifact recall)”与“状态承诺(state commitment)”分离: 允许智能体检索外部信息进行参考; 但不会在未经验证的情况下将这些信息写入持久记忆。这种机制既能提供稳定的条件信息,又能防止不可靠内容进入长期记忆。我们使用一种由智能体评审(agent judge)驱动的实时评估框架来评估 ACC,该框架不仅衡量任务完成效果,还监测由记忆引发的异常行为,并在长时间交互中进行评估。在多个应用场景中进行实验,包括: IT 运维(IT operations) 网络安全响应(cybersecurity response) 医疗工作流程(healthcare workflows)结果表明,ACC 能够始终保持有界的记忆规模,并在多轮交互中表现出更稳定的行为;与使用对话回放或检索记忆的智能体相比,它显著降低了幻觉(hallucination)和行为漂移(drift)。这些结果表明,认知压缩(cognitive compression)为长期运行的 AI 智能体提供了一种实用且有效的记忆控制基础。原文链接:https://arxiv.org/abs/2601.11653

Mar 7, 202618 min

【第523期】推理模型的思想社会:CoT中的社交与协作行为研究

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Reasoning Models Generate Societies of ThoughtSummary大型语言模型已经在多个领域展现出卓越能力,但复杂推理能力背后的机制仍然难以完全解释。近期的一些推理模型在复杂认知任务上明显优于规模相当的指令微调模型,这通常被归因于通过更长的思维链(chain of thought)进行更多计算。然而,我们的研究表明,推理能力的提升并不仅仅来自更长的计算过程,而是源于一种类似多智能体交互的模拟机制——“思想社会”(society of thought)。这种机制使模型能够在内部产生多种认知视角,并在这些视角之间进行多样化和辩论。这些视角通常表现为具有不同人格特征和领域专长的内部角色。通过对推理轨迹进行定量分析以及使用机制可解释性(mechanistic interpretability)方法,我们发现像 DeepSeek-R1 和 QwQ-32B 这样的推理模型相比普通指令微调模型,表现出更高的视角多样性。在推理过程中,它们会激活更广泛的冲突信号,这些信号来自具有不同人格特征和专业知识相关特征的内部表示。这种多智能体结构具体表现为多种对话式行为,例如: 提问与回答(question–answering) 视角转换(perspective shifts) 对冲突观点的协调与整合(reconciliation of conflicting views)同时还表现出带有社会情绪角色的互动,例如尖锐的来回讨论。这些行为共同构成了一种类似对话的推理过程,从而带来了在推理任务上的准确率优势。进一步的受控强化学习实验表明:当基础模型仅仅因为推理准确率而获得奖励时,它们会自然增加这种对话式行为。此外,在微调过程中加入对话式结构(conversational scaffolding),能够使模型的推理能力提升速度快于未加入该结构的基础模型。这些结果表明,思想的社会化组织有助于更有效地探索解空间。我们认为,推理模型在计算层面上形成了一种与人类群体中的集体智能(collective intelligence)相对应的机制:当多样性被系统性地组织起来时,它能够带来更强的问题解决能力。这也为未来通过多智能体组织结构来利用“群体智慧(wisdom of crowds)”提供了新的研究机会。原文链接:https://arxiv.org/abs/2601.10825

Mar 6, 202617 min

【第522期】TTT-Discover:通过测试时训练实现科学发现

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Learning to Discover at Test TimeSummary我们如何利用 AI 为某个科学问题发现新的最先进(state-of-the-art)解法?此前关于测试时扩展(test-time scaling)的工作,例如 AlphaEvolve,是通过提示一个冻结(不再训练)的 LLM 来进行搜索。我们的做法是在测试阶段进行强化学习,使 LLM 在解决问题时仍然可以继续训练,但训练经验专门来自当前这个测试问题。这种持续学习(continual learning)的形式非常特殊,因为它的目标并不是在平均意义上产生许多不错的解,而是找到一个非常优秀的解;并且是专门解决当前这个问题,而不是泛化到其他问题。因此,我们的学习目标和搜索子程序被设计为优先关注最有希望的解。我们将这种方法称为 Test-Time Training to Discover(TTT-Discover)。沿用以往研究,我们重点关注**具有连续奖励(continuous rewards)**的问题。我们报告了所有尝试过的问题结果,涵盖以下领域:数学、GPU 内核工程、算法设计以及生物学。TTT-Discover 在几乎所有这些任务上都创造了新的最先进结果,包括: Erdős 的最小重叠问题以及一个自相关不等式; 一个 GPUMode 内核竞赛(速度最高可达此前最佳结果的 2 倍); 过去的 AtCoder 算法竞赛问题; 单细胞分析中的去噪问题。我们的解决方案均由相关领域专家或比赛组织者进行了评审。所有结果都使用一个开源模型 OpenAI gpt-oss-120b 实现,并且可以通过我们公开发布的代码进行复现;相比之下,以往的最佳结果通常依赖于封闭的前沿模型。我们的测试时训练实验通过 Thinking Machines 提供的 Tinker API 运行,每个问题的成本仅为几百美元。原文链接:https://arxiv.org/abs/2601.16175

Mar 5, 202618 min

【第521期】Mimblewimble加密货币协议的形式化安全分析

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:A Formal Analysis of the Mimblewimble Cryptocurrency Protocol with a Security ApproachSummaryMimbleWimble(MW) 是一种以隐私为核心设计目标的加密货币技术,在安全性与可扩展性方面展现出区别于同类协议的特性。本文对这些关键属性进行了系统性阐述,并提出了一种基于模型驱动验证(model-driven verification)的形式化方法,用于验证协议实现的正确性与安全性。具体而言,作者构建了一个理想化模型(idealized model),作为整个验证流程的核心基础。在此框架下,论文明确识别并精确定义了一组充分条件,以确保该模型能够支持对 MW 关键安全属性(如一致性、完整性与隐私性)的形式化验证。鉴于 MW 构建于共识协议之上,研究进一步对某一类共识协议给出了 Z 语言规范(Z specification) 描述,并展示了由该 Z 规范自动生成的 {log} 原型系统的部分内容。该 {log} 原型可作为可执行模型(executable model)运行仿真,从而在无需底层编程实现的情况下分析协议行为。这种方法显著降低了验证成本,同时提高了形式化分析的严谨性。最后,论文对当前基于 MW 协议实现的两个主要项目进行了分析: Grin Beam研究评估了它们在当前开发阶段的实现特性与协议一致性状况,从形式化验证视角探讨其安全保障程度。总体而言,该工作不仅阐明了 MW 在隐私与可扩展性方面的理论基础,还提出了一套可执行的形式化验证路径,为隐私型区块链协议的认证与安全评估提供了系统化方法论。原文链接:https://arxiv.org/abs/2104.00822

Mar 4, 202614 min

【第520期】SimpleMem:大语言模型智能体的高效终身记忆框架

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:SimpleMem: Efficient Lifelong Memory for LLM AgentsSummary为支持复杂环境下的长期交互,大语言模型(LLM)智能体需要具备能够管理历史经验的记忆系统。现有方法要么通过被动扩展上下文来保留完整交互历史,导致信息冗余严重;要么依赖多轮迭代推理来过滤噪声,从而带来高昂的 token 消耗。针对这一问题,本文提出了 SimpleMem,一种基于语义无损压缩(semantic lossless compression)的高效记忆框架。我们设计了一个三阶段处理流水线,以最大化信息密度与 token 利用率:语义结构化压缩(Semantic Structured Compression):将非结构化交互内容提炼为紧凑的、多视角索引的记忆单元,提高信息组织度与可检索性。在线语义综合(Online Semantic Synthesis):在单次会话内部即时整合相关上下文,将分散信息抽象为统一表示,消除冗余。意图感知检索规划(Intent-Aware Retrieval Planning):通过推断检索意图,动态确定检索范围,并高效构建精确上下文。在基准数据集上的实验结果表明,该方法在准确率、检索效率与推理成本方面均持续优于基线方法。在 LoCoMo数据集上,SimpleMem 的平均 F1 值提升达 26.4%,同时在推理阶段将 token 消耗降低至原来的最高 1/30,实现了性能与效率之间的显著优化平衡。代码已在论文提供的链接中公开。原文链接:https://arxiv.org/abs/2601.02553

Mar 3, 202617 min

【第519期】Focus智能体:LLM自主上下文压缩与内存管理

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Active Context Compression: Autonomous Memory Management in LLM AgentsSummary由于“上下文膨胀”(Context Bloat)问题,大语言模型(LLM)智能体在长时程软件工程任务中面临显著挑战。随着交互历史不断增长,计算成本急剧上升,推理延迟增加,同时模型容易受到过往无关错误信息的干扰,导致推理能力下降。现有解决方案通常依赖被动的外部摘要机制,而智能体本身无法主动控制这一过程,因而限制了其自适应能力。本文提出了 Focus,一种以智能体为中心的架构设计,其灵感来源于黏菌(Physarum polycephalum)的生物探索策略。Focus Agent 能够自主决定何时将关键经验整合为一个持久化的“Knowledge”模块,并主动撤回(剪枝)原始交互历史,从而实现动态上下文压缩与信息重组。在实验设置中,作者采用符合工业最佳实践的优化执行框架(持久化 bash 环境 + 字符串替换编辑器),并在 SWE-bench Lite 的 N=5 个高上下文依赖任务实例上进行评估,使用模型 Claude Haiku 4.5。在鼓励频繁压缩的激进提示策略下,Focus 在保持相同准确率(两种方法均为 3/5 = 60%)的前提下,实现了 22.7% 的 token 使用量下降(从 1490 万降至 1150 万)。平均而言,每个任务执行 6 次自主压缩操作,个别实例的 token 节省幅度最高达 57%。实验结果表明,只要赋予合适的工具接口与提示机制,具备能力的模型可以实现上下文的自主调节。这为构建具备成本意识(cost-aware)的智能体系统提供了新的路径,同时在不牺牲任务性能的情况下提升资源利用效率。原文链接:https://arxiv.org/abs/2601.07190

Mar 2, 202619 min

【第518期】AgeMem:大语言模型智能体统一记忆管理框架

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model AgentsSummary由于上下文窗口长度有限,大语言模型(LLM)智能体在长时程推理(long-horizon reasoning)任务中面临根本性约束,因此高效的记忆管理机制至关重要。现有方法通常将长期记忆(LTM)与短期记忆(STM)作为相互独立的模块进行处理,并依赖启发式规则或外部控制器进行调度,这种分离式架构限制了系统的自适应能力与端到端优化潜力。本文提出了 Agentic Memory(AgeMem),一种将长期记忆与短期记忆管理统一纳入智能体策略内部的框架。AgeMem 将记忆操作抽象为基于工具的行动(tool-based actions),使 LLM 智能体能够自主决策何时以及如何存储、检索、更新、总结或丢弃信息,从而实现对记忆资源的策略化管理。为训练这种统一的记忆决策行为,我们提出了一种三阶段渐进式强化学习策略,并设计了逐步式 GRPO(step-wise GRPO)算法,以缓解由记忆操作引发的稀疏且不连续奖励信号问题。该方法通过细粒度策略优化,增强了记忆相关行为的可学习性与稳定性。在五个长时程基准任务上的实验结果表明,AgeMem 在多种 LLM 主干模型(backbone)上均显著优于强基线的记忆增强方法,不仅在任务完成度方面取得提升,还实现了更高质量的长期记忆构建与更高效的上下文利用效率。原文链接:https://arxiv.org/abs/2601.01885

Mar 1, 202617 min

【第517期】Dr. Zero:无训练数据的自进化搜索智能体

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Dr. Zero: Self-Evolving Search Agents without Training DataSummary随着高质量数据日益难以获取,无数据自进化(data-free self-evolution)逐渐成为一种具有前景的新范式。该方法使大语言模型(LLMs)能够自主生成并解决复杂问题,从而提升其推理能力。然而,多轮搜索智能体在无数据自进化过程中面临显著挑战,包括问题多样性受限,以及多步推理与工具调用所带来的高额计算开销。在本研究中,我们提出了 Dr. Zero——一个使搜索智能体在无需任何训练数据的情况下实现有效自进化的框架。具体而言,我们构建了一个自进化反馈闭环:由一个提议者(proposer)生成多样化问题,用于训练一个由同一基础模型初始化的求解者(solver)。随着求解者能力的提升,其性能反过来激励提议者生成难度更高但仍可解的问题,从而形成一个自动化课程学习机制(automated curriculum),协同优化两个智能体。为提高训练效率,我们进一步提出了“跳数分组相对策略优化”(hop-grouped relative policy optimization, HRPO)方法。该方法将结构相似的问题进行聚类,构建组级基线,从而有效降低对每个查询单独评估其难度与可解性的采样开销。结果表明,HRPO 在不损害性能与稳定性的前提下,显著减少了求解者训练所需的计算资源。大量实验结果显示,在完全无数据条件下,Dr. Zero 的性能可与全监督训练的搜索智能体相当,甚至更优。这表明,复杂的推理与搜索能力可以通过纯粹的自进化机制自然涌现。原文链接:https://arxiv.org/abs/2601.07055

Feb 28, 202616 min

【第516期】DroPE:移除位置嵌入实现大语言模型零样本上下文扩展

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Extending the Context of Pretrained LLMs by Dropping Their Positional EmbeddingsSummary迄今为止,要有效扩展语言模型(LM)的上下文长度,通常需要进行超出预训练序列长度范围的高成本微调。在本研究中,我们通过在训练完成后移除语言模型中的位置嵌入(Dropping the Positional Embeddings,简称 DroPE),突破了这一关键瓶颈。该方法虽简单,却建立在三个重要的理论与实证观察之上。首先,位置嵌入(Positional Embeddings, PEs)在预训练阶段发挥着关键作用,作为一种重要的归纳偏置,能够显著促进模型收敛。其次,模型对这种显式位置信息的过度依赖,恰恰成为其在测试阶段无法泛化到未见序列长度的根本原因,即便采用主流的位置嵌入缩放方法亦难以解决这一问题。第三,位置嵌入并非高效语言建模的内在必要条件,在完成预训练后,经过一个简短的再校准阶段,便可以安全移除,而不会破坏模型能力。在实证层面,DroPE 方法无需进行任何长上下文微调,即可实现无缝的零样本上下文扩展;同时,它能够快速适配预训练语言模型,而不会削弱其在原始训练上下文范围内的性能。实验结果表明,该方法在不同模型规模与数据规模条件下均表现稳健,显著优于以往的专用架构设计以及成熟的旋转位置嵌入(Rotary Positional Embedding)缩放方法。原文链接:https://arxiv.org/abs/2512.12167

Feb 27, 202615 min

【第515期】Meta_AI看视频学会通用动作

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Learning Latent Action World Models In The WildSummary量子计算的兴起对区块链系统的安全性构成了严峻挑战。作为数字签名、消息加密和哈希函数基础的传统密码算法,在量子计算机强大的计算能力面前逐渐显现出脆弱性。本文对向抗量子区块链过渡所涉及的风险进行了系统性评估,全面分析了针对区块链关键组成部分的潜在威胁,包括网络层、矿池、交易验证机制、智能合约以及用户钱包。通过深入阐释向抗量子算法迁移过程中所固有的复杂技术挑战与战略考量,论文评估了相关风险,并重点指出在采用抗量子密码技术加固区块链组件时所面临的现实障碍。为实现从经典密码体系向抗量子密码体系的平稳演进,本文提出了一种混合迁移策略,以降低过渡期的系统性风险。研究还将分析扩展至多个主流区块链平台,如比特币、以太坊、瑞波币、莱特币以及 Zcash,评估其易受攻击的关键组件、潜在影响以及相关的 STRIDE 威胁类型,从而识别出可能遭受量子攻击的高风险领域。除风险分析之外,论文还为在量子计算时代构建安全、具备高韧性的区块链生态系统提供了可操作性的设计建议。鉴于量子计算机所带来的现实威胁,本研究主张主动推进向抗量子区块链网络的战略转型,并提出一套定制化安全蓝图,从体系结构层面强化各组件,以应对不断演进的量子驱动型网络安全威胁。论文强调,区块链生态参与方亟需采取前瞻性措施并部署抗量子解决方案,以确保在量子时代背景下实现安全、稳定与可信的系统运行,并以更强的韧性与信心应对未来挑战。原文链接:https://arxiv.org/abs/2501.11798

Feb 26, 202619 min