
Seventy3
619 episodes — Page 3 of 13

【第514期】量子时代区块链安全威胁与抗量子迁移策略
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Blockchain Security Risk Assessment in Quantum Era, Migration Strategies and Proactive DefenseSummary量子计算的兴起对区块链系统的安全性构成了严峻挑战。作为数字签名、消息加密和哈希函数基础的传统密码算法,在量子计算机强大的计算能力面前变得脆弱。本文对向抗量子区块链过渡的风险进行了全面评估,系统分析了针对区块链关键组件的潜在威胁,包括网络层、矿池、交易验证机制、智能合约以及用户钱包。通过阐明向抗量子算法迁移过程中所固有的复杂挑战与战略考量,本文评估了相关风险,并揭示了利用抗量子密码技术加固区块链各组成部分所面临的障碍。为实现从经典密码体系向抗量子密码体系的平稳过渡,论文提出了一种混合迁移策略。分析范围涵盖了主流区块链平台,如比特币、以太坊、瑞波币、莱特币和Zcash,评估其易受攻击的组件、潜在影响以及相关的STRIDE威胁模型,从而识别出可能遭受量子攻击的关键领域。除理论分析外,本文还为在量子计算时代构建安全、韧性强的区块链生态系统提供了可操作性指导。鉴于量子计算机所带来的潜在威胁,研究主张主动推进向抗量子区块链网络的转型,并提出一套定制化安全蓝图,从战略层面加固各个组件,以应对不断演变的量子驱动网络安全威胁。论文强调,区块链相关利益方亟需采取前瞻性措施并部署抗量子解决方案,以增强系统在量子时代背景下的安全韧性与信心。原文链接:https://arxiv.org/abs/2501.11798

【第513期】TariScript:为Mimblewimble引入动态脚本
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:TariScript: Bringing dynamic scripting to MimblewimbleSummaryMimblewimble 是一种在隐私性与可扩展性方面表现优良的加密货币协议。但其一个权衡在于:交易需要发送方与接收方之间进行交互式协作。TariScript 被提出为对 Mimblewimble 的一种扩展,为该协议增加了脚本(scripting)能力。本文阐述了 TariScript 的理论基础,并介绍了为确保其安全性所需的协议修改。同时,文中还简要讨论了 TariScript 所涉及的权衡以及其潜在应用场景。原文链接:https://www.tari.com/assets/updates/docs/tariscript.pdf

【第512期】Mimblewimble:一种可扩展且隐私的区块链支付系统方案
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:MimblewimbleSummary2016 年 8 月 2 日凌晨约 04:30(UTC),一位使用“Tom Elvis Jedusor”这一化名的匿名人士登录了一个比特币研究 IRC 频道,发布了一份托管在 Tor 隐藏服务上的文档 [Jed16],随后立即退出。该文档题为《Mimblewimble》,描述了一种区块链方案,其交易构造方式与比特币截然不同,支持交易的非交互式合并与 cut-through 机制、机密交易(confidential transactions),以及在无需新用户验证任何单个币完整历史的情况下,对当前链状态(chainstate)进行完整验证。然而,尽管该论文对核心思想的阐述相当详细,但并未给出安全性论证,甚至还包含一个错误。本文的目的在于对原始思想进行精确定义,并补充作者提出的进一步扩展性改进。具体而言,Mimblewimble 能够显著压缩交易历史。如果记录与比特币当前历史等规模的交易数据,理论上需要约 15GB 的数据(不包括 UTXO 集;若将包含区间证明的 UTXO 集计算在内,则需超过 100GB)。Jedusor 留下了一个尚未解决的问题,即如何进一步减少这一数据规模;本文对此问题给出了解决方案,并结合现有关于压缩工作量证明(proof-of-work)区块链的研究成果,将 15GB 的数据规模压缩至不足 1MB。原文链接:http://misskiwi.com/download/mimblewimble.pdf

【第511期】深度增量学习:广义残差连接与几何变换映射
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Deep Delta LearningSummary深度残差网络的有效性依赖于恒等映射的捷径连接(identity shortcut connection)。尽管这种机制缓解了梯度消失问题,但其对特征变换施加了严格的加性归纳偏置(strictly additive inductive bias),从而限制了网络对复杂隐状态转移的建模能力。在本文中,我们提出了 Deep Delta Learning(DDL),将原本固定的恒等映射捷径推广为一个可学习的、依赖状态的线性算子。该算子被称为 Delta Operator,其形式为单位矩阵的秩 1 扰动:A(X)=I−β(X)k(X)k(X)⊤其中,k(X) 是一个单位方向向量,β(X)β(X) 是一个标量门控参数。我们通过谱分析(spectral analysis)表明,β(X)β(X) 可以在以下三种情形之间连续插值: 恒等映射(Identity):β=0 正交投影(Orthogonal Projection):β=1 Householder 反射(Householder Reflection):β=2此外,我们将残差更新重写为一种同步的秩 1 增量写入(synchronized rank-1 delta write):参数 ββ 同时控制当前 kk-分量的移除幅度,以及新的 kk-分量的注入幅度。这种统一表述使得模型能够沿着一个数据依赖方向,对捷径连接的谱性质进行显式控制,同时保持训练过程的稳定性。在实证实验中,我们将 Transformer 中的残差加法替换为 DDL 机制,结果表明:在语言建模任务上,验证损失(validation loss)与困惑度(perplexity)均得到改善,下游评测准确率也有所提升;在扩展状态维度(expanded-state setting)条件下,性能增益更为显著。原文链接:https://arxiv.org/abs/2601.00417

【第510期】研究计划生成模型的微调与跨领域评估
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Training AI Co-Scientists Using Rubric RewardsSummaryAI 协作科学家(AI co-scientists)正逐渐成为辅助人类研究者实现科研目标的重要工具。这类系统的一个关键能力,是在给定研究目标与约束条件的情况下生成可行的研究计划。这些计划既可用于研究者头脑风暴,也可在进一步完善后付诸实施。然而,目前的语言模型在生成同时满足所有显性约束与隐含要求的研究计划方面仍存在明显不足。在本研究中,我们探索如何利用海量已有科研论文语料,训练语言模型生成更高质量的研究计划。我们通过自动化方法,从多个领域的论文中提取研究目标以及针对特定目标的评分细则(goal-specific grading rubrics),构建了一个可扩展且多样化的训练语料库。在此基础上,我们采用带有自评机制(self-grading)的强化学习方法对模型进行训练。在训练过程中,初始策略的冻结副本充当评分器,而评分细则则在生成器与验证器之间构建出“生成—评估差距”(generator-verifier gap),从而在无需外部人工监督的情况下实现性能提升。为验证该方法的有效性,我们针对机器学习领域的研究目标开展了一项由人类专家参与的研究,总计耗时 225 小时。结果显示,在 70% 的研究目标上,专家更偏好我们微调后的 Qwen3-30B-A3B 模型所生成的研究计划,而非初始模型生成的版本;同时,专家认可 84% 自动提取的目标特定评分细则。为评估方法的泛化能力,我们还将该框架扩展至医学论文中的研究目标以及新的 arXiv 预印本,并通过一组前沿模型组成的“评审团”进行评估。实验结果表明,我们的微调方法带来了 12%–22% 的相对性能提升,并展现出显著的跨领域泛化能力,即使在诸如医学研究这类难以获得执行反馈的问题场景中,也依然有效。总体而言,这些发现表明,一种可扩展、自动化的训练范式有望成为提升通用 AI 协作科学家能力的重要一步。原文链接:https://arxiv.org/abs/2512.23707

【第509期】GDPO:多奖励强化学习的解耦归一化策略优化
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL OptimizationSummary随着语言模型能力的不断提升,用户不仅期望其提供准确的回答,还希望其行为能够在多种场景下符合多样化的人类偏好。为实现这一目标,强化学习(RL)流程开始引入多个奖励信号,每个奖励分别刻画一种不同的偏好,以引导模型朝着期望行为优化。然而,近期研究在多奖励设定下默认采用 Group Relative Policy Optimization(GRPO),却未对其适用性进行充分检验。本文表明,直接在多奖励场景中应用 GRPO,对不同 rollout 奖励组合进行归一化时,会导致这些组合坍缩为相同的优势值(advantage value),从而降低训练信号的分辨率,导致次优收敛,甚至在某些情况下出现训练早期失败。为解决上述问题,我们提出了 Group reward-Decoupled Normalization Policy Optimization(GDPO),一种新的策略优化方法。该方法通过对各个奖励的归一化过程进行解耦,更真实地保留奖励之间的相对差异,从而实现更精确的多奖励优化,并显著提升训练稳定性。我们在三个任务上对 GDPO 与 GRPO 进行了对比实验:工具调用、数学推理和代码推理。评估指标既包括正确性指标(如准确率、错误率),也包括约束遵循指标(如格式规范、长度控制)。在所有实验设置下,GDPO 均稳定优于 GRPO,验证了其在多奖励强化学习优化中的有效性与良好的泛化能力。原文链接:https://arxiv.org/abs/2601.05242

【第508期】SAGA:科学发现中的动态目标演化自主智能体
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。如果你有自己的论文要解读,或者推荐论文,请留言。今天的主题是:Accelerating Scientific Discovery with Autonomous Goal-evolving AgentsSummary近年来,人们对开发能够拓展科学发现边界的智能体产生了前所未有的兴趣,这类智能体主要通过优化科学家所设定的定量目标函数来开展工作。然而,对于科学中的重大挑战而言,这些目标函数仅仅是不完美的代理指标。我们认为,实现目标函数设计的自动化,是科学发现智能体的一个核心但尚未满足的关键需求。在本研究中,我们提出了科学自主目标进化智能体(Scientific Autonomous Goal-evolving Agent,SAGA)以应对这一挑战。SAGA 采用双层架构:外层循环由大语言模型(LLM)智能体负责分析优化结果、提出新的目标,并将其转化为可计算的评分函数;内层循环则在当前目标下执行解的优化。该双层设计使系统能够系统性地探索目标空间及其权衡关系,而不再将目标视为固定输入。我们通过一系列广泛的应用验证了该框架的有效性,包括抗生素设计、无机材料设计、功能性 DNA 序列设计以及化学工艺设计。结果表明,目标制定过程的自动化能够显著提升科学发现智能体的整体效能。原文链接:https://arxiv.org/abs/2512.21782

【第507期】mHC:流形约束超连接的大规模稳定训练
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:mHC: Manifold-Constrained Hyper-ConnectionsSummary近年来,以 Hyper-Connections(HC) 为代表的研究,通过扩展残差流的宽度并多样化连接模式,对过去十年中广泛采用的残差连接范式进行了拓展。尽管这种多样化带来了显著的性能提升,但它从根本上破坏了残差连接所固有的恒等映射(identity mapping)属性,从而导致严重的训练不稳定性和可扩展性受限,并且还引入了显著的内存访问开销。为了解决这些问题,我们提出了 流形约束的 Hyper-Connections(Manifold-Constrained Hyper-Connections,mHC),这是一种通用框架:通过将 HC 的残差连接空间投影到特定流形上,以恢复恒等映射属性;同时结合严格的系统级优化,以确保整体效率。大量实证实验表明,mHC 能够有效支持大规模训练,在带来可观性能提升的同时,展现出更优的可扩展性。我们期待 mHC 作为 HC 的一种灵活且实用的扩展,能够促进对拓扑结构化网络架构设计的更深入理解,并为基础模型的演进指明富有前景的方向。原文链接:https://arxiv.org/abs/2512.24880

【第506期】深度序列模型中的几何记忆谜题
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Deep sequence models tend to memorize geometrically; it is unclear why.Summary人们通常认为,深度序列模型主要以联想记忆(associative memory)的形式存储原子事实,即对共同出现实体的暴力式查找。我们识别出了一种截然不同的原子事实存储形式,并将其称为几何记忆(geometric memory)。在这种机制下,模型合成了能够编码所有实体之间全局新关系的嵌入表示,甚至包括在训练过程中从未共同出现的实体对。这种存储方式极具威力:例如,我们展示了它如何将一个涉及 ℓ 次复合的困难推理任务,转化为一个易于学习的一步导航任务。基于这一现象,我们提炼出神经嵌入几何的一些基础性特征,而这些特征并不容易被解释。我们认为,相较于对局部关联的查找,这种几何结构的出现,不能被简单地归因于常见的监督信号、模型架构或优化压力。反直觉的是,即便这种几何结构比暴力查找更为复杂,模型依然会学习到它。随后,通过分析其与 Node2Vec 的联系,我们表明,这种几何结构源自一种谱偏置(spectral bias);与现有主流理论相反,这种偏置即使在缺乏多种外在压力的情况下,也会自然地产生。这一分析还向实践者指出:仍然存在明显的提升空间,可以使 Transformer 的记忆机制呈现出更强的几何性。我们希望,对参数化记忆的几何视角能够促使研究者重新审视那些在知识获取、容量、发现以及遗忘等领域中长期占据主导地位的默认直觉。原文链接:https://arxiv.org/abs/2510.26745

【第505期】TTT-E2E:长文本建模的端到端测试时训练模型
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:End-to-End Test-Time Training for Long ContextSummary我们将长上下文语言建模表述为一个持续学习(continual learning)问题,而非一个架构设计问题。在这一表述下,我们仅使用一种标准架构——带有滑动窗口注意力的 Transformer。然而,模型在测试阶段会通过对给定上下文进行下一词预测而持续学习,将其读取到的上下文压缩并写入模型权重中。此外,我们在训练阶段通过元学习(meta-learning)来改进模型在测试时进行学习的初始化。总体而言,我们的方法是一种测试时训练(Test-Time Training,TTT)形式,并且在测试阶段(通过下一词预测)和训练阶段(通过元学习)均实现了端到端(End-to-End,E2E),这与以往的 TTT 方法形成对比。我们开展了大量实验,重点分析其尺度扩展特性(scaling properties)。具体而言,对于使用 164B tokens 训练的 30 亿参数模型,我们的方法(TTT-E2E)在上下文长度上的扩展行为与全注意力 Transformer一致,而诸如 Mamba 2 和 Gated DeltaNet 等方法则不具备这一特性。同时,与 RNN 类似,TTT-E2E 的推理时延与上下文长度无关,在 128K 上下文长度下,其速度比全注意力机制快 2.7 倍。我们的代码已公开发布。原文链接:https://arxiv.org/abs/2512.23675

【第504期】Engram:大语言模型条件存储与扩展查表机制
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language ModelsSummary尽管混合专家模型(Mixture-of-Experts,MoE)通过条件计算来扩展模型容量,Transformer 本身却缺乏用于知识查找的原生机制,只能通过计算来低效地“模拟”检索。为了解决这一问题,我们引入了条件记忆(conditional memory),作为一种互补的稀疏性维度,并通过 Engram 模块将其具体化。Engram 对经典的 N-gram 嵌入进行了现代化改造,实现了 O(1) 时间复杂度的查找。通过形式化稀疏性分配(Sparsity Allocation)问题,我们发现了一条 U 形缩放定律,用于优化**神经计算(MoE)与静态记忆(Engram)之间的权衡。在该定律的指导下,我们将 Engram 扩展至 270 亿参数,在严格参数量相同(iso-parameter)且计算量(FLOPs)相同(iso-FLOPs)**的 MoE 基线之上取得了更优性能。尤为值得注意的是,尽管记忆模块本被预期主要提升知识检索能力(如 MMLU +3.4;CMMLU +4.0),我们却在通用推理方面观察到更大的增益(如 BBH +5.0;ARC-Challenge +3.7),并且在代码与数学领域同样显著(HumanEval +3.0;MATH +2.4)。机制层面的分析表明,Engram 将静态重构的负担从主干网络的早期层中移除,实质上加深了网络,从而有利于复杂推理。此外,通过将局部依赖交由查表完成,它释放了注意力机制的容量,用于建模全局上下文,从而显著提升了长上下文检索能力(例如 Multi-Query NIAH:从 84.2 提升至 97.0)。最后,Engram 还实现了面向系统架构的高效性:其确定性的寻址方式支持在运行时从主机内存进行预取,几乎不引入额外开销。我们认为,条件记忆将成为下一代稀疏模型中不可或缺的建模原语。原文链接:https://arxiv.org/abs/2601.07372

【第503期】突破最短路径Dijkstra 算法的算法研究
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Breaking the Sorting Barrier for Directed Single-Source Shortest PathsSummary我们提出了一种确定性算法,在**比较–加法模型(comparison-addition model)下,用于求解带有实数非负边权的有向图单源最短路径(SSSP)**问题,其时间复杂度为O(mlog2/3n)。这是首个在稀疏图上打破 Dijkstra 算法 O(m+nlogn) 时间复杂度界限的结果,表明 Dijkstra 算法并非 SSSP 问题的最优算法。原文链接:https://arxiv.org/abs/2504.17033

【第502期】Polymarket无风险套利
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Unravelling the Probabilistic Forest: Arbitrage in Prediction MarketsSummaryPolymarket 是一个预测市场平台,用户可以通过交易与特定结果挂钩的份额来对未来事件进行投机,这些结果被称为条件(conditions)。每个市场都对应一组一个或多个这样的条件。为了确保市场能够正确结算,条件集合必须是完备的——即整体上涵盖所有可能结果——并且是互斥的——即最终只能有一个条件被判定为真。因此,所有相关结果的价格之和应当等于 1 美元,代表任一结果发生的总概率为 1。尽管有这样的设计,Polymarket 仍然存在相关资产被错误定价的情况,使得某一确定结果可以以低于(或高于)1 美元的价格被买入(或卖出),从而保证获利。这种现象被称为套利(arbitrage),可能使具备一定复杂策略能力的参与者利用这些不一致性牟利。在本文中,我们基于 Polymarket 的数据开展了一项经验性套利分析,以回答三个核心问题:(Q1) 什么条件会导致套利机会的产生?(Q2) Polymarket 上是否实际发生了套利行为?(Q3) 是否有人利用了这些套利机会?在分析相关市场之间的套利时,一个主要挑战在于需要在大量市场和条件之间进行可扩展的比较;朴素的方法需要进行 O(2n+m) 级别的比较,计算成本极高。为此,我们采用了一种由启发式方法驱动的降维策略,基于时间相关性、主题相似性以及组合关系来缩小比较范围,并通过专家意见进一步验证。我们的研究揭示了 Polymarket 上两种不同形式的套利行为:市场再平衡套利(Market Rebalancing Arbitrage),其发生于单一市场或单一条件之内;以及组合套利(Combinatorial Arbitrage),其跨越多个市场。我们利用链上历史订单簿数据,分析了这些套利机会在何时存在,以及在何时被用户实际执行。研究结果显示,被成功利用并实现的套利利润总额约为 4000 万美元。原文链接:https://arxiv.org/abs/2508.03474

【第501期】基于可验证奖励强化学习的未来事件预测
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Outcome-based Reinforcement Learning to Predict the FutureSummary带有可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards,RLVR)已被证明是一种有效方法,可提升大语言模型在编程和数学等领域中的推理能力。在本文中,我们将 RLVR 方法应用于现实世界未来事件的预测这一任务——由于结果高度噪声化且存在显著延迟,这对强化学习而言尤具挑战性。我们使用了一个新构建的数据集,其中包含来自预测市场的最新问题以及与之相关的新闻标题。实验表明,一个相对紧凑的(140 亿参数)推理模型,经过训练后,其预测准确率可以达到甚至超过 o1 等前沿模型,同时在概率校准方面有显著提升。该模型的性能在实践中也具有现实意义:在一项 Polymarket 的交易仿真中,我们估计该模型在测试集所有问题上的下注将带来超过 10% 的投资回报率(ROI)。此外,我们还详细介绍并比较了模型训练中采用的多种方法,包括:利用合成预测问题扩充训练数据、用于保障学习稳定性的防护机制(guardrails),以及在推理阶段采用的中位数预测采样策略。原文链接:https://arxiv.org/abs/2505.17989

【第500期】平衡工作证明:多重哈希关联挖矿理论
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Proof of Balanced Work: The Theory of Mining Hash ProductsSummary我们提出了一种新的方法,用于将不同的 PoW(工作量证明)挖矿算法以乘法方式组合成一种新的、类似 PoW 的挖矿算法,使得各个单独算法的算力提升都会对组合后的最终算力产生影响。这意味着,要实现高效挖矿,所有被组合的算法都必须以一种均衡且高效的方式同时进行挖掘。因此,我们提出的方法可以作为一种新工具,用于针对特定硬件需求精心设计新的挖矿算法,并提升对 ASIC 的抗性。例如,将 CPU 算法与 GPU 算法进行组合,就会要求矿工必须同时使用 CPU 和 GPU 硬件,才能实现高效挖矿。原文链接:https://raw.githubusercontent.com/CoinFuMasterShifu/ProofOfBalancedWork/main/PoBW.pdf

【第499期】ZAMA:可编程自举助力深层神经网络全同态推理
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Programmable Bootstrapping Enables Efficient Homomorphic Inference of Deep Neural NetworksSummary在许多情况下,机器学习与隐私常被认为是相互矛盾的,尤其当所涉及的数据具有敏感性时,隐私问题显得尤为突出。本文研究的是深度神经网络的隐私保护推理问题。我们报告了基于一个新型库的初步实验结果,该库实现了 TFHE 全同态加密方案的一种变体。其核心关键技术是可编程自举(programmable bootstrapping),该技术能够在可控噪声水平下,对密文上的任意函数进行同态求值。我们的实验结果首次表明,深度神经网络已经进入全同态加密可实际支持的范围。尤为重要的是,与以往相关工作不同,我们的框架并不需要对模型进行重新训练。原文链接:https://whitepaper.zama.org

【第498期】CryptoNote v2.0 - Monero 白皮书
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:CryptoNote v2.0 -- monero whitepaperSummary“比特币”(Bitcoin)[1] 是点对点(P2P)电子现金概念的一项成功实现。专业人士和普通公众都逐渐认可了以公开交易和工作量证明(Proof-of-Work)相结合的信任模型。如今,电子现金的用户群正在稳步增长;用户被其低手续费和所提供的匿名性所吸引,而商家则看重其可预测且去中心化的发行机制。比特币已经有效地证明,电子现金既可以像纸币一样简单,又可以像信用卡一样便捷。然而,比特币也存在若干缺陷。例如,其分布式架构缺乏灵活性,在几乎所有网络用户都更新客户端之前,难以引入新功能。一些无法迅速修复的关键缺陷,阻碍了比特币的广泛传播。在这种缺乏灵活性的模型下,与其不断修补原有项目,不如推出一个全新的项目来得更为高效。本文中,我们分析并提出了针对比特币主要缺陷的解决方案。我们相信,一个充分考虑这些解决方案的系统,将促进不同电子现金系统之间的良性竞争。同时,我们还提出了我们自己的电子现金系统——“CryptoNote”,这一名称旨在强调电子现金领域的下一次重大突破。原文链接:https://github.com/monero-project/research-lab/blob/master/whitepaper/whitepaper.pdf

【第497期】Tornado Cash:隐私解决方案白皮书
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Tornado Cash Privacy Solution Version 1.4SummaryTornado.Cash 实现了一种以太坊上的零知识隐私解决方案:这是一个智能合约,可接收以太币交易(未来也将支持 ERC-20 代币),使得之后可以在不引用原始交易的情况下提取相应金额。协议说明该协议具有以下功能: 插入/存款(Deposit):将资金存入智能合约。该操作可通过一笔交易完成,存入固定数量(记为 N)的以太币。该 N ETH 的凭证被称为一个 coin。 移除/提现(Withdraw):从智能合约中提取资金可以通过以下两种方式完成:N ETH 通过中继者(Relayer)提现,其中 f ETH 作为手续费发送至中继者地址 t,其余 (N − f) ETH 发送至指定的接收方。f 和 t 的取值由发送方选择。在这种情况下,提现交易由中继者发起,并由中继者支付 Gas 费用,该费用应由 f 覆盖。N ETH 直接提现至指定的接收方,交易由接收方自行发起。接收方需要拥有足够的 ETH 来支付交易的 Gas 费用。在这种情况下,手续费 f 被视为等于 0。原文链接:https://berkeley-defi.github.io/assets/material/Tornado%20Cash%20Whitepaper.pdf

【第496期】Zerocash:基于zk-SNARKs的分散式匿名支付方案
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Zerocash: Decentralized Anonymous Payments from Bitcoin (extended version)Summary比特币是第一种得到广泛采用的数字货币。虽然支付是在化名之间进行的,但比特币无法提供强隐私保障:支付交易记录在公开的去中心化账本中,从中可以推导出大量信息。Zerocoin(Miers 等,IEEE S&P 2013)解决了部分隐私问题,通过将交易与支付来源解关联来增强隐私。然而,它仍然会暴露支付的接收方和金额,并且功能有限。本文构建了一种具有强隐私保障的完整账本型数字货币。我们的设计利用了零知识简洁非交互式知识论证(zk-SNARKs)的最新进展。我们提出并构建了去中心化匿名支付方案(Decentralized Anonymous Payment, DAP)。DAP 方案允许用户直接且私密地进行支付:对应的交易隐藏了支付的来源、接收方以及金额。我们提供了形式化定义并给出了构造的安全性证明。在此基础上,我们实现了 Zerocash,作为 DAP 构造的实际实例。在 Zerocash 中,每笔交易小于 1 KB,验证时间低于 6 毫秒——比匿名性较低的 Zerocoin 高出数个数量级,同时在效率上与普通比特币相当。原文链接:http://zerocash-project.org/media/pdf/zerocash-extended-20140518.pdf

【第495期】Self-play SWE-RL:基于自我博弈的软件工程智能体强化学习
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Toward Training Superintelligent Software Agents through Self-Play SWE-RLSummary尽管当前基于大语言模型(LLMs)和智能体强化学习(agentic RL)的软件智能体能够提升程序员的生产力,但它们的训练数据(如 GitHub Issues 与 Pull Requests)和环境(如 pass-to-pass 与 fail-to-pass 测试)高度依赖人工知识或人工维护,这构成了迈向超级智能的根本障碍。本文提出 Self-play SWE-RL(SSR),作为面向超级智能软件智能体训练范式的第一步。该方法对数据几乎没有假设,仅需要访问带有源代码和已安装依赖的沙箱仓库,无需人工标注的 Issues 或测试用例。基于这些真实代码库,我们在**自我对弈(self-play)的设置下,通过强化学习训练单智能体 LLM,迭代地注入并修复日益复杂的软件缺陷,每个缺陷由测试补丁(test patch)**形式的正式规范定义,而非自然语言描述的 Issue。在 SWE-Bench Verified 与 SWE-Bench Pro 基准上,SSR 展现出显著的自我提升(分别为 +10.4 和 +7.8 分),并在整个训练过程中始终超越依赖人工数据的基线,即便评测使用的是自我对弈中未见的自然语言 Issues。尽管仍处于早期阶段,这些结果表明了一条可行路径:智能体能够自主从真实软件仓库中获取大量学习经验,从而最终实现超越人类能力的系统,包括理解系统构建方式、解决新颖挑战,以及自主从零创建新软件。原文链接:https://arxiv.org/abs/2512.18552

【第494期】DeepCode:开放式AI自主编程框架
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:DeepCode: Open Agentic CodingSummary近期大语言模型(LLMs)的发展催生了功能强大的编程智能体,使得代码助手有能力进化为真正的代码工程师。然而,现有方法在实现高保真文档到代码库的自动生成(例如从科学论文到代码)方面仍面临重大挑战,其根本原因在于信息过载与 LLM 上下文容量瓶颈之间的冲突。为此,本文提出 DeepCode,一个完全自主的框架,通过系统化的信息流管理从根本上解决这一问题。DeepCode 将代码库合成视为信道优化问题,通过协调四类信息操作,在有限上下文预算下最大化任务相关信号: 源信息压缩(source compression):通过蓝图蒸馏(blueprint distillation)压缩输入文档; 结构化索引(structured indexing):利用状态化代码记忆(stateful code memory)进行高效索引; 条件知识注入(conditional knowledge injection):通过检索增强生成(retrieval-augmented generation)注入相关知识; 闭环错误修正(closed-loop error correction):自动检测与纠正生成错误。在 PaperBench 基准测试上的大量评估表明,DeepCode 达到了最先进(SOTA)性能,显著超越了领先的商业智能体如 Cursor 和 Claude Code,并在关键重现性指标上超过了顶尖机构的博士级人类专家。通过系统地将论文规范转化为可生产部署的高质量实现,DeepCode 为**自主科学复现(autonomous scientific reproduction)**奠定了新的基础,能够加速科研验证与发现的进程。原文链接:https://arxiv.org/abs/2512.07921

【第493期】迈向协同超级智能:AI与人类的协同演进
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:AI & Human Co-Improvement for Safer Co-SuperintelligenceSummary自我提升(self-improvement)目前是人工智能领域备受关注的目标,但其充满风险,而且可能需要较长时间才能真正实现。我们主张,对于人类而言,更可实现且更有价值的目标是最大化共进化(co-improvement):即人类研究者与 AI 系统协作,共同实现共超级智能(co-superintelligence)。具体而言,这意味着专注于提升 AI 系统与人类研究者协同开展 AI 研究的能力,从创意构思到实验验证,实现人类与 AI 的联合研究。这样的合作不仅能够加速 AI 研究进程,还能通过人机共生,使 AI 与人类共同获得更安全的超级智能。将人类研究能力提升纳入闭环协作,将使我们以更快、更安全的方式迈向这一目标。原文链接:https://arxiv.org/abs/2512.05356

【第492期】智能体AI适配:智能体与工具的协同演化综述
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Adaptation of Agentic AISummary前沿的智能体 AI 系统建立在基础模型(foundation models)之上,这些模型可以被适配用于规划、推理以及与外部工具交互,从而执行日益复杂和专业化的任务。随着这些系统能力与应用范围的不断扩展,**适配(adaptation)**成为提升性能、可靠性与泛化能力的核心机制。本文将快速发展的相关研究整合为一个系统化框架,涵盖了**智能体适配(agent adaptations)与工具适配(tool adaptations)**两大方向。我们进一步将其细分为: 智能体适配:**工具执行信号驱动(tool-execution-signaled)与智能体输出信号驱动(agent-output-signaled)**两类; 工具适配:**与智能体无关(agent-agnostic)与智能体监督(agent-supervised)**两类。我们展示了该框架如何帮助澄清智能体 AI 中适配策略的设计空间,使其权衡关系更加明确,并为系统设计过程中策略的选择或切换提供实用指导。随后,我们回顾了各类别的代表性方法,分析其优势与局限,并指出关键的未解决挑战及未来研究机会。总体而言,本文旨在为研究人员与工程实践者提供概念基础与实践路线图,以构建更高效、可靠、能力更强的智能体 AI 系统。原文链接:https://arxiv.org/abs/2512.16301

【第491期】多智能体系统规模化扩展科学研究
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Towards a Science of Scaling Agent SystemsSummary智能体(Agents)——即基于大语言模型、具备推理、规划与行动能力的系统——正逐渐成为现实世界 AI 应用的主流范式。尽管其应用日益广泛,但决定智能体系统性能的基本原理仍缺乏深入研究。为此,本文系统性地推导了智能体系统的定量化扩展规律(scaling principles)。我们首先形式化定义了智能体评测(agentic evaluation),并将扩展规律刻画为智能体数量、协作结构、模型能力与任务属性之间的相互作用。我们在四个基准测试上进行了评估:Finance-Agent、BrowseComp-Plus、PlanCraft 和 Workbench。实验涵盖五种典型的智能体架构,包括单智能体(Single-Agent)以及四类多智能体系统(独立式、集中式、去中心化式和混合式),并在三类 LLM 家族上进行实例化,共构成 180 种受控配置。基于协作相关的度量指标,我们构建了一个预测模型,其交叉验证 R2=0.524R2=0.524,能够对未见过的任务领域进行性能预测。研究识别出三种关键效应: 工具—协作权衡效应:在计算预算固定的条件下,工具调用密集型任务在多智能体设置中会因协作开销而遭受不成比例的性能下降。 能力饱和效应:当单智能体基线性能超过约 45% 时,引入协作所带来的收益会迅速递减,甚至转为负收益。 依赖拓扑结构的误差放大效应:独立式智能体会将误差放大至 17.2 倍,而集中式协作可将误差放大效应抑制在 4.4 倍。在可并行化任务中,集中式协作可将性能提升 80.8%;而在网页导航类任务中,去中心化协作表现更优(提升 9.2%,而集中式仅提升 0.2%)。相反,对于顺序推理任务,所有多智能体变体均导致性能下降,降幅介于 39% 至 70% 之间。该框架能够为 87% 的留出配置准确预测最优协作策略。在 GPT-5.2 上进行的样本外验证取得了 MAE=0.071,并验证了五条扩展规律中的四条能够泛化至此前未见的前沿模型。这些结果为理解与设计高效的智能体系统提供了系统化、定量化的理论基础。原文链接:https://arxiv.org/abs/2512.08296

【第490期】STRATUS:基于大语言模型的多智能体自主运维系统
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern CloudsSummary在云规模系统中,故障并非常态中的例外,而是常态本身。一个分布式计算集群往往会经历数百次机器故障和数千次磁盘故障,而软件缺陷与配置错误的发生频率更高。随着云系统规模的持续扩大,对自主化、由 AI 驱动的可靠性工程的需求日益迫切,因为现有的人在环(human-in-the-loop)运维方式已难以跟上现代云环境的复杂性与规模。本文提出 STRATUS,一种基于大语言模型(LLM)的多智能体系统,用于实现云服务的自主站点可靠性工程(Site Reliability Engineering,SRE)。STRATUS 由多个具备专门职能的智能体组成(例如故障检测、故障诊断与故障缓解),并以状态机的形式进行组织,从而支持系统级的安全推理与执行约束。我们形式化定义了智能体化 SRE 系统(如 STRATUS)中的一项关键安全规范——事务性无回退(Transactional No-Regression,TNR),该规范使系统能够在保证安全的前提下进行探索与迭代。实验结果表明,TNR 能够有效提升自主故障缓解的效果。在 AIOpsLab 与 ITBench(两套 SRE 基准测试集)上的评测显示,STRATUS 在故障缓解问题的成功率方面显著优于当前最先进的 SRE 智能体系统:在多种模型设置下,其性能至少提升了 1.5 倍。上述结果表明,STRATUS 为智能体系统在云可靠性领域的实际部署提供了一条极具前景的路径。原文链接:https://arxiv.org/abs/2506.02009

【第489期】Puppeteer:基于强化学习的动态多智能体协同框架
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Multi-Agent Collaboration via Evolving OrchestrationSummary大语言模型(Large Language Models,LLMs)在多种下游任务中取得了显著成果,但其单体式(monolithic)的架构限制了在复杂问题求解场景下的可扩展性与效率。尽管近期研究开始探索基于 LLM 的多智能体协作机制,但多数方法依赖静态的组织结构,难以随着任务复杂度和智能体数量的增长进行自适应调整,从而导致协调开销上升和整体效率下降。为此,我们提出了一种 “提线木偶(puppeteer)”式的 LLM 多智能体协作范式。在该框架中,一个集中式的调度与控制器(“puppeteer”)会根据不断演化的任务状态,动态地指挥各个智能体(“puppets”)的执行顺序与优先级。该控制器通过强化学习进行训练,从而能够自适应地编排与调度智能体,实现灵活且可演化的集体推理过程。在封闭域与开放域任务上的实验结果表明,该方法在降低计算成本的同时取得了更优的性能。进一步分析显示,性能提升的关键原因在于:随着控制器的演化,系统中逐步涌现出更加紧凑且具有循环结构的推理模式。相关代码已在文中给出的链接中公开。原文链接:https://arxiv.org/abs/2505.19591

【第488期】DeepSeek-V3.2:通过稀疏注意力和强化学习突破智能极限
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:DeepSeek-V3.2: Pushing the Frontier of Open Large Language ModelsSummary我们提出 DeepSeek-V3.2,一款在高计算效率与卓越推理能力及智能体(agent)表现之间实现良好平衡的模型。DeepSeek-V3.2 的核心技术突破主要体现在以下三个方面: DeepSeek 稀疏注意力(DeepSeek Sparse Attention,DSA):我们提出了 DSA,一种高效的注意力机制,在长上下文场景下能够在保持模型性能的同时显著降低计算复杂度。 可扩展的强化学习框架:通过构建稳健的强化学习流程并扩展后训练阶段的计算规模,DeepSeek-V3.2 的整体表现可与 GPT-5 相媲美。尤其值得注意的是,高算力版本 DeepSeek-V3.2-Speciale 不仅在整体性能上超越 GPT-5,其推理能力也达到了与 Gemini-3.0-Pro 相当的水平,并在 2025 年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中均取得金牌级表现。 大规模智能体任务合成流水线:为将推理能力有效融入工具使用场景,我们设计了一种全新的任务合成流水线,能够系统性地大规模生成训练数据。该方法支持可扩展的智能体后训练,在复杂交互环境中显著提升了模型的泛化能力与指令遵循的鲁棒性。总体而言,DeepSeek-V3.2 通过在架构、训练范式与数据合成上的协同创新,实现了高效计算与高水平推理及智能体能力的统一。原文链接:https://arxiv.org/abs/2512.02556

【第487期】EGGROLL:基于低秩学习的大规模演化策略优化
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Evolution Strategies at the HyperscaleSummary我们提出 EGGROLL(Evolution Guided General Optimization via Low-rank Learning,基于低秩学习的进化引导通用优化),一种进化策略(Evolution Strategies,ES)算法,旨在将无需反向传播的优化方法扩展到适用于拥有数十亿参数的现代大型神经网络架构和超大规模种群规模。ES 是一类强大的黑盒优化方法,能够有效处理不可微或含噪目标函数,并可通过并行化实现良好的扩展性。然而,朴素的 ES 在大规模场景下成本极高,其瓶颈主要来自生成矩阵扰动 E∈Rm×nE∈Rm×n 所需的计算与内存开销,以及为计算每个种群成员前向传播而进行的批量矩阵乘法。EGGROLL 通过生成随机矩阵 A∈Rm×rA∈Rm×r 与 B∈Rn×rB∈Rn×r(其中 r≪min(m,n)r≪min(m,n)),并以低秩矩阵扰动 AB⊤AB⊤ 替代全秩扰动 EE,从而有效克服了上述瓶颈。由于整体参数更新是对 NN 个工作节点的结果进行平均,最终得到的更新仍然具有较高秩,但在内存与计算开销上实现了显著节省:与全秩 ES 相比,每一层的辅助存储从 mnmn 降低至 r(m+n)r(m+n),单次前向传播的计算复杂度也从 O(mn)O(mn) 降低至 O(r(m+n))O(r(m+n))。理论分析表明,该低秩更新能够以快速的 O(1/r)O(1/r) 收敛速率逼近全秩更新。实验结果显示:(1)尽管速度更快,EGGROLL 在从零开始(tabula rasa)的强化学习设置中并未牺牲 ES 的性能;(2)在提升大语言模型推理能力方面,其表现可与 GRPO 相媲美;(3)EGGROLL 使得完全基于整数数据类型运行的非线性循环语言模型实现稳定的预训练成为可能。原文链接:https://arxiv.org/abs/2511.16652

【第486期】HunyuanOCR:通用端到端视觉语言模型技术报告
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:HunyuanOCR Technical ReportSummary本文提出 HunyuanOCR,一款面向 OCR 任务的商用级、开源且轻量化(10 亿参数)视觉—语言模型(Vision-Language Model,VLM)。其架构由原生视觉 Transformer(ViT)与轻量级大语言模型(LLM)组成,并通过 MLP 适配器进行连接。HunyuanOCR 展现出卓越性能,全面超越商业 API、传统 OCR 流水线以及更大规模的模型(如 Qwen3-VL-4B)。在感知类任务(文本检测与识别、文本解析)上,其性能优于当前公开方案;在语义类任务(信息抽取、图像文本翻译)上同样表现突出,并在 ICDAR 2025 DIMT 挑战赛(小模型赛道)中获得第一名。此外,HunyuanOCR 在 OCRBench 上取得了参数规模小于 30 亿的 VLM 中的最优(SOTA)成绩。HunyuanOCR 在以下三个关键方面实现了突破: 通用性与效率的统一:在轻量化框架下,模型全面支持文本检测与识别、解析、信息抽取(IE)、视觉问答(VQA)以及翻译等核心能力,弥补了传统“专用 OCR 模型”能力单一以及“通用 VLM”效率低下的不足。 简洁的端到端架构:采用纯端到端范式,消除了对版面分析等预处理模块的依赖,从根本上解决了传统流水线中常见的误差累积问题,并显著简化了系统部署。 数据驱动与强化学习策略:验证了高质量数据在 OCR 任务中的关键作用,并首次在工业界证明,引入强化学习(Reinforcement Learning,RL)策略能够为 OCR 任务带来显著的性能提升。HunyuanOCR 已在 HuggingFace 上正式开源。同时,我们提供了基于 vLLM 的高性能部署方案,使其在生产环境中的效率跻身业界第一梯队。我们期望该模型能够推动前沿研究的发展,并为工业级应用提供坚实基础。原文链接:https://arxiv.org/abs/2511.19575

【第485期】大语言模型扩展的理论极限与约束综述
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:On the Fundamental Limits of LLMs at ScaleSummary大语言模型(Large Language Models,LLMs)从规模化发展中获得了巨大的性能提升,但这些收益最终受到五个根本性限制的约束:(1)幻觉问题,(2)上下文压缩,(3)推理能力退化,(4)检索脆弱性,以及(5)多模态失配。尽管现有综述对这些现象进行了经验性描述,但尚缺乏将其与计算、信息与学习的基础极限相联系的严格理论综合。本文通过提出一个统一的、以证明为支撑的理论框架,弥补了这一空白,系统刻画了 LLM 规模化所面临的内在理论上限。首先,可计算性与不可计算性理论表明,误差的存在不可消除:对于任何可枚举的模型族,基于对角化原理,总存在某些输入使得至少一个模型必然失败;而不可判定查询(如停机问题类型的任务)则会为所有可计算预测器诱导出无限的失败输入集合。其次,信息论与统计学约束限定了即便在可判定任务上所能达到的最高精度;有限的描述长度不可避免地引入压缩误差,而对长尾事实性知识的学习则需要极其高昂的样本复杂度。再次,几何与计算层面的效应会使长上下文在实际表示中被压缩到远低于其名义长度的规模,其原因包括位置相关训练不足、编码衰减以及 softmax 拥挤效应。此外,我们进一步表明,基于似然的训练目标更倾向于模式补全而非真正的推理;在 token 预算受限的条件下,检索过程容易受到语义漂移与耦合噪声的影响;而多模态规模化则继承了跨模态对齐较为浅层的问题。全文通过将形式化定理与经验证据相结合,系统勾勒出规模化在哪些方面能够持续带来收益、在哪些方面趋于饱和、以及在哪些方面无法再取得进展,并在此基础上提出了若干切实可行的缓解路径,例如受限预言机检索(bounded-oracle retrieval)、位置感知训练课程(positional curricula),以及稀疏或层级化注意力机制。原文链接:https://arxiv.org/abs/2511.12869

【第484期】LAMP:赋能经济决策的语言增强多智能体强化学习
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-MakingSummary经济决策不仅依赖于价格、税收等结构化信号,还深受同伴交流与媒体叙事等非结构化语言信息的影响。尽管多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在优化经济决策方面展现出潜力,但其在处理语言所固有的语义歧义性和上下文丰富性方面仍面临显著挑战。我们提出 LAMP(Language-Augmented Multi-Agent Policy,语言增强型多智能体策略) 框架,将语言系统性地融入经济决策过程,从而缩小与真实世界场景之间的差距。LAMP 采用 Think–Speak–Decide(思考–表达–决策) 的流水线式架构: Think(思考):对数值型观测进行解释,提取短期冲击与长期趋势,并缓存高价值的推理轨迹; Speak(表达):基于推理结果生成并交换策略性语言信息,通过解析同伴通信来更新自身信念; Decide(决策):将数值数据、推理过程及反思信息进行融合,形成 MARL 策略,以优化语言增强条件下的决策行为。在经济仿真实验中,LAMP 在多项指标上均显著优于传统 MARL 方法和仅依赖大语言模型(LLM-only)的基线方法,包括累计回报(分别提升 63.5% 与 34.0%)、鲁棒性(分别提升 18.8% 与 59.4%)以及可解释性。这些结果表明,语言增强型策略在构建更加高效且稳健的经济决策方案方面具有显著潜力。原文链接:https://arxiv.org/abs/2511.12876

【第483期】Seer:面向同步大型语言模型强化学习的在线上下文学习系统
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Seer: Online Context Learning for Fast Synchronous LLM Reinforcement LearningSummary强化学习(Reinforcement Learning,RL)已成为推动现代大语言模型(Large Language Models,LLMs)发展的关键技术。然而,现有的同步式 RL 系统面临严重的性能瓶颈。占据端到端迭代时间主要部分的 rollout 阶段,由于固有的工作负载不均衡,存在显著的长尾时延以及资源利用率低下的问题。我们提出了 Seer,一种新颖的在线上下文学习系统,通过挖掘此前被忽视的特性来应对上述挑战:对于共享相同提示(prompt)的请求,其输出长度和生成模式之间往往具有高度相似性。基于这一观察,Seer 引入了三项关键技术:用于动态负载均衡的分割式 rollout、上下文感知调度,以及自适应的分组推测解码(speculative decoding)。这些机制协同作用,在 rollout 过程中显著降低了长尾时延并提升了资源效率。在生产级 RL 工作负载上的评测结果表明,与当前最先进的同步 RL 系统相比,Seer 将端到端 rollout 吞吐量提升了 74% 至 97%,同时将长尾时延降低了 75% 至 93%,从而显著加速了 RL 训练迭代。原文链接:https://arxiv.org/abs/2511.14617

【第482期】SAM3:Segment Anything with Concepts
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:SAM 3: Segment Anything with ConceptsSummary我们提出了 Segment Anything Model(SAM)3,这是一种统一模型,能够基于概念提示在图像和视频中进行目标检测、分割与跟踪。我们将概念提示定义为:简短的名词短语(例如“黄色校车”)、图像示例,或二者的组合。可提示概念分割(Promptable Concept Segmentation,PCS)以此类提示为输入,输出所有匹配目标实例的分割掩码及其唯一身份标识。为推动 PCS 的发展,我们构建了一个可扩展的数据引擎,生成了一个高质量数据集,涵盖图像和视频中的 400 万个独特概念标签,并包含具有挑战性的负样本。我们的模型由图像级检测器和基于记忆的视频跟踪器组成,二者共享同一个主干网络。通过引入存在性头(presence head),实现了识别与定位的解耦,从而提升了检测精度。在图像和视频 PCS 任务上,SAM 3 的准确率均达到现有系统的两倍,同时也在视觉分割任务上显著提升了以往 SAM 的能力。我们对 SAM 3 以及全新的 Segment Anything with Concepts(SA-Co) 基准数据集进行了开源,用于可提示概念分割研究。原文链接:https://arxiv.org/abs/2511.16719

【第481期】GPT-5已成科研共同作者
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Early science acceleration experiments with GPT-5Summary像 GPT-5 这样的 AI 模型正日益成为科学家的一项重要工具,但仍有许多人尚未充分了解前沿 AI 的能力。我们展示了一组简短的案例研究,说明 GPT-5 如何在数学、物理学、天文学、计算机科学、生物学以及材料科学等多个领域的持续研究中,提出了新的、具体的研究推进步骤。在这些案例中,作者既强调了 AI 如何加速了他们的工作,也指出了其不足之处;既说明了在哪些环节节省了专家时间,也明确了哪些地方仍然离不开人类的关键投入。我们记录了人类作者与 GPT-5 的交互过程,作为与 AI 进行高效协作的示范性案例。值得注意的是,本文包含了四项新的数学结果(均由人类作者进行了严格验证),这凸显了 GPT-5 在帮助人类数学家解决此前未解问题方面的潜力。尽管这些成果在规模上相对有限,但鉴于前沿 AI 的发展速度,其所蕴含的意义却十分深远。原文链接:https://arxiv.org/abs/2511.16072

【第480期】AsyncThink:学习组织语言模型的智能体协作AI
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:The Era of Agentic Organization: Learning to Organize with Language ModelsSummary我们设想一个全新的 AI 时代,称为智能体化组织(agentic organization):多个智能体通过协作与并发工作来解决复杂问题,从而实现超越单一智能体能力的结果。为实现这一愿景,我们提出了一种新的大语言模型推理范式——异步思考(Asynchronous Thinking,AsyncThink),其核心思想是将内部思考过程组织为可并发执行的结构。具体而言,我们提出了一种思考协议:由一个组织者(organizer)动态地将子查询分配给多个工作者(workers),整合中间知识,并生成连贯一致的最终解答。更重要的是,该协议中的思考结构还可以通过强化学习进一步优化。实验结果表明,与并行思考(parallel thinking)相比,AsyncThink 在数学推理任务中不仅将推理延迟降低了 28%,还同时提升了准确率。此外,AsyncThink 能够将其学到的异步思考能力进行泛化,在无需额外训练的情况下,有效应对未见过的新任务。原文链接:https://arxiv.org/abs/2510.26658

【第479期】AlphaProof:深度强化学习形式化数学证明
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Olympiad-level formal mathematical reasoning with reinforcement learningSummary人工智能的一个长期目标,是构建能够在广阔领域中进行复杂推理的系统,而数学正是这一目标的典型代表:它拥有无穷无尽的概念,并且要求严格的形式化证明。近年来的 AI 系统往往依赖人工生成的数据,通常缺乏形式化验证,因此难以保证推理结果的正确性。相比之下,诸如 Lean¹ 这样的形式化语言提供了一个能够将推理过程严格锚定的交互式环境,而强化学习(RL)则为在此类环境中进行学习提供了有效机制。我们提出了 AlphaProof,一个受 AlphaZero² 启发的智能体,通过在数百万道自动形式化的问题上进行强化学习训练,学会寻找形式化证明。对于最困难的问题,AlphaProof 采用了一种称为“测试时强化学习”(Test-Time RL)的方法:在推理阶段生成并从数百万个相关问题变体中进行学习,从而实现深度的、针对具体问题的自适应能力。AlphaProof 在历史数学竞赛题目上显著超越了当前最先进的方法。在 2024 年国际数学奥林匹克(IMO)竞赛中,以 AlphaProof 作为核心推理引擎的 AI 系统成功解出了五道非几何题中的三道,其中包括本届竞赛中最困难的一题。结合 AlphaGeometry 2³,该系统在多天计算资源支持下取得了相当于银牌得主的成绩,这也标志着 AI 系统首次达到任何奖牌级别的表现。我们的工作表明,在有坚实约束的环境中进行大规模经验学习,能够产生具备复杂数学推理策略的智能体,为构建可靠的复杂数学问题求解型 AI 工具铺平了道路。原文链接:https://www.nature.com/articles/s41586-025-09833-y

【第478期】Intelligence Per Watt:本地人工智能的智能功耗效率测量
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Intelligence per Watt: Measuring Intelligence Efficiency of Local AISummary大语言模型(LLM)的查询目前主要由集中式云基础设施上的前沿模型来处理。需求的快速增长正在给这一范式带来压力,云服务提供商也难以按同样的速度扩展其基础设施。两项进展使我们能够重新思考这一范式:其一,小型语言模型(≤200 亿活跃参数)如今在许多任务上已能达到与前沿模型相当的性能;其二,本地加速器(如 Apple M4 Max)能够以交互式延迟运行这些模型。这引出了一个问题:本地推理是否能够可行地将需求从集中式基础设施中重新分配出来?要回答这一问题,需要衡量本地语言模型是否能够准确回答真实世界的查询,以及它们在受功耗约束的设备(即笔记本电脑)上是否具备足够的效率以实现实际应用。我们提出“每瓦智能”(Intelligence Per Watt,IPW)这一指标,即任务准确率除以单位功耗,用于评估不同模型–加速器组合下本地推理的能力与效率。我们开展了一项大规模实证研究,覆盖 20 余个最先进的本地语言模型、8 种加速器,以及一组具有代表性的 LLM 流量:100 万条真实世界的单轮聊天与推理查询。对于每一条查询,我们测量其准确率、能耗、延迟和功率。分析结果揭示了三点发现。第一,本地语言模型能够准确回答 88.7% 的单轮聊天与推理查询,且准确率因应用领域而异。第二,在 2023–2025 年间,IPW 提升了 5.3 倍,本地查询覆盖率从 23.2% 提高到 71.3%。第三,在运行相同模型的情况下,本地加速器的 IPW 至少比云端加速器低 1.4 倍,显示出显著的优化空间。这些发现表明,本地推理能够在实质上将需求从集中式基础设施中重新分配出来,而 IPW 是衡量和跟踪这一转变的关键指标。我们同时发布了 IPW 性能分析工具,用于系统化的“每瓦智能”基准测试。原文链接:https://arxiv.org/abs/2511.07885

【第477期】代码大语言模型:训练、评估与应用
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:From Code Foundation Models to Agents and Applications: A Practical Guide to Code IntelligenceSummary大型语言模型(LLMs)通过实现自然语言描述到功能性代码的直接转换,已经从根本上改变了自动化软件开发,并通过 GitHub Copilot(微软)、Cursor(Anysphere)、Trae(字节跳动)以及 Claude Code(Anthropic)等工具驱动了商业落地。该领域从基于规则的系统演进到基于 Transformer 的架构,性能在基准测试(如 HumanEval)上从个位数成功率提升至超过 95%。在本研究中,我们对代码 LLM 进行系统性的综述与实践指南(涵盖一系列分析性与探测性实验),全面考察从数据筛选、预训练到后训练阶段的完整模型生命周期,包括高级提示范式、代码预训练、监督微调、强化学习以及自主编程代理。我们分析了通用 LLM(GPT-4、Claude、LLaMA)与代码专用 LLM(StarCoder、Code LLaMA、DeepSeek-Coder、QwenCoder)的代码能力,并对其技术、设计选择与权衡进行了批判性审视。此外,我们明确了学术研究(如基准测试与任务)与真实世界部署(如软件相关代码任务)之间的差距,包括代码正确性、安全性、大规模代码库的上下文理解,以及与开发工作流的整合,并将具潜力的研究方向映射到实际需求。最后,我们开展了一系列实验,对代码预训练、监督微调与强化学习进行了全面分析,涵盖缩放律、框架选择、超参数敏感性、模型架构以及数据集对比等方面。原文链接:https://arxiv.org/abs/2511.18538

【第476期】多智能体经济:A2A协议增强与微支付
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Towards Multi-Agent Economies: Enhancing the A2A Protocol with Ledger-Anchored Identities and x402 Micropayments for AI AgentsSummary本研究文章提出了一种全新的架构,通过解决新兴的 Agent2Agent(A2A)通信协议的两项关键限制——去中心化的代理可发现性与代理间小额支付(micropayments)——从而增强多代理经济系统的能力。通过集成分布式账本技术(DLT),该架构使代理卡(AgentCards)能够作为智能合约在链上进行防篡改发布,从而提供安全且可验证的代理身份。该架构进一步通过 x402 开放标准扩展 A2A,利用 HTTP 402 状态码实现区块链无关的、基于 HTTP 的小额支付机制。由此,自治代理能够跨越组织边界,实现无缝的发现、认证和支付。本研究同时给出了全面的技术实现与评估,验证了基于 DLT 的代理发现与小额支付机制的可行性。所提出的方法为安全、可扩展且具有经济可行性的多代理生态系统奠定基础,推动代理型人工智能在可信的自治经济交互方向持续发展。原文链接:https://arxiv.org/abs/2507.19550

【第475期】bBoN:让AI操作赶上人
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:The Unreasonable Effectiveness of Scaling Agents for Computer UseSummary计算机使用代理(CUAs)在自动化日常数字任务方面具有潜力,但其不稳定性和高方差阻碍了其在长时程、复杂任务中的应用。我们提出 Behavior Best-of-N(bBoN),一种通过生成多条 rollout 并使用描述代理行为的行为叙事对其进行选择,从而实现对代理进行可扩展性的方式。该方法同时支持广泛探索与基于原理的轨迹选择,显著提升了鲁棒性和成功率。在 OSWorld 上,我们的 bBoN 扩展方法达成了新的 SOTA(State of the Art):69.9%,显著优于先前方法,并接近 72% 的人类水平表现。全面的消融实验验证了关键设计选择的有效性。我们进一步在 WindowsAgentArena和 AndroidWorld 上展示了对不同操作系统的强泛化性能。关键在于,我们的结果强调:当方法得当时,对 CUAs 的扩展具有“非合理的有效性”。有效的扩展需要对轨迹进行结构化理解与选择,而 bBoN 提供了一个实现这一点的实用框架。原文链接:https://arxiv.org/abs/2510.02250

【第474期】苹果SALT:如何用笨老师教出顶尖AI
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Rethinking JEPA: Compute-Efficient Video SSL with Frozen TeachersSummary视频联合嵌入预测架构(Video Joint Embedding Predictive Architectures, V-JEPA)通过在潜在空间中预测被遮蔽的区域、并采用指数移动平均(EMA)更新的教师网络,来学习可泛化的现成视频表征。尽管 EMA 能避免表征坍缩,但它使得大规模模型选择更加复杂,并使教师与学生的架构耦合在一起。我们重新审视了掩码潜在预测,并证明冻结教师即可满足需求。具体而言,我们:(i)使用简单的像素重建目标在 V-JEPA 的掩码机制下训练一个目标编码器作为教师;然后(ii)将该教师冻结,并训练一个学生来预测教师在被遮蔽区域的潜在表示。由此形成了一个两阶段、无正则化的训练方案,我们称之为 SALT(Static-teacher Asymmetric Latent Training,静态教师的非对称潜在训练)。SALT 将优化过程解耦为像素重建(教师)与掩码潜在预测(学生),提升了透明性、效率与可扩展性,同时保持了冻结评估条件下的表征泛化能力。在实证层面,我们的学生模型在冻结骨干网络评估中,跨多个基准任务优于最新提出的 V-JEPA 2 编码器。同时,它们在计算上更为高效:在相同的预训练 FLOPs 下,我们的方法实现了更高的 probing 精度,其 scaling 曲线在精度-FLOPs 的帕累托前沿上全面优于 V-JEPA。最后,我们发现学生模型的性能对教师质量具有显著鲁棒性:即便教师较小且次优,高性能的学生仍能涌现。这表明在计算预算分配上应大幅度偏向学生阶段。这些结果说明,SALT 是一种相较于基于 EMA 的自蒸馏机制更为简单、可扩展且计算高效的视频表征学习替代方案。原文链接:https://arxiv.org/abs/2509.24317

【第473期】DeepSeek稀疏注意力提升长上下文效率
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse AttentionSummary我们介绍 DeepSeek-V3.2,这一模型在高计算效率与卓越的推理及智能体性能之间实现了协调统一。DeepSeek-V3.2 的关键技术突破包括:(1) DeepSeek 稀疏注意力机制(DSA):我们提出 DSA,这是一种高效的注意力机制,在长上下文场景中显著降低计算复杂度,同时保持模型性能。(2) 可扩展强化学习框架:通过实施稳健的强化学习协议并扩展后训练(post-training)计算规模,DeepSeek-V3.2 的表现可与 GPT-5 比肩。值得注意的是,我们的高计算版本 DeepSeek-V3.2-Speciale 超越了 GPT-5,并展现出可与 Gemini-3.0-Pro 比拟的推理能力,在 2025 年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中均达到了金牌水平。(3) 大规模智能体任务合成管线:为将推理能力融入工具使用场景,我们构建了一种全新的合成管线,可系统化、大规模生成训练数据。该方法支持可扩展的智能体后训练,使模型在复杂互动环境中的泛化能力和指令跟随稳健性均获得显著提升。原文链接:https://arxiv.org/abs/2512.02556

【第472期】LLM-JEPA:大语言模型联结嵌入预测架构
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:LLM-JEPA: Large Language Models Meet Joint Embedding Predictive ArchitecturesSummary大型语言模型(LLM)的预训练、微调与评测依赖于输入空间的重建与生成能力。然而,在计算机视觉领域已有观察表明,基于嵌入空间的训练目标(例如联合嵌入预测架构,Joint Embedding Predictive Architectures, JEPAs)远优于基于输入空间的方法。语言与视觉在训练方式上的这种差异引出了一个自然的问题:语言模型的训练方法是否能够从视觉模型中借鉴一些技巧?缺乏 JEPA 风格的 LLM 本身证明了为语言设计此类目标的困难。在本研究中,我们朝这一方向迈出了第一步,提出了 LLM-JEPA,一种基于 JEPA 的解决方案,可应用于 LLM 的微调与预训练。到目前为止,LLM-JEPA 在多个模型上显著优于标准的 LLM 训练目标,并且对过拟合表现出稳健性。这些结果已在多个数据集(NL-RX、GSM8K、Spider、RottenTomatoes)以及来自 Llama3、OpenELM、Gemma2 和 Olmo 系列的多种模型上得到验证。代码:this https URL。原文链接:https://arxiv.org/abs/2509.14252

【第471期】AI当同事:为什么我的AI你不许碰
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Collaborative Document Editing with Multiple Users and AI AgentsSummary当前的人工智能写作支持工具主要面向个人设计,这使得协作变得复杂:共同作者需要离开共享写作空间以使用 AI,然后再沟通并重新整合结果。我们提出将 AI 代理直接集成到协同写作环境中。我们的原型通过两个新的共享对象——代理配置文件和任务——使 AI 的使用变得透明且可定制。代理的回应以熟悉的评论功能呈现。在一项用户研究中(N=30),14 个团队在一周时间内开展写作项目。交互日志和访谈显示,各团队将代理纳入其现有的作者身份、控制和协调规范之中,而不是将代理视为团队成员。代理配置文件被视为个人领地,而创建的代理和其产出则成为共享资源。我们讨论了面向团队的 AI 交互的相关启示,强调了在协同工作中将 AI 视为共享资源的机会和边界。原文链接:https://arxiv.org/abs/2509.11826

【第470期】上下文学习:脆弱的统计学家
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Is In-Context Learning Learning?SummaryIn-context learning(ICL) 使某些自回归模型能够通过下一 token 预测来解决任务,而无需进一步训练。这导致了一个常见论断:这些模型能够在提示中仅通过少量示例(few-shot exemplars)就解决(学习)未见过的任务。然而,推理能力并不必然意味着学习,因为 ICL 并不会显式编码给定的观测数据;相反,模型依赖其已有的先验知识以及(若存在)提示中的示例。我们提出,从数学角度来看,ICL 的确构成一种学习方式,但其完整特征化仍需依赖实证研究。为此,我们开展了大规模 ICL 分析,通过消除或控制记忆效应、预训练影响、分布偏移、提示风格和措辞方式等因素进行系统实验。我们发现,ICL 是一种有效的学习范式,但在学习和泛化到未见任务方面具有明显局限性。值得注意的是,当示例数量趋于增多时,模型的准确率对示例分布、模型类型、提示风格以及输入的语言特征变得不敏感。相反,模型会从提示中的规律性中推断模式,这导致显著的分布敏感性,特别是在 chain-of-thought 等提示风格中尤为明显。鉴于模型在形式上类似的任务中表现出截然不同的准确率,我们得出结论:自回归模型的临时式(ad-hoc)编码机制并不稳健,并暗示其通用泛化能力有限。原文链接:https://arxiv.org/abs/2509.10414

【第469期】K2-Think:小模型的大推理能力
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:K2-Think: A Parameter-Efficient Reasoning SystemSummaryK2-Think 是一个推理系统,在 32B 参数规模下实现了 SOTA 表现,达到或超过诸如 GPT-OSS 120B 和 DeepSeek v3.1 等更大模型的水平。基于 Qwen2.5 基座模型构建,我们的系统展示出:通过结合先进的后训练技术与测试阶段的计算优化,小型模型同样能够在高性能推理任务中竞争。这一方法基于六个关键技术支柱:长链路思维(Chain-of-thought)监督微调、可验证奖励的强化学习(RLVR)、推理前的代理式规划、测试时扩展(Test-time Scaling)、推测式解码(Speculative Decoding)、以及推理优化硬件,全部依托公开的开源数据集。K2-Think 在数学推理方面表现突出,在开源模型的公共基准上取得了 SOTA 成绩,同时在代码和科学等其他领域也表现强劲。我们的结果证实,像 K2-Think 32B 这样参数更高效的模型,能够通过包含长链路思维训练与战略性推理阶段增强的综合后训练方案,与最先进系统竞争,使开源推理系统更加易用且具成本效益。K2-Think 已免费开放获取,可通过 Cerebras Wafer-Scale Engine 实现每个请求超过 2,000 tokens/s 的顶级推理速度。原文链接:https://arxiv.org/abs/2509.07604

【第468期】LiveMCP-101:多步工具调用的基准测试与分析
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging QueriesSummary工具调用已成为 AI 代理与现实世界交互并解决复杂任务的一项关键能力。尽管 Model Context Protocol(MCP)提供了一个强大的标准化工具集成框架,但在基准测试方面仍存在显著缺口:缺乏能够评估 AI 代理在真实、动态情境中利用多样 MCP 工具有效完成多步骤任务的能力衡量体系。在这项工作中,我们提出了 LiveMCP-101,一个包含 101 个经过精心筛选的真实世界查询的基准测试集。这些查询经过迭代的 LLM 重写与人工审查,要求协调使用多种 MCP 工具,包括网页搜索、文件操作、数学推理和数据分析。此外,我们引入了一种新的评估方法:利用真实执行计划而非原始 API 输出,以更好地反映真实环境不断变化的特性。实验表明,即使是最前沿的 LLM,其成功率也不足 60%,凸显了工具编排方面的重大挑战。详尽的消融实验与错误分析进一步揭示了不同的失败模式和 token 使用低效等问题,为提升现有模型的能力提供了具体方向。LiveMCP-101 为评估真实世界代理能力设定了严格标准,推动了朝向能够通过工具使用可靠执行复杂任务的自主 AI 系统的发展。原文链接:https://arxiv.org/abs/2508.15760

【第467期】强化学习中LLM的层次推理与HICRA
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Emergent Hierarchical Reasoning in LLMs through Reinforcement LearningSummary强化学习(Reinforcement Learning, RL)已被证明在提升大型语言模型(LLM)的复杂推理能力方面非常有效,但其成功背后的内在机制仍然大多不透明。我们的分析揭示,诸如“顿悟时刻”(aha moments)、“长度扩展”(length-scaling)以及熵动态等令人困惑的现象,并非彼此孤立,而是一个新兴推理层级结构的标志,类似于人类认知中高层次战略规划与低层次程序执行之间的分离。我们揭示了一个引人注目的两阶段动态:在初始阶段,模型受制于程序正确性,必须提升其低层技能;随后学习瓶颈发生决定性转移,性能提升主要由对高层战略规划的探索与掌握驱动。这一洞见暴露了现有 RL 算法(如 GRPO)中的核心低效性:它们以一种与层次无关的方式施加优化压力,使得学习信号在所有 token 间被稀释。为解决这一问题,我们提出了 Hierarchy-Aware Credit Assignment(HICRA),一种将优化努力集中在高影响力规划 token 上的算法。我们的大量实验证实了 HICRA 显著优于强基线方法,并通过战略性探索的视角,对推理能力如何进步提供了深刻洞察。原文链接:https://arxiv.org/abs/2509.03646

【第466期】AI自我进化_三定律与活组织
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:A Comprehensive Survey of Self-Evolving AI AgentsSummary大型语言模型的最新进展引发了人们对能够解决复杂现实任务的 AI 智能体的广泛兴趣。然而,大多数现有的智能体系统依赖于人工设计的配置,这些配置在部署后保持静态,限制了其在动态和不断演化的环境中进行适应的能力。为此,近期研究探索了智能体进化技术,旨在基于交互数据和环境反馈自动增强智能体系统。这一新兴方向为自进化 AI 智能体奠定了基础,它将基础模型的静态能力与终身智能体系统所需的持续适应能力结合起来。在本综述中,我们对现有的自进化智能体系统技术进行了全面审查。具体而言,我们首先提出了一个统一的概念框架,用于抽象自进化智能体系统设计背后的反馈循环。该框架强调四个关键组成部分:系统输入、智能体系统、环境和优化器,为理解和比较不同策略提供了基础。在此框架基础上,我们系统性地回顾了针对智能体系统不同组件的一系列自进化技术。我们还考察了为特定领域(如生物医学、编程和金融)开发的领域专属进化策略,这些策略的优化目标与领域约束紧密耦合。此外,我们对自进化智能体系统的评估、安全性和伦理考量进行了专门讨论,这些因素对于确保其有效性和可靠性至关重要。本综述旨在为研究人员和实践者提供对自进化 AI 智能体的系统性理解,为构建更加适应性强、自主化和持续进化的智能体系统奠定基础。原文链接:https://arxiv.org/abs/2508.07407

【第465期】AI如何“心算”:隐性推理三大范式
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Implicit Reasoning in Large Language Models: A Comprehensive SurveySummary大型语言模型(LLMs)已经在广泛任务上展现出强大的泛化能力。利用 LLMs 进行推理对于解决多步骤问题和复杂决策至关重要。为了支持高效推理,近期研究已从显式的思维链提示转向隐式推理,在隐式推理中,推理过程通过潜在结构在内部静默地发生,而不输出中间的文本步骤。隐式推理带来了诸多优势,包括更低的生成成本、更快的推理速度,以及与内部计算更好的对齐。尽管先前的综述已在推理背景下讨论过潜在表示,但尚缺乏对推理如何在 LLMs 内部展开的专门化、机制层面的系统考察。本综述通过引入一个以执行范式为核心的分类体系填补了这一空白,将关注点从表示形式转移到计算策略上。我们根据 内部计算如何以及在何处展开 将现有方法组织为三类执行范式:潜在优化、信号引导控制和层级循环执行。我们还回顾了支持 LLMs 中存在隐式推理的结构性、行为性和基于表示的证据。此外,我们提供了对现有工作中用于评估隐式推理的有效性与可靠性的评价指标和基准的系统性概述。我们在以下地址持续更新该项目:this https URL.原文链接:https://arxiv.org/abs/2509.02350