梁文峰签署的文件利用了DeepSeek最强大的开源代理模型

智喜作者陈俊达、编辑云鹏智喜12月2日报道,DeepSeek昨晚推出了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。这是 DeepSeek 迄今为止最强大的模型,在推理和代理等多个领域的基准测试中,在全球开源模型中排名第一。 DeepSeek表示,标准版DeepSeek-V3.2达到了公共推理基准中GPT-5的水平,仅略低于Gemini-3.0-Pro。与Kimi-K2-Thinking相比,V3.2的输出长度显着减少,从而显着降低了计算开销和用户延迟。 DeepSeek-V3.2-Speciale增强版将DeepSeek-Math-V2的定理证明能力与强大的指令追踪、数学证明和逻辑验证能力相结合。在主PU推理基准测试中的性能与Gemini-3.0-Pro相当。 DeepSeek-V3.2也是开源界的佼佼者ld。根据权威大型模型评估平台Artificial Analysis的数据,如果不包括DeepSeek-V3.2,目前业界智能水平最高的开源模型是Kim-K2-Thinking。 DeepSeek-V3.2和Kimi-K2-Thinking均已公布结果,在相同测试配置的基准测试中,DeepSeek-V3.2的表现优于Kimi-K2-Thinking。 ▲ DeepSeek-V3.2 与 Kimi-K2-Thinking 的对比对比,数据来源为官方渠道。 DeepSeek-V3.2也是DeepSeek发布的第一个将思维融入工具使用的模型,支持思维和非思维工具调用模式。 DeepSeek-V3.2模型目前用于代理评估。它是当今可用的最高水平的开源模型,并且显着缩小了开源模型和闭源模型之间的差距。请注意,V3.2 没有对这些测试工具进行任何特殊培训。这意味着V3.2可以表现出很强的通用性实际应用场景中的化。此外,DeepSeek-V3.2-Speciale模型还获得了IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)和IOI 2025(国际信息奥林匹克)的金牌。其中,ICPC和IOI成绩分别达到人类玩家的2级和10级。对于非常复杂的任务,Speciale 模型的性能明显优于标准版本,但消耗的代币明显更多。另外,它的成本更高。目前,DeepSeek-V3.2-Speciale 仅供研究使用,不支持附加到工具的调用。它尚未专门针对日常对话或写作任务进行优化。目前,所有DeepSeek官方网站、应用程序和API均已更新至DeepSeek-V3.2正式版本。 Speciale 版本目前仅作为临时 API 服务提供,用于社区评估和研究。瓦e开放了DeepSeek-V3.2系列模型,同时发布了技术报告。值得一提的是,白皮书的作者名单中包括不少知名人士,比如DeepSeek创始人兼CEO梁文峰和前段时间在乌镇世界互联网大会上代表DeepSeek发言的研究员陈德利。技术报告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf 开源链接:DeepSeek-V3.2https://modelscope.cn/mo dels/deepseek-ai/DeepSeek-V3.2DeepSeek-V3.2-Speciale https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale 1.开源和闭源模型之间的差距是否正在扩大? DeepSeek 认为开源模型和专有模型之间的差距近几个月来已经扩大。我发现了三个原因。这是DeepSeek团队一直在思考的问题。 DeepSeek团队认为,限制开源模型执行复杂计算能力的因素主要有三个:前任务。首先,从架构的角度来看,开源模型主要依赖于专有的注意力机制,这严重限制了它们处理长序列的效率。这种低效率对大规模采用和有效的培训后阶段构成了重大障碍。其次,在资源配置方面,开源模型在训练后阶段没有投入足够的算力,这限制了其在困难任务上的表现。最后,在代理应用场景中,与专有模型相比,开源模型在命令跟踪和泛化能力方面表现出明显的滞后,从而阻碍了其在实际实施中的有效性。为了解决这些重要的限制,DeepSeek 首先引入了 DSA(DeepSeek Sparse attendance),这是一种高效的稀疏注意力机制,旨在显着降低计算复杂度。该架构有效解决了效率瓶颈并保持了模型性能即使在长上下文场景中也是如此。其次,DeepSeek 开发了一种稳定且可扩展的强化学习协议,可在训练后阶段实现大规模计算扩展。值得注意的是,该框架分配的训练后算力预算大于训练前成本的1。 0%在业界比较少见,需要先进的模型功能。将会发布。第三,DeepSeek提出了一种新流程,有助于工具使用场景中的广义推理。研发团队使用 DeepSeek-V3 方法实现冷启动阶段,将推理和工具使用集成到一个旅程中。然后,我们继续大规模综合代理任务,生成超过 1,800 个不同的环境和 85,000 个复杂的提示。这种广泛的数据综合驱动了强化学习过程,极大地提高了模型在代理上下文中概括和遵循指令的能力。 2. 基于最终版本DeepSeek-V3.1,DSA让模型计算更智能。 DeepSeek-V3.2使用的架构与之前发布的实验版本DeepSeek-V3.2-Exp完全相同。与DeepSeek-V3.1系列的最新版本DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2唯一的架构变化是引入了持续训练的DSA。当传统的注意力机制处理标记时,它们必须使用它们之前的所有标记来计算它们,这对于长文本来说可能非常耗时。 DSA的思想是快速选择最重要的代币,并仅对这些代币进行详细分析。由于闪电索引器,这种选择成为可能。 Lightning Indexer 计算查询令牌和预购令牌的索引分数,以确定应选择哪些令牌进行计算。考虑到Lightning Indexer的头数较少,并且可以在FP8上实现,其计算效率Al非常出色。鉴于在每个查询token的dex分数,细粒度的token选择机制只检索前k个索引分数对应的关键条目并统计结果。 DeepSeek-V3.2的训练从基础DeepSeek-V3.1-Terminus检查点开始,上下文长度扩展到128K。更多。随着预训练的继续,模型首先进行“密集预热”。也就是说,我们只训练索引器学习模仿原始注意力分布,而不改变整个注意力。接下来,我们进入稀疏训练阶段,引入实际的令牌选择机制,同时优化整个模型。通过这种逐渐的过渡,模型可以从密集的注意力结构平滑地过渡到稀疏结构,而不会导致性能崩溃。在性能评估方面,DeepSeek-V3.2-Exp在标准基准测试、人类偏好评估和长上下文测量方面显示出与前代产品相当或更好的结果多任务处理。无论是 ChatbotArena 的 Elo 评分,还是 AA-LCR 和 Fiction.liveBench 等长序列测试,我们都表明引入稀疏注意力后模型质量并没有被牺牲,反而在长序列推理中获得了明显的好处。从实际推理成本来看,DSA从平方层面对模型核心注意力复杂度的降低是近似线性的,因此序列越长,降低效果越明显。索引器本身仍然要处理全局信息,但其开销比原来的MLA小得多。结合工程优化,DeepSeek-V3.2 在 H800 GPU 上实现显着的端到端加速,并利用更高级的模式。在短上下文中的特殊功能可进一步提高效率。总体而言,DeepSeek-V3.2在不损失功能的情况下有效克服了长上下文推理的性能瓶颈。 ▲DeepSeek-V3.2 提供显着的端到端加速H800 GPU。 3. 创建六个专门的模型,并让模型生成自己的训练后数据。 DeepSeek-V3.2的后训练阶段是在连续预训练之后进行的。目标是开发一个大型但尚未完成的基础模型、推理和工具使用。代理的任务必须在结合了协调功能的最终版本中捕获。整个过程延续了DeepSeek-V3.2-Exp的做法,基于稀疏注意力进行高效训练。后期训练主要以两条路线为主。一种是专家提取,另一种是混合强化学习。其次,它是一个可以在多个领域稳定且平衡地提高技能的模型。专家提取的核心思想是专门的专家模型学习不同的任务,然后将这些专家的技能收集到更大的统一模型中。该团队从 DeepSeek-V3.2 中的相同基本检查点开始,并为 6 个对象训练了专门模型专门任务,包括数学、编程、逻辑推理、一般代理、代理调度和代理搜索。这些模型有两种类型的数据:思维模式和直接反应模式,并通过大规模强化学习来丰富,以帮助每个专家在其领域达到更高的水平。这些专家负责生成高质量的领域数据来训练大规模集成模型。实验结果表明,利用专家数据提取的大规模模型的性能非常接近每个专家的性能。进一步调整RL可以从根本上消除剩余的间隙。 Hybrid Reinforcement Learning Link继续使用GRPO(组相对策略优化)算法将推理、代理和人类适应训练集成在同一阶段,避免了多阶段训练中常见的灾难性遗忘。推理和代理任务主要基于规则奖励、持续时间惩罚和语言连贯性奖励。另一方面,常见任务根据基于生成奖励模型的特定评分标准进行评分。这样做的优点是该模型不偏向任何特定类型的任务,并保持整体功能的稳固平衡。为了让强化学习即使在大规模计算下也能稳定发展,团队还对GRPO进行了多项改进,让大规模模型即使在长期高强度训练下也能保持良好的收敛特性。 DeepSeek-V3.2重点解决训练后“如何将思维模式与工具使用结合起来”的问题。为了避免在多个工具调用中频繁重复模型,他们为复杂的推理设计了一种新的上下文管理机制。仅当出现新的用户消息时思维轨迹才会被清除,并且添加工具结果并不会丢弃推理的内容。同时完整保留工具调用堆栈,保证模型可以继续使用现有的推论来完成后续的动作。在训练的早期阶段,推理数据源和代理数据是不同的,因此模型需要连接“思考和使用工具”模式的冷启动方法。因此,团队设计了系统特定的线索,让模型能够自然地将工具调用集成到推理轨迹中,并为强化学习提供后续可学习的样本轨迹。例如,在回答问题1(请求1.1到1.3)的过程中,模型经过多次反射+工具调用给出了答案。这个过程需要用户将思维链的内容(reasoning_content)返回给API,以便模型能够继续思考。在用户的下一个问题(请求2.1)开始时,应该删除之前的思路,保留其余内容并将其发送到API。 ▲ 该工具的通话记录存储机制的真正改进来自于广泛的 RL 代理任务,涵盖使用搜索、代码修复、代码解释和自动环境生成器创建的各种可测试任务。这些任务通常具有高复杂性和强可验证性的特点,非常适合作为 RL 培训材料。最终的DeepSeek-V3.2使用了专家提炼的大量数据,混合RL训练,强化了工具的思维机制,提高了思维能力。这是通过非思维技能的整合而得到的整合模型。同时,另一个实验版本DeepSeek-V3.2-Speciale更侧重于训练推理方向,探索更长推理路径的可能性。结论:通过平衡计算效率和推理能力,知识广度和代币效率仍有提升空间。 DeepSeek-V3.2是一个平衡计算效率与高级推理能力的模型。 DSA解决重要计算问题解决复杂性问题而不牺牲长上下文中的性能。随着计算预算的增加,DeepSeek-V3.2在推理测试中取得了与GPT-5相当的性能。此外,DeepSeek 内置的大规模代理任务合成流程极大地提高了工具的可用性,并为创建健壮的、可泛化的、开源的大规模模型代理开辟了新的可能性。然而,DeepSeek 也承认,由于总体训练 FLOP 较少,DeepSeek-V3.2 的全局知识广度仍然落后于领先的专有模型。 DeepSeek 计划通过在未来迭代中扩大预训练计算量来填补这一知识空白。其次,代币效率仍然是一个挑战。 DeepSeek-V3.2 通常需要更长的生成路径(即更多令牌)才能实现与 Gemini-3.0-Pro 等模型相当的输出质量。未来的工作将集中于进一步优化和提高模型信息的“智能密度”埃伦斯链。高效率。第三,在解决复杂任务方面,DeepSeek-V3.2与更现代的模型相比仍然存在差距。 DeepSeek表示将进一步完善其基础模型和训练后处理解决方案。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。该平台是一个信息存储服务。我们将为您提供
注:以上内容(包括图片和视频,如有)由网易号用户上传并发布,网易号是一个仅提供信息存储服务的社交媒体平台。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注