最新消息:雨落星辰是一个专注网站SEO优化、网站SEO诊断、搜索引擎研究、网络营销推广、网站策划运营及站长类的自媒体原创博客

DeepSeek发布新模型,不是R2,而是Prover

网站源码admin5浏览0评论

DeepSeek发布新模型,不是R2,而是Prover

就在刚刚,Deepseek在huggingface发了新模型,既不是R2,也不是V4!

而是倒退版本、从来没有听过的DeepSeek-Prover-V2-671B模型,新的专家模型!

DeepSeek-Prover-V2-671B是基于DeepSeek-V3架构的一个专门用于数学证明的大型语言模型,具有以下特点:

  • 模型规模巨大:参数量约为671B(6710亿参数),这从模型分片数量(163个)和每个分片大小(约4.3GB)可以看出
  • 使用了DeepSeek-V3的架构:采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层
  • 专为数学定理证明优化:从名称"Prover"(证明者)可以看出,这是一个专注于数学推理和定理证明的专业模型
  • 支持超长上下文:最大位置嵌入达163840,使其能处理复杂的数学证明
  • 采用FP8量化:通过量化技术减小模型大小,提高推理效率

config.json:

这是模型的核心配置文件,定义了DeepSeek-V3/Prover-V2的架构参数

  • 包含模型结构参数:671B参数的超大模型,有61层,7168维隐藏层,128个注意力头
  • 采用MoE架构:包含256个路由专家,每个token路由到8个专家
  • 最大位置嵌入长度为163840,采用YaRN缩放策略,支持超长上下文
  • 量化配置:使用FP8量化(e4m3格式),提高推理效率

configuration_deepseek.py:

这是模型配置类的Python实现,定义了DeepseekV3Config类

  • 详细解释了各个配置参数的含义,如vocab_size(词表大小)、hidden_size(隐藏层维度)等
  • 提供了配置类的初始化方法,设置默认参数值
  • 继承自Hugging Face的PretrainedConfig类,支持与Transformer库的集成

DeepSeek-Prover-V2-671B应该是DeepSeek最新发布的针对数学证明领域的顶级模型,相比通用语言模型,它在数学推理、形式证明、定理验证等方面应该有更强的能力。

这种专业化大模型代表了当前AI研究的一个重要方向:为特定领域开发超大规模的专家模型

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-30,如有侵权请联系 cloudcommunity@tencent 删除DeepSeek量化模型配置数学
发布评论

评论列表(0)

  1. 暂无评论