就在所有人都在期待 DeepSeek 官宣 R2 大模型之際,公司卻出其不意地在 " 五一 " 前夕投下了另一枚技術(shù)炸彈。
4 月 30 日,DeepSeek 在 Hugging Face 平臺上悄然開源了其最新模型—— DeepSeek-Prover-V2-671B,一個專注于數(shù)學(xué)定理證明的大語言模型,專門針對形式化數(shù)學(xué)證明任務(wù)進行優(yōu)化。
值得注意的是,3 月發(fā)布的 V3-0324 版本已被業(yè)內(nèi)視為未來 R2 的基礎(chǔ)模型。這一版本通過 6850 億參數(shù)的 MoE 架構(gòu)升級,代碼能力獲得相比顯著增強。
數(shù)學(xué) AI 的重磅升級:DeepSeek 再開源 6710 億參數(shù)模型
從技術(shù)層面來看,DeepSeek-Prover-V2-671B 使用了 DeepSeek-V3 架構(gòu),采用 MoE(混合專家)模式,具有 61 層 Transformer 層,7168 維隱藏層。更令人驚嘆的是,其最大位置嵌入達到了 16.38 萬,這意味著它能夠處理極其復(fù)雜的數(shù)學(xué)證明問題。
DeepSeek-Prover 是 DeepSeek 團隊開發(fā)的一系列專注于數(shù)學(xué)定理證明的開源大語言模型,通過大規(guī)模合成數(shù)據(jù)訓(xùn)練并結(jié)合強化學(xué)習(xí)(RL)與蒙特卡洛樹搜索(MCTS)等優(yōu)化技術(shù),在形式化定理證明領(lǐng)域取得了顯著進展。
DeepSeek-Prover 通過創(chuàng)新的訓(xùn)練框架與高效的推理策略,在形式化數(shù)學(xué)證明領(lǐng)域樹立了新標(biāo)桿。其結(jié)合合成數(shù)據(jù)、強化學(xué)習(xí)與樹搜索的技術(shù)路徑,不僅提升了模型性能,也為 AI 在嚴(yán)謹(jǐn)數(shù)學(xué)推理中的應(yīng)用開辟了新方向。
OSCHINA 分析稱,新模型具有以下特點:
模型規(guī)模巨大:參數(shù)量約為 671B(6710 億參數(shù)),這從模型分片數(shù)量(163 個)和每個分片大?。s 4.3GB)可以看出
使用了 DeepSeek-V3 的架構(gòu):采用 MoE(混合專家)模式,具有 61 層 Transformer 層,7168 維隱藏層
專為數(shù)學(xué)定理證明優(yōu)化:從名稱 "Prover"(證明者)可以看出,這是一個專注于數(shù)學(xué)推理和定理證明的專業(yè)模型
支持超長上下文:最大位置嵌入達 163840,使其能處理復(fù)雜的數(shù)學(xué)證明
采用 FP8 量化:通過量化技術(shù)減小模型大小,提高推理效率
DeepSeekR2 還會遠(yuǎn)嗎?
DeepSeek 創(chuàng)始人梁文鋒曾表示:" 中國也要逐步成為創(chuàng)新貢獻者,而不是一直搭便車。" 他將探索通用人工智能的本質(zhì)作為核心使命。
根據(jù)《中國企業(yè)家》的報道,DeepSeek 創(chuàng)始人梁文鋒帶領(lǐng)的 AI 團隊一直保持著與國際巨頭同步的產(chǎn)品迭代節(jié)奏—— 2024 年 9 月推出 V2.5 版本,12 月發(fā)布 V3 基礎(chǔ)架構(gòu),次年 3 月升級至 V3-0324 版本,形成每季度重大更新的開發(fā)范式。
值得注意的是,3 月發(fā)布的 V3-0324 版本已被業(yè)內(nèi)視為未來 R2 的基礎(chǔ)模型。這一版本通過 6850 億參數(shù)的 MoE 架構(gòu)升級,代碼能力獲得顯著增強。
如此穩(wěn)健而高效的產(chǎn)品迭代節(jié)奏,不禁讓人思考:傳言已久的 DeepSeek R2 大模型還會遠(yuǎn)嗎?這款新的數(shù)學(xué)模型是否只是 DeepSeek 即將發(fā)布更大規(guī)模通用模型的前奏?
在社交平臺 X 上,有網(wǎng)友表示:
"R2 指日可待 ......"
" 這是個令人興奮的消息!"