中文字幕在线观看网址|激情av片在线免费观看|免费亚洲欧美视频|日本按摩高潮A级中文片不

  • <rt id="m2u44"><code id="m2u44"></code></rt>
    <dfn id="m2u44"></dfn>
  • <dfn id="m2u44"><source id="m2u44"></source></dfn>
  • <menu id="m2u44"></menu>
    
    
    關(guān)于ZAKER 合作

    阿里發(fā)布最強(qiáng)開源模型 Qwen 3,參數(shù)量?jī)H為 DeepSeek-R1 的 1/3

    藍(lán)鯨新聞 4 月 30 日訊(記者 武靜靜)趕在了五一節(jié)前,阿里巴巴開源新一代通義千問模型 Qwen3。據(jù)介紹,其參數(shù)量?jī)H為 DeepSeek-R1 的 1/3,成本大幅下降,但性能表現(xiàn)不錯(cuò)。

    報(bào)告顯示,Qwen3-235B-A22B 在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中,超過了與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等全球頂尖模型。成為了全球最強(qiáng)的開源模型。

    通過模型架構(gòu)的改進(jìn)、訓(xùn)練數(shù)據(jù)的增加以及更有效的訓(xùn)練方法,Qwen3 實(shí)現(xiàn)了模型體積更小情況下,性能表現(xiàn)也比更大參數(shù)規(guī)模的 Qwen2.5 基礎(chǔ)模型要好。特別是在 STEM、編碼和推理等領(lǐng)域,Qwen3 Dense 基礎(chǔ)模型的表現(xiàn)甚至超過了更大規(guī)模的 Qwen2.5 模型。

    博客中,阿里稱,Qwen3 Dense 基礎(chǔ)模型的整體性能與參數(shù)更多的 Qwen2.5 基礎(chǔ)模型相當(dāng)。例如,Qwen3-1.7B/4B/8B/14B/32B-Base 分別與 Qwen2.5-3B/7B/14B/32B/72B-Base 表現(xiàn)相當(dāng)。

    有意思的是,除了擁有 235B 參數(shù)的 MoE 模型外,Qwen 3 還配備了一個(gè)小型 MoE 模型,即 Qwen3-30B-A3B。該模型的激活參數(shù)量為 3B,不及 QwQ-32B 模型的 10%,然而其性能卻更為出色。

    我們可以把 MoE 架構(gòu)理解為一個(gè)大型的客服中心,其中有許多專門處理不同問題的專家——有的專家專門處理技術(shù)問題,有的專家處理賬單查詢,還有的專家負(fù)責(zé)解答產(chǎn)品使用問題。在大模型訓(xùn)練過程中,當(dāng)數(shù)據(jù)進(jìn)入模型中后,大模型會(huì)像 " 客服中心 " 一樣,根據(jù)問題的性質(zhì)被分配給最合適的專家來解決 , 可以提高查詢的計(jì)算效率。

    此次,阿里開的源模型有 Dense 模型,也有 MoE 模型。其中,開源了兩個(gè) MoE 模型的權(quán)重:Qwen3-235B-A22B,一個(gè)擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的大模型,以及 Qwen3-30B-A3B,一個(gè)擁有約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型。

    六個(gè) Dense 模型也已開源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 許可下開源??梢灾苯由逃?。

    Qwen 3 系列的其中一個(gè)創(chuàng)新點(diǎn)在于其 " 混合型 " 模型設(shè)計(jì),可以在深度思考這種慢思考模式(用于復(fù)雜的邏輯推理、數(shù)學(xué)和編碼)和快思考模式(用于高效、通用的聊天) 之間的無縫切換 ,確保在各種場(chǎng)景下實(shí)現(xiàn)最佳性能。

    這意味著,用戶終于不需要手動(dòng)操作開啟并關(guān)閉 " 深度思考 " 功能,且擔(dān)心模型過度思考的問題了,此前,很多大模型用戶反饋稱,大模型動(dòng)不動(dòng)就深度思考輸出長(zhǎng)篇大論,很多小問題也如此完全沒必要。

    關(guān)鍵在于,這種快慢思考靈活切換的模式能有效的降低成本,阿里在博客中稱:這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的 " 思考預(yù)算 " 控制能力。這樣的設(shè)計(jì)讓用戶能夠更輕松地為不同任務(wù)配置特定的預(yù)算,在成本效益和推理質(zhì)量之間實(shí)現(xiàn)更優(yōu)的平衡。

    在部署方面,阿里稱僅需 4 張 H20 即可部署千問 3 滿血版,顯存占用僅為性能相近模型的三分之一。這意味著相比相比滿血版 deepseek R1,部署成本大降 75%~65%。

    阿里介紹稱,Qwen3 經(jīng)過了四階段的訓(xùn)練流程,相當(dāng)于,先教基礎(chǔ)→再練深度思考→混合快慢模式→最后全面優(yōu)化。阿里表示,Qwen3 在工具調(diào)用、指令執(zhí)行和數(shù)據(jù)格式處理方面表現(xiàn)優(yōu)秀。建議搭配 Qwen-Agent 使用,它能簡(jiǎn)化工具調(diào)用的代碼實(shí)現(xiàn)。

    此次,阿里還專門優(yōu)化了 Qwen3 模型的 Agent 和 代碼能力,同時(shí)也加強(qiáng)了對(duì) MCP 的支持。在示例中看到, Qwen3 可以絲滑的調(diào)用工具。

    開源正在成為阿里核心的 AI 戰(zhàn)略,從 2023 年起,阿里通義團(tuán)隊(duì)就陸續(xù)開發(fā)了覆蓋 0.5B、1.5B、3B、7B、14B、32B、72B、110B 等參數(shù)的 200 多款「全尺寸」大模型。

    在此前的一次采訪中,通義相關(guān)負(fù)責(zé)人曾告訴藍(lán)鯨新聞,"開源不是目的而是結(jié)果。只有做出真正有競(jìng)爭(zhēng)力的產(chǎn)品,開源才有意義。這倒逼我們必須做到兩點(diǎn):一是模型性能要達(dá)到全球 SOTA 水平,二是要能媲美甚至超越閉源模型。"

    相關(guān)標(biāo)簽

    相關(guān)閱讀

    最新評(píng)論

    沒有更多評(píng)論了
    藍(lán)鯨財(cái)經(jīng)

    藍(lán)鯨財(cái)經(jīng)

    藍(lán)鯨財(cái)經(jīng),專注財(cái)經(jīng)新聞報(bào)道、財(cái)經(jīng)事件解讀。

    訂閱

    覺得文章不錯(cuò),微信掃描分享好友

    掃碼分享