中文字幕在线观看网址|激情av片在线免费观看|免费亚洲欧美视频|日本按摩高潮A级中文片不

<rt id="m2u44"><code id="m2u44"></code></rt>

<dfn id="m2u44"></dfn>

<dfn id="m2u44"><source id="m2u44"></source></dfn>

<menu id="m2u44"></menu>

<option id="ewb9j"></option>

藍(lán)鯨財(cái)經(jīng) 前天

阿里發(fā)布最強(qiáng)開源模型 Qwen 3，參數(shù)量?jī)H為 DeepSeek-R1 的 1/3

藍(lán)鯨新聞 4 月 30 日訊（記者武靜靜）趕在了五一節(jié)前，阿里巴巴開源新一代通義千問模型 Qwen3。據(jù)介紹，其參數(shù)量?jī)H為 DeepSeek-R1 的 1/3，成本大幅下降，但性能表現(xiàn)不錯(cuò)。

報(bào)告顯示，Qwen3-235B-A22B 在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中，超過了與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等全球頂尖模型。成為了全球最強(qiáng)的開源模型。

通過模型架構(gòu)的改進(jìn)、訓(xùn)練數(shù)據(jù)的增加以及更有效的訓(xùn)練方法，Qwen3 實(shí)現(xiàn)了模型體積更小情況下，性能表現(xiàn)也比更大參數(shù)規(guī)模的 Qwen2.5 基礎(chǔ)模型要好。特別是在 STEM、編碼和推理等領(lǐng)域，Qwen3 Dense 基礎(chǔ)模型的表現(xiàn)甚至超過了更大規(guī)模的 Qwen2.5 模型。

博客中，阿里稱，Qwen3 Dense 基礎(chǔ)模型的整體性能與參數(shù)更多的 Qwen2.5 基礎(chǔ)模型相當(dāng)。例如，Qwen3-1.7B/4B/8B/14B/32B-Base 分別與 Qwen2.5-3B/7B/14B/32B/72B-Base 表現(xiàn)相當(dāng)。

有意思的是，除了擁有 235B 參數(shù)的 MoE 模型外，Qwen 3 還配備了一個(gè)小型 MoE 模型，即 Qwen3-30B-A3B。該模型的激活參數(shù)量為 3B，不及 QwQ-32B 模型的 10%，然而其性能卻更為出色。

我們可以把 MoE 架構(gòu)理解為一個(gè)大型的客服中心，其中有許多專門處理不同問題的專家——有的專家專門處理技術(shù)問題，有的專家處理賬單查詢，還有的專家負(fù)責(zé)解答產(chǎn)品使用問題。在大模型訓(xùn)練過程中，當(dāng)數(shù)據(jù)進(jìn)入模型中后，大模型會(huì)像 " 客服中心 " 一樣，根據(jù)問題的性質(zhì)被分配給最合適的專家來解決 , 可以提高查詢的計(jì)算效率。

此次，阿里開的源模型有 Dense 模型，也有 MoE 模型。其中，開源了兩個(gè) MoE 模型的權(quán)重：Qwen3-235B-A22B，一個(gè)擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的大模型，以及 Qwen3-30B-A3B，一個(gè)擁有約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型。

六個(gè) Dense 模型也已開源，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，均在 Apache 2.0 許可下開源?？梢灾苯由逃?。

Qwen 3 系列的其中一個(gè)創(chuàng)新點(diǎn)在于其 " 混合型 " 模型設(shè)計(jì)，可以在深度思考這種慢思考模式（用于復(fù)雜的邏輯推理、數(shù)學(xué)和編碼）和快思考模式（用于高效、通用的聊天）之間的無縫切換，確保在各種場(chǎng)景下實(shí)現(xiàn)最佳性能。

這意味著，用戶終于不需要手動(dòng)操作開啟并關(guān)閉 " 深度思考 " 功能，且擔(dān)心模型過度思考的問題了，此前，很多大模型用戶反饋稱，大模型動(dòng)不動(dòng)就深度思考輸出長(zhǎng)篇大論，很多小問題也如此完全沒必要。

關(guān)鍵在于，這種快慢思考靈活切換的模式能有效的降低成本，阿里在博客中稱：這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的 " 思考預(yù)算 " 控制能力。這樣的設(shè)計(jì)讓用戶能夠更輕松地為不同任務(wù)配置特定的預(yù)算，在成本效益和推理質(zhì)量之間實(shí)現(xiàn)更優(yōu)的平衡。

在部署方面，阿里稱僅需 4 張 H20 即可部署千問 3 滿血版，顯存占用僅為性能相近模型的三分之一。這意味著相比相比滿血版 deepseek R1，部署成本大降 75%～65%。

阿里介紹稱，Qwen3 經(jīng)過了四階段的訓(xùn)練流程，相當(dāng)于，先教基礎(chǔ)→再練深度思考→混合快慢模式→最后全面優(yōu)化。阿里表示，Qwen3 在工具調(diào)用、指令執(zhí)行和數(shù)據(jù)格式處理方面表現(xiàn)優(yōu)秀。建議搭配 Qwen-Agent 使用，它能簡(jiǎn)化工具調(diào)用的代碼實(shí)現(xiàn)。

此次，阿里還專門優(yōu)化了 Qwen3 模型的 Agent 和代碼能力，同時(shí)也加強(qiáng)了對(duì) MCP 的支持。在示例中看到， Qwen3 可以絲滑的調(diào)用工具。

開源正在成為阿里核心的 AI 戰(zhàn)略，從 2023 年起，阿里通義團(tuán)隊(duì)就陸續(xù)開發(fā)了覆蓋 0.5B、1.5B、3B、7B、14B、32B、72B、110B 等參數(shù)的 200 多款「全尺寸」大模型。

在此前的一次采訪中，通義相關(guān)負(fù)責(zé)人曾告訴藍(lán)鯨新聞，"開源不是目的而是結(jié)果。只有做出真正有競(jìng)爭(zhēng)力的產(chǎn)品，開源才有意義。這倒逼我們必須做到兩點(diǎn)：一是模型性能要達(dá)到全球 SOTA 水平，二是要能媲美甚至超越閉源模型。"

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺(tái)

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

阿里 ai 阿里巴巴

相關(guān)閱讀

美國(guó)大型科技股多數(shù)上漲英偉達(dá)市值一夜增加超5100億

數(shù)碼測(cè)評(píng) 1小時(shí)前

電動(dòng)車賣得好卻賺得少！大眾一季度利潤(rùn)大降40.6%

快科技 3小時(shí)前

《人民的名義》為什么趙東來寧愿得罪李達(dá)康，也不愿意拿1000萬？

網(wǎng)易娛樂 4小時(shí)前

陸家嘴財(cái)經(jīng)早餐2025年5月3日星期六

Wind資訊 5小時(shí)前

胖東來前4個(gè)月賣了80億元！于東來：?jiǎn)T工月均工資近萬元每年休假150多天

快科技 13小時(shí)前

3月私募資管產(chǎn)品備案強(qiáng)勢(shì)回升，此前2個(gè)月連續(xù)回落，存續(xù)規(guī)模微降至11.84萬億

財(cái)聯(lián)社 20小時(shí)前

蘋果：“躺平” 容易，跑起來難

鈦媒體 21小時(shí)前

QFII持倉(cāng)曝光！Q1新進(jìn)615只個(gè)股前十大流通股東榜，貝因美等多股獲增持家數(shù)均為5家

財(cái)聯(lián)社 22小時(shí)前

剛剛！港股大漲！恒生科技指數(shù)漲幅擴(kuò)大至3%，港股汽車股多數(shù)走強(qiáng)

21世紀(jì)經(jīng)濟(jì)報(bào)道昨天

美國(guó)通脹預(yù)期飆至40多年高位

21世紀(jì)經(jīng)濟(jì)報(bào)道昨天

海南機(jī)場(chǎng)25億港元溢價(jià)收購(gòu)美蘭空港控股權(quán) 后者股價(jià)應(yīng)聲漲近7%

財(cái)聯(lián)社昨天

“史上最火”紀(jì)錄又雙叒要刷新？“五一”多地旅游消費(fèi)熱勢(shì)如潮

財(cái)聯(lián)社昨天

蘋果、亞馬遜，發(fā)出預(yù)警！

央視財(cái)經(jīng) 23小時(shí)前

Xbox大幅漲價(jià)

快科技昨天

鐵打的高毛利，流水的“醫(yī)美茅”：膠原蛋白捧出山西女首富，玻尿酸富豪們身家大跌

時(shí)代財(cái)經(jīng) 昨天

最新評(píng)論

沒有更多評(píng)論了

藍(lán)鯨財(cái)經(jīng)

藍(lán)鯨財(cái)經(jīng)

藍(lán)鯨財(cái)經(jīng)，專注財(cái)經(jīng)新聞報(bào)道、財(cái)經(jīng)事件解讀。

訂閱

覺得文章不錯(cuò)，微信掃描分享好友

掃碼分享

熱門推薦

五一檔票房破3億：《水餃皇后》領(lǐng)跑，《哪吒2》上映94天依舊能打藍(lán)鯨財(cái)經(jīng)

Blockchain News

<center id="ubqjm"><wbr id="ubqjm"><input id="ubqjm"></input></wbr></center>