《科創(chuàng)板日報(bào)》5 月 1 日訊(記者 黃心怡)阿里巴巴在 " 五一 " 節(jié)前開源新一代通義千問模型 Qwen3,而且一口氣開源了 8 個版本。
阿里千問大模型官網(wǎng)用 " 思深,行速 " 來描述 Qwen3,是指 Qwen3 是中國公司推出的首個混合推理模型,在同一個模型中融合了 " 推理 " 和 " 非推理 " 模式,可以根據(jù)不同問題選擇 " 快、慢思考 "。
Qwen3 提供了不同參數(shù)的模型版本,包含 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款密集模型。阿里方面稱,千問 3 的 30B 參數(shù) MoE 模型僅激活 3B 就能達(dá)到上代 Qwen2.5-32B 模型性能,而千問 3 的稠密模型比如 32B 版本的千問 3 模型,可超越上一代 Qwen2.5-72B 性能。
多名開發(fā)者告訴《科創(chuàng)板日報(bào)》記者,此次發(fā)布的千問 3 系列中的小參數(shù)量模型表現(xiàn)突出。"32B 模型表現(xiàn)突出,小參數(shù)量跑出了優(yōu)秀的效果,對大模型應(yīng)用研發(fā)人員或公司來說是福利。畢竟大參數(shù)量還是成本太高。目前來看 32B 性價比最高,235B 感覺相比千問 2.5 提升不太大,而 32B 能跑出目前效果確實(shí)很不錯了。"
有業(yè)內(nèi)人士推測,千問 3 選擇在小參數(shù)模型發(fā)力,主要是為了蘋果生態(tài)而準(zhǔn)備。此前,阿里董事局主席蔡崇信確認(rèn)了回應(yīng)阿里與蘋果在手機(jī)上合作落地 AI 的傳聞。而今年 4 月的最新消息稱,蘋果果正積極推進(jìn)在國行版 iPhone 上引入 AI 功能的計(jì)劃,并計(jì)劃于 2025 年中期前登陸國行 iPhone。
盡管 Qwen3 發(fā)布后,有媒體報(bào)道其性能全面碾壓同樣開源的 DeepSeek R1 。但《科創(chuàng)板日報(bào)》記者注意到,每家大模型公司在公布自己大模型的測評數(shù)據(jù)時,可能用的都是不同的指標(biāo),或者只公布自己得分高的測評測試。因此,比較公立的第三方測評比較有說服力。
著名華裔 AI 學(xué)者吳恩達(dá)的公司 Artificial Analysis 對包括 Qwen3 和 DeepSeek R1 在內(nèi)的大模型測試顯示,Qwen3 只是在某些指標(biāo)上超越 DeepSeek R1,并非全面碾壓。
在 "GPQA 鉆石:博士級多學(xué)科 " 項(xiàng)目測試中,Qwen3 235B 測試結(jié)果 70 分,和 DeepSeek R1 的 71 分 成績接近;在 "LiveCodeBench:編碼能力 " 項(xiàng)目測試中,Qwen3 235B 測試結(jié)果:71 分,高于 DeepSeek R1 的 62 分 成績;在 "MATH-500:高難度數(shù)學(xué) " 項(xiàng)目測試中, Qwen3 235B 測試結(jié)果 93 分,低于 DeepSeek R1 的 97 分成績 ; 在 "MMLU:通用知識基準(zhǔn) " Qwen3 235B 測試結(jié)果 83 分,接近 DeepSeek R1 的 84 分成績;在 "AIME2024:數(shù)學(xué)推理中等挑戰(zhàn),泛化能力參考 " 項(xiàng)目測試中,Qwen3 235B 測試結(jié)果 84 分,高于 DeepSeek R1 的 68 分成績。
因此,業(yè)內(nèi)普遍的看法是,總體看 Qwen3 推理模型整體表現(xiàn)略好于 R1,但相比 R1 也不算有太大突破,還稱不上 " 全面碾壓 "。
▍小參數(shù)模型遠(yuǎn)超預(yù)期
另一名開發(fā)者告訴《科創(chuàng)板日本》記者,此次千問 3 系列的超大參數(shù)模型不及預(yù)期,但小參數(shù)的模型遠(yuǎn)超預(yù)期。"4B 模型在數(shù)學(xué)能力上屬實(shí)驚到我了。"
小參數(shù)量模型的特點(diǎn)是能夠主要用于端側(cè)部署,比如 4B 模型可用于手機(jī)端,8B 可在電腦和汽車端側(cè),32B 可用于企業(yè)大規(guī)模部署,也適合有條件的開發(fā)者上手。
開放傳神(OpenCSG)聯(lián)合創(chuàng)始人陳冉認(rèn)為,通義大模型的出現(xiàn)充分驗(yàn)證大模型領(lǐng)域金律 " 模型天天變,不變的是數(shù)據(jù)沉淀 ",也再次證明開源是技術(shù)創(chuàng)新的壓箱石。技術(shù)上,還在繼續(xù)努力推進(jìn),目標(biāo)還是降本增效,種類齊全,但核心創(chuàng)新點(diǎn)還有待觀察。
《科創(chuàng)板日報(bào)》記者注意到,在千問 3 發(fā)布后,上下游供應(yīng)鏈第一時間進(jìn)行適配和調(diào)用。英偉達(dá)、英特爾、聯(lián)發(fā)科、AMD 等多家頭部芯片廠商紛紛適配千問 3。
《科創(chuàng)板日報(bào)》記者從英特爾方面獲悉,英特爾在車端艙內(nèi)對新發(fā)布的千問 3 系列模型,也已經(jīng)完成匹配。國產(chǎn)芯片廠商海光信息則宣布其 DCU 完成對 Qwen3 全部 8 款模型的適配 + 調(diào)優(yōu),覆蓋 235B、32B、30B、14B、8B、4B、1.7B、0.6B 各種參數(shù)。
隨著算力成本的降低和性能的提升,業(yè)內(nèi)分析普遍認(rèn)為,千問 3 為即將到來的智能體 Agent 和大模型應(yīng)用爆發(fā)提供了更好的支持。阿里云智能集團(tuán)副總裁霍嘉在接受《科創(chuàng)板日報(bào)》采訪時表示," 模型推理模型能力不斷提高,使得當(dāng)前在業(yè)內(nèi)有共識,今年會是 AI 應(yīng)用爆發(fā)的真正元年。
▍通用 Agent 在工程和技術(shù)兩個方面仍面臨挑戰(zhàn)
華創(chuàng)證券在評價千問 3 大模型時稱, Agent 訓(xùn)練與落地成為了 AI+ 敘事的下一重心。天風(fēng)證券認(rèn)為,AI Agent 市場規(guī)模有望超萬億,通義千問已發(fā)布多行業(yè)垂直生態(tài)體系,有望成為 B 端 Agent 鏈主。
《科創(chuàng)板日報(bào)》注意到,在第八屆數(shù)字中國建設(shè)峰會期間,中國一汽正式發(fā)布企業(yè)智能體 OpenMind。這是汽車行業(yè)首個面向全集團(tuán)運(yùn)營管理的 AI Agent,正是基于阿里通義大模型打造。
此外,中國電信、螞蟻集團(tuán)等也紛紛發(fā)布了智能體相關(guān)平臺,以加速 AI Agent 在政務(wù)、金融等領(lǐng)域落地:中國電信正式發(fā)布星辰行業(yè) Agent 平臺;螞蟻數(shù)科則發(fā)布了面向金融機(jī)構(gòu)發(fā)布智能體開發(fā)平臺 Agentar。
不過,通用 Agent 在工程和技術(shù)模型兩個方面仍面臨挑戰(zhàn)。一名業(yè)內(nèi)人士表示,"實(shí)際上能夠處理通用或復(fù)雜任務(wù)的并不多。這些產(chǎn)品要么不夠通用,要么無法應(yīng)對復(fù)雜的任務(wù)。"
阿里云 CTO 和通義實(shí)驗(yàn)室負(fù)責(zé)人周靖人近日在接受媒體采訪時透露, 今年在大模型領(lǐng)域,相對確定的進(jìn)展是兩個主線,一是模型能力上,會繼續(xù)在類人思考和多模態(tài)上有提升;二是模型和底層云計(jì)算系統(tǒng)會更深度結(jié)合,能同時提升訓(xùn)練和推理效率,讓模型更好用、更普及。
在談及 DeepSeek R1 時,周靖人表示,DeepSeek 看起來有算力、有 Infra 層、有模型,但不構(gòu)成一個完整的云服務(wù)。" 我們的一個核心認(rèn)知是,大模型發(fā)展和云體系的支撐不可分割。"
談及國外內(nèi)大模型競爭對手的你追我趕,他認(rèn)為,市場空間很大,歡迎一起來推動 AI 產(chǎn)業(yè)的發(fā)展。至于誰領(lǐng)先,他說:
" 還是看市場反饋,把選擇權(quán)留給客戶。"