Qwen3 千呼萬(wàn)喚始出來(lái),直接登頂全球最強(qiáng)開(kāi)源模型。
4 月 29 日凌晨,阿里巴巴開(kāi)源新一代通義千問(wèn)模型 Qwen3(簡(jiǎn)稱千問(wèn) 3),旗艦?zāi)P?Qwen3-235B-A22B 參數(shù)量?jī)H為 DeepSeek-R1 的 1/3,總參數(shù)量 235B,激活僅需 22B,成本大幅下降,性能全面超越 R1、OpenAI-o1 等全球頂尖模型,登頂全球最強(qiáng)開(kāi)源模型。
千問(wèn) 3 共計(jì)八款模型,包含 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款密集模型,每款模型均斬獲同尺寸開(kāi)源模型 SOTA(最佳性能)。
其中,千問(wèn) 3 的 30B 參數(shù) MoE 模型實(shí)現(xiàn)了 10 倍以上的模型性能杠桿提升,僅激活 3B 就能媲美上代 Qwen2.5-32B 模型性能;千問(wèn) 3 的稠密模型性能繼續(xù)突破,一半的參數(shù)量可實(shí)現(xiàn)同樣的高性能,如 32B 版本的千問(wèn) 3 模型可跨級(jí)超越 Qwen2.5-72B 性能。
4 月是大模型集中發(fā)布的一月,OpenAI 發(fā)布了 GPT-4.1 o3、o4 mini 系列模型,谷歌 Gemini 2.5 Flash Preview 混合推理模型上新,豆包也公布了 1.5 · 深度思考模型,其他大模型廠商也開(kāi)源或者更新了不少模型,業(yè)內(nèi)也傳出 DeepSeek R2 模型即將發(fā)布的消息,但目前大部分消息都是捕風(fēng)捉影。
不論 DeepSeek R2 發(fā)布與否," 先發(fā)制人 " 的千問(wèn) 3,先一步站在大模型 " 平民化 " 的真正起點(diǎn)上。
國(guó)內(nèi)首個(gè)混合推理思考模型,增強(qiáng) Agent 能力且支持 MCP
千問(wèn) 3 模型支持兩種思考模式:
慢思考模式:在這種模式下,模型會(huì)逐步推理,經(jīng)過(guò)深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復(fù)雜問(wèn)題。
快思考模式:在此模式中,模型提供快速、近乎即時(shí)的響應(yīng),適用于那些對(duì)速度要求高于深度的簡(jiǎn)單問(wèn)題。
所有千問(wèn) 3 模型都是混合推理模型,這也使其成為國(guó)內(nèi)首個(gè) " 混合推理模型 "," 快思考 " 與 " 慢思考 " 集成進(jìn)同一個(gè)模型,對(duì)簡(jiǎn)單需求可低算力 " 秒回 " 答案,對(duì)復(fù)雜問(wèn)題可多步驟 " 深度思考 ",大大節(jié)省算力消耗。
API 可按需設(shè)置 " 思考預(yù)算 "(即預(yù)期最大深度思考的 tokens 數(shù)量),進(jìn)行不同程度的思考,靈活滿足 AI 應(yīng)用和不同場(chǎng)景對(duì)性能和成本的多樣需求。比如,4B 模型是手機(jī)端的絕佳尺寸;8B 可在電腦和汽車(chē)端側(cè)絲滑部署應(yīng)用;32B 最受企業(yè)大規(guī)模部署歡迎,有條件的開(kāi)發(fā)者也可輕松上手。
在奧數(shù)水平的 AIME25 測(cè)評(píng)中,千問(wèn) 3 斬獲 81.5 分,刷新開(kāi)源紀(jì)錄;在考察代碼能力的 LiveCodeBench 評(píng)測(cè)中,千問(wèn) 3 突破 70 分大關(guān),表現(xiàn)甚至超過(guò) Grok3;在評(píng)估模型人類偏好對(duì)齊的 ArenaHard 測(cè)評(píng)中,千問(wèn) 3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。
性能大幅提升的同時(shí),千問(wèn) 3 的部署成本還大幅下降,僅需 4 張 H20 即可部署千問(wèn) 3 滿血版,顯存占用僅為性能相近模型的三分之一。
阿里巴巴也推薦使用 SGLang 和 vLLM 等框架部署,而對(duì)于本地使用,Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等工具也支持。
千問(wèn) 3 也考慮了智能體 Agent 和大模型應(yīng)用落地。在評(píng)估模型 Agent 能力的 BFCL 評(píng)測(cè)中,千問(wèn) 3 創(chuàng)下 70.8 的新高,超越 Gemini2.5-Pro、OpenAI-o1 等頂尖模型,將大幅降低 Agent 調(diào)用工具的門(mén)檻。
同時(shí),千問(wèn) 3 原生支持 MCP 協(xié)議,并具備強(qiáng)大的工具調(diào)用(function calling)能力,結(jié)合封裝了工具調(diào)用模板和工具調(diào)用解析器的 Qwen-Agent 框架,將大大降低編碼復(fù)雜性,實(shí)現(xiàn)高效的手機(jī)及電腦 Agent 操作等任務(wù)。
36萬(wàn)億 token預(yù)訓(xùn)練,四階段后訓(xùn)練
在預(yù)訓(xùn)練方面,Qwen3 的數(shù)據(jù)集相比 Qwen2.5 有了顯著擴(kuò)展。Qwen2.5 是在 18 萬(wàn)億個(gè) token 上進(jìn)行預(yù)訓(xùn)練的,而 Qwen3 使用的數(shù)據(jù)量幾乎是其兩倍,達(dá)到了約 36 萬(wàn)億個(gè) token。
為了構(gòu)建這個(gè)龐大的數(shù)據(jù)集,千問(wèn)團(tuán)隊(duì)不僅從網(wǎng)絡(luò)上收集數(shù)據(jù),還從 PDF 文檔中提取信息。例如使用 Qwen2.5-VL 從這些文檔中提取文本,并用 Qwen2.5 改進(jìn)提取內(nèi)容的質(zhì)量。
為了增加數(shù)學(xué)和代碼數(shù)據(jù)的數(shù)量,千問(wèn)團(tuán)隊(duì)利用 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個(gè)數(shù)學(xué)和代碼領(lǐng)域的專家模型合成數(shù)據(jù),合成了包括教科書(shū)、問(wèn)答對(duì)以及代碼片段等多種形式的數(shù)據(jù)。
預(yù)訓(xùn)練過(guò)程分為三個(gè)階段。在第一階段(S1),模型在超過(guò) 30 萬(wàn)億個(gè) token 上進(jìn)行了預(yù)訓(xùn)練,上下文長(zhǎng)度為 4K token。這一階段為模型提供了基本的語(yǔ)言技能和通用知識(shí)。
在第二階段(S2),千問(wèn)團(tuán)隊(duì)通過(guò)增加知識(shí)密集型數(shù)據(jù)(如 STEM、編程和推理任務(wù))的比例來(lái)改進(jìn)數(shù)據(jù)集,隨后模型又在額外的 5 萬(wàn)億個(gè) token 上進(jìn)行了預(yù)訓(xùn)練。
在最后階段,千問(wèn)團(tuán)隊(duì)使用高質(zhì)量的長(zhǎng)上下文數(shù)據(jù)將上下文長(zhǎng)度擴(kuò)展到 32K token,確保模型能夠有效地處理更長(zhǎng)的輸入。
例如,Qwen3-1.7B/4B/8B/14B/32B-Base 分別與 Qwen2.5-3B/7B/14B/32B/72B-Base 表現(xiàn)相當(dāng)。特別是在 STEM、編碼和推理等領(lǐng)域,Qwen3 Dense 基礎(chǔ)模型的表現(xiàn)甚至超過(guò)了更大規(guī)模的 Qwen2.5 模型。
對(duì)于 Qwen3 MoE 基礎(chǔ)模型,它們?cè)趦H使用 10% 激活參數(shù)的情況下達(dá)到了與 Qwen2.5 Dense 基礎(chǔ)模型相似的性能。這帶來(lái)了訓(xùn)練和推理成本的顯著節(jié)省。
后訓(xùn)練方面,為了開(kāi)發(fā)能夠同時(shí)具備思考推理和快速響應(yīng)能力的混合模型,千問(wèn)團(tuán)隊(duì)實(shí)施了一個(gè)四階段的訓(xùn)練流程。該流程包括:(1)長(zhǎng)思維鏈冷啟動(dòng),(2)長(zhǎng)思維鏈強(qiáng)化學(xué)習(xí),(3)思維模式融合,以及(4)通用強(qiáng)化學(xué)習(xí)。
第二階段的重點(diǎn)是大規(guī)模強(qiáng)化學(xué)習(xí),利用基于規(guī)則的獎(jiǎng)勵(lì)來(lái)增強(qiáng)模型的探索和鉆研能力。
在第三階段,在一份包括長(zhǎng)思維鏈數(shù)據(jù)和常用的指令微調(diào)數(shù)據(jù)的組合數(shù)據(jù)上對(duì)模型進(jìn)行微調(diào),將非思考模式整合到思考模型中,確保了推理和快速響應(yīng)能力的無(wú)縫結(jié)合。
在第四階段,在包括指令遵循、格式遵循和 Agent 能力等在內(nèi)的 20 多個(gè)通用領(lǐng)域的任務(wù)上應(yīng)用了強(qiáng)化學(xué)習(xí),以進(jìn)一步增強(qiáng)模型的通用能力并糾正不良行為。
目前個(gè)人用戶可立即通過(guò)通義 APP 直接體驗(yàn)千問(wèn) 3,夸克也即將全線接入千問(wèn) 3。阿里通義已開(kāi)源 200 余個(gè)模型,全球下載量超 3 億次,千問(wèn)衍生模型數(shù)超 10 萬(wàn)個(gè),已超越美國(guó) Llama,成為全球第一開(kāi)源模型。(本文首發(fā)于鈦媒體 APP,作者 | 張帥,編輯 | 蓋虹達(dá))