中文字幕在线观看网址|激情av片在线免费观看|免费亚洲欧美视频|日本按摩高潮A级中文片不

  • <rt id="m2u44"><code id="m2u44"></code></rt>
    <dfn id="m2u44"></dfn>
  • <dfn id="m2u44"><source id="m2u44"></source></dfn>
  • <menu id="m2u44"></menu>
    
    
    關(guān)于ZAKER 合作

    小米發(fā)布 Xiaomi MiMo 開源大模型 7B 參數(shù)超越 o1-mini

    【太平洋科技快訊】4 月 30 日,小米大模型團隊通過 "Xiaomi MiMo" 公眾號宣布,正式開源其首個專為推理任務(wù)設(shè)計的大模型 - Xiaomi MiMo。這款模型在數(shù)學(xué)推理和代碼競賽等公開測評集上表現(xiàn)出色,僅用 7B 參數(shù)便超越了 OpenAI 的閉源推理模型 o1-mini 以及阿里 Qwen 的更大規(guī)模開源推理模型 QwQ-32B-Preview。

    MiMo 的卓越推理能力得益于預(yù)訓(xùn)練和后訓(xùn)練階段的數(shù)據(jù)和算法創(chuàng)新。在預(yù)訓(xùn)練階段,MiMo 團隊著重挖掘富含推理信息的語料,并合成了約 200B tokens 的推理數(shù)據(jù)。通過三階段逐步提升難度的訓(xùn)練,MiMo 總共接受了 25T tokens 的訓(xùn)練,從而 " 見識 " 了更多推理模式,為后續(xù)的推理能力打下了堅實基礎(chǔ)。

    在后訓(xùn)練階段,MiMo 團隊引入了高效穩(wěn)定的強化學(xué)習(xí)算法和框架,進一步提升了模型的推理能力。他們提出了 Test Difficulty Driven Reward ( 測試難度驅(qū)動獎勵 ) 機制,以緩解困難算法問題中的獎勵稀疏問題,并引入了 Easy Data Re-Sampling ( 簡單數(shù)據(jù)重采樣 ) 策略,以穩(wěn)定強化學(xué)習(xí) ( RL ) 訓(xùn)練過程。

    此外,MiMo 團隊還設(shè)計了 Seamless Rollout ( 無縫展開 ) 系統(tǒng),該系統(tǒng)使得 RL 訓(xùn)練加速 2.29 倍,驗證加速 1.96 倍,大大提高了訓(xùn)練效率。