中文字幕在线观看网址|激情av片在线免费观看|免费亚洲欧美视频|日本按摩高潮A级中文片不

  • <rt id="m2u44"><code id="m2u44"></code></rt>
    <dfn id="m2u44"></dfn>
  • <dfn id="m2u44"><source id="m2u44"></source></dfn>
  • <menu id="m2u44"></menu>
    
    
    關(guān)于ZAKER 合作

    千尋智能解浚源:具身智能的 Scaling Law 已跨過(guò)起跑線

    作者 | 賴文昕

    編輯 | 陳彩嫻

    不久前,首屆 " 人形機(jī)器人半程馬拉松 " 在北京亦莊舉辦,為本就熱度滿滿的具身智能行業(yè)再添了一把火。

    一共 20 支隊(duì)伍組成的 " 鋼鐵生命競(jìng)賽 ",讓此前集中在實(shí)驗(yàn)室 demo 階段的人形機(jī)器人們,跑到真實(shí)場(chǎng)景中接受試煉,最終共有 6 支隊(duì)伍完賽,完賽率為 30%。

    質(zhì)疑隨著掌聲紛杳而至:具身智能真的不是泡沫嗎?

    對(duì)此,千尋智能具身智能部負(fù)責(zé)人解浚源表達(dá)了自己對(duì) " 具身智能 Scaling Law" 的看法。

    " 對(duì)于機(jī)器人來(lái)說(shuō),現(xiàn)在的規(guī)模仍處于 Scaling Law 里非常早期的狀態(tài)。" 解浚源解釋道," 盡管賽道火熱,但相較于大模型公司來(lái)說(shuō),大家的規(guī)模和估值都還較低,現(xiàn)在制約具身智能領(lǐng)域的不是算力和資本的投入,而是硬件迭代的客觀周期,即做量產(chǎn)可靠的機(jī)器人、管理大規(guī)模數(shù)據(jù)采集工廠所需的時(shí)間。這是一個(gè)制造業(yè)的問(wèn)題,比軟件慢一些,但相信在中國(guó)強(qiáng)大的供應(yīng)鏈體系的支撐下,我們每年都能上一個(gè)數(shù)量級(jí)。"

    就在上個(gè)月,解浚源在朋友圈正式宣布了自己加入具身智能創(chuàng)業(yè)公司千尋智能,全面負(fù)責(zé)具身大模型的研發(fā)。

    此前,解浚源在深度學(xué)習(xí)框架和系統(tǒng)鉆研十余年,曾任亞馬遜資深科學(xué)家,在明星部門 AWS 負(fù)責(zé)深度學(xué)習(xí)算法和系統(tǒng)研發(fā),是開(kāi)源深度學(xué)習(xí)框架 MXNet 的主要開(kāi)發(fā)者和維護(hù)者之一;2019 年又加入字節(jié)跳動(dòng)的應(yīng)用機(jī)器學(xué)習(xí)(AML)部門任 AI 高級(jí)專家。

    作為具身智能領(lǐng)域的跨界人才,這其實(shí)并不是解浚源的第一次 " 破格嘗試 "。

    解浚源本科就讀于中國(guó)科學(xué)技術(shù)大學(xué)的計(jì)算機(jī)系,在大三那年就以一作的身份在頂會(huì) NeurIPS 上發(fā)表工作,用深度神經(jīng)網(wǎng)絡(luò)對(duì)圖像去噪與修復(fù),論文引用量至今已超 1.9k。

    2013 年,解浚源本科畢業(yè)后赴美深造,在華盛頓大學(xué)讀博,先是做了一年左右偏理論的研究。他發(fā)現(xiàn)自己對(duì)偏應(yīng)用的工作更感興趣,便主動(dòng)找到了現(xiàn)艾倫人工智能研究所(AI2)的 CEO Ali Farhadi,提出做與計(jì)算機(jī)視覺(jué)(CV)應(yīng)用相關(guān)的研究,隨后又同在 Meta FAIR 任職并提出深度學(xué)習(xí)算法 R-CNN 系列的 Ross Girshick 合作。

    出于個(gè)人興趣和研究需要,解浚源開(kāi)始了對(duì)深度學(xué)習(xí)框架的探索,因認(rèn)為相對(duì)成熟的框架 Theano 和 Caffe 不太好用,便試著自己寫框架,但仍覺(jué)得所搭建的框架比較粗糙、不夠靈活。

    2015 年中,就在谷歌大腦團(tuán)隊(duì)發(fā)布 TensorFlow 的幾個(gè)月前,解浚源收到了同屆好友陳天奇推薦的深度學(xué)習(xí)框架 MXNet 的 demo,開(kāi)始試用了起來(lái),一邊在自己的研究中使用,一邊對(duì)其作出改進(jìn)。

    MXNet 由三個(gè)開(kāi)源項(xiàng)目合并而成,分別是陳天奇的 CXXNet、張錚及其學(xué)生王敏捷牽頭的 Minerva 和顏水成學(xué)生林敏牽頭的 purine2。同時(shí)參與 CXXNet 和 Minerva 的李沐意識(shí)到兩個(gè)項(xiàng)目能合并起來(lái)取長(zhǎng)補(bǔ)短,便有了 MXNet(意為 mixed-net)的雛形,在 purine2 加入后于 2015 年年底正式開(kāi)源。

    2016 年底,亞馬遜宣布將 MXNet 選為公司最主要的深度學(xué)習(xí)框架并為生態(tài)系統(tǒng)的開(kāi)發(fā)提供軟件代碼、文檔和投資。次年初,一直在為 MXNet 做架構(gòu)的解浚源加入亞馬遜 AWS,繼續(xù)做 MXNet 相關(guān)的算法和系統(tǒng)研發(fā)。

    2019 年,解浚源回國(guó)加入字節(jié)跳動(dòng)的應(yīng)用機(jī)器學(xué)習(xí)(AML)部門,先后負(fù)責(zé)優(yōu)化推薦系統(tǒng)、搭建聯(lián)邦學(xué)習(xí)平臺(tái)、AI 芯片以及大模型的 ToB 業(yè)務(wù)。

    今年,解浚源又再度 " 轉(zhuǎn)行 ",跨入了具身智能賽道,成為了千尋智能的具身智能部負(fù)責(zé)人,他表示," 機(jī)器人快速發(fā)展爆發(fā)的時(shí)刻即將來(lái)臨,我不想錯(cuò)失這個(gè)機(jī)會(huì)。"

    以下是 AI 科技評(píng)論與解浚源的對(duì)話。

    跨界入局具身智能

    AI 科技評(píng)論:加入千尋已經(jīng)不是您的第一次 " 轉(zhuǎn)行 ",可以分享一下您的跨界經(jīng)歷嗎?

    解浚源:我博士讀的是 CV 算法方向,但一直對(duì)寫代碼、做工程很感興趣,接觸 MXNet 后先是自己邊用邊改,接著慢慢從自己貢獻(xiàn)到開(kāi)始回別人的問(wèn)題、做 Code Review,后來(lái)慢慢地開(kāi)始做整體的架構(gòu)。

    在這過(guò)程中我寫了越來(lái)越多與自己研究無(wú)關(guān)的代碼,摸索出自己的興趣所在。隨著 MXNet 被亞馬遜采用、李沐畢業(yè)后也去了亞馬遜,我覺(jué)得自己繼續(xù)做研究沒(méi)有比做框架和工程有意思,所以就在博三休學(xué)了,去亞馬遜做 MXNet 的架構(gòu)師。

    在亞馬遜的工作基本上圍繞 MXNet 展開(kāi)。比如推廣框架需要 SOTA 模型和 Model Zoo,為了給 MXNet 做一個(gè)最好 CV 方向的模型,當(dāng)時(shí)團(tuán)隊(duì)整理了已有文獻(xiàn)資料里的技巧(trick),把所有 trick 整合起來(lái)發(fā)現(xiàn),每疊加一個(gè),效果可以往上漲,最后做了效果最好的 ResNet-50,發(fā)了 "Bag of Tricks" 工作。

    后來(lái)一位在字節(jié)的師兄介紹我和剛?cè)プ止?jié)負(fù)責(zé)推薦系統(tǒng)的劉小兵認(rèn)識(shí),我們聊得很投緣,后面就決定加入字節(jié)。一開(kāi)始還在字節(jié)美國(guó),后來(lái)發(fā)現(xiàn)業(yè)務(wù)核心在國(guó)內(nèi),我就在 2019 年回國(guó),在 AML 組做推薦系統(tǒng)的優(yōu)化。

    接著我做了聯(lián)邦學(xué)習(xí)平臺(tái),旨在解決廣告主在抖音投放廣告時(shí)因競(jìng)爭(zhēng)產(chǎn)生的數(shù)據(jù)安全與隱私顧慮,通過(guò)聯(lián)邦學(xué)習(xí)實(shí)現(xiàn)跨平臺(tái)合作優(yōu)化廣告投放效果,同時(shí)避免直接數(shù)據(jù)共享。后來(lái)還做過(guò)新硬件項(xiàng)目,是關(guān)于非英偉達(dá)的 GPU 加速卡的調(diào)研和引進(jìn),2023 年后又在火山做大模型的 ToB 業(yè)務(wù),算是 CV、系統(tǒng)、框架、搜廣推、大模型等都有所涉獵。

    AI 科技評(píng)論:您之前的經(jīng)歷集中在深度學(xué)習(xí)系統(tǒng)與框架,是什么關(guān)鍵事件讓您決定踏入具身智能這一需要物理交互的領(lǐng)域?為何認(rèn)為當(dāng)下是入局的最佳時(shí)機(jī)?

    解浚源:今年年初,我和一位在美國(guó)的同學(xué)聊天,對(duì)方向我分享了 Physical Intelligence 公司的 demo,視頻里展示了該公司的機(jī)器人在疊衣服、紙箱,實(shí)現(xiàn)了對(duì)可形變的柔性物體的操作。

    看完后我覺(jué)得眼前一亮,因?yàn)樽x博時(shí)自己一直做比較抽象的軟件,覺(jué)得硬件這種看得見(jiàn)摸得著的東西很好玩,所以會(huì)很關(guān)注機(jī)器人領(lǐng)域的發(fā)展。但當(dāng)時(shí)我覺(jué)得機(jī)器人進(jìn)展很慢,動(dòng)作特別僵硬,能做的事情極少,只能拿杯子這種不可形變的剛體做一些簡(jiǎn)單操作,離實(shí)際使用特別遙遠(yuǎn)。

    而 PI 的 demo 實(shí)現(xiàn)了以前不可想象的機(jī)器人對(duì)可形變?nèi)嵝晕矬w的操作。對(duì)于一件衣服而言,有一萬(wàn)種方法把它團(tuán)成一團(tuán),這對(duì)于機(jī)器人模型的識(shí)別而言,難度極高,顯然機(jī)器人領(lǐng)域有了很大的飛躍。所以我就去詳細(xì)研究了相關(guān)技術(shù),包括最近很火的 VLA 技術(shù),還看了自動(dòng)駕駛對(duì) VLA 的應(yīng)用。

    我發(fā)現(xiàn)端到端的 VLA 是條正確的技術(shù)路線,讓機(jī)器人走上了類似從 GPT-2 到 GPT-3 再到 GPT-4 的路徑,而現(xiàn)在的節(jié)點(diǎn)在 GPT-2~GPT-3 之間,屬于 Scaling Law 里非常早期的階段,但已經(jīng)展現(xiàn)出非常好的性能。那既然機(jī)器人快速發(fā)展爆發(fā)的時(shí)刻即將來(lái)臨,我不想錯(cuò)失這個(gè)機(jī)會(huì),就集中看了各家機(jī)器人公司。

    AI 科技評(píng)論:可以聊聊您加入千尋智能的背后故事嗎?現(xiàn)在您和團(tuán)隊(duì)其他成員們是如何分工配合的?

    解浚源:在確認(rèn)要加入具身智能賽道后,我就找了投資人朋友跟各家做具身智能的公司牽線交流。選擇千尋是覺(jué)得千尋的能力比較強(qiáng),且大家理念相合、比較投緣?,F(xiàn)在我主要帶領(lǐng)具身智能部,具體負(fù)責(zé)機(jī)器學(xué)習(xí)、AI 相關(guān)的算法、系統(tǒng)、平臺(tái),匯報(bào)給高陽(yáng)老師。

    大家擅長(zhǎng)的方向都比較互補(bǔ),韓總(韓峰濤)是機(jī)器人行業(yè)的連續(xù)創(chuàng)業(yè)者,對(duì)機(jī)器人行業(yè)有著深刻的洞察和豐富的經(jīng)驗(yàn)。高老師和我負(fù)責(zé) AI,高老師在算法研究和技術(shù)大方向上有比較多的經(jīng)驗(yàn),而我在大廠干了很多年,則對(duì)工程化和落地更有經(jīng)驗(yàn)。

    AI 科技評(píng)論:從最早的 CV 到框架,再到大模型和具身智能,作為多次 " 跨界人士 ",您覺(jué)得您過(guò)往的經(jīng)驗(yàn)積累如何幫助您應(yīng)對(duì)機(jī)器人領(lǐng)域的挑戰(zhàn)?是否遇到過(guò)因缺乏硬件、機(jī)械等機(jī)器人先驗(yàn)知識(shí)而必須補(bǔ)足的 " 認(rèn)知盲區(qū) "?

    解浚源:從 MXNet 開(kāi)始,我就一直在做系統(tǒng)和框架。其實(shí)框架和系統(tǒng)在這么多年都是一套東西,不管是做什么應(yīng)用,CV、推廣搜、大模型、具身智能都是一套底層的系統(tǒng)和框架,所以好處在于可以比較絲滑地?fù)Q業(yè)務(wù),因?yàn)楦鱾€(gè)大方向都要用到 AI 及系統(tǒng)方面的東西。

    我加入千尋前大家主要在做算法的驗(yàn)證階段,我加入后發(fā)現(xiàn),當(dāng)時(shí)算法工程師寫的基建代碼比較粗糙,所以我就梳理了基建,把以前擅長(zhǎng)的并行、算子優(yōu)化、框架設(shè)計(jì)都直接應(yīng)用過(guò)來(lái)。因?yàn)楹椭暗臇|西做得差不多,所以還比較駕輕就熟,現(xiàn)在把新的基建也搭了起來(lái)。

    而在具體業(yè)務(wù)上,我對(duì)機(jī)器人有著比較快的直覺(jué)上的理解。盡管目前還在學(xué)習(xí)一些具體的控制算法等新知識(shí),但因?yàn)闄C(jī)器人看得見(jiàn)、摸得著,看著它的表現(xiàn)就能建立直覺(jué)上的理解,所以并沒(méi)有太多對(duì)于跨界的不適應(yīng)。

    比如有個(gè)項(xiàng)目是得把夾爪夾到電池上,當(dāng)時(shí)出現(xiàn)的問(wèn)題是夾爪進(jìn)得太淺,會(huì)磕到電池,夾不進(jìn)去。我看了模型的表現(xiàn)和數(shù)據(jù)采集的方式,發(fā)現(xiàn)采集時(shí)因?yàn)槿吮容^熟練,經(jīng)常從比較極限的位置夾。我就要求相關(guān)人員采集數(shù)據(jù)時(shí),把弧線拉大一點(diǎn),從稍遠(yuǎn)的地方空出幾公分夾上去,這樣模型學(xué)習(xí)時(shí)就能學(xué)到拉遠(yuǎn)和對(duì)準(zhǔn)的過(guò)程,順利解決了問(wèn)題。

    但對(duì)于機(jī)器人動(dòng)力學(xué)的知識(shí),比如機(jī)械臂的關(guān)節(jié)數(shù)量、位姿和關(guān)節(jié)角度之間正解、逆解的變換等等,這些東西雖然我之前有了解過(guò),但現(xiàn)在要重新夯實(shí)一下。

    路線已收斂至 VLA

    AI 科技評(píng)論:目前關(guān)于具身大模型的討論有很多,也有不少人認(rèn)為路徑并未收斂,因此衍生出各種定義,對(duì)此您怎么看?您認(rèn)為必須具備哪些核心特征或架構(gòu)才能被稱之為具身大模型呢?

    解浚源:雖然現(xiàn)在有說(shuō)法稱具身大模型尚未收斂,但我覺(jué)得其實(shí)技術(shù)路徑已經(jīng)收斂了,即大方向上比較確定為 VLA 路線,接下來(lái)就是 Scaling 的階段。

    VLA 路線基礎(chǔ)的方向就是端到端,自動(dòng)駕駛也是如此。自動(dòng)駕駛之前一直做的是硬編碼、寫具有很多規(guī)則的系統(tǒng),但這兩年大家開(kāi)始做端到端后,發(fā)現(xiàn)數(shù)據(jù)飛輪一旦轉(zhuǎn)起來(lái),用端到端模仿人的方式,進(jìn)步就非??臁4竽P皖I(lǐng)域同理,大家把之前自然語(yǔ)言處理中很多規(guī)則、先驗(yàn)的東西去掉了,直接做端到端的訓(xùn)練,發(fā)現(xiàn)模型自己學(xué)的比人為設(shè)計(jì)的東西要好得多。

    具身智能也是如此,自從端到端的 VLA 路線表現(xiàn)出比較好的效果后,技術(shù)路線就已經(jīng)收斂了,因?yàn)橐坏?shí)現(xiàn)端到端,后面就全是端到端,不可能再往回走。

    AI 科技評(píng)論:所以端到端 VLA 的路線其實(shí)是比較明確的,但最大的卡點(diǎn)是在于數(shù)據(jù)這一塊。

    解浚源:沒(méi)錯(cuò),數(shù)據(jù)采集是這輪機(jī)器人技術(shù)最核心的難點(diǎn)。數(shù)據(jù)采集比以前 AI 需要做的所有數(shù)據(jù)標(biāo)注工作都難,因?yàn)樯婕拔锢硎澜绲膯?wèn)題。要有機(jī)器人,要有數(shù)采員,要管理好整個(gè)供應(yīng)鏈的機(jī)器人和數(shù)采員,讓他們能夠高效地采集多樣化的數(shù)據(jù)。

    在這之中多樣化是很重要的。以前 AI 的數(shù)據(jù)標(biāo)注比較機(jī)械,只要給標(biāo)注員一張圖片,讓他們拉個(gè)框、點(diǎn)擊鼠標(biāo),很標(biāo)準(zhǔn)化。但是機(jī)器人數(shù)據(jù)不同,如果重復(fù)做一些標(biāo)準(zhǔn)的動(dòng)作,采集再大規(guī)模的數(shù)據(jù)都沒(méi)有意義,反而采的越多,數(shù)據(jù)效率就會(huì)越低,所以一定要做多樣化。

    不過(guò)在規(guī)模擴(kuò)張的同時(shí)實(shí)現(xiàn)多樣化是一個(gè)很難的事。不能直接跟數(shù)采員說(shuō)隨機(jī)采數(shù)據(jù),需要有一套很細(xì)致的管理方式,能把多樣性可量化地落實(shí)下去。

    AI 科技評(píng)論:那需要如此高度工程化的數(shù)據(jù)采集,我們能在什么時(shí)候看到可觀的進(jìn)步成果呢?

    解浚源:機(jī)器人數(shù)據(jù)采集的規(guī)模每上一個(gè)數(shù)量級(jí)都能看到非常明顯的提升,即機(jī)器人在操作簡(jiǎn)單物體的流暢度上、能執(zhí)行不同任務(wù)的數(shù)量上都能有提升。

    此外,不同于現(xiàn)在在桌子前操作,未來(lái)機(jī)器人還能在相對(duì)開(kāi)放的空間里走來(lái)走去,做一些相對(duì)開(kāi)放性的任務(wù)。還有把大的指令自動(dòng)拆分成一個(gè)個(gè)小任務(wù),然后一個(gè)個(gè)執(zhí)行。這些我估計(jì)都能在未來(lái)一到三年被看到。

    現(xiàn)在最重要的是如何高效地把規(guī)模提升??隙ú粫?huì)特別快,但也不能太慢,太慢會(huì)被別人落下?,F(xiàn)在就是怎樣在硬件的制約下,以盡可能快的速度把規(guī)模做起來(lái)。

    AI 科技評(píng)論:千尋近期披露了 VLA Spirit v1,和友商們同樣都在做疊衣服的任務(wù),亮點(diǎn)和區(qū)別在哪里? 在 VLA 方面還有哪些新研究或應(yīng)用嘗試?

    解浚源:我們對(duì)機(jī)器人疊衣服的成功率要求很高,要實(shí)現(xiàn)一個(gè)比較高的水平,才能連續(xù)疊三件衣服,并一鏡到底拍出來(lái)。

    還有個(gè)細(xì)節(jié)是,機(jī)器人在疊衣服過(guò)程中有一個(gè)把衣服甩平的動(dòng)作,這樣比較快和自然,比較接近人疊衣服的狀態(tài)。但是甩是一個(gè)高動(dòng)態(tài)的動(dòng)作,要讓速度匹配慣性,所以要求以比較高的速度甩,還能做到精確,是比較不容易的。

    這背后體現(xiàn)出的是我們搭建的整套工業(yè)化數(shù)據(jù)采集的 pipeline。因?yàn)?VLA 路線非常強(qiáng),而且現(xiàn)在開(kāi)源的視覺(jué)大模型的基礎(chǔ)模型非常強(qiáng),所以給了機(jī)器人數(shù)據(jù)后,能讓它做一些看起來(lái)很不錯(cuò)的動(dòng)作并不是特別難。更難的是工業(yè)化迭代,解決一個(gè)個(gè)細(xì)節(jié)的問(wèn)題,最后累積起來(lái),讓模型的成功率從 50% 提升到 99%。這是具身智能工程化、落地最核心的能力。

    當(dāng)然我們現(xiàn)在還在建設(shè)和完善數(shù)采的 pipeline,有很多非常細(xì)節(jié)的東西,類似豐田當(dāng)年 " 精益生產(chǎn) " 的概念,這不是簡(jiǎn)單的一個(gè)點(diǎn),而是成千上萬(wàn)的點(diǎn)累積起來(lái),需要持續(xù)提升效果。

    AI 科技評(píng)論:現(xiàn)在大家對(duì)具身智能落地的討論十分熱烈,您認(rèn)為哪些場(chǎng)景是能先重點(diǎn)去突破的呢?

    解浚源:我認(rèn)為機(jī)器人的落地分為短期一兩年、中期三五年和長(zhǎng)期十年的三個(gè)時(shí)間段。短期做工廠的落地,因?yàn)楝F(xiàn)在模型能力差不多了,需要工程化落地一些場(chǎng)景;從中期來(lái)看,更大的機(jī)會(huì)在服務(wù)業(yè)里,比如物流、商場(chǎng)貨架上貨、酒店服務(wù)這些,是為人服務(wù)的場(chǎng)景,這些場(chǎng)景的機(jī)會(huì)比工廠大很多;而長(zhǎng)期的愿景是十年后,10% 的人有一臺(tái)自己的機(jī)器人,在家里協(xié)助自己做事。

    具身智能的 Scaling Law

    AI 科技評(píng)論:聽(tīng)下來(lái)您應(yīng)該算是一個(gè)妥妥的 " 真機(jī)派 "?

    解浚源:對(duì),我和高老師在這方面的觀點(diǎn)比較相似,即不太相信仿真。千尋也不做很多仿真,仿真只是很小的輔助,我們不指望仿真能大幅提升模型性能。

    這主要有三個(gè)原因——

    一是柔性物體的仿真是個(gè)非常難的問(wèn)題。做一個(gè)可以把衣服的物理特性模擬得很好的仿真器,可能比用機(jī)器人疊一件衣服還難?,F(xiàn)有的游戲也沒(méi)有能把衣服的物理特性模擬得很好的,衣服都會(huì)穿模。如果真的要把衣服的物理性質(zhì)模擬準(zhǔn)確,疊起來(lái)還不穿模,需要對(duì)衣服做特別大規(guī)模的有限元分析(Finite Element Analysis),可能要用一個(gè)集群才能模擬一件衣服。這里面消耗的顯卡和工程成本已經(jīng)比用真實(shí)機(jī)器人采疊衣服的數(shù)據(jù)更貴。而就算用只能模擬剛體的仿真器,也會(huì)發(fā)現(xiàn)生活中要操作的東西大多數(shù)不是完美的剛體,因此也不適用。

    二是能從仿真器學(xué)到的東西不會(huì)超過(guò)在仿真器里做的工程量。想要模型從仿真器里學(xué)到更多東西,就得在仿真器工程上花更大精力,實(shí)際上等于用開(kāi)發(fā)人員換數(shù)采人員,兌換比例很可能不劃算。

    三是做仿真需要大量顯卡。顯卡在美國(guó)相對(duì)便宜,但在中國(guó),顯卡比機(jī)器人貴,一塊 H100 的價(jià)格都到 20 多萬(wàn),但一臺(tái)機(jī)器人的成本沒(méi)有這么多。當(dāng)機(jī)器人規(guī)模上量后,是比顯卡便宜的。因此用顯卡做仿真相對(duì)于美國(guó)沒(méi)有優(yōu)勢(shì),但用大量機(jī)器人真機(jī)采集數(shù)據(jù),世界上只有中國(guó)能做,我們有強(qiáng)大的供應(yīng)鏈、大量的熟練工人和工程師,做仿真相當(dāng)于把優(yōu)勢(shì)放棄了。

    AI 科技評(píng)論:但真機(jī)數(shù)據(jù)相對(duì)于仿真來(lái)說(shuō),是更難大規(guī)模上量的,這不就沒(méi)遵循 Scaling Law 嗎?

    解浚源:我認(rèn)為并非真機(jī)無(wú)法實(shí)現(xiàn)大規(guī)模量產(chǎn),只是當(dāng)前尚未達(dá)成這一目標(biāo)。以中國(guó)強(qiáng)大的供應(yīng)鏈能力來(lái)看,一萬(wàn)臺(tái)機(jī)器人的產(chǎn)量并非難以企及,而且相較于一萬(wàn)塊 H100 顯卡,一萬(wàn)臺(tái)機(jī)器人的成本更低。目前,"AI 六小龍 " 這類企業(yè)投入大模型研發(fā)的基礎(chǔ)配置已達(dá)到一萬(wàn)塊顯卡。搭建萬(wàn)卡集群相對(duì)迅速,畢竟顯卡是現(xiàn)成的,批量采購(gòu)一萬(wàn)塊顯卡,不到半年即可完成部署,但是搭建一萬(wàn)臺(tái)機(jī)器人的數(shù)采工廠不可能這么快。

    中國(guó)每年汽車量產(chǎn)規(guī)??蛇_(dá)數(shù)千萬(wàn)輛,從體積和技術(shù)復(fù)雜性來(lái)看,機(jī)器人并不比汽車更高。不過(guò)在硬件層面,機(jī)器人的技術(shù)迭代存在客觀周期,無(wú)法像搭建顯卡集群那樣迅速通過(guò)資金投入加速推進(jìn)。但循序漸進(jìn)地提升量產(chǎn)規(guī)模是可行的,例如今年實(shí)現(xiàn)幾百臺(tái),明年達(dá)到上千臺(tái),后年有望突破一萬(wàn)臺(tái),關(guān)鍵在于給予足夠的時(shí)周期,并非絕對(duì)無(wú)法實(shí)現(xiàn)大規(guī)模量產(chǎn)。

    加上顯卡價(jià)格居高不下,英偉達(dá)顯卡毛利率高達(dá) 95%。與之相比,機(jī)器人的成本主要源于實(shí)際生產(chǎn)成本,不存在 20 倍暴利的情況,所以機(jī)器人在成本控制上具備優(yōu)勢(shì),更有利于實(shí)現(xiàn)大規(guī)模量產(chǎn)推廣。因此,從資本投入角度而言,一萬(wàn)臺(tái)機(jī)器人的數(shù)采規(guī)模和萬(wàn)卡集群相比,對(duì)于中國(guó)公司來(lái)說(shuō)效率更高。

    AI 科技評(píng)論:您一直在強(qiáng)調(diào)數(shù)據(jù)的 Scaling Law,那這個(gè)規(guī)律在機(jī)器人和大模型這兩個(gè)領(lǐng)域里都有什么區(qū)別?

    解浚源:主要就是機(jī)器人具有大模型不具備的數(shù)據(jù)壁壘和數(shù)據(jù)飛輪。

    先是數(shù)據(jù)壁壘。大模型其實(shí)沒(méi)有數(shù)據(jù)壁壘,預(yù)訓(xùn)練的數(shù)據(jù)都是從公開(kāi)的網(wǎng)絡(luò)上爬的數(shù)據(jù),比如全網(wǎng)有 14 萬(wàn)億的 token,大家用的都一樣,因?yàn)槿祟惛哔|(zhì)量的文本數(shù)據(jù)只有這些。此外是花錢找人標(biāo)注的數(shù)據(jù),而這些數(shù)據(jù)一旦訓(xùn)到模型中公開(kāi)提供服務(wù),別人就能以非常低的成本直接蒸餾走。這就不光沒(méi)有先發(fā)優(yōu)勢(shì),反而有先發(fā)劣勢(shì)。

    換到互聯(lián)網(wǎng)領(lǐng)域,如果互聯(lián)網(wǎng)公司的數(shù)據(jù)能被人以非常低的成本全部拖走,那該公司就不值什么錢了,大模型是真的需要面對(duì)這個(gè)問(wèn)題。而機(jī)器人不一樣的,機(jī)器人數(shù)據(jù)都是私有采集的,即用自己的機(jī)器人針對(duì)性采集數(shù)據(jù)。這個(gè)數(shù)據(jù)別人拿不走,最多拿走模型。而沒(méi)有數(shù)據(jù),只有模型,沒(méi)法迭代,沒(méi)法從 VLA 模型中把原有數(shù)據(jù)蒸餾出來(lái)。因此,數(shù)據(jù)之于大模型是包袱,之于具身智能卻是壁壘。

    此外,大模型沒(méi)有數(shù)據(jù)飛輪,現(xiàn)在沒(méi)有哪家大模型公司能用用戶的交互數(shù)據(jù)訓(xùn)練大模型,閉環(huán)提升業(yè)務(wù)指標(biāo)。大模型在原理上就做不到這點(diǎn),只能持續(xù)花錢找人工標(biāo)注數(shù)據(jù),還會(huì)被蒸餾走。

    而對(duì)于機(jī)器人來(lái)說(shuō),一旦在某個(gè)場(chǎng)景落地,就能一邊盈利,一邊收集更多的數(shù)據(jù),數(shù)據(jù)飛輪就轉(zhuǎn)起來(lái)了。之前互聯(lián)網(wǎng)賺錢幾乎唯一的壁壘就是網(wǎng)絡(luò)效益和數(shù)據(jù)飛輪?;ヂ?lián)網(wǎng)成功和高利潤(rùn)的因素,大模型一個(gè)都沒(méi)有,而機(jī)器人有,和互聯(lián)網(wǎng)的模式比較像。

    AI 科技評(píng)論:但具身智能里的數(shù)據(jù)壁壘較高,對(duì)行業(yè)的整體會(huì)利好嗎?

    解浚源:目前開(kāi)源的數(shù)據(jù)集規(guī)模都非常小,只能做學(xué)術(shù)研究,沒(méi)有工業(yè)落地的意義。私有的數(shù)據(jù)不需要那么多,并不是需要整個(gè)行業(yè)通力合作才能做出足夠大的數(shù)據(jù)讓機(jī)器人落地,一個(gè)公司擁有一萬(wàn)臺(tái)機(jī)器人就夠了,完全可以自己承擔(dān)。

    具身智能和大模型的共同點(diǎn)是 Scaling Law,區(qū)別是具身智能處于 Scaling Law 非常早期的位置,而大模型在摩爾定律進(jìn)步之前是處在末期。摩爾定律兩年翻一倍,大模型要提 10 倍、100 多倍規(guī)模,要等十、二十年。而具身智能現(xiàn)在還處于實(shí)驗(yàn)室規(guī)模,一旦到工業(yè)規(guī)模就能上幾個(gè)數(shù)量級(jí)。如果相信 Scaling Law,就會(huì)相信具身智能性能進(jìn)步的空間一定會(huì)非常大。

    歡迎添加雷峰網(wǎng)作者 anna042023 交流。雷峰網(wǎng)

    相關(guān)標(biāo)簽

    相關(guān)閱讀

    最新評(píng)論

    沒(méi)有更多評(píng)論了