歡迎來到家居網(wǎng)鏈！

王興興「炸裂」發(fā)言：對VLA持懷疑態(tài)度，數(shù)據(jù)并非最關(guān)鍵問題

2025-08-13 13:59:01 來源：家居網(wǎng)鏈網(wǎng)

【大中小】【打印】【關(guān)閉】

今日（2025年8月9日），宇樹科技創(chuàng)始人、CEO、CTO王興興在「2025世界機(jī)器人大會」的論壇上，發(fā)表了最新演講。以下是RoboX整理出的部分關(guān)鍵演講內(nèi)容：

王興興表示，今年上半年，整個機(jī)器人行業(yè)非常火爆，再加上政策的支持，相關(guān)整機(jī)廠商及零部件廠商，平均每家企業(yè)至少有將近50%-100%的增長，這意味著需求端拉動了整個行業(yè)的發(fā)展。

在海外，特斯拉今年大概他們會發(fā)布他們第三代的特斯拉的人體機(jī)器人，同時包括英偉達(dá)、蘋果，等頭部企業(yè)都在持續(xù)推動機(jī)器人領(lǐng)域的發(fā)展。

在此背景下，王興興分享了幾個個人觀點(diǎn)：

1、關(guān)于本體的誤區(qū)

之所以機(jī)器人還沒有大規(guī)模應(yīng)用，并非因?yàn)橛布粔蚝没蛘叱杀颈容^高。他認(rèn)為其實(shí)從技術(shù)層面或者AI角度來說，目前硬件是完全夠用的，這也包括人形機(jī)器人和靈巧手。

關(guān)鍵問題在于量產(chǎn)，相關(guān)的工程問題非常多。

2、具身AI完全不夠用

與硬件相比，更大的挑戰(zhàn)，還是具身智能的AI完全不夠用，這也是限制機(jī)器人尤其人形進(jìn)行大規(guī)模應(yīng)用的最大問題。

王興興認(rèn)為，目前的智能體AI應(yīng)用，感覺類似于ChatGPT出來前的1-3年左右。目前業(yè)界已經(jīng)發(fā)現(xiàn)了類似的方向以及技術(shù)路線，但是還沒人把它做出來。

而機(jī)器人的臨界點(diǎn)應(yīng)當(dāng)達(dá)到什么程度？他表示，如果哪一天我們帶一個人形機(jī)器人來到完全陌生的會場，和它說，幫忙把這瓶水帶給某個觀眾，它可以流暢地完成；或者說「把這個房間整理一下」，它也能自己完成，那就差不多達(dá)到了臨界點(diǎn)。

“如果快的話，未來的1-3年內(nèi)還是很有可能實(shí)現(xiàn)的。最慢的話估計(jì)3-5年也可以實(shí)現(xiàn)，但是現(xiàn)在確實(shí)還沒有達(dá)到這個效果。”

3、關(guān)鍵問題：數(shù)據(jù)還是模型？

之所以智能機(jī)器人還沒達(dá)到應(yīng)有水平，到底是模型的問題，還是數(shù)據(jù)的問題？王興興給出了獨(dú)特答案：

“目前全球范圍內(nèi)，大家對于機(jī)器人數(shù)據(jù)問題的關(guān)注度，都有點(diǎn)太高了。現(xiàn)在最大的問題其實(shí)反而是模型。”

他認(rèn)為，目前具身智能和機(jī)器人的模型架構(gòu)不夠好，也不夠統(tǒng)一。

“在大語言模型領(lǐng)域，當(dāng)有了足夠多的好數(shù)據(jù)時，就能把模型訓(xùn)練得越來越好。但是在具身智能領(lǐng)域，會發(fā)現(xiàn)在很多情況下，數(shù)據(jù)采了卻用不起來。大家對模型的關(guān)注目前是相對有點(diǎn)少，反而對數(shù)據(jù)關(guān)注有點(diǎn)太高了。”

4、對VLA模型持懷疑態(tài)度

“VLA是一個相對傻瓜式的架構(gòu)，我個人對它還是抱一個比較懷疑的態(tài)度。”

王興興表示，VLA模型對于真實(shí)世界的交互，數(shù)據(jù)質(zhì)量是不太夠用的。有個簡單的想法，是在VLA模型上加RL訓(xùn)練，但綜合宇樹長期的嘗試來看，VLA+RL還是不夠的，模型架構(gòu)還得再升級和優(yōu)化。

5、宇樹的做法

去年，OpenAI發(fā)布了視頻生成模型以后，行業(yè)內(nèi)產(chǎn)生了一個想法——如果生成一個「整理房間」的視頻，是不是能讓視頻生成模型直接去驅(qū)動一個機(jī)器人去執(zhí)行？

去年，宇樹就做了這個事情——利用預(yù)訓(xùn)練的機(jī)器人動作視頻，去控制機(jī)器人仿照執(zhí)行。他指出，目前谷歌的全新一代的視頻生成模型，也是一個視頻驅(qū)動的世界模型，同樣想實(shí)現(xiàn)這樣的效果。

“我覺得這個路線的方向，可能比VLA模型的收斂概率還大。但是我沒有驗(yàn)證不敢打包票，目前該方法的問題就是，視頻生成模型太考驗(yàn)視頻生成質(zhì)量了，導(dǎo)致對GPU的消耗有點(diǎn)大。但是對機(jī)器人來說，如果遇到并不需要很高精度的視頻生成質(zhì)量，還是可行的。”

6、機(jī)器人的Scaling law才剛開始

王興興指出，目前宇樹等品牌的機(jī)器人，在跳舞、格斗等動作上，實(shí)現(xiàn)的效果還不錯。但是要想進(jìn)一步整體提升能力，還面臨著一個很大的問題。

“目前，機(jī)器人領(lǐng)域的Scaling law，大家做得非常不好。舉個最簡單例子，如果我有一個新的舞蹈要去訓(xùn)練，那么每次加入新的動作，都要重新訓(xùn)練，而是從頭開始訓(xùn)練，這是非常不好的。我們是希望我每做一個新訓(xùn)練的時候，是可以在之前的訓(xùn)練基礎(chǔ)上去做AI訓(xùn)練的。”

他認(rèn)為，做AI訓(xùn)練的時候，理論上應(yīng)該訓(xùn)練速度越來越快，學(xué)習(xí)新技能的效果越來越好。但是全行業(yè)內(nèi)目前還沒人能做出來，這是非常值得做的一個方向。

因?yàn)檫@在語言模型上已得到過充分驗(yàn)證，但是在機(jī)器人的運(yùn)動控制上面，大家才剛剛開始。

“在未來2-5年，最重要的還是端到端的具身智能AI模型，模型本身是非常最重要的。”

7、硬件工程優(yōu)化

更低成本、更高壽命的硬件，哪怕對于已經(jīng)發(fā)展100多年的汽車行業(yè)來說，如果要做一輛很好的汽車出來，工程量還是非常大的。

“對機(jī)器人行業(yè)來說，未來可能每年要生產(chǎn)幾百萬、幾千萬甚至幾億臺的人形機(jī)器人。如果要大批量生產(chǎn)制造出來，它的工程量的挑戰(zhàn)還是非常嚇人的一件事情。”

8、算力部署的局限性

目前，在人形機(jī)器人上，或者在移動機(jī)器人本體上，沒辦法直接部署很大規(guī)模的算力。這是因?yàn)樗某叽绾碗姵囟加邢蓿渴鸬乃懔囊彩怯邢拗频摹?/p>

王興興稱，在人形機(jī)上，最多只能部署峰值功耗約為100瓦的算力，且平時工作時算力只有幾個手機(jī)的水平。但是，未來的機(jī)器人對于大規(guī)模算力的需求肯定是毋庸置疑的，而且可能會是分布式的算力。

因?yàn)椋蠹叶枷Ｍ麢C(jī)器人工作的通信延遲比較低。此時如果數(shù)據(jù)中心或者算力中心在異地，延遲實(shí)在是太大了。所以他認(rèn)為，未來如果一座工廠里有100個機(jī)器人，也可以配備集群的分布式服務(wù)器，這樣其安全性和通訊延時是可以接受的。

再比如，如果一個小區(qū)中每家每戶都有機(jī)器人的時候，該小區(qū)也可以有分布式的集群。并且如果有一個新客戶想買一臺人形機(jī)器人的時候，他不需要給這部分算力的建設(shè)花錢，成本也會更低很多。

“我覺得分布式集群是未來在機(jī)器人領(lǐng)域非常重要的構(gòu)成。”王興興說道。

9、全球共創(chuàng)的重要性

他認(rèn)為，機(jī)器人領(lǐng)域是一個全球共創(chuàng)的過程，包括中國、美國的很多的大企業(yè)，大家在過去的很多年和當(dāng)下，都做了很多貢獻(xiàn)，也希望共同推動行業(yè)進(jìn)步。

“在AI領(lǐng)域，沒有一家大公司能保證只要有足夠的人、有足夠的資源，就能永遠(yuǎn)保持在AI領(lǐng)域領(lǐng)先。OpenAI和DeepSeek已經(jīng)證明了AI的創(chuàng)新，永遠(yuǎn)伴隨著一些隨機(jī)性。所以很多情況下，需要每家公司或者每家高校都做出很多貢獻(xiàn)，進(jìn)行全球共創(chuàng)。”