今日(2025年8月9日),宇樹科技創(chuàng)始人、CEO、CTO王興興在「2025世界機(jī)器人大會」的論壇上,發(fā)表了最新演講。以下是RoboX整理出的部分關(guān)鍵演講內(nèi)容:

王興興表示,今年上半年,整個機(jī)器人行業(yè)非常火爆,再加上政策的支持,相關(guān)整機(jī)廠商及零部件廠商,平均每家企業(yè)至少有將近50%-100%的增長,這意味著需求端拉動了整個行業(yè)的發(fā)展。
在海外,特斯拉今年大概他們會發(fā)布他們第三代的特斯拉的人體機(jī)器人,同時包括英偉達(dá)、蘋果, 等頭部企業(yè)都在持續(xù)推動機(jī)器人領(lǐng)域的發(fā)展。
在此背景下,王興興分享了幾個個人觀點(diǎn):
1、關(guān)于本體的誤區(qū)
之所以機(jī)器人還沒有大規(guī)模應(yīng)用,并非因?yàn)橛布粔蚝没蛘叱杀颈容^高。他認(rèn)為其實(shí)從技術(shù)層面或者AI角度來說,目前硬件是完全夠用的,這也包括人形機(jī)器人和靈巧手。
關(guān)鍵問題在于量產(chǎn),相關(guān)的工程問題非常多。
2、具身AI完全不夠用
與硬件相比,更大的挑戰(zhàn),還是具身智能的AI完全不夠用,這也是限制機(jī)器人尤其人形進(jìn)行大規(guī)模應(yīng)用的最大問題。
王興興認(rèn)為,目前的智能體AI應(yīng)用,感覺類似于ChatGPT出來前的1-3年左右。目前業(yè)界已經(jīng)發(fā)現(xiàn)了類似的方向以及技術(shù)路線,但是還沒人把它做出來。
而機(jī)器人的臨界點(diǎn)應(yīng)當(dāng)達(dá)到什么程度?他表示,如果哪一天我們帶一個人形機(jī)器人來到完全陌生的會場,和它說,幫忙把這瓶水帶給某個觀眾,它可以流暢地完成;或者說「把這個房間整理一下」,它也能自己完成,那就差不多達(dá)到了臨界點(diǎn)。
“如果快的話,未來的1-3年內(nèi)還是很有可能實(shí)現(xiàn)的。最慢的話估計(jì)3-5年也可以實(shí)現(xiàn),但是現(xiàn)在確實(shí)還沒有達(dá)到這個效果。”
3、關(guān)鍵問題:數(shù)據(jù)還是模型?
之所以智能機(jī)器人還沒達(dá)到應(yīng)有水平,到底是模型的問題,還是數(shù)據(jù)的問題?王興興給出了獨(dú)特答案:
“目前全球范圍內(nèi),大家對于機(jī)器人數(shù)據(jù)問題的關(guān)注度,都有點(diǎn)太高了。現(xiàn)在最大的問題其實(shí)反而是模型。”
他認(rèn)為,目前具身智能和機(jī)器人的模型架構(gòu)不夠好,也不夠統(tǒng)一。
“在大語言模型領(lǐng)域,當(dāng)有了足夠多的好數(shù)據(jù)時,就能把模型訓(xùn)練得越來越好。但是在具身智能領(lǐng)域,會發(fā)現(xiàn)在很多情況下,數(shù)據(jù)采了卻用不起來。大家對模型的關(guān)注目前是相對有點(diǎn)少,反而對數(shù)據(jù)關(guān)注有點(diǎn)太高了。”
4、對VLA模型持懷疑態(tài)度
“VLA是一個相對傻瓜式的架構(gòu),我個人對它還是抱一個比較懷疑的態(tài)度。”
王興興表示,VLA模型對于真實(shí)世界的交互,數(shù)據(jù)質(zhì)量是不太夠用的。有個簡單的想法,是在VLA模型上加RL訓(xùn)練,但綜合宇樹長期的嘗試來看,VLA+RL還是不夠的,模型架構(gòu)還得再升級和優(yōu)化。
5、宇樹的做法
去年,OpenAI發(fā)布了視頻生成模型以后,行業(yè)內(nèi)產(chǎn)生了一個想法——如果生成一個「整理房間」的視頻,是不是能讓視頻生成模型直接去驅(qū)動一個機(jī)器人去執(zhí)行?
去年,宇樹就做了這個事情——利用預(yù)訓(xùn)練的機(jī)器人動作視頻,去控制機(jī)器人仿照執(zhí)行。他指出,目前谷歌的全新一代的視頻生成模型,也是一個視頻驅(qū)動的世界模型,同樣想實(shí)現(xiàn)這樣的效果。
“我覺得這個路線的方向,可能比VLA模型的收斂概率還大。但是我沒有驗(yàn)證不敢打包票,目前該方法的問題就是,視頻生成模型太考驗(yàn)視頻生成質(zhì)量了,導(dǎo)致對GPU的消耗有點(diǎn)大。但是對機(jī)器人來說,如果遇到并不需要很高精度的視頻生成質(zhì)量,還是可行的。”
6、機(jī)器人的Scaling law才剛開始
王興興指出,目前宇樹等品牌的機(jī)器人,在跳舞、格斗等動作上,實(shí)現(xiàn)的效果還不錯。但是要想進(jìn)一步整體提升能力,還面臨著一個很大的問題。
“目前,機(jī)器人領(lǐng)域的Scaling law,大家做得非常不好。舉個最簡單例子,如果我有一個新的舞蹈要去訓(xùn)練,那么每次加入新的動作,都要重新訓(xùn)練,而是從頭開始訓(xùn)練,這是非常不好的。我們是希望我每做一個新訓(xùn)練的時候,是可以在之前的訓(xùn)練基礎(chǔ)上去做AI訓(xùn)練的。”
他認(rèn)為,做AI訓(xùn)練的時候,理論上應(yīng)該訓(xùn)練速度越來越快,學(xué)習(xí)新技能的效果越來越好。但是全行業(yè)內(nèi)目前還沒人能做出來,這是非常值得做的一個方向。
因?yàn)檫@在語言模型上已得到過充分驗(yàn)證,但是在機(jī)器人的運(yùn)動控制上面,大家才剛剛開始。
“在未來2-5年,最重要的還是端到端的具身智能AI模型,模型本身是非常最重要的。”
7、硬件工程優(yōu)化
更低成本、更高壽命的硬件,哪怕對于已經(jīng)發(fā)展100多年的汽車行業(yè)來說,如果要做一輛很好的汽車出來,工程量還是非常大的。
“對機(jī)器人行業(yè)來說,未來可能每年要生產(chǎn)幾百萬、幾千萬甚至幾億臺的人形機(jī)器人。如果要大批量生產(chǎn)制造出來,它的工程量的挑戰(zhàn)還是非常嚇人的一件事情。”
8、算力部署的局限性
目前,在人形機(jī)器人上,或者在移動機(jī)器人本體上,沒辦法直接部署很大規(guī)模的算力。這是因?yàn)樗某叽绾碗姵囟加邢蓿渴鸬乃懔囊彩怯邢拗频摹?/p>
王興興稱,在人形機(jī)上,最多只能部署峰值功耗約為100瓦的算力,且平時工作時算力只有幾個手機(jī)的水平。但是,未來的機(jī)器人對于大規(guī)模算力的需求肯定是毋庸置疑的,而且可能會是分布式的算力。
因?yàn)椋蠹叶枷M麢C(jī)器人工作的通信延遲比較低。此時如果數(shù)據(jù)中心或者算力中心在異地,延遲實(shí)在是太大了。所以他認(rèn)為,未來如果一座工廠里有100個機(jī)器人,也可以配備集群的分布式服務(wù)器,這樣其安全性和通訊延時是可以接受的。
再比如,如果一個小區(qū)中每家每戶都有機(jī)器人的時候,該小區(qū)也可以有分布式的集群。并且如果有一個新客戶想買一臺人形機(jī)器人的時候,他不需要給這部分算力的建設(shè)花錢,成本也會更低很多。
“我覺得分布式集群是未來在機(jī)器人領(lǐng)域非常重要的構(gòu)成。”王興興說道。
9、全球共創(chuàng)的重要性
他認(rèn)為,機(jī)器人領(lǐng)域是一個全球共創(chuàng)的過程,包括中國、美國的很多的大企業(yè),大家在過去的很多年和當(dāng)下,都做了很多貢獻(xiàn),也希望共同推動行業(yè)進(jìn)步。
“在AI領(lǐng)域,沒有一家大公司能保證只要有足夠的人、有足夠的資源,就能永遠(yuǎn)保持在AI領(lǐng)域領(lǐng)先。OpenAI和DeepSeek已經(jīng)證明了AI的創(chuàng)新,永遠(yuǎn)伴隨著一些隨機(jī)性。所以很多情況下,需要每家公司或者每家高校都做出很多貢獻(xiàn),進(jìn)行全球共創(chuàng)。”
本次大會以“遠(yuǎn)見馭新機(jī),AI贏未來”為核心主... 【詳細(xì)】
近日,云峰莫干山生態(tài)家居有限公司(以下簡稱... 【詳細(xì)】
采用自主研發(fā)的納米無醛淀粉膠黏劑制備膠合板... 【詳細(xì)】
云峰莫干山亮相大會并分享企業(yè)ESG實(shí)踐成果,憑... 【詳細(xì)】
作為莫干山板材傾力打造的高端飾面板系列,「... 【詳細(xì)】