智源王仲遠:具身智能仍處早期,視頻數(shù)據(jù)是關(guān)鍵,需警惕“偽需求”量產(chǎn)陷阱
2025-11-22 18:00 智源

22.png

i黑馬訊 11月20日,在智源研究院成立七周年之際舉辦的“2025具身智能開放日”媒體交流會上,院長王仲遠與數(shù)十位媒體展開了近兩小時的深度對話。他坦誠回應(yīng)了人形機器人發(fā)展階段、家庭落地時間表、數(shù)據(jù)路徑之爭、遙控演示與自主化、量產(chǎn)真?zhèn)涡枨蟆⑹澜缒P?、行業(yè)融資熱與潛在寒冬等16個話題。這16個觀點看似分散,實則構(gòu)成一個高度自洽、層層遞進的完整產(chǎn)業(yè)判斷體系:從技術(shù)本質(zhì)出發(fā)→推導出最優(yōu)路徑→給出階段判斷與風險預警→提出資源最優(yōu)配置方案→最終落腳于生態(tài)分工。整個邏輯環(huán)環(huán)相扣,體現(xiàn)出極強的系統(tǒng)性思維。以下是黑智對于王仲遠部分觀點的整理。

人形機器人仍處“非常早期”,家庭場景遙遠,工業(yè)更快

王仲遠判斷,整個人形機器人產(chǎn)業(yè)仍處于非常早期的階段?!皬娜ツ昴茏咂饋?,到今年能跑起來、全身控制能力還是有非常大的進展……能連續(xù)翻十幾二十個跟頭、長時間跳舞、甚至拖動汽車,但硬件穩(wěn)定性依然不太夠?!?/p>

他透露,智源曾一次性采購10臺某款機器人,一兩個月內(nèi)壞掉5臺?!罢麄€硬件穩(wěn)定性依然阻礙它進入到真實工業(yè)化場景或家庭場景?!?/p>

他進一步指出,家庭陪伴型或特種機器人(如割草機器人)有可能較早出現(xiàn)新形態(tài),但真正的人形機器人進入家庭“至少5-10年起”。工業(yè)場景會明顯更快落地。

視頻數(shù)據(jù)為主、真機微調(diào)為輔,是可行的現(xiàn)實路徑

針對具身智能數(shù)據(jù)之爭,王仲遠的核心觀點是在缺乏海量真實機器人數(shù)據(jù)的前提下,利用視頻數(shù)據(jù)訓練具身大模型是當前“最為可行”的技術(shù)路徑。

訓練強大的具身智能模型需要海量高質(zhì)量的機器人交互數(shù)據(jù)。但現(xiàn)實中部署千萬甚至上億臺機器人來采集數(shù)據(jù)是不現(xiàn)實的,因此必須尋找替代方案。智源找到的替代方案是“視頻數(shù)據(jù)”。首先,智源研究院提出來以長視頻數(shù)據(jù)為主,是遵循第一性原理,與人類從眼睛觀察學習世界一樣。其次,視頻是唯一能夠規(guī)?;@取、且包含了時空、因果、邏輯、意圖、圖像、聲音等多種關(guān)鍵信息的綜合性數(shù)據(jù)。

基于視頻數(shù)據(jù),智源研究院首先利用海量視頻數(shù)據(jù)訓練一個通用的多模態(tài)基座模型(如智源的悟界·Emu3.5)。這個模型能力廣泛,不僅服務(wù)于機器人,也能夠生成圖像、視頻等。其次,在基座模型的基礎(chǔ)上,再用相對少量的真機采集的數(shù)據(jù)進行微調(diào),就像“示范教學”,使模型能適配不同的機器人任務(wù)。

對于觸覺、力控等視頻缺失的信息,他承認這確實是視頻數(shù)據(jù)的短板,但強調(diào)力反饋是重要模態(tài),目前已有帶力反饋的采集設(shè)備在實驗室使用。

遙控演示≠玩具屬性,先專用后通用是必經(jīng)之路

在各類科技展會與互動演示中,不少觀眾發(fā)現(xiàn),許多機器人仍然需要通過遙控器來完成指令執(zhí)行與動作展示。這一現(xiàn)象引發(fā)外界疑問:機器人何時才能擺脫“高級玩具”的標簽,實現(xiàn)真正的自主智能?

針對這一問題,王仲遠指出,當前依靠遙控操作的機器人屬于“專用模型”階段。每一個預設(shè)動作,都依賴于專門采集的數(shù)據(jù)與針對性訓練,只能在特定場景下運行,缺乏跨場景通用性。

正如早期人工智能在人臉識別、圖像分類等垂直領(lǐng)域取得的突破一樣,這類專用模型雖在單一任務(wù)中表現(xiàn)優(yōu)異,但難以遷移到其他場景。而近年來興起的大語言模型,則展現(xiàn)出完全不同的發(fā)展路徑——其核心優(yōu)勢在于通用性,能夠跨越多種任務(wù)與場景進行泛化處理。他認為,機器人行業(yè)的發(fā)展或?qū)⒆裱嗨频能壽E:先通過專用“具身智能模型”在具體場景中落地應(yīng)用,逐步提升機器人在特定任務(wù)中的準確率與穩(wěn)定性,實現(xiàn)硬件可靠性與數(shù)據(jù)閉環(huán),從而推動整個產(chǎn)業(yè)實現(xiàn)初步商業(yè)化。

在這一過程中,“遙控器”仍具備其現(xiàn)實意義。它不僅是一種操作手段,更可被視為一種高級指令形式。然而,這距離理想中的“具身智能”仍有差距。

要實現(xiàn)這一目標,關(guān)鍵在于數(shù)據(jù)積累與模型演進。目前,機器人尚未形成規(guī)?;摹皩贁?shù)據(jù)池”。王仲遠指出,只有當機器人的社會保有量達到一定規(guī)模,其所產(chǎn)生的海量行為數(shù)據(jù)被系統(tǒng)性地收集、開放并用于訓練,才有望催生真正意義上的“具身大模型”。這一模型將不再局限于預設(shè)動作,而是具備自適應(yīng)、自學習的能力,從而逐步接近人類的智能水平。“這顯然還是有很長路要走。”

世界模型不等于視頻生成模型

王仲遠特別澄清了當前業(yè)界對“世界模型”存在的普遍誤讀,即簡單將視頻生成能力等同于世界模型。他指出,視頻生成僅展現(xiàn)了世界模型中的一項關(guān)鍵能力——“下一狀態(tài)預測”(Next State Prediction),但這并非世界模型的全部內(nèi)涵。而且此類預測未必以視頻形式呈現(xiàn),亦可體現(xiàn)為圖文信息、行為指令或機器可讀的狀態(tài)表達。

王仲遠進一步闡釋,理想中的世界模型應(yīng)具備對真實物理世界的感知與理解能力,能夠基于先前的時空狀態(tài)輸入,解析當前環(huán)境、預測未來狀態(tài),并在此基礎(chǔ)上驅(qū)動機器人執(zhí)行相應(yīng)決策與動作——無論是手部操作還是語言回應(yīng),皆屬于世界模型的能力范疇,其內(nèi)涵遠不止于視頻生成。

今年6月,智源研究院正式發(fā)布“悟界”系列大模型,作為此前“悟道”系列的自然延伸,該系列將研發(fā)重點完全聚焦于多模態(tài)模型與世界模型。王仲遠指出,“這是大模型融入物理世界的必經(jīng)之路?!庇捎谌诤狭硕嗄B(tài)理解與生成能力,“悟界”模型也被稱為“原生多模態(tài)世界模型”。

在世界模型被視作大模型進入物理世界的關(guān)鍵基座之外,智源研究院還布局了多個面向真實物理需求的模型系列。例如,面向機器人領(lǐng)域的RoboBrain(具身大腦系列模型)、面向腦科學研究的Brainμ,以及面向生命科學的OpenComplex系列模型。這些模型均具備多模態(tài)特性——蛋白質(zhì)模型需理解蛋白質(zhì)折疊狀態(tài)以預測其功能;腦科學模型則需解析多模態(tài)的腦神經(jīng)信號。

王仲遠強調(diào),多模態(tài)大模型與世界模型是實現(xiàn)通用人工智能(AGI)并應(yīng)對物理世界復雜挑戰(zhàn)的核心路徑,因此已成為智源研究院的重點研究方向。他表示,未來一旦多模態(tài)技術(shù)路徑趨于成熟與收斂,研究院將推動相關(guān)技術(shù)向企業(yè)轉(zhuǎn)移,并在這一過程中持續(xù)孵化創(chuàng)新企業(yè),加速技術(shù)落地與應(yīng)用實踐。

警惕“偽需求”驅(qū)動的虛假繁榮

“從迭代到真正進入到量產(chǎn),進入到穩(wěn)定態(tài),還有很長距離?,F(xiàn)在,硬件、模型、數(shù)據(jù)三條線并行,大家都在奔跑,各種各樣進展和成果涌現(xiàn)。但,每一條線也都是另外一條線的瓶頸,尚未形成系統(tǒng)性的化學反應(yīng)?!?/p>

對于2025年被廣泛稱為“量產(chǎn)元年”,王仲遠既樂觀又謹慎。他樂見靈巧手等硬件出貨量突破萬臺以及部分機器人企業(yè)宣布實現(xiàn)量產(chǎn),但也擔心量產(chǎn)不是由真實需求驅(qū)動,而是由偽需求或者示范性驗證小需求形成的?!叭绻皇钦鎸嵭枨笸苿有纬傻牧慨a(chǎn),就會在一定熱度之后,因為技術(shù)不夠成熟或者因沒達到場景方的預期而不再繼續(xù)購買,這就會出現(xiàn)問題,有可能出現(xiàn)冷卻、泡沫破裂,或者暫時低谷期。”

王仲遠強調(diào),量產(chǎn)是推動硬件迭代的關(guān)鍵。“只有當出貨量達到一定程度,你才能夠知道硬件存在什么樣問題尤其是長尾問題,才能夠不斷迭代使得它真正進入到好用階段?!彼e例稱,某型號機器人在采購十臺中有五臺出現(xiàn)故障,反映出當前部分產(chǎn)品仍停留在科研階段。在其實驗室中,不少機械臂因過熱保護頻繁停機,甚至需額外配備電風扇散熱,這顯示許多硬件尚未達到量產(chǎn)可用的標準。唯有通過規(guī)?;瘧?yīng)用,才能有效驗證產(chǎn)品的使用時長、穩(wěn)定性和安全性。

目前,具身機器人企業(yè)正走在量產(chǎn)的路上。隨著機器人技術(shù)快速迭代,國內(nèi)機器人價格已從百萬級逐步下探至10萬元以內(nèi)。王仲遠指出,若未來機器人價格降至數(shù)千元級別,其普及速度將顯著加快。目前,陪伴型、導覽導購型等專用機器人因成本可控、解決具體問題,更易實現(xiàn)規(guī)?;瘧?yīng)用;而完全通用的復雜機器人技術(shù)仍需長期突破。他預測,未來兩三年內(nèi),具身智能行業(yè)將迎來專用機器人在真實場景中批量落地的階段,但應(yīng)對通用能力的突破保持“客觀期待”?!按蠹覍C器人通用能力、泛化性要有更加客觀期待,不能有過高的期待。”

因此,在現(xiàn)在這樣的時間節(jié)點,對于機器人創(chuàng)業(yè)公司,王仲遠建議聚焦可復制、規(guī)?;恼鎸崍鼍?,深耕單一領(lǐng)域,確保產(chǎn)品能穩(wěn)定運行(如7×24小時工作),而非盲目追求“做萬能具身Anything”。“因為技術(shù)路線不收斂,除非有很強融資能力和活下來能力,能夠持續(xù)做科研,也許可以去做,但對于很多創(chuàng)業(yè)創(chuàng)始人來講,第一要義應(yīng)該先活下來。”

44.png

活動當天,智源研究院還向外界分享了最新科研進展。智源研究院聚焦于構(gòu)建通用大腦平臺、優(yōu)化人機交互、完善工具鏈與數(shù)據(jù)生態(tài),并建立系統(tǒng)化評測體系。其核心進展包括:推出升級的RoboBrain 2.0 Pro及系列專用模型,提升時序、空間與靈巧操作能力;開發(fā)低延遲全雙工語音RoboBrain-Audio與終身記憶系統(tǒng)RoboBrain-Memory,實現(xiàn)擬人化交互;打造CoRobot、FlagOS-Robo等軟件框架與全流程開發(fā)平臺Robo X studio;聯(lián)合開源高質(zhì)量真機數(shù)據(jù)集RoboCOIN;并攜手多方建立透明、可信的評測生態(tài),推動技術(shù)落地與應(yīng)用創(chuàng)新。