時間:2025-09-25
2025世界機(jī)器人大會8月8日至12日在北京經(jīng)濟(jì)技術(shù)開發(fā)區(qū)北人亦創(chuàng)國際會展中心舉行。本屆大會設(shè)置3天主論壇和31場系列活動,邀請416位國內(nèi)外專家學(xué)者、企業(yè)家、國際機(jī)構(gòu)代表,分享新技術(shù)、新產(chǎn)品、新應(yīng)用。
國際機(jī)器人聯(lián)合會技術(shù)委員會主席亞歷山大·維爾以《工業(yè)機(jī)器人擁抱數(shù)字孿生與人工智能(AI)技術(shù)》為主題發(fā)表了演講。
大家好!今天我主要講講工業(yè)機(jī)器人如何擁抱數(shù)字孿生和AI。這個話題可能有些誤導(dǎo)性,因為人們往往對“人形機(jī)器人”和“AI”感到非常興奮,但工業(yè)機(jī)器人領(lǐng)域的視角與AI研究者或公眾的期望可能有所不同。我的分享將從生產(chǎn)工程學(xué)的角度出發(fā),首先介紹整體議程,然后深入探討未來有應(yīng)用前景的AI技術(shù)、培訓(xùn)成本、數(shù)字孿生的實際應(yīng)用場景等。
什么在驅(qū)動著機(jī)器人的發(fā)展呢?是一個實體的生成型AI,各種各樣的AI對于單一目的的人形機(jī)器人都很重要,為什么會這樣?我給大家說一下人形機(jī)器人的優(yōu)勢和劣勢。
在銷售宣傳中,人們常說人形機(jī)器人可以自動化許多工作,無需復(fù)雜的工程,AI能夠處理這些復(fù)雜性。然而,現(xiàn)實并非如此簡單。目前我們使用的六關(guān)節(jié)雙臂機(jī)器人(共14個關(guān)節(jié))已經(jīng)非常復(fù)雜,而人形機(jī)器人通常多達(dá)40個關(guān)節(jié),其控制難度更大。雖然人們希望AI能夠解決這些復(fù)雜性,但目前的技術(shù)尚未達(dá)到預(yù)期。
有人認(rèn)為人形機(jī)器人會因為大眾市場的普及而變得更便宜。這在長期來看是可能的,但短期內(nèi)價格并不會大幅下降。此外,人形機(jī)器人具備快速人機(jī)互換的能力,為制造業(yè)提供了更高的靈活性,尤其是在勞動力短缺的背景下,人形機(jī)器人有望成為重要的補充力量。
據(jù)稱,制造業(yè)中近50%的人工勞動力可以被人形機(jī)器人取代。目前,一些制造商已經(jīng)推出雙臂機(jī)器人,但人形機(jī)器人在實現(xiàn)雙臂移動方面仍面臨挑戰(zhàn)。例如,富士康等公司更傾向于使用單臂機(jī)器人來替代生產(chǎn)線工人,這在靈活性和編程難度之間取得了較好的平衡。
當(dāng)前的人形機(jī)器人仍不具備協(xié)作能力,這是其在工業(yè)應(yīng)用中的一大限制。此外,真正多功能的人形機(jī)器人仍處于早期研發(fā)階段,尚需大量投入,尤其是在視覺、語言和動作模型(VLA)方面。
目前行業(yè)對人形機(jī)器人的期望過于樂觀,投資者、客戶和政界人士對技術(shù)進(jìn)展的信任面臨風(fēng)險。我們不應(yīng)忘記宏大的愿景,但愿景不能建立在虛假承諾之上。技術(shù)發(fā)展不應(yīng)追求短期記錄的突破,而應(yīng)注重交付可持續(xù)、可靠的結(jié)果。
有哪些需要進(jìn)一步發(fā)展呢?如安全認(rèn)證、視覺與觸覺技術(shù)、靈巧手抓取的技術(shù)升級,協(xié)作場景下的降速運行會降低生產(chǎn)效率的問題。還有一點就是工業(yè)機(jī)器人必須具備長期技術(shù)可用性,不能在24小時連續(xù)工作后出現(xiàn)故障,這也是人形機(jī)器人亟需改進(jìn)的方向之一。
最后,模仿人是否真的有意義呢?許多機(jī)器人設(shè)計模仿人類,試圖突破人體極限,如減少彎腰或高空作業(yè)。然而,這種模仿也帶來了雙重系統(tǒng)的局限性,導(dǎo)致整體性能受限。從生產(chǎn)工程學(xué)角度來看,具備輪子的機(jī)器人可能更可靠,能夠完成99%的任務(wù)。
AI在機(jī)器人領(lǐng)域的難點主要集中在視覺、語言和動作模型(VLA)的融合上。這類模型基于大型語言模型,能夠處理文本和圖像,并將語言與圖像結(jié)合,生成相應(yīng)的動作指令。要研究語言,僅僅進(jìn)行詞源嵌入是遠(yuǎn)遠(yuǎn)不夠的,還需要引入定位嵌入和位置嵌入。也就是說,我們需要能夠區(qū)分“狗咬人”和“人咬狗”之間的差異。由于傳統(tǒng)的詞源分析往往是獨立處理每個詞語,因此必須進(jìn)一步處理詞語之間的關(guān)系,尤其是語序和位置所帶來的語義變化。此外,還需要引入多頭注意力機(jī)制,以更好地理解整個句子的意義。通過這一機(jī)制,我們可以識別出句子中各個詞語之間的對應(yīng)關(guān)系,明確某個詞語具體指向句子的哪一部分,從而更準(zhǔn)確地把握整體語義。
因此,像 ChatGPT 這樣的系統(tǒng)擁有數(shù)十億個參數(shù),通過嵌入和分析機(jī)制,能夠生成一個完整的句子,并相應(yīng)地預(yù)測下一個可能出現(xiàn)的詞語。在處理視覺影像時,原理也是類似的:系統(tǒng)通過一個視覺編碼器來“看”圖像,并將圖像劃分為多個區(qū)塊,這些區(qū)塊的作用類似于句子中的詞語。基于 RGB 值對圖像進(jìn)行分割后,系統(tǒng)會對每個圖像塊進(jìn)行嵌入處理。圖像塊位于圖片的上端還是下端并不重要,關(guān)鍵在于判斷圖像中是一個物體還是多個物體。這一過程涉及多頭注意力機(jī)制,同時也需要額外數(shù)十億的參數(shù)來對視覺信息進(jìn)行解碼。
我們目前已經(jīng)擁有了視覺語言模型,一些機(jī)器人也已經(jīng)集成了這類技術(shù)。例如,你可以問ChatGPT“計算機(jī)在哪里?”它能夠指出計算機(jī)的位置。有一個案例展示了AI 對圖像的理解能力:如果問一個孩子“這個展廳里有多少把椅子”,由于展廳中椅子種類繁多、擺放密集,這個問題對孩子來說并不容易回答。
如果我們把同樣的問題問給 ChatGPT,它會識別出 13 把椅子。然而,它無法識別出其中一把是椅子的模型,或者某些椅子的陰影被誤認(rèn)為是實際的椅子。此外,還有一把椅子的鏡像反射也被計入了總數(shù),導(dǎo)致了誤判。如果你繼續(xù)詢問:“有沒有未組裝的椅子?”它也能識別出一把尚未組裝完成的椅子。通過這些例子我們可以看到,要讓系統(tǒng)真正理解語言和圖像之間的關(guān)系,需要一個能夠?qū)⑦@些信息整合起來的模型,并最終輸出相應(yīng)的操作指令。例如,它需要告訴我們應(yīng)該將機(jī)器人的工具中心點(TCP)調(diào)整多少才能做出正確響應(yīng)。在我們的實驗中,通過 ER7 機(jī)器人控制抓取器將其打開至 50% 的程度,來模擬具體操作。為了訓(xùn)練這樣的系統(tǒng),我們需要數(shù)百萬張帶有標(biāo)簽的圖像,比如蘋果的圖片,以便模型能夠在數(shù)據(jù)庫中進(jìn)行有效比對和計算。例如,如果一張圖像中的椅子外觀類似蘋果,系統(tǒng)必須能夠識別出它在語義上屬于“椅子”而非“蘋果”。為了使系統(tǒng)能夠從這些信息中生成實際的操作行為,我們必須向它展示正確的操作方式,即通過演示告訴它在特定情境下應(yīng)該如何行動。
為了讓機(jī)器人掌握特定任務(wù),需要有成千上萬人投入數(shù)千小時來演示這些工作,以此向系統(tǒng)展示應(yīng)有的操作方式。隨后,系統(tǒng)可以對比機(jī)器人所學(xué)到的動作與人類示范之間的差異,并據(jù)此計算差距,進(jìn)而培訓(xùn)和訓(xùn)練系統(tǒng)以執(zhí)行正確的操作。這個理念雖然很好,但也伴隨著高昂的成本。如果以美元來衡量,僅進(jìn)行視覺語言模型的訓(xùn)練就可能花費數(shù)百萬美元。例如,使用H100 GPU進(jìn)行算力支持,僅訓(xùn)練過程就可能高達(dá)2180萬美元,而即便是較為基礎(chǔ)的視覺語言訓(xùn)練,也可能需要約200萬美元,涉及170萬小時的計算資源。這只是訓(xùn)練階段的成本。接下來的動作微調(diào)同樣不容忽視。為了讓系統(tǒng)掌握準(zhǔn)確、合適的行為,還需要向其展示大量具體的動作示例。這一過程可能又要耗費幾千甚至上萬小時的工作量,以及數(shù)萬美元的投入,系統(tǒng)才能真正理解并執(zhí)行相應(yīng)的操作,并識別不同行為之間的差異。推理和部署階段的成本也不容小覷。對于常見的應(yīng)用場景而言,整體的總成本往往可能超過幾千萬美元。
VLA模型需要高達(dá)97萬組數(shù)據(jù),而RT2模型也需要約35萬組數(shù)據(jù)。從這些數(shù)字可以看出,訓(xùn)練這類模型所需的演示數(shù)據(jù)量是非常龐大的。我們使用這些模型時,往往需要幾萬小時的演示數(shù)據(jù),而這僅僅是面向日常任務(wù)的目標(biāo)。如果考慮到工業(yè)應(yīng)用的復(fù)雜性,所需的數(shù)據(jù)量和訓(xùn)練成本將更加驚人。盡管如此,我們也在探索具備更強(qiáng)泛化能力和物理智能的模型,這類系統(tǒng)無需大量訓(xùn)練,僅通過一個示例就能學(xué)習(xí)并完成不同機(jī)器人類型的任務(wù)。例如,RT2 就是一種視覺-語言-動作(VLA)模型,它結(jié)合了Transfer(遷移)網(wǎng)絡(luò),能夠指導(dǎo)機(jī)器人完成任務(wù),并在多種任務(wù)中找到解決方案。已有案例表明,該模型可以適配20多種不同的機(jī)器人類型,并完成各自不同的任務(wù)。值得一提的是,如果我們觀察其任務(wù)執(zhí)行的成功率,RT2 或 OpenVLA 的成功率大約只有50%。從工程角度來看,這樣的成功率是難以接受的。因此,在現(xiàn)階段,我們?nèi)匀恍枰祟惻cAI協(xié)同工作,對機(jī)器人最終執(zhí)行的結(jié)果進(jìn)行確認(rèn)和干預(yù),以確保任務(wù)完成的質(zhì)量。這也是當(dāng)前視覺-語言-動作模型在實際應(yīng)用中面臨的一個關(guān)鍵問題。
對于系統(tǒng)開發(fā)者而言,當(dāng)前面臨的主要挑戰(zhàn)之一是模型的上下文理解能力仍然非常有限,同時存在明顯的感知缺陷,使得執(zhí)行多步驟任務(wù)變得十分困難。目前系統(tǒng)對感知信息的處理尚不完善,特別是在支持額外傳感器數(shù)據(jù)方面存在不足,例如一些特殊的視覺和語言信息。如果要引入阻尼感知等新型傳感器,可能需要重新進(jìn)行數(shù)百萬次的測試,以確保系統(tǒng)的穩(wěn)定性和準(zhǔn)確性。
此外,在動作執(zhí)行過程中也常常會出現(xiàn)失敗的情況,尤其是在面對未知或未曾見過的物體時,視覺系統(tǒng)容易產(chǎn)生混淆,從而影響任務(wù)的完成效果。因此,必須進(jìn)一步提升系統(tǒng)的成功率,才能真正滿足工業(yè)應(yīng)用的需求。同時,語言理解能力仍存在明顯缺陷。如果機(jī)器人無法準(zhǔn)確理解人類下達(dá)的指令,就無法有效執(zhí)行相應(yīng)的任務(wù)。還有一個關(guān)鍵難點在于反饋機(jī)制的缺失,即系統(tǒng)缺乏對自身操作結(jié)果的評估與修正能力,這對實際應(yīng)用來說是一個較大的挑戰(zhàn)。
我們來看大語言模型(LLM),它可以從多達(dá)23.8億個網(wǎng)頁中學(xué)習(xí),這些數(shù)據(jù)包括公共爬蟲抓取的內(nèi)容、網(wǎng)絡(luò)存檔以及人工生成的演示數(shù)據(jù)。而對于視覺-語言-動作模型(VLA)來說,也有大約一萬小時的多模態(tài)資料可供訓(xùn)練使用。在實際應(yīng)用中,我們需要思考的是:人們?nèi)绾谓虝到y(tǒng)在特定情境下執(zhí)行特定行為?一個著名的例子來自英偉達(dá)研究部門的副總裁,他提出應(yīng)通過覆蓋多樣化的數(shù)據(jù)來實現(xiàn)行為克隆。例如,如果我們希望機(jī)器人從正確的位置拿起一個紅色方塊,在經(jīng)過幾千次訓(xùn)練后,它確實可以學(xué)會完成這個任務(wù)。但如果目標(biāo)變成了從藍(lán)色方塊上拿取,它就無法完成,這說明它還沒有掌握泛化能力。為了使機(jī)器人既能從紅色方塊上拿取,也能從藍(lán)色方塊上完成相同動作,就需要分別對這兩種情況進(jìn)行訓(xùn)練,每種情況可能都需要幾千次的重復(fù)訓(xùn)練,才能最終形成一個通用的策略。更進(jìn)一步,如果我們將目標(biāo)平面稍微抬高幾厘米,機(jī)器人又會失敗,因為它的訓(xùn)練數(shù)據(jù)中沒有包含這種高度變化的情況。同樣地,如果訓(xùn)練時的背景通常是白色,而在實際應(yīng)用中換成了木質(zhì)背景,系統(tǒng)就可能出現(xiàn)識別錯誤,導(dǎo)致任務(wù)失敗。因此,我們必須根據(jù)不同場景類型重新配置。
我們必須使用大量的數(shù)據(jù),并且這些數(shù)據(jù)中要包含各種類型的錯誤,這樣才能持續(xù)不斷地訓(xùn)練和優(yōu)化系統(tǒng)。馬斯克也提出了一個新的理念:機(jī)器人應(yīng)該通過視頻來學(xué)習(xí)。因此,在 YouTube 上存在大量可用于訓(xùn)練的視頻資源。據(jù)我了解,相關(guān)團(tuán)隊在這方面已經(jīng)投入了超過一千萬美元的成本。如果你認(rèn)同這種方式,那就可以按照這個思路去實施。而我認(rèn)為,另一個可行的解決方案是利用數(shù)字孿生技術(shù)來應(yīng)對這一挑戰(zhàn)。
昨天英偉達(dá)的同事講得非常好。他提到,我們可以利用一些人類的示范操作,生成系統(tǒng)化的演示數(shù)據(jù)。基于少數(shù)幾個基礎(chǔ)示例,就能夠通過計算機(jī)自動生成多達(dá)一千小時甚至幾千萬小時的訓(xùn)練數(shù)據(jù)。我認(rèn)為這是一個非常有價值的方向。此外,我們學(xué)院也在為工業(yè)應(yīng)用開發(fā)數(shù)字孿生技術(shù)。它不僅可以用于機(jī)器人的編程,還能驗證這些程序的正確性,并支持多模態(tài)操作。同時,它也為系統(tǒng)模擬和控制器設(shè)計提供了有力支持。不過,在實際應(yīng)用中我發(fā)現(xiàn)最具挑戰(zhàn)性的部分是“硬件在環(huán)”環(huán)節(jié)。因為我們在真實系統(tǒng)中通常能獲得幾毫秒級別的實時反饋,而數(shù)字孿生系統(tǒng)的反饋速度也必須達(dá)到類似的水平。這就帶來了一個安全方面的關(guān)鍵問題:數(shù)字孿生是否能夠及時、準(zhǔn)確地做出反饋。
從真實的工程實踐到虛擬工程再到實際控制的過程中,很多人并沒有意識到這三者之間存在顯著差異。而虛擬指令使非常有幫助的,現(xiàn)場工作時間最多可以減少約75%。由于現(xiàn)場工作時間的縮短,相應(yīng)的停機(jī)時間也隨之減少。
虛擬指令和調(diào)試技術(shù)可以用于VC的數(shù)字孿生,可以保護(hù)機(jī)器,不會產(chǎn)生成本的損失,可以安全測試設(shè)備,行為零風(fēng)險,可以虛擬調(diào)試,顯著縮短開發(fā)周期。還支持跨地域、低風(fēng)險的培訓(xùn)方式,突破空間限制,便于遠(yuǎn)程維護(hù)與協(xié)作。此外,數(shù)字孿生還可用于人工智能的訓(xùn)練。我們研究所已有多個實際案例,例如如何學(xué)習(xí)單元控制軟件的操作、如何生成無碰撞的運動路徑、以及如何抓取可能發(fā)生形變的物體等。這些任務(wù)都可以通過仿真環(huán)境來訓(xùn)練人工智能系統(tǒng)。
另一種方式是利用AI來優(yōu)化數(shù)字孿生模型,使其運行速度超過原始模型,無論采用的是現(xiàn)實模型還是其他類型的建模方法。
最后一個應(yīng)用案例來自飲料行業(yè)。從我們研究院的實踐來看,我們專門開發(fā)了基于大語言模型和視覺模型的系統(tǒng),其目標(biāo)非常明確:讓機(jī)器人能夠從箱子中抓取多個小包裝產(chǎn)品,并將其放入用于快遞的小型包裹中。在整個操作過程中,無需對機(jī)器人進(jìn)行傳統(tǒng)意義上的編程,只需要通過點云數(shù)據(jù)進(jìn)行引導(dǎo),就可以訓(xùn)練各種類型的機(jī)器人完成實際操作,從而勝任物流相關(guān)的工作任務(wù)。
此外,我們還可以通過大型語言模型與該系統(tǒng)進(jìn)行交互。例如,可以發(fā)出指令“把泡泡膜取掉”,系統(tǒng)便會做出相應(yīng)的回應(yīng)。也可以詢問“箱子里有什么”之類的指令,系統(tǒng)中的AI助手能夠反復(fù)核查箱內(nèi)物品的內(nèi)容、標(biāo)簽信息以及實際放置的物品,確保信息一致。這其實是一套非常精細(xì)、高度智能化的系統(tǒng),專為物流場景設(shè)計。雖然它并不涉及人形機(jī)器人,只是基于一臺普通的工業(yè)機(jī)器人,但其功能強(qiáng)大,具備高達(dá)90%的可靠性。
在總結(jié)機(jī)器人發(fā)展的整體趨勢時,我想重點強(qiáng)調(diào)幾個值得關(guān)注的方向:一是人形機(jī)器人與工業(yè)機(jī)器人的演進(jìn)路徑與技術(shù)特點;二是視覺-語言-動作模型(VLA)的基本原理及其當(dāng)前存在的局限性;三是數(shù)字孿生技術(shù)如何應(yīng)用于虛擬仿真與實際系統(tǒng)訓(xùn)練。以上就是我今天的分享內(nèi)容。