機器人的技術(shù)創(chuàng)新任務(wù)主要在于人形機器人關(guān)鍵技術(shù)的突破,其中在人形機機器人本體上的重要技術(shù)任務(wù)在于開發(fā)基于人工智能大模型的人形機器人“大腦”與
開發(fā)控制人形機器人運動的“小腦”。大模型作為最爆火的人工智能概念,推動了人形機器人大腦的形成,助力人形機器人具有人的感知、交互與決策能力;對
于控制系統(tǒng)仍在切入中。
感知、交互與決策
多模態(tài)大模型增強人機交互,實現(xiàn)
對人類意圖的理解,對復(fù)雜外部環(huán)
境的理解與認(rèn)知,助力形成決策:
大模型可直接用于對環(huán)境的理解, 并通過提示詞使之輸出結(jié)構(gòu)化內(nèi)
容如控制代碼、任務(wù)分解等指令
利用多模態(tài)大模型對環(huán)境進(jìn)行建
模, 實現(xiàn)具身智能對空間信息的
多模態(tài)理解
機器人能夠從數(shù)據(jù)中學(xué)習(xí)決策與
規(guī)劃策略,基礎(chǔ)模型為機器人決
策與規(guī)劃引入了豐富的先驗知識。
控制
大模型在控制上的助力主要集中于大模型處理環(huán)境觀察與提示,輸出動作序
列,動作序列可以是一系列關(guān)節(jié)角度或末端執(zhí)行器的位姿與夾爪開合數(shù)據(jù),
這些序列將直接用于控制機器人的運動。
原生機器人大模型ERA-42, 展示了與自研五指靈巧手星動XHAND1 結(jié)合后的靈巧操作能力,能夠完成超過100種復(fù)雜靈巧的 操作任務(wù),是真正的具身大模型
普渡機器人提出了 Robot-to-Everything 架構(gòu),實現(xiàn)萬物互聯(lián),全場景的智能生態(tài);率先完成了專用、類人形、人形三類機 器人的完整產(chǎn)品布局
機器人像人一樣使用工具的靈巧手,是提升機器人柔性操作能力的關(guān)鍵部件,是柔性制造避不開的一環(huán);靈巧手工程量占據(jù)Optimus工程量的50%,靈巧手是機器人走向“好用”的關(guān)鍵
欠驅(qū)動手硬件集成度高,整體系統(tǒng)簡潔高效、體積小、質(zhì)量輕,便于進(jìn)行動力學(xué)分析;存在功能性不足,對于精度要求比較高的手指精巧控制無法勝任
具有完全可重復(fù)的運動軌跡,適合某些功能性和精細(xì)操作較高的場合,在工業(yè)場合, 例如組裝、測量等情況下有更好的表現(xiàn),沒有合理的運動學(xué)分析控制時,整體的靈活性差
機器人的觸感靈巧手Linker Hand具備20個主動自由度,包括柔性電子皮膚,實現(xiàn)精細(xì)觸覺感知,構(gòu)建全球最大的靈巧操作數(shù)據(jù)集,包含了大量的人手操作數(shù)據(jù),覆蓋了各 種復(fù)雜的抓取和操作任務(wù)
當(dāng)人們認(rèn)為機器人是有意圖的代理時,他們的大腦以類似的方式處理自己和機器人的行動結(jié)果,意圖歸因在人機交互中起著至關(guān)重要的作用,可能包括通過言語指令等非交互性手段來調(diào)整人們對機器人意圖的感知
移動機器人系統(tǒng)用于解決探索性化學(xué)中的三個主要問題以及根據(jù)數(shù)據(jù)決定下一步做什么,移動機器人做出與人類研究人員相同或相似的決定比人類快得多
大模型可加快人形機器人復(fù)雜任務(wù)訓(xùn)練速度,提升任務(wù)生成速度及縮短理解周期;1 提升人形機器人語言處理能力 2 提升人形機器人場景理解能力 3 提升人形機器人運動控制能力 4 提升人形機器人數(shù)據(jù)訓(xùn)練能力
NLP 大模型在語言的歧義、文化差異及多樣化、情感分析困難;CV 大模型算法處理復(fù)雜;多模態(tài)大模型融合不同模態(tài)的信息并提高模型的標(biāo)識能力
NLP 大模型是人工智能領(lǐng)域的重要研究方向,CV大模型是指基于深度學(xué)習(xí)的計算機視覺模型,多模態(tài)大模型是指將文本、圖像、視頻、音頻等多模態(tài)信息聯(lián)合起來進(jìn)行訓(xùn)練的模型
機器人大腦提高人形機器人的人-機-環(huán)境共融交互能力,支撐全場景落地應(yīng)用;機器人小腦提升人形機器人非 結(jié)構(gòu)化環(huán)境下全身協(xié)調(diào)魯棒移動、靈巧操作及人機交互能力