從早稻田大學1972年研發的WABOT,到特斯拉2022年首秀的Optimus,人類科學家對人形機器人的研發走過了半個世紀。在這半個世紀里,人形機器人的發展已經從本田ASIMO、波士頓動力Atlas代表的技術驗證期,過渡到了以特斯拉Optimus為代表的商業試水期,一個新的機器人時代正在開啟。
為此,至頂科技特別策劃推出《機器人新紀元》專題報道,旨在探尋全球機器人團隊的技術變遷和創新故事。
本文收錄于至頂科技《機器人新紀元》專題。
作者 | 金旺
欄目 | 機器人新紀元
動作捕捉技術是不少好萊塢大片中常用的一項技術,后來又在VR領域得到了廣泛應用。
不過,這項技術的商業價值遠不止于此,成立于2012年、以動作捕捉技術聞名于世的諾亦騰,如今不僅將動作捕捉技術應用到了體育運動分析領域,還將這項技術應用到了醫療領域。
諾亦騰CEO劉昊揚告訴我們,醫療領域是諾亦騰現在重點關注的一個領域,動作捕捉技術也正在醫療領域發揮著重要作用。
在2023世界機器人大會現場,我們和諾亦騰CEO劉昊揚進行了一次交流,談了談他眼中動捕技術的發展、在醫療領域的應用,以及在AI大模型上的探索。
AI大模型和動作捕捉新思路
問:動作捕捉技術在過去經歷了怎樣的技術迭代?
劉昊揚:最開始,動作捕捉技術是基于純光學的方案,我們進入這個領域時,開始基于人體穿戴的傳感器做動作捕捉,這樣基于可穿戴式傳感器的方案極大地提高了應用的便利性,讓用戶在戶外也能采集數據,用無線方式隨時隨地可以做動作捕捉。
再后來,出現了視覺技術,它是一種無標記點、完全靠人工智能識別人身上關鍵點,然后把人的動作恢復出來的技術。
從精度上來說,基于光學的方案最好,基于傳感器的方案在某些方面不如光學方案,視覺表現有時候會差一些。
動作捕捉的目的有兩種,一種是精準還原人的動作(類似測量),另一種是根據人的動作,復現出接近的,符合視覺表現要求的動作數據(類似特效創作)。
隨著生成式AI的出現,動作捕捉技術又往前邁進了一步,現在很多人在用生成式AI嘗試做一些新的方向:
其中一個新方向是,針對以前幾種方案中出現的環境遮擋、信號丟失問題,這些原來需要通過人來修復的畫面,現在是否可以用生成式AI自動修復;
另一個新方向是,基于足夠多動作數據的動作庫,通過生成式AI生成動作,甚至不再需要演員來演示。
這是生成式AI為動作捕捉領域帶來的新變化。
動作捕捉技術發展其實走得是比較快的,而且這些年一直在加速。
光學方案過去三四十年沒有太大的變化,傳感器技術近10年發生了很大的變化,視覺技術到現在還沒有發展多久,還沒有開始真正用起來,生成式AI技術就已經出現了。
例如此前在用動作捕捉技術做游戲時,一個動作游戲我們需要采集很多段動作,游戲實際上只是把這些動作連在了一起,未來有了生成式AI,可能在游戲制作中直接生成動作,甚至都不需要動作捕捉這個步驟了,這可能會對行業帶來一個很大的沖擊。
不過,現在我們還不太清楚生成式AI會帶來怎樣的沖擊,這是因為動作捕捉的應用創新是落后于技術發展的。
問:視覺技術在動作捕捉領域應用現狀是怎樣的?
劉昊揚:用視覺做人的動作捕捉這項技術,一直以來就沒有發展得很成熟。
由于缺少扎實的應用場景,這項技術的發展相對比較偏科研探索,在動作捕捉領域的精準度一直不太夠,人的大幅度動作用視覺做動作捕捉一直不是很精準?,F在比較成熟的應用場景是捕捉面部表情,因為這個場景是相對靜止的。
我們看到更多應用場景是在科研領域,以及對精度沒什么要求的場景,做一些粗略的人的動作識別。
當然一些人開始發力基于純視覺的、沒有標記點的動作捕捉技術時,生成式AI技術又出現了,這時行業又開始新一輪技術”內卷“。
問:所以現在會存在一個技術路線選擇問題嗎?
劉昊揚:其實都不用選擇,因為大家知道肯定要往生成式AI方向走。
醫療手術中的動捕應用
問:動捕技術在落地應用上有怎樣的發展?
劉昊揚:我們公司名字,諾亦騰,其實就是英文單詞motion倒過來的拼寫,我們是希望改變動作捕捉這個行業,不僅僅是改變動作捕捉的技術,還希望它能在行業真正應用起來,所以做著做著,我們發現我們成了唯一一家既提供動作捕捉技術,同時也提供動作捕捉技術行業應用的廠商。
其他大部分廠商都只是賣工具,或者賣SDK,他們的目標用戶大多是科研領域的用戶,或者一些數字媒體中做創新的用戶。
我們動作捕捉已經在很多領域在做具體應用,例如在體育領域將運動員動作捕捉下來做分析,可是沒有人去做這個橋梁,于是我們自己開始上手做運動員的分析訓練系統,因為高爾夫運動員對動作細節非常講究,我們早期做了高爾夫運動員分析系統。
隨著之后業務發展,我們逐漸分出一條業務線來做體育場景中的應用,我也參與了北京體育大學體育工程學院的創建,我們現在在那里培養既懂計算機、又懂動作捕捉,同時又了解運動的復合型人才做科研創新和應用。
在健康領域,我們早年就已經有一些客戶,例如達芬奇機器人創始人Federic Moll博士后來成立的新公司Auris Health想做一個全新的手術機器人,他就用到了我們動作捕捉設備,嘗試一種手術機器人應用新模式。
他認為機器人的自由度不夠多,可以通過動作捕捉技術,讓人遙控機器人,這是一個很好的想法。
雖然后來這種理念沒能被Federic Moll博士實現,但是這讓我們發現手術機器人是動作捕捉一個很好的應用方向,于是我們開始進入到這一領域,現在我們已經做了創傷骨科手術機器人,每天都有由我們手術機器人完成的手術。
我們手術機器人做的是很難的手術,最主要是在微創環境下做骨盆復雜骨折后的復位和固定的手術,這類手術號稱是骨外科最難的手術。
我們在這類手術中用到了三維可視化模型再現和運動追蹤技術,在手術過程中,我們可以在屏幕上看到三維的骨盆,用特制的牽引針做復位時,可以對著屏幕操作,屏幕和真實人體中的畫面是1:1呈現的。
這其中運用到的三維模型重構技術和運動追蹤技術,我們之前用來追蹤人體運動,現在用來追蹤人體中的骨塊,技術本質是一樣的。
目前我們主要在和301醫院創傷骨科在合作。
問:這樣的設備是否提高了(手術)醫生的入行門檻?
劉昊揚:我先說結論,結論是大幅降低了他們學習的復雜程度,他們更容易掌握這種手術了,而且成功率很高。
這其中的原因在于,以前做微創骨科手術的時候,每進行一個動作,都需要在術中不斷拍X光片,由于拍出來的片子是二維的,其中這么多人體組織的三維關系是怎樣的就需要醫生有很好的三維想象力和很豐富的經驗,這對醫生來說是一件很難的事。
現在我們有了三維圖像,無論是做復位,還是從體外打螺絲釘固定也好,都可以對應到屏幕的三維圖像上,屏幕上的三維圖像是實時連續的,這讓整個手術過程變得很簡單。
我們有次去一家醫院,他們用的就是我們這套技術,我們看到這家醫院的一位主任醫生從手術臺上下來時,將手套一摘,嘆了口氣,說:“以后的新醫生太幸福了,這樣做手術太簡單,再也不需要花那么多時間練手感了。“
技術先行,場景為王
問:為什么動作捕捉技術應用落后于技術本身的發展?
劉昊揚:生成式AI對于動作捕捉技術來講,主要還是兩點,一個是自動修復,一個是自動生成,這些工作我們之前其實一直在做,只是大模型出現后,為我們提供了一種新的思路。
不過,這其實只是技術的迭代,并沒有從根本上顛覆這件事情,所以這個問題的本質是,最重要的到底是什么,是一個新的動作捕捉技術嗎?
其實我認為現在最缺少的還是應用場景,我舉一個很現實的例子,動作捕捉技術此前海外用的最成熟的應用場景,是虛擬拍攝行業中預演片的拍攝,這是指在導演拍一個特效特別復雜的電影時,需要基于動作捕捉技術先做出來一個相對粗糙的快速動畫,然后所有演員和工作人員再基于這個動畫重新進行拍攝一遍。
今天在好萊塢,所有大片都是這么來的。
但是在國內,到今天為止,用動作捕捉技術拍預演片這件事兒都還沒有普及,只有國內思想比較前衛的一些導演會用這項技術。
這么直接的動作捕捉的行業應用場景,推廣都沒有想象的那么快,實際上一個新的技術要改造行業,需要很多人的努力。
問:諾亦騰在生成式AI技術上有做哪些布局和工作?
劉昊揚:我們也在基于我們在動作捕捉上積累的數據,嘗試基于和現在AI大模型同樣的思路和框架做這樣一個大模型。
但是現在我們也是兩條腿走路,一邊迭代我們的技術,一邊去看我們的應用場景在哪里。
好文章,需要你的鼓勵
這里曾是中國重工業的搖籃,裝備制造業的轟鳴聲響徹幾代人。如今,這片土地不再只依賴鋼筋鐵骨,而是主動擁抱數智化的浪潮,用算力和算法書寫東北振興的新篇章。
陳立武的到來,像一顆石子投入平靜湖面,激起漣漪的同時,也讓人好奇:這位65歲的“半導體老兵”能做到什么程度?
在GTC2025大會上,英偉達CEO黃仁勛在一場至頂科技等全球媒體共同參與的記者會上表示, AI正在成為一個全新的制造業。AI不是傳統意義上的軟件開發,而是一場需要基礎設施、能源和資本投入的產業革命。