科技行者 10月24日 北京消息:雖然能夠像人類一樣靈活處理問題的「機器人」遠沒有出現,但AI技術的加速發展讓我們比以往任何時候都更接近這一愿景。今年9月份的一篇論文中,谷歌公司的一支科學家團隊利用機械手臂進行測試,旨在以最少的訓練數據學會破解魔方;在今年6月份的一次計算機視覺會議上,麻省理工學院也展示了一套AI模型,僅憑視覺數據片段能夠預測物理對象的觸覺感受。
如今,OpenAI(由伊隆·馬斯克牽頭創立的AI研究公司,得到LinkedIn聯合創始人里德·霍夫曼以及Y Combinator總裁薩姆·奧特曼等人的支持,總部位于舊金山)表示,正在著力解決機器人技術與AI系統領域的一大重要挑戰:破解魔方。不同于加州大學歐文分校等其他區域性團隊所取得的原有突破(采用定制化機器快速操縱魔方體),OpenAI研究人員的基本思路在于:使用常規五指人形機械手臂,經過13000年經驗積累的訓練量數據,所打造的AI模型,負責提供指揮。值得一提的是,這套模型此前曾被用于操作Dota游戲,當時的訓練量積累相當于人類選手40000年的經驗水平。
這套模型基于今年早些時候由騰訊公司以及香港中文大學開展的實驗,具體包括:一款靈巧的人形機械手,一套AI軟件模型(用于識別魔方體的最佳移動序列),以及一個魔方操作器(最多可控制五根手指)。該團隊報告稱,基于模型與無模型的兩大規劃工具組合之后,該方案在1400次試驗中實現了90.3%的平均成功率。而在對AI組件進行30000次操作訓練之后,其平均成功率進一步提升至95.2%。
不過騰訊的方案是在嚴格的仿真環境中進行的,并采用了Roboti提供的多關節接觸動力學(Mujoco)技術。Mutjoco是一套專為機器人和生物力學的研究與開發場景所設計的物理引擎。OpenAI同樣利用模擬場景訓練了自己的AI模型,但其成功地在不犧牲準確性或魯棒性的前提下,將處理能力遷移到了真實機器手臂當中。
OpenAI機器人團隊技術成員Matthias Plappert表示,“我們之所以對魔方任務抱有濃厚興趣,是因為它要求機器手的敏捷性接近于人類水平。從某種意義上講,這是一項高度復雜的任務,必須真正精確地控制手指,才能準確翻轉魔方的各個面。我們希望通過這次實驗看看去年發布的這套AI模型能夠走多遠。”
設置工作
據OpenAI在論文中介紹,考慮到魔方狀態評估的復雜性,以及破解魔方所需要的精確操作,在這項任務中僅憑模擬數據操作魔方比操作一個立方體要難得多。
魔方由26個通過鉸鏈與彈簧連接的小立方體組成,內部至少包含6種自由旋轉方位,且六個面都能獨立完成旋轉,而在魔方被打亂之后,只有將六個面都恢復為同一顏色,才算真正破解成功。
該團隊采用的解決方案是一種被稱為「自動域隨機化(ADR,automatic domain randomization)」的算法。這種算法會自動生成用于訓練強化學習模型的分布以及可通過視覺估計對象姿態的模塊,即一個基于視覺的姿態估計器,憑借著由獎勵與懲罰機制重復實現的復習與強化學習過程,AI系統將一步步朝著正確的目標完成自主學習。
根據世界魔方協會的官方指南,研究人員使用了一種魔方置亂技術進行ADR部署,將大約20步移動到一個已解出的魔方上進行置亂/標準化加擾。此后,他們將未加擾任務拆分為多個子目標,例如旋轉(順時針或逆時針旋轉一個立方體面90度),以及翻轉(將一個特定立方體的某個面旋轉至頂部)。由于旋轉頂面通常比旋轉其他面簡單,因此研究人員將翻轉與頂面旋轉與其他子目標按順序組合在一起。而對于魔方的實際求解方法,他們采用了現有的軟件庫,比如Kociemba求解器等,用于生成子目標解決方案的操作序列。
硬件
負責操縱魔方的機器手是Shadow Dextrous E系列產品,他的中指與無名指各有3個驅動關節和1個欠驅動關節,小指與拇指各有5個驅動關節,腕部有2個驅動關節。多年以來,它一直是OpenAI機器人平臺的核心組成部分,它匹配了三臺用于視覺姿態估計與一臺配有PhaseSpace動作捕捉系統的攝像機。這套系統被安裝在一個配有滑軌的計算機框體當中。
該團隊指出,他們與機器手臂制造商Shadow Robot公司建立合作關系,以提高某些機器人組件的堅固性與可靠性。具體而言,他們增加了機器手在與物體交互時的抓握力,同時減小了肌腱應力,并調整了與之交互的軟件堆棧以盡可能消除扭矩限制。
▲ 圖:OpenAI測試了機械手諸多變化
至于魔方,它不是一般的模型,而是特別定制版本。它是一個小米的Giiker立方體,它搭載了可感知方向的藍牙和運動傳感器。市面上在售版本的Giiker立方體模型的面角分辨率為90度,但該團隊修改了它們的模型,使面角跟蹤精度達到約5度。
模擬
與騰訊團隊一樣,OpenAI的研究人員也利用Mujoco來模擬環境、機器手以及物體,同時采用ORRB(以游戲引擎Unity為基礎的遠程渲染后端)進行圖像渲染,從而訓練基于視覺的姿態估計器。模擬環境下的魔方由26個1.9厘米邊長的立方體組成,其中6個具有單一鉸鏈接頭,另外20個擁有三個鉸鏈接頭,有效旋轉自由度為66度。如此一來,模擬環境即可表達43百萬的立方個立方體朝向配置,以及介于這些朝向配置之間的所有過渡狀態。
指導Shadow Hand機器手的AI策略,還必須同時考慮到魔方,與魔方內鉸鏈接點基礎壓力,以及Giiker魔方的材質特征等一系列因素。例如,向單一立方體施加力通常足以使得單面旋轉,因為力是通過接觸力在相鄰元素之間傳播的。但是,每個立方體有六個面,而且并非所有立方體都能夠同時旋轉。另外,垂直面必須卡入至適當位置才能旋轉,否則未能嚴格對齊將導致整個魔方“全面癱瘓”。
這時候就要靠ADR解決難題了。根據研究人員們的解釋,這項技術能夠隨時間隨機分配某些特定因素(例如多維數據集中的視覺外觀或手部動態),從而在模擬環境中生成分布。初始分布集中在單一環境中,但它逐步擴展為綜合數據,這些數據可用于評估任意模型的性能。
從本質上講,經過ADR訓練的模型將通過內部學習算法來調整自身行為以實現目標。該團隊猜測,當分布太大,以致于模型無法記住某些專用解決方案時(由于容量有限),就會觸發這種內部調整。而只要模型的精度不低于預定義的閾值,ADR就會繼續持續訓練周期。
▲ 圖:OpenAI的模型可以從干擾中恢復
那么,在每種環境下具體要對哪些特征進行隨機分配?除了模擬環境的物理特性(例如幾何形狀、摩擦系數與重力等)之外,還有模擬器并未納入的自定義物理效果(例如電機反沖)。另外還有一些視覺元素,比如攝像機位置與角度、照明條件,物體的材質與外觀、背景紋理乃至渲染圖像后的處理效果等等,都需要被考慮進來。
“這也正是我們這套方案的主要優勢之一——一旦弄清楚如何在模擬環境中訓練這些模型,即可高效獲取無窮無盡的實驗數據。”Plappert解釋道,“接下來,一旦明白怎樣將模型遷移到機器人當中,就可以在現實世界進行實際應用了。”
獎勵機制
如前文所述,由于這套方案使用了強化學習方法,因此必然涉及獎勵機制。OpenAI團隊在實驗中定義了三項條件,分別為:(1)系統與目標間的原有距離與當前距離之間的差別;(2)達成目標時給予獎勵;(3)魔方掉落時觸發懲罰。在訓練過程中還會產生隨機目標,當AI模型連續50次成功、且在試圖達成下一目標時超時,或者魔方掉落,則視為當前訓練輪結束。
研究人員在訓練中還使用了Rapid框架。這套框架由一組rollout工作節點與優化節點組成,負責在多塊顯卡之間執行同步梯度下降(機器學習中的必要步驟)。隨著rollout工作節點不斷積累經驗,得出的見解將被交付至優化節點;與此同時,還有另一組工作節點負責比較訓練完成的AI模型與參考代理的性能水平。
▲ 圖:模型在仿真中的訓練時間越長,性能越好
整套系統共使用64塊英偉達V100顯卡+920臺各自包含32個處理器核心的工作節點設備,在長達數月的周期內對模型進行訓練。在此期間,研究人員則負責研究模擬保真度、ADR算法、超參數調整以及網絡架構等變量。其中,僅優化器節點就使用8塊V100顯卡以及64個處理器核心;而負責渲染視覺姿態估計器的圖像渲染節點,則使用一塊英偉達V100顯卡外加8個處理器核心。
通常,視覺數據配合Giiker魔方內置的傳感器,狀態估計器最終學會了估算立方體六個面的角度以及魔方多維數據集中的位置與方向信息。該研究小組指出,由于魔方各個面的貼紙擁有旋轉對稱性,因此單憑視覺無法完成操作,他們希望未來能夠開發出一套可重復使用的模型,從而只依靠攝像機捕捉到的圖像確定魔方形態。
轉向真實場景
接下來,該團隊嘗試將訓練完成的AI模型遷移至真正的Shadow Hand當中。他們評估了隨機化性能,完成了約兩個星期的隨機訓練,利用ADR算法進行約兩周的策略訓練,而后又在四個月時間中先后進行連續訓練與策略更新,旨在確保策略能夠在實體機器手上正常起效。在隨后的10次試驗(每項策略重復10次)中,研究人員首先提供一個初始狀態的魔方,要求機器手先學會將其打亂。
在這些試驗中,研究人員定義了兩項閾值:至少成功實現半數加擾操作(即22次成功),以及至少成功完全全部加擾操作(即43次成功)。表現最好的模型在10次試驗中的平均成功了26.8次,其中半數成功率為60%,完全成功率則為20%。位列第二的模型平均獲得17.8次成功,半數據成功率為30%,完全成功率為10%。
雖然成績似乎不算太好,但需要強調的是,所有模型都自行學會了前所未有的微擾恢復技術,包括將多根機器手指綁在一起、在手上穿戴皮質手套、用手帕遮住部分魔方、以及在魔方旁邊放上毛絨玩具與鋼筆等等。當機器手偶爾旋轉錯誤時,成績最好的AI模型能夠立即反向操作撤銷這一錯誤。另外,當機器手旋轉操作過程中不慎導致魔方掉落時,AI模型能夠重新分配抓握力,然后再次嘗試直到最終成功。
Plappert指出,“我們在這里使用的算法與我們之前用于訓練其他機器人的算法完全相同。這種特殊的方法擁有強大的通用性,可用于處理大家想得到的各種問題,甚至無需進行額外修改。雖然我們目前專注于解決魔方多維數據集任務,但相關成果也可以應用于多種同類系統的測試場景當中。”
OpenAI機器人團隊研究科學家Lilian Weng表示,他們的最終目標是實現完全通用,這一點也與OpenAI提出的“在多個領域中建立起「安全」的人類級AI”目標相吻合。大多數專家認為,機器人技術的通用化還有很長的道路要走——包括Aeolus在內的當前最先進模型,也需要幾分鐘才能完成將垃圾撿起并扔進廢紙簍這樣的簡單任務。但是Weng、Plappert及其同事們相信,他們的工作將成為發展的奠基石,并最終成就真正具有自主能力、幾乎可以完成所有任務的通用型智能機器。
Weng總結道,“最終,我們希望未來的人工智能可以將某種價值傳遞到現實當中。以機器人為例,機器人的優勢在于幫助人們關注某些事物或者從事一部分高危工作……但實現這些目標的前提,就是機器人必須有能力與現實世界互動。而這,正是我們當下努力的意義。”
好文章,需要你的鼓勵
在今年I/O的第二天,谷歌在美國總部(Googleplex 2000)組織了一場小范圍專訪,包括谷歌母公司Alphabet兼谷歌CEO桑達爾·劈柴(Sundar Pichai)在內的四位核心管理層,接受了包括科技行者Techwalker、CNBC、《朝鮮日報》、意大利紙媒《La Repubblica》、巴西紙媒《Folha de S. Paulo》、英國電視臺等全球媒體的提問。