實時多人無標記三維運動捕捉技術
動作捕捉技術(motion capture)在影視、體育、安防等領域具有廣泛應用。傳統的動作捕捉分為兩大類,光學動捕系統通過在采集環境部署多個紅外攝像頭,再在人員的動捕服上放置光學標記球來求解出采集者的姿態信息,從而實現對人體運動的捕捉與動畫映射;慣性動捕系統通過慣性測量單元(IMU)來采集肢體的運動信息,采集設備相對更輕便,但采集精度不如光學動捕系統。光學動捕系統包括Motion Analysis,Vicon,Optitrack等,慣性動捕系統有Xsens,諾亦騰等。 然而,無論是光學動捕還是慣性動捕都需要動作人穿上特定的設備,不可避免地會影響到人體運動的真實性和動捕的使用范圍。同時,相應的專業動捕設備往往價格不菲,很多有需求的小型工作室也會望而卻步。因此,學術界和工業界都在極力研究“無標記運動捕捉”技術,即不需要任何穿戴設備,僅由相機觀測和算法分析,就實現對多人體運動的實時準確捕捉。這種技術有著更加廣泛的應用場景,例如無人售貨超市、VR/AR游戲、遠程全息通訊、數字人創建、虛擬主播、人機交互、全天候醫療監護等。 近幾年,隨著深度學習技術的廣泛普及,無標記動捕領域也誕生了許多革命性技術,例如實時2D多人體關鍵點檢測技術OpenPose等。然而,多目標實時3D運動捕捉仍然是一個極具挑戰性的問題,主要挑戰因素包括:如何實現實時計算,如何進行高效的多視角關聯,如何解決緊密交互帶來的觀測失真等。舉個例子,當兩個人擁抱在一起的時候,當前大多數檢測或重建算法都會失效。而理論上,多視角的觀測信號能夠在一定算法設計下互相補充,盡可能解決單視角運動重建的歧義性。如何充分利用多視角的視頻信號,實現復雜、緊密交互場景下的多人體運動捕捉是當前無標記運動捕捉領域的核心問題之一。 該項目研究工作提出的多視角人體運動捕捉系統包括相機采集模塊,2D姿態檢測模塊,4D關聯圖求解模塊,三維骨架求解模塊及渲染模塊。其主要算法貢獻在于提出并實現了4D Association算法。 當前的多視角運動捕捉系統大多采用的是序貫地匹配策略,首先對每個視角進行獨立的人體檢測和連接(例如,OpenPose檢測關鍵點和關鍵點相互連接的概率,從而對人體進行連接;Mask-RCNN、AlphaPose和HRNet都需要先檢測每個人的BoundingBox,然后對每個人進行獨立的人體檢測),然后對人體進行多視角關聯和姿態求解,最后進行時域跟蹤。這種常規方法的缺陷在于,當單個視角檢測失敗以后,后續的算法難以對失敗的檢測結果進行修正,從而將錯誤的檢測傳遞到下一個步驟,影響跟蹤效果,對于緊密交互(例如前文提到的兩人擁抱)的情形,單視角的往往很難給出令人滿意的檢測結果,因此基于序貫式的算法一般會失效。 相較而言,該研究工作的創新性在于充分利用單圖連接(2D)、多視角連接(1D)、和時域連接(1D)之間的相互約束從而進行全局優化,用多視角信息和時域信息來避免單視角連接的歧義性,同時也通過單視角連接結果來優化多視角的匹配,從而使得關聯結果更趨向于全局最優。具體地,該研究工作提出了一種4D Graph的圖結構,將上一幀的三維人體關鍵點(在初始幀或者人進入動捕范圍的時候可以缺失,不影響算法的運行)和當前每一視角的2D關鍵點建模在同一個圖結構中,用單圖連接、多視角連接、時域連接的概率作為邊的權值,將人體多視角關聯的問題看成提取有效邊的過程。為了快速地求解這個問題,進一步提出了一種基于完全子圖的近似求解算法,高效地完成了從4D圖結構中提出正確的人體連接。 最終,該研究工作實現了緊密交互下人體的三維姿態重建,并展示了實時系統效果。其算法在多個數據集上均表現出了良好的視覺效果,在Shelf數據集上也取得了當前最好的數值結果。
清華大學
2021-02-01