一種場景和目標感知與理解技術
1. 痛點問題
場景、目標對象的感知與語義理解在醫療健康、運動培訓等領域具有廣闊的應用前景,其核心是如何在像素級、對象級、場景級多層次、多尺度表示下實現語義、幾何及空間關系的透徹感知。
現有計算機視覺方法或激光雷達等手段無法同時獲取多個維度的高質量場景與目標信息,同時現有的深度估計、語義分割、位姿估計等相關技術,存在識別精度低、提取不到關鍵信息、應用場景單一等問題,無法滿足大尺度場景應用的需求。
2. 解決方案
團隊提出多模態采集、時空復用編碼攝像方法,獲取大景深、高時空分辨、豐富的精確場景視覺信息;提出一種基于物理空間推理和語義關聯建模的動態場景深度估計方法,綜合語義信息、幾何結構信息以及時空間信息進行濾波,實現復雜動態場景的無先驗深度估計,將觀測目標與背景進行區分;提出一套從圖像和視頻中預測目標的位置和姿態的方法,包括迭代匹配的深度網絡、基于物體三維坐標的旋轉/平移解耦、自監督6D模型等,克服了遮擋、光照變化、視覺歧義與數據標注依賴等因素的影響,可以準確估計目標相對相機的 6D 位姿(3D平移量和3D旋轉量);構建了基于全卷積網絡和興趣區域的多目標實例檢測與分割框架,有效的解決了復雜類別、場景遮擋情況下的多目標實例分割問題,能夠實現同時對場景中多個目標檢測與分析。
合作需求
尋求醫療健康服務、醫療器械等領域有相關技術開發、市場推廣經驗,能推廣本技術落地的高科技企業,可以進行深度合作。
清華大學
2022-02-18