人像摳圖滿足不了研究者了,這個研究給動物摳圖,毛髮根根分明

編輯:魔王

相比於人像摳圖,長相各異、渾身毛茸茸的動物似乎難度更大。IEEE 會士 Jizhizi Li、陶大程等人開發了一個專門處理動物摳圖的端到端摳圖技術 GFM。

在這個影象和影片逐漸成為主流媒介的時代,大家早已對「摳圖」習以為常,說不定還看過幾部透過「摳圖」拍攝的電視劇呢。然而,相比於人像摳圖,長相各異、渾身毛茸茸的動物似乎難度更大。

那麼,是否有專用於動物的摳圖技術呢?IEEE 會士 Jizhizi Li、陶大程等人就開發了一個專門處理動物摳圖的端到端摳圖技術。

人像摳圖滿足不了研究者了,這個研究給動物摳圖,毛髮根根分明

動物的外觀和毛皮特徵給現有的方法帶來了挑戰,這些方法通常要求額外的使用者輸入(如 trimap)。

為了解決這些問題,陶大程等人研究了語義和摳圖細節,將任務分解為兩個並行的子任務:高階語義分割和低階細節摳圖。具體而言,該研究提出了新型方法——Glance and Focus Matting network (GFM),使用共享編碼器和兩個單獨的解碼器以協作的方式學習兩項子任務,完成端到端動物影象摳圖。

研究人員還建立了一個新型動物摳圖資料集 AM-2k,它包含 20 個類別的 2000 張高解析度自然動物影象,並且具備手動標註的前景蒙版。

此外,該研究透過對前景和背景影象之間的不同差異進行綜合分析,來研究合成影象和自然影象之間的領域差距(domain gap)問題。研究人員發現,其精心設計的合成流程 RSSN 能夠降低差異,帶來更好的、泛化能力更強的模型。在 AM-2k 資料集上的實驗表明,GFM 超過當前最優方法,並且有效降低了泛化誤差。

動物影象摳圖方法 GFM

在給動物影象摳圖時,人類首先會瀏覽一下影象,快速識別出大致的前景或背景區域,然後聚焦於過渡區域,將動物細節與背景區分開來。這可以大致形式化為分割階段和摳圖階段。注意,這兩個階段可能會出現交叉,因為第二階段的反饋資訊可以糾正第一階段錯誤的決策。

為了模仿人類經驗,使摳圖模型具備處理這兩個階段的能力,有必要將其合併進一個模型,並顯式地建模二者之間的協作。因此,研究者提出了新型 GFM 網路,進行端到端的自然動物影象摳圖,模型架構參見下圖:

人像摳圖滿足不了研究者了,這個研究給動物摳圖,毛髮根根分明

圖 2:GFM 網路架構圖示。它包含一個共享編碼器和兩個單獨的解碼器,解碼器分別負責影象分割和細節摳圖。

新型影象合成流程 RSSN

為自然影象標註前景蒙版費時費力且成本高昂,常見的操作是基於一些前景影象和成對前景蒙版生成大規模合成影象。

目前常見的蒙版合成流程是通過蒙版混合(alpha blending)將一個前景貼上至不同的背景。但由於前景影象和背景影象通常取樣自不同的分佈,合成影象會出現大量合成偽影,從而導致合成影象和自然影象之間出現較大的領域差距。合成偽影可能會被模型誤以為是 cheap feature,從而導致在合成影象上過擬合,在自然圖上出現較大的泛化誤差。

該研究系統地分析了引起合成偽影的因素:解析度差異、語義模糊、銳度差異和噪聲差異,並提出瞭解決方案——一套新的合成流程 RSSN 和大規模高解析度背景資料集 BG-20k。

RSSN 的整體流程如下所示:

人像摳圖滿足不了研究者了,這個研究給動物摳圖,毛髮根根分明

下圖對比了不同合成影象方法,其中 c 和 d 使用的背景影象來自 BG-20k 資料集:

人像摳圖滿足不了研究者了,這個研究給動物摳圖,毛髮根根分明

BG-20k 資料集具備以下特徵:

人像摳圖滿足不了研究者了,這個研究給動物摳圖,毛髮根根分明

動物影象摳圖資料集 AM-2K

AM-2k 資料集包含 20 個類別的 2000 張高解析度自然動物影象,並且具備手動標註的前景蒙版。研究者將該資料集分割為訓練集和驗證集,並設定了兩個評估 track:ORI-Track (Original Images Based Track) 和 COMP-Track (Composite Images Based Track)。

下表展示了 AM-2k 資料集與現有摳圖資料集的對比情況:

人像摳圖滿足不了研究者了,這個研究給動物摳圖,毛髮根根分明

該資料集中的示例參見下圖:

人像摳圖滿足不了研究者了,這個研究給動物摳圖,毛髮根根分明

實驗?

定量和主觀評估

下表 2 展示了多種 SOTA 方法在 AM-2k ORI-Track 上的結果:

與 SOTA 方法相比,GFM 在所有評估指標上均超過它們,透過同時分割前景和背景影象以及在過渡區域摳圖,取得了最優效能。

下圖 6 展示了不同方法在 AM-2k ORI-Track 上的定性對比結果:

人像摳圖滿足不了研究者了,這個研究給動物摳圖,毛髮根根分明

從圖中可以看出,SHM、LF 和 SSS 無法分割一些前景部分,因為其分段式結構導致模型無法顯式地分辨前景 / 背景和過渡區域。語義分割和摳圖細節是很難平衡的,分別需要全域性語義特徵和區域性結構特徵。HAtt 和 SHMC 無法獲得過渡區域的清晰細節,因為全域性指引有助於識別語義區域,但對細節摳圖的使用者就沒那麼大了。

相比而言,GFM 獲得了最優結果,這得益於其統一模型,使用單獨的解碼器處理前景 / 背景和過渡區域,並以協作的方式進行最佳化。

模型整合和混合解析度測試

如下表 3 所示,模型整合的結果優於單個模型:

人像摳圖滿足不了研究者了,這個研究給動物摳圖,毛髮根根分明

控制變數研究

控制變數研究結果如下表 4 所示:

人像摳圖滿足不了研究者了,這個研究給動物摳圖,毛髮根根分明

模型複雜度分析

如下表 5 所示,使用 DenseNet-121 或 ResNet34 作為主幹網路的 GFM 在執行速度上超過 SHM、LF、Hatt 和 SHMC,它們處理一張影象分別只需大約 0。2085s 和 0。1734s。

人像摳圖滿足不了研究者了,這個研究給動物摳圖,毛髮根根分明

論文地址:https://arxiv。org/pdf/2010。16188v1。pdf

GitHub 地址:https://github。com/JizhiziLi/animal-matting

相關文章