機器學習中的資料級聯:被低估的資料,被高估的模型

來自谷歌的研究員在一篇題為“Everyone wants to do the model work, not the data work”的論文中指出:資料質量在AI中起到的作用正在被低估,資料質量在高風險AI應用中十分重要,尤其是對癌症檢測、野生生物偷獵等下游任務中巨大。

機器學習中的資料級聯:被低估的資料,被高估的模型

資料是機器學習 (ML) 的一個基本方面,可以影響 ML 系統的效能、公平性、穩健性和可擴充套件性。矛盾的是,雖然構建 ML 模型的優先順序通常很高,但與資料本身相關的工作通常是優先順序最低的方面。並且這項資料工作可能需要多個角色(例如資料收集者、標註人員和 ML 開發人員),並且通常涉及多個團隊(例如資料庫、法律或許可團隊)來支援資料基礎架構,這會增加任何與資料相關的專案的複雜性。因此,人機互動 (HCI) 領域專注於使技術對人們有用和可用,可以幫助識別潛在問題並評估與資料相關的工作不優先時對模型的影響。

在 2021 年 ACM CHI 會議上發表的“‘Everyone wants to do the model work, not the data work’: Data Cascades in High-Stakes AI”中,我們研究並驗證了隨著時間的推移導致技術債務的資料問題對下游的影響(定義為“資料級聯”)。具體來說,我們透過全球 ML 從業者在重要 ML 領域的資料工作來說明資料級聯現象,例如癌症檢測、滑坡檢測、貸款分配等——ML 系統在這些領域取得了進展,但也在那裡有機會透過解決資料級聯來改進。這項工作是我們所知道的第一個將 ML 中的資料級聯應用於實際專案的形式化、測量和討論。

我們觀察到資料級聯的起源通常是在機器學習系統生命週期的早期,即資料定義和收集階段。 級聯在診斷和表現方面也往往是複雜和不透明的,因此通常沒有明確的跡象、工具或指標來檢測和衡量其影響。 因此,與資料相關的小問題可能會演變成更大、更復雜的挑戰,從而影響模型的開發和部署方式。 來自資料級聯的挑戰包括需要在開發過程的後期執行代價高昂的系統級更改,或者由於資料問題導致模型錯誤預測而導致使用者信任度下降。 儘管如此,令人鼓舞的是,我們還觀察到可以透過對 ML 開發的早期干預來避免這種資料級聯。

機器學習中的資料級聯:被低估的資料,被高估的模型

上圖為高風險AI中的資料庫級聯。級聯是不透明的,而且會產生長時間的負面影響。級聯在上游觸發(例如,資料收集),並且對下游產生影響(例如,模型部署)。紅色粗箭頭表示資料級聯開始變得可見之後的複合效果;紅色虛線箭頭表示ML資料處理的放棄或重新開始。指標在模型評估、系統指標以及故障或使用者反饋中最為明顯。

資料級聯示例

資料級聯的最常見原因之一是在無噪聲資料集上訓練的模型部署在噪聲嘈雜的現實世界中。例如,一種常見型別的資料級聯源自模型漂移,當目標變數和自變數偏離時會發生這種情況,從而導致模型精度較低。當模型與新的數字環境(包括高風險領域,如空氣質量感測、海洋感測和超聲波掃描)密切互動時,漂移更為常見,因為這種情況下一般回包含訓練時不存在的資料或者出現未處理的異常資料等。這種漂移會導致更多因素進一步降低模型的效能(例如,與硬體、環境和人類知識相關)。在訓練時為了確保良好的模型效能,通常在受控的內部環境中收集資料。但在資源受限的真實環境的實時系統中,更常見的是收集帶有指紋、陰影、灰塵、不同亮度和筆標記等的資料,這些都是影響模型效能的噪聲。在其他情況下,雨和風等環境因素可能會意外移動部署中的影象感測器,這也會觸發級聯。正如我們採訪的一位模型開發人員所報告的那樣,即使是一小滴油或水也會影響可用於訓練癌症預測模型的資料,從而影響模型的效能。由於漂移通常是由現實環境中的噪聲引起的,因此它們也需要最長的時間(最多 2-3 年)才能顯現出來,而且幾乎總是在生產中。

另一種常見型別的資料級聯可能發生在ML從業者管理專業知識有限的領域的資料時。例如,識別偷獵地點或在水下探索期間收集的資料,這種型別的資訊依賴於生物科學、社會科學和相關領域方面的專業知識。但是我們研究中的一些開發人員描述了必須採取一系列超出他們領域專業知識的與資料相關的操作——例如,丟棄資料、更正值、合併資料或重新開始資料收集,這些都會導致資料級聯,限制模型效能。依賴技術專業知識而不是領域專業知識的做法似乎引發了這些級聯。

論文中提到的另外兩個級聯是由資料收集者、ML 開發人員和其他合作伙伴之間利益衝突造成的。例如,一個級聯是由一份不規範的資料集文件引起的。雖然與資料相關的工作需要跨多個團隊進行仔細協調,但當利益相關者在優先順序或工作流程上不一致時,這尤其具有挑戰性。

如何處理資料級聯

解決資料級聯需要在 ML 研究和實踐中採用系統的方法,多步驟的進行:

ML 系統開始時就要明確資料質量的概念,類似於我們對模型擬效能指標的看法。這包括開發標準化指標並經常使用這些指標來衡量資料,例如現象學中的保真度(資料表示現象的準確度和全面性)和有效性(資料對與資料捕獲的現象相關的事物的解釋程度),類似於我們如何開發良好的指標來衡量模型效能,例如 F1 分數。

建立創新激勵機制以認可資料工作,例如獎勵資料維護,或獎勵組織中資料工作(收集、標籤、清潔或維護)的員工。

資料工作通常需要跨多個角色和多個團隊進行協調,但目前這非常有限(部分但並非全部,因為前面提到的因素)。我們的研究指出了在資料收集者、領域專家和 ML 開發人員之間促進更大的協作、透明度和更公平的利益分配的價值,尤其是對於依賴於收集或標記細分資料集的 ML 系統。

最後,我們在多個國家/地區的研究表明,資料稀缺性在低收入國家很明顯,在這些國家,ML開發人員面臨著定義和手工管理新資料集的額外問題,這使得他們很難開始開發ML系統。所以這裡重要的是要開放資料庫,制定資料政策,以解決全球當前的資料不平等問題。

總結

在這項工作中,我們既提供了經驗證據,又將 ML 系統中資料級聯的概念形式化。 我們希望讓人們意識到資料卓越可能帶來的潛在價值。 我們還希望為 HCI 引入一個尚未探索但意義重大的新研究議程。

最後這篇論文的地址如下:

https://research。google/pubs/pub49953/

本文是與 Shivani Kapania、Hannah Highfill、Diana Akrong、Praveen Paritosh 和 Lora Aroyo 合作撰寫的。

相關文章