ImageNet十年,AI資料標註如何蓬勃發展?

2016 年,AlphaGo 戰勝李世石,成為新一代 AI 浪潮的重要里程碑事件。

經此一役,很多人都認識到了演算法和算力對 AI 發展的重要性,確忽略了另一個重要因素:資料。

2009 年,時任斯坦福大學任助理教授的李飛飛,在CVPR 2009 上發表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文。來自全球 167 個國家近 5 萬名工作者以眾包的方式,透過三年合作努力,標註出 1500 萬影象,最終成為 AI 歷史上的有標誌性意義的資料集。

如此龐大規模的標註性資料,對 AI 領域計算機視覺技術的發展起到了極大的推動作用。從 2010-2016 年,李飛飛等發起的 ImageNet 挑戰賽成果取得了驚人的成績,其中分類錯誤率從 0。28 降到了 0。03,物體識別的平均準確率從 0。23 上升到了 0。66。

正是因為如此大規模標註圖片資料的出現,加上深度學習演算法的發展,以及晶片算力的指數型增長,引發瞭如今的人工智慧革命。

2017 年之後,ImageNet 挑戰賽不再繼續,演算法層面已經過擬合了,在 Top 5 上的結果也逼近飽和。ImageNet 挑戰賽完成了自己的使命,但是越來越多的影象、影片、語音、文字等資料集的出現,不斷推動著 AI 在不同領域繼續前進。

AI商業化落地:七分靠資料,三分靠trick

如今,AI 已經進入商業化落地的階段,然而 AI 演算法模型泛化能力依舊不夠,通用性較差,當前許多 AI 演算法都是資料驅動的,需要持續收集大量特定應用場景的資料,然後在應用中進行持續迭代。

《奇點臨近》的作者雷·庫茲韋爾表示,直到 2029 年,人類也才有超過 50% 的機率開發出通用AI。一些 AI 工程師表示“七分靠資料,三分靠trick”,可見資料對 AI 落地的重要性。

隨著 AI 對資料的要求越來越高,對於很多企業來說,定向收集並標註高質量的資料並不是一件易事,因此衍生出了專業的資料標註服務廠商,進行對應資料採集標註服務。

廠商透過自建資料場景實驗室和資料標註基地,目前已經實現為智慧駕駛、智慧城市、智慧家居、智慧金融、新零售等眾多領域提供高精度、場景化的資料採集、資料標註服務,全方位支援文字、語音、影象、影片等各型別資料的處理。

ImageNet十年,AI資料標註如何蓬勃發展?

據介紹,汽車、手機、工業、家居、金融、安防、教育、新零售、地產、生態系統等行業,涵蓋了計算機視覺、語音識別、自然語言處理、 知識圖譜等AI主流技術領域,其資料標註的最高交付質量精度最高可達到 99。99%。

AI 落地需要場景化的資料,有效的資料,才能保證落地之後的真正效果。IT 界有這麼句話“Garbage in, garbage out”,只有投入高質量的資料,才能得到有意義的結果。因此雲測資料等正在做的事情,其實就是幫助 AI 更好地落地。

資料標註不易:如何實現場景化資料生產?

想要做“好的資料”並不容易,現階段人工智慧技術對資料採集的需求相對複雜、聚焦,難度較大。同時,隨著人們對AI演算法識別準確的要求更上一個臺階,具有更高精準度的資料也成為模型訓練的重中之重。

現階段 AI 資料服務發展有著三個大趨勢:

1)“資料的精準度”將成為行業追逐熱點和重要突破項

隨著人們對人工智慧演算法識別準確的要求更上一個臺階,具有更高精準度的資料 也將成為訓練階段的主流需求。

例如,在自動駕駛領域,資料需求正向著多模態的方向發展。所謂多模態,即是對多維時間、空間、環境資料的感知與融合,提供全流程的資料採集標註服務。

ImageNet十年,AI資料標註如何蓬勃發展?

以基於鐳射雷達生成的3D點雲圖像標註為例,在標註工具方面,全面支援3D點雲標註、3D矩形框選、語義分割、目標跟蹤(用於標註點雲連續幀)、2D&3D融合標註等工具的使用,同時擁有快速切幀、複製功能、2D圖輔助框、有效標註區域、預置框、自動貼合等一系列提高標註效率和準確度的輔助功能。

ImageNet十年,AI資料標註如何蓬勃發展?

ImageNet十年,AI資料標註如何蓬勃發展?

2)人工智慧向垂直領域落地,場景化資料需求迎來增長

在演算法落地階段,經過研發與訓練之後,人工智慧應用從理論走向市場,對細分場景化的資料準確度提出更高要求。這些資料採集需求相對複雜、聚焦,難度較 大,對 AI 資料服務商的場景化採集能力提出了很高的要求。

3)資料採集標註服務商的“技術能力”將變得更加重要,資料的隱私安全依舊需 要完善

技術層面來講,隨著 AI 訓練資料需求多樣化,以及複雜程度的提升,客戶型別豐富、資料需求多樣、併發專案眾多等因素對廠商的能力和效率提出更高要求。

人工智慧對資料提出更高需求,展現了在人工智慧產業化落地程序中,資料發揮的重要作用。資料標註產業將會不斷髮展,推動 AI 領域催生出更多令人興奮應用和場景,助力 AI 大規模商業化落地,真正推動產業智慧化的發展。

ImageNet十年,AI資料標註如何蓬勃發展?

海南商湯科技有限公司是商湯科技全資子公司,2019 年 11 月入駐崖州灣科技城。立足三亞輻射海南全省,以“根據人工智慧產業規劃,打造一個智慧視覺開放平臺底座、孵化 N 個人工智慧應用、引來一批高層次人才”為目標,海南商湯逐步發展成為業態層次清晰、輻射能力突出、多行業拓展的三亞本土化人工智慧企業。

商湯科技以“堅持原創,讓 AI 引領人類進步”為使命和願景。公司自主研發並建立了全球頂級的深度學習平臺和超算中心,推出了一系列領先的人工智慧技術,包括人臉識別、影象識別、文字識別、醫療影像識別、影片分析、無人駕駛和遙感等。商湯科技已成為亞洲最大的 AI 演算法提供商。

作為全球領先的人工智慧平臺公司,商湯科技是中國科技部指定的首個“智慧視覺”國家新一代人工智慧開放創新平臺。海南商湯將用領先的人工智慧技術推動海南自由貿易港數字經濟發展、崖州灣科技高地打造,助力三亞成為“善政、興業、惠民”的美好城市及“一帶一路”戰略支點城市。

(如有侵權,請聯絡我們刪除)

相關文章