如何快速准備高質量的AI數據?


摘要:隨着AI的快速發展,如何快速准備大量高質量的數據已經成為AI開發過程中一個極具挑戰性的問題!

本文分享自華為雲社區《如何快速准備高質量的AI數據?》,原文作者:徐波。

一、背景

通常來講,AI人工智能的三要素是數據、算法和算力。這三要素缺一不可,都是人工智能快速發展的必備條件。這一輪AI熱潮得以快速發展,也正是得益於這三個要素已經准備就緒。數據的質量會影響模型的精度,一般來說,大量高質量的數據更有可能訓練出高精度AI模型。現在很多算法使用常規數據能將准確率做到85%或者90%,而商業化應用往往要求更高,如果將要模型精度提升至96%甚至99%,則需要大量高質量的數據,這個時候也會要求數據更加精細化、場景化、專業化,這往往也成為了AI模型突破瓶頸的關鍵性條件。

而在大多數人工智能和機器學習項目中,數據准備和工程任務占了80%以上的時間,其中數據清洗和數據標注占了整個項目的50%左右。而數據准備非常消耗人力,如何快速准備大量高質量的數據已經成為AI開發過程中一個極具挑戰性的問題。

ModelArts是面向AI開發者的一站式開發平台,能夠支撐開發者從數據到AI應用的全流程開發過程,包含數據處理、算法開發、模型訓練、模型部署等操作。並且提供AI Gallery功能,能夠在市場內與其他開發者分享數據、算法、模型等。為了能幫用戶快速准備大量高質量的數據,ModelArts數據管理提供了以下主要能力:

  • 提供了數據預覽和多維篩選等功能方便AI開發者快速識別數據;
  • 提供了數據校驗、自動分組等數據處理功能加速數據清洗;
  • 提供了12種以上的標注工具來幫助用戶標注各個場景的數據;
  • 提供了智能標注、團隊標注等功能加速標注、保障標注質量。

更多功能請見ModelArts數據管理

ModelArts數據管理為准備高質量的AI數據提供的能力

本案例將以交通標志識別原始數據集為基礎,將使用ModelArts為您演示:

  1. 如何使用數據校驗功能快速對數據進行清洗;
  2. 如何使用自動分組功能從眾多數據中選出想要的數據;
  3. 如何使用標注工具快速完成標注;
  4. 如何使用智能標注等功能加速數據標注。

用戶只需要進行確認或者稍作調整即可完成標注,可以大大提高數據標注效率,節省用戶標注時間。

當您完成這個案例,您將掌握如何使用ModelArts快速准備大量高質量的數據。

二、准備

在開始之前,您需要進行相關的准備工作,包括注冊華為雲賬號、實名認證、ModelArts全局配置和OBS相關操作,詳細請參考此文檔。

三、操作

本次案例主要分為以下幾個步驟:①從AI Gallery下載數據集到ModelArts數據管理,② 數據校驗:處理非法數據, ③自動分組:刪除不想要的數據,④數據標注:對數據打標注,⑤智能標注:使用AI技術加速數據標注,⑥發布數據集:共享數據。

操作流程圖

1. 下載數據集

該案例的數據集名稱為“交通標志識別原始數據集”,已經上傳到AI Gallery,AI Gallery地址為https://marketplace.huaweicloud.com/markets/aihub/datasets/list/。進入AI Gallery后需要選擇數據欄,然后在AI Gallery搜索數據集名稱“交通標志識別原始數據集”,或者點擊數據集鏈接下載。

搜索數據集名稱“交通標志識別原始數據集”

“交通標志識別原始數據集” 詳情

選擇該數據集進行下載,配置數據集的目標位置(需要現在OBS創建桶和目錄),修改名稱為“交通標志識別”,可以根據自己的情況加上描述。點擊確認下載后,頁面會跳轉到“我的數據”頁面,這個時候可以點擊“我的下載”頁面查看下載進度。

下載“交通標志識別原始數據集”

下載進度

數據集詳情

2. 數據清洗

1)數據識別

當完成數據下載后,一般需要先進行數據識別,查看數據的大致情況,比如有多少數據、數據是什么樣的、是否需要清洗等。這個時候可以點擊“開始標注”,可以對數據進行預覽,可以看到數據集樣本列表。總共706張圖片:交通標志識別數據500張,其中100張已標注,400張未標注;植物200張;其他數據6張。樣本列表中的圖片也會展示標簽信息,右側有該數據集的全部標簽信息。目前已有的標簽為:

標簽信息

數據集樣本列表

2) 數據篩選

進行數據查看時往往數據對數據進行篩選,選擇自己想看的數據。這個時候可以點擊篩選條件右側的展開,選擇相關條件進行篩選。ModelArts數據管理支持對標簽名稱、文件名稱、標注人、樣本屬性、難例信息等進行篩選。也可以選擇多個篩選條件同時進行篩選。

數據篩選

比如想查看標簽名為“green_go”的樣本列表信息,則可以直接選擇標簽名進行查看。

標簽名為“green_go”的樣本列表。

實際應用場景中數據往往夾雜着非法數據,需要對數據進行清洗。該數據集也有相關非法數據:編碼錯誤2張(badencode1.jpg,badencode2.jpg)、圖片后綴錯誤2張(badsuffix1.png,badsuffix2.png)、單通道2張(badchannel1.jpg,badchannel2.jpg)。比如根據文件名“badencode1.jpg”查看非法數據,可以看到圖片加載異常,因為圖片編碼有問題。

根據文件名“badencode1.jpg”查看非法數據

3) 創建“數據校驗”類型的數據處理作業

ModelArts數據處理提供了“數據校驗”功能,可以對數據進行檢查。可以去ModelArts主頁下的數據處理頁面創建數據處理作業。

數據處理頁面

創建數據處理作業時可以修改作業名稱為“datavalidate”,選擇場景類別“物體檢測”,數據處理類型為“數據校驗”,輸入為數據集“交通標志識別”的V001版本,數據為數據集“交通標志識別”V002版本。

創建“數據校驗”類型的數據處理作業

4)查看數據校驗作業結果

數據校驗結果確認:等待數據處理作業完成,預計需要幾分鍾。等待作業“datavalidate”完成后可以查看數據,選擇輸出數據集為“交通標志識別”V002版本,這個時候會提示是否切換版本,點擊是,會切換版本,並且跳轉到數據集頁面,展示數據集詳情。如果不切換版本,數據集展示的還是數據校驗前的數據,可能會導致后面的步驟失敗。查看結果,可以看到只有704張圖片,2張編碼格式有問題的已刪除,后綴不對的2張和單通道的2張圖片已修改。即已經對數據集完成數據清洗。

選擇查看輸出數據集版本

根據文件名“badencode1.jpg”查看,非法數據已被清洗

3. 自動分組

1) 啟動任務

在對數據校驗之后,發現數據中有500張交通標志的圖片,200張植物的圖片,4張其他的圖片。如果前面數據未順利獲取到,可以直接選擇從AI Gallery下載已進行數據校驗的數據集:交通標志識別已校驗數據集 。可參考下圖下載對應階段已處理好的數據:

對應階段已處理好的數據

這個時候如果一張一張去挑自己想標注的數據,或者刪除不想要的數據,會很慢很耗時。 這個時候可以選擇啟動自動分組功能,對交通標注數據和植物數據進行分組。進入頁面為全部,然后點擊自動分組就可以啟動任務。

啟動自動分組任務進行數據選擇

啟動自動分組任務時填入分組數為3,屬性名稱為group(也可以自定義),點擊確認,等待任務執行。自動分組任務會在右上角展示。

啟動自動分組任務,填入參數

自動分組進展查看

2) 任務結果查看

自動分組運行完后,可以在全部頁簽展開篩選條件,選擇樣本屬性“group”,再選擇屬性值來查看結果:樣本屬性為“group”,值為0和1的基本為交通標志識別數據,區分在於兩個拍攝場景不一樣。樣本屬性為“group”,值為2的基本為植物數據。

樣本屬性為“group”,值為0的篩選結果

樣本屬性為“group”,值為1的篩選結果

樣本屬性為“group”,值為2的篩選結果

3) 刪除數據

這樣數據就已經完成分組,而且分組結果比較准確。我們可以根據結果,將植物數據進行批量刪除。點擊圖片列表右上角的“選擇當前頁”,選擇所有數據,然后瀏覽一遍數據,如果發現已選的數據中有想要的數據,可以取消選擇該圖片,處理完后再點擊“刪除圖片”,即可完成批量圖片刪除。刪除完成后,基本只剩交通標志識別的數據了。

批量刪除不想要的圖片

4. 數據標注

在完成數據清洗,刪除不想要的數據后,需要對數據進行標注。此時數據還剩大概500張圖片。如果前面數據未順利獲取到,可以直接選擇從AI Gallery下載已進行數據清洗的數據集:交通標志識別已清洗數據集

在數據集樣本列表頁面,點擊“未標注”頁簽,篩選條件中樣本屬性為“group”,值為0,即可看到交通標志數據數據集中第一個場景的數據。更多使用信息可以查看用戶指南

“未標注”頁簽樣本屬性為“group”,值為0的樣本列表

標注工具說明

點擊任意一張圖片即可進入樣本詳情頁面進行標注,標注頁面會有標注工具欄、圖片詳情展示、圖片列表、標簽列表、圖片切換等功能,如下圖所示。

圖片標注頁面

選擇矩形框,左擊繪制選擇標注位置,然后選擇標簽,即可完成標注,點擊下一張會自動保存標注結果。也可以使用快捷鍵N切換到下一張。

進行數據標注

5. 智能標注

使用過程中可以感覺到物體檢測任務的標注工作量很大,而且手動標注效率不高,這個時候就可以使用智能標注功能來加速。

智能標注會對用戶未標注的數據進行自動標注,用戶只需要進行確認或者稍作調整即可完成標注。

智能標注主動學習的原理是使用已有的部分數據和ModelArts內置算法來訓練一個模型,然后使用模型對剩下未標注的圖片進行預測。其中快速型是監督算法,使用的是已標注數據進行訓練,精准型為半監督算法,使用的是已標注和未標注的數據進行訓練。用戶也可以選擇自己的模型進行智能標注,這個時候可以選擇智能標注的預標注功能,同樣能得到自動標注的預測結果。預測完成后,人只需要對預測結果進行准確性的檢查,預測准確的圖片就直接使用算法標注的結果,預測不准確的就人工修正一下標注,這種人機協作的方式,就能大幅度提升標注效率,節省用戶標注時間。

1) 啟動智能標注

啟動智能標注前,建議每個標簽標15張以上,這樣進度會更高。點擊樣本列表的右上角“啟動智能標注”,使用默認選項即可,點擊提交即可開始智能標注。

啟動智能標注入口

確定啟動智能標注

2) 查看智能標注進展

提交智能標注任務之后即會跳轉到智能標注進展頁面,也可以點擊“待確認”頁簽查看任務進度。

智能標注任務進展

3) 確認智能標注結果

智能標注運行完成后,可以在“待確認”頁簽看到智能標注結果。

智能標注結果列表

未標注402張,智能標注結果也是402張。點擊具體的圖片進入詳情頁面確認。確認標簽准確性,如果准確,直接可以點擊“確認標注”,如果發現不對,可以調整標注結果再點擊“確認標注”。

確認智能標注結果

6. 發布數據集

1) 發布數據集版本

完成數據標注之后可以發布數據集版本,可以選擇數據切分和寫入描述,也可以不選。

發布數據集版本

發布完成之后會生產固定化的版本,記錄總共多少樣本,已標注多少樣本。也會生成manifest文件。Manifest里面會記錄所有樣本信息及其標注文件存儲信息,對於物體檢測,標注未見為Pascal VOC形式的XML文件,詳細描述請見官方文檔

版本詳情

2) 發布數據集版本到AI Gallery

在發布完數據集版本后,可以在ModelArts訓練中選擇該版本進行訓練,也可以將該數據集發布到AI Gallery,共享給其他用戶。進入AI Gallery下的數據頁面,點擊“發布”按鈕,填寫發布數據集的名稱,比如“HDC2021--交通標志識別數據集”,選擇數據集名稱“交通標志識”和版本“V003”,選擇數據類型為圖片,選擇許可類型。點擊發布即可。

AI Gallery發布數據集

發布數據集到AI Gallery

發布完數據集之后可以點擊編輯按鈕,完善數據集信息,包括數據集首頁

點擊編輯完善數據集信息

至此,本案例完成。

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM