深度學習之數據處理方法綜述

本文轉載自查看原文 2022-03-16 16:45 638 江湖月報

深度學習之數據處理方法綜述

一、數據對人工智能的重要性

在實現以深度學習為主的人工智能任務的過程中，有三大基本要素是缺一不可的，那就是算力、算法、數據（點擊查看：實現人工智能的三要素）。

其中算力的大小和硬件直接相關，比如GPU、DPU、NPU、TPU等等（點擊查看：CPU、GPU、DPU、TPU、NPU...傻傻分不清楚？實力掃盲——安排!）。

而算法的優劣基本都是和網絡模型結構、激活函數、損失函數、優化函數等相關，工業界常用的算法基本都是開源的，除非一些特殊任務需要專用的算法來實現，其他大部分任務都是基於開源算法而實現的。

在算力和算法都基本已經確定的前提下，數據在實現一般的深度學習任務的過程中，可以說起到了決定性的作用，可以認為數據對深度學習任務最終效果的影響，其下限很低、上限很高，也就是說，如果數據質量有問題，可以讓一個好的模型變寶為廢，而如果數據的質量非常高的話，也可以使得一個平庸的算法模型發揮出超常的效果。

近幾年，隨着硬件算力設備和算法模型逐漸在標准化、模塊化發展的趨勢下，數據成為了最不可控的變量。從算力、算法、數據三大基本要素來看，算力是最容易作為標准化來衡量的，而且通用性最高，可以在任何深度學習任務中都能夠使用，比如使用Tesla V100可以做一般的檢測分類任務、分割任務、生成任務，也可以做普通的語言模型任務、強化學習模型任務等。

其次是算法，算法雖然沒有像算力一樣有那么高的標准化發展，但是常用的算法模型也基本能夠解決大部分相似的任務，比如做檢測識別的YOLO系列、做圖像分割的UNet系列、做圖像生成的GAN系列、做語言生成模型的GPT系列等等，這些算法模型不會隨着具體的任務數據變化而變化，比如對動物進行分類和對植物進行分類，都可以使用YOLO模型。

數據作為三者之中不容易用標准化的元素來說，其不可控的原因主要是由於不同的任務要使用不同的數據集，所以很難對數據做到真正的標准化和模塊化，無法像算法模型一樣直接對其調用。在學術界，真正通用的數據就那么幾個，比如COCO數據集，VOC數據集，ImageNet數據集，都是用來發表論文時使用的，在工業界，大多數任務都是指定的數據，無法直接使用這類數據集的，最多也就是使用其數據作為預訓練的模型。比如很多知名的神經網絡模型，像早期的ResNet，后來的Efficientnet，以及YOLO系列近期發出的最強的版本YOLOX，都是在COCO數據集上作比較。而工業界都是根據各自的任務來選取或者采集相關的數據的。

數據對於深度學習任務結果的影響，主要體現在數據的數量和質量，數據的數量比較容易理解，簡單來說就是加大數據量。而要把控數據的質量就比較復雜了，因為在整個數據的處理過程當中，每一個環節都有可能會對數據的質量造成影響，而數據上輕微的影響有可能會造成最終結果上的差距。連全球人工智能著名學者吳恩達都說人工智能=80%數據+20%算法。

在人工智能項目的研發過程中，基本上80%的工作量都花在了數據處理上。

二、何為數據處理

一般來說，數據處理（data processing）是對數據的采集、存儲、查找、加工、變換和傳輸。根據處理設備的結構方式、工作方式，以及數據的時間空間分布方式的不同，數據處理有不同的方式。不同的處理方式要求不同的處理工具。每種處理方式都有自己的特點，應當根據應用問題的實際環境選擇合適的處理方式。

數據處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數據中抽取並推導出對於某些特定的人們來說是有價值、有意義的數據。

數據處理是系統工程和自動控制的基本環節。數據處理貫穿於社會生產和社會生活的各個領域。數據處理技術的發展及其應用的廣度和深度，極大地影響了人類社會發展的進程。

現實生活中很多原始數據都是雜亂的、非結構化的數據，無法直接拿來使用，需要按照使用要求對原始數據進行一定的處理，比如刪除無用信息、對數據結構重新排列組合、對不同的數據指定對應標簽、增強或減弱某些數據的特征，甚至從頭開始采集或生成一些需要的數據。

利用好非標注數據或者數據標注自動化是降低成本和時間的有效思路。

在以深度學習為主的人工智能應用中，數據處理幾乎貫穿了模型的訓練和使用過程，在模型的訓練開始前，需要對原始數據進行一定的處理，一方面要去除原始數據中重復的數據和錯誤的數據，另一方面也要讓數據的形狀和類型能夠適應模型的輸入格式；

在訓練過程中，需要對模型每一層輸出的特征數據都要進行標准化處理，讓其保持在一定的量綱范圍內，從而來保持模型良好的梯度和收斂性；

在模型使用的過程中，需要對輸入的數據進行預處理，比如對圖像數據去噪、直方圖均衡化等操作（點擊查看：CV任務中如何解決圖像光照度不均勻的問題），讓其噪聲能夠降得更低，光照色彩等更均勻，更好的適應模型的特征預測。

有的時候，當原始數據不夠豐富的時候，還需要對原始數據進行增強處理，也就是換一種方式來增加數據的數量和多樣性，能夠讓模型學習更多的數據特征，比如對數據隨機裁剪、偏移、縮放、旋轉、扭曲，以及光照色彩等方面的變化，甚至還會對圖像增加一些噪聲、遮擋等操作，其目的都是為了增加數據的數量和多樣性。

三、數據處理流程

在以深度學習為主的人工智能任務流程中，一開始要做的就是數據的處理，因為有了數據，網絡模型才能夠訓練，數據處理的步驟主要有以下幾個環節：

01 數據采集

要做數據的采集，首先要明白什么是數據。按照標准的解釋，數據（data）是事實或觀察的結果，是對客觀事物的邏輯歸納，是用於表示客觀事物的未經加工的原始素材。

數據可以是連續的值，比如聲音、圖像，稱為模擬數據；也可以是離散的，如符號、文字，稱為數字數據。

在計算機科學中，數據是指所有能輸入計算機並被計算機程序處理的符號的介質的總稱，是用於輸入電子計算機進行處理，具有一定意義的數字、字母、符號和模擬量等的通稱。計算機存儲和處理的對象十分廣泛，表示這些對象的數據也隨之變得越來越復雜。

在深度學習中所使用的數據，其本身是存在於現實世界的，是雜亂的、隨機的、數量是無法確定的，因為現實世界中無時無刻都在產生各種不同的新數據。而我們要使用的數據一般是結構化的、有規律的、確定數量的數據，所以一般數據采集就是從現實世界的數據中進行采樣，這一過程就是完成從現實世界把數據轉移到我們當前任務環境中的過程，值得注意的是，在采樣過程中，要保證采樣的數據分布規律和現實世界中的數據分布規律一樣，因為只有這樣，采樣得到的數據在一定程度上才能能夠代替現實世界中的數據。

采集數據的終極目標是為了讓網絡模型訓練數據，獲取數據中的特征，能夠對具有同類目標的圖像數據進行預測。所以實際要采集什么樣的數據，要看所對應的任務是什么，比如要解決的任務是貓狗分類，那么采集的數據就是帶有貓和狗的圖像數據，采集了帶有貓狗的圖像數據后，就可以訓練模型，訓練結束后，該模型就具有了預測貓和狗的能力。

由於現實環境是變化的，所以采集數據要適應環境的變化，比如要采集不同季節中的戶外環境中的數據、同一天中不同時間點的數據，同一目標出現在不同地點的數據，總之要適應光照變化、顏色變化、對比度變化、幾何形狀變化、遮擋變化等因素。所采集數據的環境越豐富，說明采集到的數據越接近於現實環境，訓練出的模型對現實環境的數據模擬泛化性能也越好。

數據的采集方法有很多，其中主要的采集方法有人工收集、系統采集、網絡爬取、虛擬仿真、對抗生成、開源數據等。

人工收集就是讓相關工作人員到實際的生產環境中去采集，比如拍攝圖像視頻數據、截取信號數據等；系統采集是指某些專業的數據采集，其本身的主要功能就是在各種環境下采集並保存上傳數據，這樣就可以避免人工采取了；網絡爬取就是使用網絡爬蟲工具爬取網絡上的數據，一般來說網絡上的數據噪聲較大，爬取后還需要人工檢查一遍；虛擬仿真是指在虛擬的工作環境中生成所需的數據，比如車牌生成器就是一個虛擬仿真工具；對抗生成是使用生成式對抗神經網絡（GAN）來生成數據；開源數據一般是學術研究機構或者一些AI大企業收集后開放出來的數據，我們一般在學習期間所使用的一些數據基本都是開源數據，比如MNIST數據集、COCO數據集、VOC數據集等。

數據采集的操作相對來說也比較簡單，但是要遵循一個原則，那就是采集的數據樣本要能體現整體數據樣本的分布規律，所以要科學采樣，防止數據不均衡。

02 數據標注

雖然前面說了采集數據的終極目標是訓練數據獲取特征，但是在這之間還是相隔了很多步驟的，其中之一就是數據標注。為什么要對數據進行標注呢？不標注的數據能不能參與訓練呢？這個答案不是一定的。

一般來說在監督學習中，數據一定要被標注才能參與訓練，因為監督學習的定義是數據和標簽是一對一的，也就是說，有一張貓的圖片，那么就要定義一個貓的標簽，告訴模型這是一只貓。

而在半監督學習中，數據不必和標簽一一對應，數據中只要有部分標簽即可，其他無標簽的數據在學習過程中向以往學習到的數據特征來靠近，特征和以往學習到的數據的特征接近的，被認為屬於同一標簽下的數據。這就好比人只認識一部分品種的狗，但是遇到以前沒有見過的狗種，也基本不會認錯，大概率還是會判斷這是一只狗，而非貓。

在無監督學習下，一般來說，數據不需要標簽就可以直接參與訓練，但是在深度學習任務中，模型的學習都是依賴於損失函數來定義誤差，再通過誤差進行反向傳播梯度而更新參數的，所以損失函數的結果一般就是模型的輸出和標簽之間的誤差，那么對無監督學習的損失該如何定義？

其實對於無監督學習方法，主要是說的沒有人為的特意去標注標簽，並不代表沒有天然的標簽，比如檢測和識別圖像中的一只狗，就需要人為的定義圖像中狗的位置和類別，而在自編碼模型中，就不需要認為的定義任何標簽，因為模型學習的目標就是圖像本身，而非圖像中的目標位置和類別，比如生成數字的案例中，輸入是一張數字圖像，最終模型輸出是經過一定方差擾動的數字圖像，本質上還是數字本身，這就和一個人寫了兩個數字5一樣，都是5，但是字體形狀的細微程度不一樣。在這種自編碼模型中，損失函數的值就是模型的輸出圖像和輸入圖像。

數據標注的工作一般是借助標注工具來完成的，其中圖像視頻數據的標注工具又占了大部分，常用的圖像視頻標注工具有labelme、labelbox、labelimg、精靈標注助手等工具，值得一提的是精靈標注助手是一款非常強大的免費標注工具，標注類型涵蓋了圖像數據、視頻數據、語音數據、文本數據、3D點雲數據，而且適應目前主流的操作系統。

數據標注的類型包括了圖像數據標注、視頻數據標注、語音數據標注、文本數據標注、3D點雲數據標注。標注的方式有人工標注、半自動標注、自動標注、眾包等。具體選用哪種方式標注數據，要看數據量和數據的類型，有些通用數據是開源采樣自動標注方法的，比如使用訓練好的人臉檢測模型來標注人臉框的位置，而有些特殊數據只能使用人工標注的方法。

03 數據增樣

數據增樣一般也稱為數據增強，如果數據在采樣過程中就已經包括了各種復雜環境下的數據，那么可以不用進行數據增強，但是現實情況是，我們大部分數據都是不夠完善的，也就是不足以表達真實環境中的數據分布情況，這個時候重新采集數據又比較困難，於是就有了數據增強，所以數據增強的本質原因是由於原始數據無論是從數量還是質量上來說都不夠豐富。

值得說明的是，無論我們采集到的數據有多豐富，大部分模型在做了數據增強后，在最終的效果上還是有很大的提升的，這是因為數據增強的方法中經常會加入一些極端情況下的數據，而這種極端情況下的數據在現實環境中一般很難采集得到。但是也有一些小模型在做了擾動過大的數據增強后，在最終識別效果反而會下降，這一點在YOLOX中就有體現。這是因為小模型對於復雜數據處理的能力並不強，增加了數據的復雜度反而會擾亂模型原來的梯度策略，這就好比對於一個認知並不高的人講一些過於高深的理論，最終可能會讓其現有的認知崩塌。

數據增強方法一般分為光照變換、幾何變換、遮擋變換、混合變換等。

其中光照變換包括了隨機亮度變換、對比度變換、色彩度變換、飽和度變換、噪聲變換。

幾何變換包括了隨機縮放、裁剪、翻轉、旋轉、平移等變換。

遮擋變換包括了圖像馬賽克、隨機圖塊刪除等。主要方法有以下幾種：Random erase

（隨機刪除，在圖上隨機遮擋某一部分的像素）、Cutout（裁剪，按照一定的間隔遮擋N*N像素大小的小格子，是具有規律的，一般是等距間隔的小格子，N一般取2或4很小的值，類似於給圖片加噪聲）、hide and seek（裁剪，按照更大的間隔遮擋N*N像素大小的小格子，是具有規律的，一般是等距間隔的小格子，N一般取值更大一些）、Grid Mask

（網格掩碼，是有策略的遮擋，而非隨機遮擋，采用的方法是先把圖像進行分成不同的格子，然后按照一定的方法去挑選遮擋某些格子。遮擋的效果取決於格子的大小和被遮擋的格子數量。類似於增加正樣本的權重）、Dropblock（對圖像數據使用dropout，然后再將多個dropout之間連成塊，以此達到遮擋的目的）。

混合變換主要是指圖像融合操作，一般是將兩張不同的圖像融合成一張圖像，以此來增加數據的多樣性。

也可以通過分割模型background matting來替換圖像背景完成數據增樣的目的。

04 數據清洗

數據清洗，顧名思義，就是清洗掉無用的噪聲數據，留下有效的數據。那么我們的主要工作就是如何區分噪聲數據和有效數據，在數據世界中，有一個常識必須要搞清楚，那就是無論任何數據，都包括了有效數據和噪聲數據，只是有的數據中的有效數據多，有的數據中的噪聲數據多。

所以要明白真實數據≠理想數據，理想數據=有效數據，而真實數據=有效數據+噪聲數據，噪聲數據就是影響最終結果的冗余數據，數據清洗的目的就是清洗掉這部分數據。

數據清洗方法主要有數據去噪、脫敏、缺失處理、查重、刪除錯誤數據等。

其中刪除錯誤數據可以通過代碼工具來實現，也可以人工實現，無論是數據本身選擇錯誤，還是標簽標注錯誤，都可以通過工具或人工的方法刪除錯誤數據，或者重新標注。一般來說，如果被清洗的數據本身是比較常見的數據，比如人臉數據或者常見物體數據，可以使用現有的成熟模型直接預測判斷刪選，如果是不常見的數據，就需要人工刪選數據了。

數據查重是指數據集中存在着同一條數據，比如同一張圖像，同一條文本、語音等。對於數據的查重，其方法相對來說比較簡單，最簡單的方法就是統計一下每條數據的均值方差，如果有均值方差相同的數據，就認為是同一條數據，可以直接刪除。

數據的缺失處理是指在某些缺失的數據中補全缺失的部分，一般對於缺失數據的補全，可以使用插值的方法來補全，具體插值方法有臨近插值、中值插值、均值插值、眾數插值、最大最小值插值等，具體方法根據實際任務而定，除了插值方法來補全數據，還可以通過生成模型來生成新的數據來補全數據，比如對於圖像缺失部分的補全，使用生成模型也是比較好的選擇。除了插值補全方法，還有最小二乘法補全方法，這是基於最小二乘法的原理，補全數據，使補全后的數據整體的離差平方和最小，這一般是方差分析中處理缺失值的一般方法。也有基於REML的方法估計，REML混線性模型本身可以處理非平衡數據，它也可以作為估計缺失值的一種，它估計出來的缺失值比最小二乘法要准確，應用比較廣泛。

數據脫敏是指將原數據中對模型訓練無用的某些敏感的信息去除，從而能夠安全的讓訓練人員的使用數據，比如醫療數據中的患者的信息就屬於敏感信息，而這部分敏感信息又對模型的訓練沒有任何幫助，就可以去除這部分數據信息，從而讓更多的人能夠使用數據。

數據去噪是數據清洗過程中最復雜的一項，其主要因素就是如何定義噪聲，也就是如何區分模型真正需要數據信息和其他冗余信息。一般來說，廣義上的數據去噪就是數據清洗，對於錯誤數據、缺失數據、重復數據等都可以看作是噪聲數據。我們這里所說的數據去噪是狹義的概念，也就是真正的數據噪點，比如高斯噪聲、椒鹽噪聲等，對於這類數據的噪聲，一般是平滑濾波去除掉噪聲部分，一般噪聲部分的梯度要高於其他部分的梯度，去除了噪聲，在模型的預測過程中，會讓預測精度又更高的提升。

一般在深度學習任務中，在模型訓練階段，我們對於一些非常干凈的數據，經常通過增加噪聲的方法來增強數據的多樣性，這是因為在模型實際的使用過程中，我們獲取的真實數據不會太過於理想化，也就是不可能太過於干凈，經常會包括各種噪聲，所以在模型訓練期間增加噪聲是為了讓模型的泛化性能更好，在模型預測使用期間，對輸入數據去噪是為了讓真實數據的噪聲更小，從而讓模型能更好的擬合數據。

05 數據標准化

數據標准化就是統一數據的量綱，讓不同維度的數據都能夠適應某一規則的約束。比如在預測某一地區的房價的時候，模型輸入的數據是房子的面積和房子的房間數量，輸出是對房子預測的價格。我們會發現輸入的房子面積范圍可選擇性很大，基本從10㎡到1000㎡都可以，而房子的房間數量范圍一般不會太大，比如是1-20間左右。

如果我們直接把這些數據輸入模型會發現，面積的數據取值范圍過大，而房間數量的數據取值范圍太小，到最后模型學習到關於房間個數的權重要比房子面積的權重更大，會讓模型優先擬合房間個數的特征，而實際上我們在訓練模型的時候對這兩者之間並沒有分配各自的權重比例，也就是二者應該是同等的。

這個時候我們就需要將面積數據和房間數量的數據統一在同一量綱下，這個量綱大家可以理解為衡量物體的單位，但並不是所有量綱都是基本有單位的，比如上例子中的㎡、間數就是基本單位，而表示速度的m/s就不是基本單位，是有m和s兩個基本單位組成的組合單位或者叫導出單位。

數據標准化后，不僅能夠更好統一表達各種不同量綱下的數據，還能消除奇異數據，減小數據中的離群點對模型訓練的影響；也能讓模型的收斂更加穩定。

數據標准化不只是發生在數據出入網絡模型之前，更多的是在網絡模型中對數據進行標准化操作。一般來說在數據輸入網絡模型之前，對數據進行標准化處理是為了統一原始數據的量綱，減小異常數據對於模型訓練的影響，更好的獲取數據中有效的特征。

在網絡模型訓練過程中，對網絡層中的特征數據進行標准化是為了防止模型在訓練過程中出現梯度爆炸、梯度彌散等情況的發生，也能在一定程度上防止模型的過擬合。在訓練過程中做了數據標准化后還會加快模型的訓練速度。

神經網絡學習過程的本質就是為了學習數據分布，如果我們沒有做歸一化處理，那么每一批次訓練數據的分布不一樣，從大的方向上看，神經網絡則需要在這多個分布中找到平衡點，從小的方向上看，由於每層網絡輸入數據分布在不斷變化，這也會導致每層網絡在找平衡點，顯然，神經網絡就很難收斂了。

如果我們只是對輸入的數據進行歸一化處理（比如將輸入的圖像除以255，將其歸到0到1之間），只能保證輸入層數據分布是一樣的，並不能保證每層網絡輸入數據分布是一樣的，所以也需要在神經網絡的中間層加入歸一化處理。

根據損失函數（out-y）² 來看，如果想要損失下降的更快，最好將輸出和標簽數據處理到一定范圍內會更好。所以，這樣就形成了數據從輸入之前要做標准化，以及網絡中間層做標准化，一直到輸出時根據標簽限制輸出范圍。就形成了一個完整的標准化流程。輸出的標准化范圍應該和標簽的標准化范圍一致。

在數據的標准化方法中，常用的有Batch Norm、Layer Norm、Instance Norm、Group Norm

除此以外還有不太常用的Switchable Normalization、Filter Response Normalization

關於各種數據標准化的具體過程不再贅述，后期我們會發布專門針對數據標准化處理的文章，來詳細介紹各種數據標准化的過程細節。

四、數據的划分

按照深度學習任務的項目流程，我們一般會將數據划分為訓練階段使用的訓練集、驗證階段的驗證集、測試階段的測試集。

一般在拿到處理過的數據后，會對數據進行切分，按照模型訓練和使用的流程，我們一般會按照訓練集、驗證集、測試集的需求將數據分割為6：2：2到8：1：1之間的比例，根據具體需求也會有其他比例的分割，各類數據之間是沒有交集的，分割的目的是為了更好利用數據，讓模型能夠學習到更多的數據特征，同時又能驗證模型的性能，測試模型在實際環境中使用情況。

訓練集一般是需要經過模型反向傳播算法更新梯度來學習數據特征的，而驗證集只需要經過前向模型輸出結果即可，目的就是驗證訓練的結果是否達標，而測試集就是就是在模型經過驗證合格后再進行的最后測試。這就好比我們平時上課學習知識就是在訓練我們自己，而課后作業和階段測試就相當於驗證平時學習的成果，期末考試就是最終測試一樣，需要拿出最后的結果。

如果參與訓練的數據本來就少，可以采用交叉驗證的方法。交叉驗證，顧名思義就是把訓練數據和驗證數據交叉使用，從而來提高數據的利用率。比如將數據切割成10份，讓模型訓練十次，第一次訓練時先拿出前9份參與訓練，第10份用來驗證，獲得一個驗證分數；第二次訓練拿出前8份和第10份來參與訓練，第9份用來驗證，獲得第二個驗證分數，以此類推，在訓練集和驗證集數據不重合的前提下，所有數據都能參與訓練和驗證，從而獲取10次驗證的分數，最后將獲取的10次驗證分數做平均，拿到最終的驗證分數，這樣在利用小數據的情況下也能做到比較精准的驗證分數。

后記：數據處理在實現人工智能的過程當中越來越重要，一個好的AI應用，除了硬件的優勢和算法的優勢之外，剩下的就是看數據對於AI模型應用的影響了，無論是比賽項目，還是發表論文，亦或者是實際工程項目，將數據的優勢發揮到最大，都將是最終角逐的挑戰之一。隨着人工智能的發展，數據的處理也將從人工處理逐步發展到半自動處理，甚至完全由AI自動處理的過程，但是在短期內，對於數據的處理還都是將由人工來完成的。

本文內容由深度人工智能公眾號原創提供，轉載或摘錄請聯系作者注明來源！

深度人工智能是成都深度智谷科技旗下的教育信息平台，我們會為人工智能學習者呈現最實用的干貨技能，也會為人工智能從業者考取人工智能相關的證書提供報考服務，有意者可以聯系我們。

中國人工智能學會部分證書樣本：

工信部人工智能證書樣本：

文中所使用的部分圖片來自網絡素材，如果有侵權，請第一時間聯系我們刪除！

轉自：https://www.toutiao.com/group/7075219975090225664/

###################

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 3D目標檢測深度學習方法數據預處理綜述高光譜圖像處理深度學習方法綜述（一） TensorFlow深度學習實戰---圖像數據處理【深度學習框架】使用PyTorch進行數據處理深度學習情感分類常用方法（綜述）數據處理方法歸納《python深度學習》筆記---5.2-2、貓狗分類（圖片數據處理）深度學習進展綜述深度學習人臉關鍵點檢測方法----綜述《基於深度學習的圖像語義分割方法綜述》閱讀理解