數據標注的困境
眾所周知,機器學習主要分為兩類:監督學習(supervised learning)與無監督學習(unsupervised learning)。而監督學習離不開數據標注(data labeling),也就是依靠人工 找到groundtruth。
標注平台
標注平台這今年開年如雨后春筍般都紛紛出現在公眾視野,表現形式最直接的就是百度搜索的時候明顯增多了而且有很多用了百度的競價排名,其中不乏一些大廠的內部平台對外運營了,也有一些標注公司自己做的標注平台。
服務外包公司
這類公司目前是最多的了,同時也是支撐大部分平台類公司運營的關鍵。一個相對穩定收益的項目,這個年頭誰不願意做呢?
實際狀況
智能時代滾滾巨輪之下,一批批用於“人臉識別”、“自動駕駛”、“自然語言處理”的標注好的數據,正是出自這些學歷不高,每天對着電腦工作8到10小時的人手中——他們是“人工智能背后的人工”。經過采訪了多個數據標注服務商、數據標注工作室和數據標注者。據業內人士估計,中國全職的“數據標注者”已達到10萬人,兼職人群的規模則接近100萬。他們中有職高學生,有嘗試過40份工作的聾啞人,有從工地輾轉而來的新生代農民工……他們源源不斷地為人工智能的發展供應最重要的“數據燃料”——在現有的技術框架下,數據量越大,質量越好,算法模型就表現越好。可以說,數據決定着整個人工智能行業的發展態勢。但標注工作本身是一個勞動密集型工種,收入並不高。隨着技術的進一步發展,未來還有被取代的可能。許多數據標注者的父輩是參與了中國房地產奇跡的農民工。如今,父輩手里的鐵鏟變成了年輕人的鼠標、鍵盤,但和父輩一樣,他們仍是邊緣者。
燒錢速度有多快?
近年來,我們注意到,數據標注創業公司層出不窮。只要在圖片中標注一輛汽車,只需一秒鍾,就能輕輕松松一美元進賬。標注一段幾十秒視頻中的汽車,就能幾百美元進賬。數據標注的成本與需求都在節節攀升。據市場研究預測,到2023年,數據標注市場將達到10億美元的規模。
這些數據標注公司一般會開發出基本的物體識別算法,然后在人工成本較低的地區招人,培訓他們,讓他們找到機器識別中的錯誤,改正之后提交。比如,一些總部在硅谷的公司會在比較偏遠的州建立分部,進行數據標注。也有很多公司將業務外包給數據標注公司,這些公司的員工一般在非洲國家、印度或者其他人工成本較低的國家。對數據需求量大的公司,每個月支付給外包公司上百萬美元,才能滿足開發需求。
數據標注不僅消耗資金,也是訓練模型中最耗時的環節。從數據采集到最終標識,很可能要等待一個月的時間。嚴重影響了開發進度。因此,很多無人駕駛公司開始研究數據標識,希望不再依賴人力與第三方公司。
印度數據標注公司iMerit
數據標注無處不在
訓練無人駕駛的模型就需要理解各種障礙物的含義,就離不開數據標識。無人駕駛的數據標識主要可以用兩個維度來看。第一個維度是2D和3D的分別。2D一般指通過攝像頭捕捉到的數據,3D指激光雷達捕捉到的數據。第二個維度是語義分割(semantic segmentation)與畫框(bounding box)的分別。
2D畫框的例子
3D語義標注的例子
魚和熊掌不可兼得
數據標注的難點主要來源於兩個方面:速度與質量。速度慢了就滿足不了模型訓練的需求,而太快就會影響質量,質量低了就會影響模型的准確性。在資源有限的情況下,速度與質量往往魚和熊掌不可兼得。
我們可以通過兩種手段來解決這一矛盾:合理的流程和更自動化的機器學習技術。
首先來看流程。數據標識速度慢,或是質量低,其實很多時候不是技術的問題,而是流程的問題。數據從采集到產出,首先要被“篩選”,分發到數據標識人員的手上,然后被標識,標識的結果再被傳回來,最后需要抽檢,保證質量。這些步驟中很多地方需要改進。比如,哪類數據應該被篩選?質量不合格的標識該怎么辦?是否要退回重做?重做又需要時間,不重做就意味着需要更多的數據。對於資金不夠充足的公司,改進流程往往是最合適的手段。
從技術方面來看,近年來,AutoML(Automated Machine Learning)的概念越來越火,即端到端的全自動機器學習技術,可以自主調參,自主評估模型,從而縮短模型訓練的周期。但是,AutoML不是萬能的。至少在未來幾年里,我們都無法擺脫對人工數據標識的依賴。我們需要找到一種人機共生的方式,將人類對機器的幫助最大化。
歐洲數據標識市場中,人工標識的占比始終占大多數
人機共生(Human-in-the-Loop)
2020-2030這十年,將是人類探索與AI合作機會的十年。數據標注就是人類與AI合作最完美的途徑之一。利用機器學習技術進行視覺探測,雖然成本低、速度快,但是往往有一定的錯誤率。這時,就需要人類介入,告訴機器錯在了哪里。機器會記住這些人類提供的回饋信息,進一步訓練自己的模型,避免下次在類似場景中犯同樣的錯誤,從而形成了一個循環。
比如,AI探測結果是,某個交通信號燈的顏色是紅色,而人類檢查后發現應該是綠色,就通過某個前端工具點擊“錯誤”。開發團隊要盡快找到模型最需要的反饋信息,為人類標注員提供一個工具,將人類的反饋快速分享給機器。