數據標注-參考報價篇



數據標注市場上需求公司的特點通過閱讀“如何運營一家數據標注公司(資源特點篇)”,我們應該已經有了一個比較明晰的認識,本文想要分享的是數據標注公司在與需求公司進行溝通合作時應該如何更加科學的進行報價。

所有行業的報價都是基於成本,因為數據標注員在數據標注公司的日常運營中成本占比最高,人工自然也就成為了數據標注公司運營中最大的成本因素。

同時數據標注行業與其他勞動密集型行業還有着一定區別。不同於工廠流水線上的工人,數據標注公司所對接的資源公司的需求是千變萬化的,這就要求數據標注員需要有很寬闊的視野、較強的理解能力;不同於從事單一繁重體力勞動的人工,數據標注公司所對接的資源公司對於數據的質量和准確度是否符合模型訓練的預期有着非常高的要求,這就要求數據標注員需要有敏銳的觀察能力、較強的耐心和一絲不苟的工作態度。

通過上面的分析,我們可以清晰的了解,在數據標注公司的日常運營中人工就是最大的支出。既然人工是數據標注公司最大的支出,那么問題來了,我們應該基於人工從哪些方面進行科學合理的報價呢?

因為員工每日的工時都是固定的,從效率角度出發,所以我們的報價需要從以下幾個方面進行綜合考量。

數據

這里的數據指的是資源合作方提供的需要標注的各類數據,在基於數據進行成本預估的時候,我們最重要的是需要注意以下2點:
1. 標注時間:這里指的標注時間就是按照資源需求公司的標注方法對圖片進行特征的標注,標注的方法可以按照從簡單到復雜的難易程度進行排序。如下所示:2D拉框<多邊型拉框<LandMark<點雲拉框<語義分割<VR打標,關於上述標注方法詳細解釋請參考“如何運營一家數據標注公司(數據處理分類篇)”。同時在標注的基礎上,我們還需要對標注對象進行一個分類打標,也就是給每個固定的被標注元素設置一個唯一的標簽。按照標簽從少到多進行排序,如下所示:

a) 單級唯一標簽:比如,圖中只需要對人或車等唯一元素屬性進行打標,有且只有一個需要進行打標的對象
b) 單級多個標簽:比如,圖中需要對人、車、動物等多個元素屬性進行打標,同時可以存在多個(不超過10個)被標注對象
c) 單級復雜標簽:比如,圖中需要對眾多(超過10個)元素屬性進行打標
d) 多級復雜標簽:比如,圖中需要對人、車等眾多元素進行打標的同時需要標注出車的種類,人的行進方向等等
標注時間方面的成本核算就是基於以上兩個重要因素,難度越高當然在實際標注中耗費的時間也就越長。

2. 判斷時間:這里指的判斷時間就是在實際標注前,對應標注元素進行識別和判斷,因為篇幅有限,這里對哪種判斷更為困難不做過多介紹,希望了解的朋友可以持續關注覺醒向量Blog更新,這里只對影響判斷的因素進行一個大致概括,其中包括有:
a) 被標注圖片的清晰程度:一般指圖中被標注元素是否可以清晰辨別
b) 被標注元素的專業化程度:類似於金融相關專業知識的快速判定、醫學影像中病變區域的打標,各類復雜地貌名稱的打標
c) 被標注元素關聯場景的復雜程度:這里關聯場景的復雜程度主要指光線場景(包括逆光、高亮等)、重疊場景(多個被標注元素相互重疊)、顏色場景(只有黑白色)
d) 被標注元素標簽的細化程度:這里的細化程度主要指被標注元素與采集鏡頭形成角度的需要標注出具體角度、被標注元素之間有遮擋關系的需要標注遮擋百分比、被標注元素包含復雜顏色的需要對復雜顏色進行區分等等
判斷時間方面的成本核算也是基於上面提到的幾點。同樣的,判斷難度越高,實際操作中花費的時間也就越長。

軟件
這里的軟件指的是數據標注中的操作工具,在基於軟件進行成本預估的時候,我們最重要的是需要注意以下2點:
1. 操作方面這里指標注軟件在實際標注過程中操作環境是否流暢,操作功能是否便捷。
2. 統計方面這里指標注軟件在標注完成后對實際標注的各類元素的分類統計是否足夠精確,對於各個標注員的產能是否能夠做到有效統計。
在實際使用標注軟件進行標注時,操作環境越流暢、功能越便捷,單位時間的產量也就越高,同時越強大的統計功能也同樣可以大大降低大規模標注人員的管理成本

規則
這里指和需求公司獲取的相關標注規則,在基於規則進行成本預估的時候,我們最重要的是需要注意以下2點:
1. 規則明確  這里指需求公司能夠提供完整的規則文檔,保證在標注過程中需求邊界清晰,不會讓標注員在同一個被標注元素的某個方面的判斷上左右為難。同時在明確的規則中又分為粗線條的規則細線條的規則
a) 粗線條的規則主要指需求方能在一般場景中將標注規則清晰的闡述出來,但是在很多情況下需求方並沒有進行過自測和相關標注,在標注中可能出現的若干特殊場景使得一般場景的規則並不適用。
b) 細線條的規則主要指需求方前期同樣花費了巨大的精力對相關數據進行標注,同時對各種特殊場景都做出了詳細的描述。
2. 規則籠統  這里指需求公司在籌備研發某項產品時按照預計的設想進行一個大致的規則整理,需要數據標注公司輔助需求公司在標注的過程中不斷完善相關規則
規則的明晰與否直接決定了數據標注生產的連續性,一邊對規則進行細化,一邊標注就會在實際標注環節走走停停,從而影響標注效率。

溝通
這里指和需求公司之間報價前的溝通,在基於溝通進行成本預估的時候,我們按照溝通成本的從低到高進行排序:
1. 溝通反饋迅速(這里指和需求公司溝通過程中能夠做到時時通話,這說明需求公司是有專門負責人對此項目進行對接)
2. 溝通反應良好(這里指和需求公司溝通過程中會有時間延時,一般不超過2個小時,說明需求公司同樣有專門負責人,但負責人可能同時負責了多個不同項目)
3. 溝通反應不佳(這里指和需求公司溝通過程中有較長時間延遲,一般超過6個小時,說明需求公司可能沒有專門負責人或者專門負責人的工作重心並不在此項目上)
4. 溝通反應較差(這里指和需求公司溝通過程中存在無回復等情況,說明需求公司大概率只是對於項目的合作有一個初步的想法,並沒有確定是否需要一定實施)。

良好的溝通是數據標注行業最最重要的一環。良好的溝通可以省去重復、返工等眾多的低效行為。同樣的,較差的溝通會使數據標注公司在標注的各個環節上成本極大的上升。

 

以上就是參考篇的所有內容,因為篇幅有限,這里基於數據、軟件、規則、溝通四個大類的內容並沒有完全展開進行逐一講解,特別是在關於軟件如何有效提高標注效率和管理這個方面只是做了籠統的介紹,如果大家對此方面有興趣,請持續關注覺醒向量官網www.awkvector.com及Blog更新,我們會在接下來更新的文章中,給大家詳細解惑。

閱讀原文請進入:http://www.awkvector.com/20181217/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM