什么是非結構化數據(unstructured data)?


  什么是非結構化數據(unstructured data)?

  隨着AI和5G時代的到來,我們對信息的渴望被極大的喚起,常規的結構化數據交互已經不能滿足人們的需求,而伴隨着數字化的快速發展,非結構化數據扮演起越來越重要的角色,圖片、視頻、語音蘊含的豐富信息將被廣泛利用。然而真正能夠使用並且管理非結構化數據是現在人工智能領域的一大問題。

  據 IDC 預測,2018 年到 2025 年之間,全球產生的數據量將會從 33 ZB 增長到 175 ZB, 復合增長率達到 27%,其中超過 80% 的數據都會是處理難度較大的非結構化數據。預計到 2030年全球數據總量將達到 3,5000EB。

  隨着新興技術的快速發展,全球各大科技公司也提高了行業對非結構化數據的重視程度。物聯網、工業4.0、ADAS、自動駕駛和視頻直播等領域的發展所產生的,就是非結構化數據。而例如人工智能、機器學習、語義分析、圖像識別等技術則需要大量的非結構化數據來開展工作。

  由於非結構化數據的信息量和信息的重要程度很難被界定,如何對其進行有效的管理,是一個棘手的問題。

  和結構化數據相比,非結構化的數據最本質的區別包括三個方面:

(Fig 1:  “結構化數據”,“半結構化數據”和“非結構化數據”)

  (Fig 1: “結構化數據”,“半結構化數據”和“非結構化數據”)

  1. 非結構化數據的容量比結構化數據更大;

  2. 產生的速度比結構化數據更快;

  3. 數據來源更具有多樣性。

  從形態上,非結構化數據主要包含三大塊:

  1. 文本文字;

  2. 圖像、圖片等;

  3. 視頻流、電視流。

  非結構化數據帶來的挑戰:

  一、擴容難、成本高

  隨着數據的高速增長,傳統存儲 Scale-Up 的擴展方式,會造成“小馬拉大車”的困境,性能與容量無法靈活擴展。同時,傳統存儲的擴容成本較高,隨着大量的非結構化數據占用存儲空間,擴容的需求將造成投資成本不斷攀升。

  二、數據體量大、獲取和流轉困難

  對於已經保留下來的非結構化數據,真要去使用和處理它,依然是一項不討好的“體力活兒”。由於體量、距離和網速的原因,非結構化數據並不容易獲得,更不要說被靈活地放入業務分析和處理流程之中了。

  三、缺乏處理分析的技術手段

  非結構化數據的價值密度相對較低,缺乏有效的技術對非結構化數據進行處理和分析,面對海量文件數據束手無策。

  如何更好地去掌控非結構化數據

  傳統的數據分析方法和工具難以從非結構化數據中獲取到信息。數據科學家可以結合NoSQL數據庫對非結構化數據進行人工解析。但是這樣無疑為數據科學家增加了大量的工作。當前無論是AWS、Azure還是阿里雲,對於非結構化處理主要提供基礎設施,並沒有針對數據本身提供解決方案,不同的行業數據應該如何組織、如何訓練、如何形成行業知識庫。而市場上很多數據公司,則專注於某個領域的數據,如公安、電商、咨詢等行業,提供行業性的解決方案,並且取得了可觀的成果。為了更高效地讓所有人了解並賦能非結構化數據,新興人工智能產業如格物鈦Graviti便着手構建非結構化數據管理平台。讓一些暫時不能被處理的“無效數據”賦之以價值和能量,了解並有效地管理數據是第一步。

  隨着AI和5G時代的到來,我們對信息的渴望被極大的喚起,常規的結構化數據交互已經不能滿足人們的需求,而伴隨着數字化的快速發展,非結構化數據扮演起越來越重要的角色,圖片、視頻、語音蘊含的豐富信息將被廣泛利用。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM