【摘要】 物聯網設備正在產生大量的數據,如何為開發者提供簡單有效的數據分析服務,簡化開發過程,提升開發效率,讓IoT數據快速變現是一個擺在我們面前的問題。
沒有疑問,我們已經身處物聯網時代了,每天都有數不清的各類物聯網設備被連接起來,讓我們可以以前所未有的視角重新觀察和感知我們所處的這個物理世界。這個背后當然涉及到物聯網技術的各個環節,比如如何將設備快速安全可靠的接入雲端,如何管理這些設備,如何對源源不斷采集到的數據進行合適的處理等等。而這篇博客我主要想分享下個人認為物聯網的數據分析可能應該是什么樣的。
我把物聯網數據的特點和挑戰歸納如下。我覺得最主要的4個特點是“大”,“小”,“高”,“低”。
“大”即物聯網數據體量大,我們經常聽到的一個經典的案例即GE發動機有成百上千個傳感器,毫秒級頻度產生各種數據。飛機的一次飛行就可以超過1TB的數據量。而在很多工業場景下產生的數據量可能會更大。
“小”即物聯網數據的價值密度小,或者也可以理解為要從海量的數據中找到價值的信息是一個比較難的事情。
“高”即物聯網數據時效性高,設備產生的數據流往往需要及時分析處理,隨着時間的流逝,其價值會迅速降低。
“低”即物聯網數據的質量通常較低,原因是多方面的,可能跟IoT設備自身能力有關,也可能是較苛刻的設備部署環境,也可能是網絡傳輸問題等等,最終造成物聯網數據容易出現丟失,異常,重復等問題。
面對這些特點,造成了幾個挑戰:
1. 怎樣盡可能的降低存儲的成本,企業可能通常有要求存儲好幾年數據的述求,而IoT數據體量大,幾年的存儲量很可能是一個天文數字。那么如何能找到盡可能的低成本存儲解決方案就是一個不能忽視的問題。
2. 怎樣從價值密度低的物聯網數據中充分挖掘和發現數據背后的價值,該采取怎樣的有效分析方法?
3. 提升數據處理的時效性,在數據處理的各個環節都盡可能高效運轉,比如數據接入,數據清洗,數據入庫等。
4. 數據質量的評估和處理。如何判斷質量的優劣,並且采取合適的方法改善數據質量?
要很好應對這些物聯網數據分析的挑戰,對於IoT數據應用開發者來說可能是有一定技術門檻的, 如果不是一個對公有雲琳琅滿目的相關大數據PaaS非常了解的開發者,很可能花了較長時間,而最終開發的解決方案較難滿足業務的要求。這里面的原因除了開發者需要花比較大的學習成本掌握相關服務的特性外,還有一個根本原因是那些通用的大數據產品並未是專門針對IoT數據分析所提供的。
如何才能做好一個針對物聯網場景的數據分析服務呢?個人覺得有如下幾個要點:
1. 構建資產模型是充分“理解”物聯網數據的基礎
將IoT設備產生的數據有效組織起來,並按照業務所需構建模型,將是物聯網數據分析中的重要一環,特別是復雜的場景更是如此。
2. 物聯網數據處理的關鍵是對時序數據的處理
3. 按數據時效性分層處理,獲得綜合處理效率最大化
4. 針對物聯網數據要有數據清洗的必要手段。傳統的ETL工具主要是針對結構化數據的處理,而物聯網數據主要是非結構化或半結構化的數據,並且對清洗的實時性要求一般較高。
因此需要找到適合物聯網領域使用的數據清洗手段,我們理解該能力需要充分理解物的數據結構,即物模型,並且需要實時的清洗能力。
好了,下次再講華為雲IoT數據分析具體是怎么做的。
華為開發者大賽@IoT創新大賽正在報名中,百萬大獎等你來拿!