什么是數據倉庫?
大家都去宜家買過東西吧,還記得一樓的大倉庫不,你如果看中了某個家具,想要自己去倉庫提貨,一般都會記下商品上的編碼:
這個編碼對於顧客來說,肯定是沒有任何含義的,看到這個編碼,不可能知道他是一個什么商品。
但是這個編碼,對於倉庫管理員來說是有含義的,他們可以清楚的知道,是哪一個貨架,哪一個位置。
當然,顧客到倉庫里順着貨架和位置也可以找到商品,但是總歸不太直觀,挑選的過程還是得在樓上進行。
因此數據倉庫就相當於宜家的一樓倉庫,在這里,數據(家具)按照特定的模型,如FS-LDM等(貨架-位置)組織起來,這種模型,對於顧客(業務人員,數據最終用戶)是不友好的,但是對於科技人員(倉庫管理員,宜家員工)來說相對友好,因為他按照一種更加集約化的規則將數據(家具)管理起來了,存放集中、規整,提取數據(提貨)不用跨庫(貨倉)尋找,查找的效率更加高。
那什么是數據集市呢?
還是用這個例子,上文提到,數據倉庫對業務人員不是很友好,同樣,你總不能讓顧客直接逛倉庫吧?顧客的需求,是按照家具的種類分門別類,按照家庭的不同房間,組合在一起展示的,正如宜家樓上的展廳:
雖然也被吐槽像迷宮一樣,但是總的來說,購物體驗肯定比逛倉庫來得好多了。
所以,數據集市就像宜家樓上的展廳,正如其名字“集市”一樣,是一個面向最終用戶(顧客)的數據市場,在這里,數據(家具)以一種更加容易被業務人員(顧客)接受的方式組合在一起,這些組合方式可能是多變的,因為業務人員(顧客)的需求是多變的,因此我們需要定期調整集市的計算口徑(展廳的陳列方式),經常會創建新的數據集市(裝修新的展廳)。
數據倉庫和集市的概念理解了,其他一些相關問題也就迎刃而解,比如為什么有了數據倉庫還要建數據集市?等等。
那什么是數據湖呢?
數據湖至今仍然沒有一個特別標准的概念,各種概念中,比較統一的一點是數據湖存儲的是未經加工的原始數據,包含結構化和非結構化的各類數據。數據玩家仍然嘗試用上面的例子來解釋。
大家都知道,宜家的家具是需要自己組裝的,所以宜家的顧客們都有一些動手能力,他們突發奇想,所有的家具能不能全部拆散成零部件存放,由顧客們根據實際需要挑選零部件自行拼裝?
所以,數據湖就是一個存儲了所有企業內原始數據(家具零部件)的存儲,這就帶來一系列問題,加工后數據的存儲已經非常復雜,原始數據則依賴更多的管理功能,不然數據又多又雜難以管理,數據湖會退化為數據沼澤。此外,原始數據如果缺少統一的數據標准,就像不同的家具零部件之間的接口不同,那就無法組裝在一起了。
因此,數據湖必須有完善的數據管理功能,也依賴於統一的數據標准和良好的數據質量管理。
那什么又是數據中台呢?
數據中台也沒有一個特別明確的定義,這里很難套用宜家的例子強行解釋了,我們來看下各類數據平台:
在我們傳統的數據應用中,隨着數據對於業務友好度的增加,其時效性也在減弱。而我們的目標,顯然是數據又快又好。既然各部門的需求都不一樣,為何不讓業務自助分析數據呢?於是我們有了右上角的目標狀態。但是這個理想狀態和我們現在的數據應用中間有巨大的空隙,靠什么來填補?答案就是數據中台。
我們可以將其分為狹義的數據中台和廣義的數據中台。狹義的數據中台,指的是一套數據應用和工具,包括分布式ETL、數據資產管理、數據標簽管理、數據沙箱、自助分析平台、元數據管理、數據質量管理等等,底層則以現有的數倉、大數據平台等為數據源,為企業提供數據資產管理的能力,並持續挖掘數據價值,持續提供數據智能服務。
廣義的數據中台,則在狹義的數據中台基礎之上,包含了頂層數據戰略,數據治理體系以及數據管理及運營、數據文化培養和組織架構支撐,是一套持續管理和運營的體系。
可以這么說,狹義的數據中台,是專為達成數據中台的使命而打造,一類是讓數據更快的處理、整合、加工,比如分布式ETL工具。隨着傳統數據被大數據平台逐步替代,ETL工具對於大數據平台的適配也需要與時俱進,支持分布式計算、彈性計算,並且減少開發量。
另一類是讓數據更好的產生業務價值,比如數據標簽管理,自助分析平台等。數據標簽大家都在用,但是真正深度使用的企業都會感覺:建好容易用好難,如果沒有一套標簽管理系統,標簽是否重復加工,標簽的使用率、准確性等都無從掌控,業務部門想要針對近期營銷活動新建一個標簽,還得走開發流程,時效性也難以保證。數據標簽管理系統就是為了解決數據標簽的使用問題而建立。自助分析平台則是方便業務人員自助進行數據分析、加工、探索的平台,它與數據沙箱結合,直接將去隱私化的生產數據提供業務人員分析,使數據更快的產生價值,支撐關鍵決策。
廣義的數據中台,則是輔助狹義數據中台達成使命的機制,雖然看起來都很“虛”,但是卻是數據中台成功落地的必要保障。
引用自: