數據湖和數據倉庫的區別?


進行數據分析工作的時候會用到很多的工具,比如說數據湖和數據倉庫,不過這兩者之間的差異和區別,可能會讓人困惑。那么大家知道不知道數據湖和數據倉庫的區別是什么呢?下面我們就給大家介紹一下數據湖和數據庫的相關知識。

2010年,James Dixon提出數據湖(Data Lake)的概念。

2011年Dan Woods在福布斯發表“大數據需要更大的新架構”(Big Data Requires a Big New Architecture),數據湖開始廣為傳播。


 

 

數據湖與數據倉庫的區別

數據湖是與數據倉庫相對的概念。數據倉庫有兩個局限:一是只可以回答預先設定的問題,二是數據已經被篩選包裝好,無法看見其最初狀態。

為了說明數據湖與數據倉庫的不同,James Dixon說:“如果數據集市是一個商店的瓶裝水,經過過濾包裝和結構化以供使用——數據湖則是在更自然狀態下的大量的水。數據湖中的數據來源於不同地方,用戶可以進入數據湖中提取所需要的數據”。

數據湖的核心原則是集中存儲原始的、未經改變的全量數據,在提取數據時才進行轉換。數據湖存儲各種類型數據,重點是非結構化和半結構化數據,通過統一視圖提供開放訪問。數據湖具有強大的元數據管理能力,保證所存儲數據資源的語義一致性,這是進行大數據分析的基本前提。

 

 

 

 


城市數據湖與谷歌數據中心的類比

 

將城市數據湖與谷歌數據中心做個類比,不難發現:數據湖的定位和搜索引擎類似,核心的技術實現是多源異構數據的自動化標注,才能像在搜索引擎上查找信息一樣實現按需檢索、即取即用。

Google、Facebook、Infomatica、亞馬遜AWS、微軟Azure等IT巨頭積極采納數據湖概念,並推進實際落地。很多數據倉庫遷移到以Hadoop為核心的技術棧,將半結構化、非結構數據存儲到數據湖中,以彌補數據倉庫的技術局限性。

1、數據湖的基本定位

數據湖是城市的“數據工廠”,是城市大數據應用的“中央廚房”。

數據湖定位於數據采集、匯聚和存儲環節,是公用數據集和分析型應用的源頭。狹義數據湖僅是對應“存儲”這個環節,廣義數據湖則對應“入湖、存儲、出湖”三個環節。

(1)數據匯聚

接入多源異構數據源,擴展新型大數據和流式數據采集能力,統一監控運行狀態。

(2)數據標注

引入人工智能技術,實現元數據的自動化標注,提升到數據資產管理。

(3)數據分發

提供一站式數據服務,從數據發現、准備到提取,實現按需提供、即取即用。

2、數據湖的服務對象

數據湖定位於提供原料數據而不是成品數據,重點解決數據供給側的問題。

按照辦業務和做決策兩類業務場景對獲取原料數據的共性需求,數據湖的服務對象不外乎兩類:一類是生產數據內容產品的公用數據集建設者,比如建立人口庫、法人庫等基准數據,用於自然人和組織機構的統一身份認證;另一類是生產數據分析產品的分析型應用開發者,比如開發城市大腦等決策系統,用於城市中長期規划和重大風險預警。

3、數據湖的體系結構

數據湖由元數據平台、數據湖倉庫和數據湖服務三個部分組成。

元數據平台用於數據資產登記、盤點、評估和處置,數據湖倉庫用於原生數據可管理、可擴展的統一存儲,數據湖服務用於對外提供數據發現、准備和提取服務。

4、數據湖的核心特性

按照數據湖的基本定位,應該具有以下核心特性:

(1)數據總收總發

(2)以原生格式存儲,在提取時再轉換

(3)元數據自動化標注

(4)元數據標注質量的機器學習改進機制

(5)供需對接的數據資源市場機制

(6)數據按需提取、即取即用

(7)數據資產的全生命周期價值管理

5、數據湖的技術難點

數據湖的技術門檻很高,元數據自動化標注是最大難題。

數據湖有點像圖書館管理員。不編制書目,你就找不到你想要的書;不編制數據目錄,你就找不到你想要的數據。

可以把數據湖想象成一個元數據標注的機器人,它每時每刻要對進入數據湖的數據進行認讀——這篇文章、這張圖片、這段視頻、這段語音、這些傳感器數據等等,到底說了什么;然后進行編目——數據從哪里來,作者是誰,標題是什么,主題詞、關鍵字是什么,從而建立數據目錄,以支撐數據資源管理和服務活動。

這就牽涉到人工智能技術在元數據管理領域的綜合運用。比如,文書型數據要用到自然語言處理,媒體型數據要用到圖像識別和語音識別;為了提高元數據標注的速度和准確性,還要引入機器學習。恕我孤陋寡聞,單領域有很牛的公司,但是將多領域的人工智能技術用於元數據管理,有這樣技術預研和儲備的公司幾乎沒有。

其實,並非是技術上做不到,而是商業上是否可以期許。城市數據湖在技術復雜度高於谷歌數據中心的情況下,如果可以預判在不久的將來,城市數據的大規模集中和深層次利用是大勢所趨,但是又缺少堪用的城市數據基礎設施,那么投資於城市數據湖研發就是理所當然。



作者:RonnieZhang1989
鏈接:https://www.jianshu.com/p/e2beae3fddc9
來源:簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM