進行數據分析工作的時候會用到很多的工具,比如說數據湖和數據倉庫,不過這兩者之間的差異和區別,可能會讓人困惑。那么大家知道不知道數據湖和數據倉庫的區別是什么呢?下面我們就給大家介紹一下數據湖和數據庫的相關知識。
2010年,James Dixon提出數據湖(Data Lake)的概念。
2011年Dan Woods在福布斯發表“大數據需要更大的新架構”(Big Data Requires a Big New Architecture),數據湖開始廣為傳播。

數據湖是與數據倉庫相對的概念。數據倉庫有兩個局限:一是只可以回答預先設定的問題,二是數據已經被篩選包裝好,無法看見其最初狀態。
為了說明數據湖與數據倉庫的不同,James Dixon說:“如果數據集市是一個商店的瓶裝水,經過過濾包裝和結構化以供使用——數據湖則是在更自然狀態下的大量的水。數據湖中的數據來源於不同地方,用戶可以進入數據湖中提取所需要的數據”。
數據湖的核心原則是集中存儲原始的、未經改變的全量數據,在提取數據時才進行轉換。數據湖存儲各種類型數據,重點是非結構化和半結構化數據,通過統一視圖提供開放訪問。數據湖具有強大的元數據管理能力,保證所存儲數據資源的語義一致性,這是進行大數據分析的基本前提。

城市數據湖與谷歌數據中心的類比
將城市數據湖與谷歌數據中心做個類比,不難發現:數據湖的定位和搜索引擎類似,核心的技術實現是多源異構數據的自動化標注,才能像在搜索引擎上查找信息一樣實現按需檢索、即取即用。
Google、Facebook、Infomatica、亞馬遜AWS、微軟Azure等IT巨頭積極采納數據湖概念,並推進實際落地。很多數據倉庫遷移到以Hadoop為核心的技術棧,將半結構化、非結構數據存儲到數據湖中,以彌補數據倉庫的技術局限性。
1、數據湖的基本定位
數據湖是城市的“數據工廠”,是城市大數據應用的“中央廚房”。
數據湖定位於數據采集、匯聚和存儲環節,是公用數據集和分析型應用的源頭。狹義數據湖僅是對應“存儲”這個環節,廣義數據湖則對應“入湖、存儲、出湖”三個環節。
(1)數據匯聚
接入多源異構數據源,擴展新型大數據和流式數據采集能力,統一監控運行狀態。
(2)數據標注
引入人工智能技術,實現元數據的自動化標注,提升到數據資產管理。
(3)數據分發
提供一站式數據服務,從數據發現、准備到提取,實現按需提供、即取即用。
2、數據湖的服務對象
數據湖定位於提供原料數據而不是成品數據,重點解決數據供給側的問題。
按照辦業務和做決策兩類業務場景對獲取原料數據的共性需求,數據湖的服務對象不外乎兩類:一類是生產數據內容產品的公用數據集建設者,比如建立人口庫、法人庫等基准數據,用於自然人和組織機構的統一身份認證;另一類是生產數據分析產品的分析型應用開發者,比如開發城市大腦等決策系統,用於城市中長期規划和重大風險預警。
3、數據湖的體系結構
數據湖由元數據平台、數據湖倉庫和數據湖服務三個部分組成。
元數據平台用於數據資產登記、盤點、評估和處置,數據湖倉庫用於原生數據可管理、可擴展的統一存儲,數據湖服務用於對外提供數據發現、准備和提取服務。
4、數據湖的核心特性
按照數據湖的基本定位,應該具有以下核心特性:
(1)數據總收總發
(2)以原生格式存儲,在提取時再轉換
(3)元數據自動化標注
(4)元數據標注質量的機器學習改進機制
(5)供需對接的數據資源市場機制
(6)數據按需提取、即取即用
(7)數據資產的全生命周期價值管理
5、數據湖的技術難點
數據湖的技術門檻很高,元數據自動化標注是最大難題。
數據湖有點像圖書館管理員。不編制書目,你就找不到你想要的書;不編制數據目錄,你就找不到你想要的數據。
可以把數據湖想象成一個元數據標注的機器人,它每時每刻要對進入數據湖的數據進行認讀——這篇文章、這張圖片、這段視頻、這段語音、這些傳感器數據等等,到底說了什么;然后進行編目——數據從哪里來,作者是誰,標題是什么,主題詞、關鍵字是什么,從而建立數據目錄,以支撐數據資源管理和服務活動。
這就牽涉到人工智能技術在元數據管理領域的綜合運用。比如,文書型數據要用到自然語言處理,媒體型數據要用到圖像識別和語音識別;為了提高元數據標注的速度和准確性,還要引入機器學習。恕我孤陋寡聞,單領域有很牛的公司,但是將多領域的人工智能技術用於元數據管理,有這樣技術預研和儲備的公司幾乎沒有。
其實,並非是技術上做不到,而是商業上是否可以期許。城市數據湖在技術復雜度高於谷歌數據中心的情況下,如果可以預判在不久的將來,城市數據的大規模集中和深層次利用是大勢所趨,但是又缺少堪用的城市數據基礎設施,那么投資於城市數據湖研發就是理所當然。
作者:RonnieZhang1989
鏈接:https://www.jianshu.com/p/e2beae3fddc9
來源:簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。