執行摘要
業務用戶不斷設想出新的創新方法,將數據用於運營報告和高級分析。 Data Lake是下一代數據存儲和管理解決方案,旨在滿足日益精明的用戶不斷變化的需求。
本白皮書探討了企業數據倉庫和其他現有數據管理和分析解決方案的現有挑戰。 它描述了Data Lake體系結構的必要功能以及利用數據和分析即服務(DAaaS)模型所需的功能。 它還介紹了Data Lake成功實施的特點以及設計Data Lake的關鍵考慮因素。
當前的企業數據倉庫挑戰
業務用戶不斷設想出新的創新方法,將數據用於運營報告和高級分析。 隨着用戶需求的發展以及數據存儲技術的進步,當前企業數據倉庫解決方案的不足之處變得更加明顯。 當今數據倉庫面臨的以下挑戰可能會阻礙使用並阻止用戶最大化其分析功能:
- 及時性 。 向企業數據倉庫引入新內容可能是一個耗時且繁瑣的過程。 當用戶需要立即訪問數據時,即使是短暫的處理延遲也會令人沮喪,並導致用戶繞過正確的流程,轉而自己快速獲取數據。 用戶還可能浪費寶貴的時間和資源從操作系統中提取數據,自行存儲和管理數據,然后對其進行分析。
- 靈活性 。 用戶不僅無需隨時訪問他們可能需要的任何數據,而且還能夠使用他們選擇的工具來分析數據並獲得關鍵見解。 此外,當前的數據倉庫解決方案通常存儲一種類型的數據,而今天的用戶需要能夠分析和聚合多種不同格式的數據。
- 品質 。 用戶可能懷疑地查看當前數據倉庫。 如果數據源自何處以及如何處理,則用戶可能不信任該數據。 此外,如果用戶擔心數據倉庫中的數據丟失或不准確,他們可能會繞過倉庫,轉而直接從其他內部或外部源獲取數據,這可能會導致同一數據的多個沖突實例。
- 可尋找性 。 對於許多當前的數據倉庫解決方案,用戶無法在需要時快速,輕松地搜索和查找所需的數據。 無法查找數據還限制了用戶利用和構建現有數據分析的能力。
高級分析用戶需要基於IT“推送”模型的數據存儲解決方案(不受特定分析項目的驅動)。 與現有的特定於一個或一小部分用例的解決方案不同,所需要的是一種存儲解決方案,可以在整個企業中實現多個不同的用例。
這種新的解決方案需要以自助服務的形式支持多個報告工具,以便在不進行大量建模的情況下快速提取新數據集,並在提供性能的同時擴展大型數據集。 它應該支持高級分析,如機器學習和文本分析,並允許用戶迭代地清理和處理數據,並跟蹤數據的譜系以確保合規性。 用戶應該能夠在一個安全的位置輕松搜索和探索來自多個源的結構化,非結構化,內部和外部數據。
符合所有這些標准的解決方案是數據湖。
數據湖藍圖
數據湖架構
Data Lake是一個以數據為中心的架構,具有能夠以各種格式存儲大量數據的存儲庫。 來自Web服務器日志,數據庫,社交媒體和第三方數據的數據被提取到Data Lake中。 通過捕獲元數據和沿襲並使其在數據目錄(Datapedia)中可用來進行管理。 還適用安全策略,包括權利。
數據可以通過批處理或流數據的實時處理流入Data Lake。 此外,數據本身不再受初始模式決策的約束,並且可以被企業更自由地利用。 超越此存儲庫的是一組功能,允許IT在供需模型中提供數據和分析即服務(DAaaS)。 IT扮演數據提供者(供應商)的角色,而業務用戶(數據科學家,業務分析師)則是消費者。
DAaaS模型使用戶能夠自我提供數據和分析需求。 用戶瀏覽湖泊的數據目錄(數據倉庫)以查找和選擇可用數據,並填寫一個隱含的“購物車”(實際上是分析沙箱),其中包含可供使用的數據。 一旦配置了訪問權限,用戶就可以使用他們選擇的分析工具來開發模型並獲得洞察力。 隨后,用戶可以發布分析模型或將精煉或轉換的數據推送回Data Lake以與更大的社區共享。
雖然配置分析沙箱是主要用途,但Data Lake還有其他應用程序。 例如,Data Lake也可用於提取原始數據,策划數據和應用ETL。 然后可以將此數據加載到企業數據倉庫。 為了利用Data Lake提供的靈活性,組織需要根據其特定要求和域自定義和配置Data Lake。
數據湖實施成功的特征
Data Lake使用戶能夠分析存儲在湖中的全部數據和數量。 這需要特征和功能來保護和策划數據,然后對其進行分析,可視化和報告。 成功的Data Lake的特點包括:
- 使用多種工具和產品 。 從Data Lake中提取最大價值需要任何單一開源平台或商業產品供應商目前無法提供的定制管理和集成。成功的Data Lake所需的跨引擎集成需要多個技術堆棧,這些堆棧本身支持結構化,半結構化和非結構化數據類型。
- 域規范 。 Data Lake必須針對特定行業量身定制。 為生物醫學研究定制的數據湖與為金融服務量身定制的數據湖有很大不同。Data Lake需要業務感知數據定位功能,使業務用戶能夠查找,探索,理解和信任數據。 此搜索功能需要提供直觀的導航方式,包括關鍵字,分面和圖形搜索。 在這種情況下,這種能力需要復雜的業務本體,其中業務術語可以映射到物理數據。 使用的工具應該能夠獨立於IT,以便業務用戶可以在需要時獲取所需的數據,並在必要時進行分析,無需IT干預。
- 自動化元數據管理 。 Data Lake概念依賴於為湖中的每個內容捕獲一組強大的屬性。 數據沿襲,數據質量和使用歷史等屬性對可用性至關重要。 維護此元數據需要高度自動化的元數據提取,捕獲和跟蹤功能。 如果沒有高度自動化和強制性的元數據管理,Data Lake將迅速成為數據沼澤。
- 可配置的攝取工作流程 。 在蓬勃發展的數據湖中,業務用戶將不斷發現新的外部信息來源。 這些新的資源需要迅速加入,以避免挫敗感,並立即實現機會。 配置驅動的攝取工作流機制可以提供高水平的重用,從而可以從新來源獲取簡單,安全和可跟蹤的內容。
- 與現有環境集成 。 Data Lake需要融入並支持現有的企業數據管理范例,工具和方法。 它需要一個主管,在需要時集成和管理現有的數據管理工具,如數據分析,數據管理和清理以及數據屏蔽技術。
牢記所有這些因素對於成功構建Data Lake至關重要。
設計Data Lake
設計成功的Data Lake是一項艱巨的任務,需要全面了解技術要求和業務敏銳度,以完全定制和集成架構,以滿足組織的特定需求。
Knowledgent的大數據科學家和工程師提供必要的專業知識,將Data Lake發展為成功的數據和分析即服務解決方案,包括:
- DAaaS戰略服務定義 。 我們的信息專家利用定義DAaaS平台提供的服務目錄,包括數據入門,數據清理,數據轉換,數據集,分析工具庫等。
- DAaaS架構 。 我們幫助客戶實現目標狀態DAaaS架構,包括構建環境,選擇組件,定義工程流程以及設計用戶界面。
- DAaaS PoC 。 我們設計並執行概念驗證(PoC)以演示DAaaS方法的可行性。 使用前沿基礎和其他選定工具構建/演示DAaaS平台的主要功能。
- DAaaS操作模型設計和部署 。 我們定制我們的DAaaS運營模式,以滿足個人客戶的流程,組織結構,規則和治理。 這包括建立DAaaS退款模型,消費跟蹤和報告機制。
- DAaaS平台功能擴建 。 我們提供專業知識,可以迭代構建所有平台功能,包括設計,開發和集成,測試,數據加載,元數據和目錄填充以及部署。
結論
Data Lake可以成為高級分析專家和業務用戶的有效數據管理解決方案。 Data Lake允許用戶在何時以及如何需要時分析各種各樣的卷。 遵循數據和分析即服務(DAaaS)模型為用戶提供按需自助服務數據。
然而,為了取得成功,Data Lake需要利用眾多產品,同時為行業量身定制,並為用戶提供廣泛,可擴展的定制。 Knowledgent的信息專家提供技術專業知識和商業頭腦的融合,幫助組織設計和實施他們完美的Data Lake。