一 數據治理、數據管理、數據管控
數據治理、數據管理、數據管控這三個名詞在一定程度上的確是有所重疊的,容易混為一談,所以就造成了在實際使用中,經常將這三個詞語“混着用”、“隨機用”的現象。有關數據治理、數據管理區別的討論有很多,有人認為數據治理是包含在數據管理中的,數據管理的范圍要更廣,例如:在DAMA-DMBOK中就明確提出數據管理包含數據治理;也有人認為數據治理要高於數據管理,是企業頂層上的策略。
筆者認為以上兩個觀點都沒有錯,如果要用一個模型來描述數據治理、數據管理、數據管控這三個名詞,那應該是一個“金字塔”模型。
最頂層的應該是數據治理。與“治理”相關,我們還會經常看到、聽到國家治理、公司治理的概念,從某種意義上講,治理是一種自頂向下的策略或活動。如果我們將國家治理說成國家管理,把公司治理說成公司管控是不是有點怪怪的?
因此,數據治理應該是企業頂層設計、戰略規划方面的內容,是數據管理活動的總綱和指導,指明數據管理過程中哪些決策要被制定,以及由“誰”來負責,更強調組織模式、職責分工和標准規范。
數據管理是為實現數據和信息資產價值的獲取、控制、保護、交付以及提升,對政策、實踐和項目所做的計划、執行和監督。這個是DAMA-DMBOK中關於數據管理的定義。筆者理解數據管理是實現數據治理提出的決策並給予反饋,強調管理流程和制度,涵蓋不同的管理領域,諸如:元數據管理、主數據管理、數據標准管理、數據質量管理、數據安全管理、數據認責管理、數據服務管理等。
數據管控更多的是執行層面,是具體的如何落地執行所涉及的各種措施,例如:數據建模、數據抽取、數據處理、數據加工、數據分析等,數據管控是確保數據被管理和監控,從而讓數據得到更好的利用。
因此,數據治理強調頂層的策略,管理是側重於流程和機制,管控是具體的措施和手段,三者應該是相輔相成的。而如今我們聽到的更多的“數據治理”這個詞,似乎只要涉及數據管理的,都在說自己在搞數據治理。出現這個問題,主要是企業越來越意識到傳統IT驅動或者說技術驅動的專項數據管理項目,在實施過程中很難推進、困難重重,並且很難解決業務和管理上的用數難的問題。而從戰略、組織入手的數據治理頂層設計,更有利於推動數據管理目標的實現。
二 元數據、數據元、數據源、源數據
元數據、數據元、數據源、源數據,這幾意思毫不相干卻都帶着一個“yuan”詞語,讓多初學者抓狂。先說數據元,數據元用一組屬性描述定義、標識、表示和允許值的數據單元,由三部分組成:對象、特性、表示。它是組成實體數據的最小單元,或稱原子數據、數據元素,例如,客戶聯系人方式中的聯系人姓名就是就可以理解為一個數據元素,姓名為數據元的對象,“張三”為數據元的值。
元數據(MateData),官方定義是描述數據的數據,讓數據更容易理解、查找、管理和使用。從分類上,元數據分為了業務元數據、技術元數據、管理元數據。業務元數據,例如:數據的定義、業務規則、質量規則等;技術元數據:數據表、字段長度,字段編碼、字段類型等;管理元數據:數據的存儲位置、管理人員、更新時間、更新頻率等。
元數據是業界公認的數據管理中的基礎,元數據管理提供的功能諸如數據地圖、血緣分析、影響分析、全鏈路分析、熱度分析等,讓用戶更容易的對數據進行檢索、定位、管理、評估。用哲學的思維理解元數據的話,元數據其實解決的是:我是誰,我在哪里,我從哪里來,我要到哪里去的問題。
-
數據是物料,而元數據是倉庫里的物料卡片;
-
數據是文件夾,而元數據是夾子上的標簽;
-
數據是書,元數據是圖書館中的圖書卡。
數據源(Data Source),顧名思義就是數據的來源,是提供某種所需要數據的器件或原始媒體。在數據源中存儲了所有建立數據庫連接的信息,通過提供正確的數據源名稱,可以找到相應的數據庫連接。
10年前我們講數據源,更多的是說一種數據連接的技術,比如:JDBC、ODBC,或者是指數據庫的類型,比如:結構化數據庫、非結構化數據庫。而大數據時代,數據呈多樣化發展,數據來源的多樣化是時代的一個特征。我們現在提到的數據源,除了上述的含義之外,還涉及到圖數據源、時序數據源、鍵值數據源、內存數據源、文檔數據源等。每一種數據源不同,其數據的存儲、傳輸、處理和應用的模式、場景、技術和工具也不相同。
源數據(Source Data),注意:這個詞與數據源(Data Source)只是詞語換了一個順序,但是它們代表的含義卻是大相徑庭了。數據源本質是講存儲或處理數據的媒介,而源數據本質是在講“數據”本身,強調數據狀態是“創建”之后的“原始狀態”,也就是沒有被加工處理的數據。在數據管理的過程中,源數據一般是指直接來自源文件(業務系統數據庫、線下文件、IoT等)的數據,或者直接拷貝源文件的“副本數據”。
“問渠哪得清如許,為有源頭活水來”!數據治理的核心還是要從數據源抓起,以確保源數據的標准、准確、完整、真實。這是筆者對於數據治理一直堅持和提倡的觀點。
三 主數據、基礎數據、靜態數據
關於主數據以及主數據治理所涉及的概念、方法、體系、技術在我的系列文章中已經講了很多了,需要系統的看主數據相關文章的話,可以在【談數據】公眾號的歷史文章中查找。為了方便與基礎數據、靜態數據比較,我還是對其概念的理解重新說下。
主數據是企業中需要在多個部門或系統之間共享的,核心的、高價值且相對靜態的數據。主數據是企業信息系統建設和大數據分析的基礎,被認為是企業數字化轉型的基石和企業中的黃金數據。有關主數據的三大特性(即高價值性、高共享性、相對穩定性)和四個超越(即超越業務,超越部門、超越系統、超越技術)的詳細解讀,請參考《主數據的3個特點、4個超越和3個二八原則》。
基礎數據,業界還沒有一個標准的定義。但在很多信息化項目中,基礎數據這個概念都會被提及和使用。同時,常常會有客戶對基礎數據和主數據概念混淆。我理解的基礎數據是信息系統運行的基礎,用來支撐信息系統運行的各種數據和參數,以及業務交易所依賴的基礎信息。而主數據是被多個系統共享的基礎數據。因此,我理解的主數據可以是基礎數據的一部分,但基礎數據絕對不等於主數據。
靜態數據也是一個使用比較廣泛的詞語並且是經常與基礎數據“隨機”來用的。靜態數據是指在運行過程中主要作為控制或參考用的數據,它們在很長的一段時間內不會變化,一般不隨運行而變。例如:客戶的名稱、員工的姓名、系統的參數。動態數據是常常變化,直接反映事務過程的數據,比如,網站訪問量、在線人數、日銷售額等等。因此,筆者認為將靜態數據作為基礎數據,將動態數據作為業務數據(交易數據)用是沒有問題的。只要是使用的人之間達成共同的認知即可。
四 數據標准、數據規范
提到“數據標准”,可能大多數人第一時間想到的是一系列的標准化文檔,例如:產品設計標准、生產標准、質量檢驗標准、庫房管理標准、安全環保標准、物流配送標准等。事實上,數據標准不應該只是停留在文件層面的內容,更多的是要為業務的運行和管理決策提供基礎保障。
在信通院發布的《2019數據標准管理實踐白皮書》中對數據標准給出了如下定義:“數據標准(Data Standards)是指保障數據的內外部使用和交換的一致性和准確性的規范性約束”。這么講,可能比較難以理解。
筆者理解數據標准是注重結果而數據規范是定義過程。數據標准是數據明確的定義,明確的數據分類、確定的存儲格式和既定規則的轉換、編碼等。數據標准側重於強調對數據本身的標准化,諸如:數據的定義、結構、存儲等,注重的是結果。而數據規范是指在操作層面采取的措施、循序的規則和執行的流程,側重於強調流程和操作——如何實現數據標准化,更注重過程。
在實際工作中,我們經常會說建設“數據標准規范體系”,大多數人認為這是一個事情,但嚴格來講,這是兩件事:一是建設數據標准,二是要規范數據標准的落地的流程以及流程所涉及到的人員、組織、權限等問題。
五 數據目錄、數據分類、數據標簽
數據資源目錄,最早是政務領域提出的概念,是為了“數據需求方使用數據而提供的檢索支持”。數據資源目錄的原始驅動力是“政務數據資源共享”,是面向數據使用者的。工程實踐落地,是從2005年國家政務數據交換、目錄體系、四大庫試點開始的,並在2007年正式發布國標:《GB/T 21063-2007 政務信息資源目錄體系》。
政務數據資源目錄是通過對政務信息資源依據規范的元數據描述,按照一定的分類方法進行排序和編碼的一組信息,用以描述各個政務信息資源的特征,以便於對政務信息資源的檢索、定位與獲取。2007年的國標給出的標准定義,站在現在政務數據治理的高度來看,原來的“目錄體系”建設,僅僅是個工具而已,已經很單薄了,當前的“數據資源目錄”,實際上可以和“數據資產管理”和“數據服務”結合在一起,才能有更好的發展前景。
數據分類就是把具有某種共同屬性或特征的數據歸並在一起,通過其類別的屬性或特征來對數據進行區別。換句話說,就是相同內容、相同性質的信息以及要求統一管理的信息集合在一起,而把相異的和需要分別管理的信息區分開來,然后確定各個集合之間的關系,形成一個有條理的分類系統。——百度百科
數據標簽是對數據實體特征的符號表示,每一個數據標簽都是我們認識、觀察和描述數據實體的一個角度。商品有標簽,例如衣服的標簽中包含了衣服的款式、尺碼、面料、清洗方式等信息。人也有標簽,例如人的性別、年齡、地區、興趣愛好、產品偏好、購買力、忠誠度等。數據標簽也是可以分類的,例如:可以按變化頻率可分為動態標簽、靜態標簽;按評估的方式不同,分為定量指標和定性指標;按來源不同,分為基礎標簽、業務標簽、智能標簽等。有關數據標簽的分類,我的一篇《數據中台:基於標簽體系的360°用戶畫像》文章中,有較為詳細的說明,有興趣可看下。
在實際的數據資產管理中,數據資源目錄、數據分類、數據標簽是相互配合、相輔相成的。建立良好的數據資源目錄的第一步就是明確數據資源的分類,根據數據分類去組織資源、編目,之后是為數據資源打上數據標簽,讓數據資源更貼近用戶、更容易管理,以便充分發揮出數據的價值。
六 數據模型、數據結構、數據字典
數據(Data)是描述事物的符號記錄,模型(Model)是現實世界的抽象,數據模型(Data Model)是數據特征的抽象和描述。
專業的術語總是抽象的,我們舉個例子,假如你去買房子,就會看到兩個模型,一個是樓盤模型,另一個是戶型模型(戶型圖)。樓盤模型描述了樓盤規划、小區位置、小區綠化、交通條件、周邊的配套設施(幼兒園、學校、醫院等)、未來樓盤發展等等。戶型模型描述了房子有幾室幾廳、幾個陽台,哪里是門,哪里是牆,哪里是窗戶,每個房間的平米數是多少,甚至是屋子里的布局全部都用各種符號表示得清清楚楚。
就如樓盤模型描述樓盤,戶型模型描述房子一樣,數據模型是用來描述數據的一組簡單易懂便於計算機實現的符號的集合。
再說數據結構,數據結構是指相互之間存在一種或多種特定關系的數據元素的集合。一般認為數據結構是構成數據模型的三個要素之一。數據模型一般會分為概念模型、邏輯模型、物理模型,而數據的邏輯結構、物理結構是與邏輯模型、物理模型對應的。邏輯結構反映數據元素之間的數據關系,包含數據元素的層次關系、關聯關系,不包含數據在計算機中的存儲位置;數據的物理結構是指數據的邏輯結構在計算機存儲空間的存放形式。如果還拿房子舉例的話,我認為說戶型模型或者戶型結構都是沒有問題的。
數據字典是指對數據的數據項、數據結構、數據流、數據存儲、處理邏輯、外部實體等進行定義和描述,這個是數據字典的標准定義。但是,目前的實際使用中對數據字典有兩種不同的說法或用法。
一種說法是:在軟件工程中,數據字典是作為分析階段的工具,供人查詢對不了解的條目的解釋,例如:描述某個數據表中都包含了哪些數據項,某個數據項的業務含義是什么等。
另外一個說法是:對基礎數據參照的管理,我們還拿房子舉例,一個房子的數據字典,包括,房屋的朝向:東,南,西,北,東西,南北等;房屋的戶型:兩室一廳,三室一廳,兩室二廳,三室兩廳等;房屋的性質:經濟適用房,房改房,商品房等。
如果按第一種說法理解數據字典,其實本質上和數據模型沒有什么區別,只是叫法不同而已。如果按第二種說法理解,似乎叫參照數據管理也沒什么不妥。到底該怎么理解?這可能就“仁者見仁智者見智”了。
七 數據倉庫、數據湖、數據工廠、數據中台
數據倉庫(Data Warehouse)是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用於支持管理決策和信息的全局共享。
所謂面向主題,是指根據使用者實際需求,將不同數據源的數據在一個較高的抽象層次上做整合,所有數據都圍繞某一主題來組織,例如:采購主題、生產主題、客戶主題、銷售主題等。
所謂集成性,是指數據倉庫中存儲的數據是來源於多個數據源的集成、匯總。由於原始數據來自不同的數據源,存儲方式各不相同。要整合成為最終的數據集合,需要從數據源經過一系列抽取、清洗、轉換的過程。
所謂相對穩定,是指數據倉庫中存儲的數據一般為“既成事實”的數據,也可理解為歷史數據的一個快照,只做查詢分析用,不允許修改。
所謂反映歷史變化,是指數據倉庫根據不斷集成新的主題數據,反應出該主題的數據變化情況,例如:銷售業績完成情況。
數據湖是將來自不同數據源、不同數據類型(結構化、半結構化、非結構化)的數據,以原始格式存儲進行存儲的系統,它按原樣存儲數據,而無需事先對數據進行結構化處理。有人認為數據湖是數據倉庫的PLUS版,增強了數據存儲的能力。而實際上,數據湖不簡單是數據倉庫一個技術上的升級,更重要的是數據管理思維的升級。數據倉庫是需要事先定義好數據結構,然后是報表取數。而大數據的發展,數據形式越發多樣化,傳統數倉這種定義數據結構、取數、出表的模式,已經很難滿足業務上的需求了。因此,數據湖以原始格式存儲各種類型數據,以及按需進行數據結構化處理、數據清理、提供數據服務,以更加靈活的方式支持多種應用場景的能力越來越受到人們的歡迎。
再來說說這個數據工廠。前邊提到的數據倉庫和數據湖,重點側重於數據的存儲,本質上是“原材料”的存儲系統,而要讓數據發揮價值,就必須將這個“原材料”需要加工成用戶需要的“產品”。數據工廠就是根據用戶的需求,將原始數據進行加工、處理、清洗、轉換、匯總等各種加工工序,生產出能夠被用戶直接使用的數據產品。數據工廠包含了多種數據處理的工具,以滿足不同處理工序的作業需要,例如:數據源連接、數據同步、數據清洗、數據轉換、數據工作流、數據目錄、數據服務等等。
最后,再說說數據中台,盡管之前的文章已經說過很多次了。其實,如果從功能構件上來講,我認為:數據中台就是數據湖+數據工廠的一個綜合。但不同的是數據中台更注重數據應用,離業務更近,強調一個快速敏捷。
數據中台不僅關注原始數據的存儲及處理加工,更側重將數據處理過程中,常用的邏輯、算法、標簽、模型進行沉淀,而形成一系列的“數據半成品”,然后根據前台業務的需要,快速生產出用戶需要的“數據產品”。數據中台能力強弱,要看這個“數據半成品”積累的多少了。在數據生產的整個鏈條中,對於如何築湖、如何選址建廠、按什么工序加工、以及如何配送,這是技術部門的事情,而“數據半成品”的沉淀和積累,卻不是技術能決定的了。因此,數據中台的建設更強調需求驅動、業務主導。
八 數據指標、數據維度、數據質量
數據治理的目標是讓數據更好的使用,而數據的應用和分析的過程就不得不理一下:數據指標、數據維度、數據度量這幾個概念了。
數據指標是用數據表示,用來衡量對象目標的參數或預期中打算達到的指數、規格、標准,是具有(業務)意義的指向和標桿。數據指標分為基礎指標和衍生指標,基礎指標是指表達業務實體原子量化屬性的且不可再分的指標,如交易筆數、交易金額、在線用戶數等;衍生指標是在基礎指標的基礎上,通過添加一個或多個統計維度形成新的指標、或通過不同指標進行運算而形成新的指標,如平均購買金額、生產計划完成值,累計問題數、同比、環比、占比等。
關於“維度”網上很多人給出的定義是這樣的:“維度可指定不同值的對象的描述性屬性或特征”。不知道大家能不能看懂,如果只看這段文字,我是一臉懵逼的。我理解的維度就是觀察和分析事物或指標不同角度,例如:銷售額這個指標,可以按時間周期(當日、周、月、季度、年度)進行分析,也可以按照產品類型(A產品銷售額、B產品銷售額…)分析,也可以按地理位置(北京銷售額、上海銷售額…)分析,還可以按銷售主體(a部門銷售額、b部門銷售額)分析等等。
最后說下度量。度量是被聚合(觀察)的統計值,也就是聚合運算的結果,維度其實可以理解成一種分類的方式,或者叫做標簽,而度量往往是一個計算出來的數值。度量可以是指標的度量衡也可以是針對指標的某個維度的度量,例如上邊例子中,銷售額的度量是金額,當月銷售金額也是度量。
度量、維度、指標不是固定的,在一定的應用場下度量可以轉化為維度,維度也可以轉化為指標。篇幅問題,有關度量、維度、指標的轉化這里就不展開了。
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
本文引用自數據工匠俱樂部,要了解更多相關知識的,可以關注公眾號了解。