數據倉庫與數據挖掘的一些基本概念


下面內容摘自互聯網並作了整理。 

 

名詞:

 BI(Business Intelligence):商業智能,

 

 DW(Data Warehouse):數據倉庫,詳見正文Q1部分。

 

 OLTP(On-Line Transaction Processing):聯機事務處理

也稱為面向交易的處理系統,其基本特征是顧客的原始數據能夠馬上傳送到計算中心進行處理,並在非常短的時間內給出處理結果。這樣做的最大長處是能夠即時地處理輸入的數據,及時地回答。也稱為實時系統(Real time System)。衡量聯機事務處理系統的一個重要性能指標是系統性能,詳細體現為實時響應時間(Response Time),即用戶在終端上送入數據之后,到計算機對這個請求給出答復所須要的時間。

OLTP 數據庫旨在使事務應用程序僅寫入所需的數據,以便盡快處理單個事務。

 

 OLAP(On-Line Analytical Processing):聯機分析處理

      OLAP是E.F.Codd於1993年提出的。
  OLAP理事會的定義:OLAP是一種軟件技術,他使分析人員可以迅速、一致、交互地從各個方面觀察信息,以達到深入理解數據的目的,這些信息是從原始數據直接轉換過來的,他們以用戶easy理解的方式反映企業的真實情況。
  OLAP大部分策略都是將關系型的或普通的數據進行多維數據存貯,以便於進行分析,從而達到聯機分析處理的目的。這樣的多維DB也被看作一個超立方體,沿着各個維方向存貯數據,它同意用戶沿事物的軸線方便地分析數據,與主流業務型用戶相關的分析形式一般有切片和切塊以及下鑽、挖掘等操作。

 

 DataMart:數據集市,為了特定的應用目的或應用范圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據(subjectarea)。在數據倉庫的實施過程中往往能夠從一個部門的數據集市着手,以后再用幾個數據集市組成一個完整的數據倉庫。須要注意的就是再實施不同的數據集市時,同一含義的字段定義一定要相容,這樣再以后實施數據倉庫時才不會造成大麻煩。

 

 Data Mining:數據挖掘,詳見正文Q5部分

 

 ETL:ETL各自是“Extract”、“ Transform” 、“Load”三個單詞的首字母縮寫也就是“抽取”、“轉換”、“裝載”,但我們日常往往簡稱其為數據抽取。ETL是BI/DW(商務智能/數據倉庫)的核心和靈魂,依照統一的規則集成並提高數據的價值,是負責完畢數據從數據源向目標數據倉庫轉化的過程,是實施數據倉庫的重要步驟。

 

 MetaData:元數據,元數據是描寫敘述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分為兩類,技術元數據和商業元數據。技術元數據是數據倉庫的設計和管理人員用於開發和日常管理數據倉庫是用的數據。包含:數據源信息;數據轉換的描寫敘述;數據倉庫內對象和數據結構的定義;數據清理和數據更新時用的規則;源數據到目的數據的映射;用戶訪問權限,數據備份歷史記錄,數據導入歷史記錄,信息公布歷史記錄等。

       商業元數據從商業業務的角度描寫敘述了數據倉庫中的數據。包括:業務主題的描寫敘述,包括的數據、查詢、報表;

       元數據為訪問數據倉庫提供了一個信息文件夾(informationdirectory),這個文件夾全面描寫敘述了數據倉庫中都有什么數據、這些數據怎么得到的、和怎么訪問這些數據。是數據倉庫執行和維護的中心,數據倉庫server利用他來存貯和更新數據,用戶通過他來了解和訪問數據。

 

 

 Q1:什么是數據倉庫?

數據倉庫是一個面向主題的( Subject Oriented) 、集成的( Integrate) 、相對穩定的(NonVolatile) 、反映歷史變化( Time Variant)的數據集合,用於支持管理決策。對於數據倉庫的概念我們能夠從兩個層次予以理:①數據倉庫用於支持決策,面向分析型數據處理,它不同於企業現有的操作型數據庫;②數據倉庫是對多個異構數據源的有效集成,集成后依照主

題進行了重組,並包括歷史數據,並且存放在數據倉庫中的數據一般不再改動。企業數據倉庫的建設是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,僅僅有把信息及時交給須要這些信息的使用者,供他們作出改善其業務經營的決策,信息才干發揮作用,信息才有意義。而把信息加以整理、歸納和重組,並及時提供給對應的管理決策人員是數據倉庫的根本任務。

 

 Q2:為什么要建立數據倉庫?

       企業建立數據倉庫是為了填補現有數據存儲形式已經不能滿足信息分析的須要。數據倉庫理論中的一個核心理念就是:事務型數據和決策支持型數據的處理性能不同。

       企業在它們的事務操作收集數據。在企業運作過程中:隨着定貨、銷售記錄的進行,這些事務型數據也連續的產生。為了引入數據,我們必須優化事務型數據庫。

       處理決策支持型數據時,一些問題常常會被提出:哪類客戶會購買哪類產品?促銷后銷售額會變化多少?價格變化后或者商店地址變化后銷售額又會變化多少呢?在某一段時間內,相對其它產品來說哪類產品特別easy賣呢?哪些客戶添加了他們的購買額?哪些客戶又削減了他們的購買額呢?

       事務型數據庫能夠為這些問題作出解答,可是它所給出的答案往往並不能讓人十分愜意。在運用有限的計算機資源時經常存在着競爭。在添加新信息的時候我們須要事務型數據庫是空暇的。而在解答一系列詳細的有關信息分析的問題的時候,系統處理新數據的有效性又會被大大減少。還有一個問題就在於事務型數據總是在動態的變化之中的。決策支持型處理須要相對穩定的數據,從而問題都能得到一致連續的解答。

       數據倉庫的解決方法包含:將決策支持型數據處理從事務型數據處理中分離出來。數據依照一定的周期(通常在每晚或者每周末),從事務型數據庫中導入決策支持型數據庫——既“數據倉庫”。數據倉庫是按回答企業某方面的問題來分“主題”組織數據的,這是最有效的數據組織方式。

       另外,企業日常運作的信息系統通常是由多個傳統系統、不兼容數據源、數據庫與應用所共同構成的復雜數據集合,各個部分之間不能彼此交流。從這個層面看:眼下執行的應用系統是用戶花費了非常大精力和財力構建的、不可替代的系統,特別是系統的數據。而建立數據倉庫的目的就是要把這些不同來源的數據整合組織起來統一管理,從而做到數據的一致性與集成化,提供一個全面的,單一入口的解決方式。這個讓我聯想到SOA的理念,只是前者是數據層面的整合優化,后者是應用服務層面的整合優化。

 

 Q3:數據倉庫的一般結構是如何的?

  1.體系結構:

(1)數據源是數據倉庫系統的基礎,是整個系統的數據源泉,通常包含企業內部信息和外部信息。

(2)數據的存儲與管理是整個數據倉庫系統的核心。數據倉庫依照數據的覆蓋范圍能夠分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市) 。

(3)OLAP (On Line Analytical Processing)server對分析須要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,並發現趨勢。

(4)前端工具主要包含各種報表工具、查詢工具、數據分析工具、數據挖掘工具以及各種基於數據倉庫或數據集市的應用開發工具。

 

 2.事實表和維表

事實表和維表是多維模型中的兩個基本概念。

事實表是數據分析所相應的主要數據項,通常是企業內的某項業務或某個事件。事實表中的事實一般具有數據特性和可加性,事實表中能夠存儲不同粒度的數據,同一主題中不同粒度的數據一般存儲在不同的事實表中。

維表中包括的通常是描寫敘述性的文本信息,這些文本信息將成為事實表的檢索條件。維表中的維屬性應該詳細明白,體現出維層次的划分,可以成為分析型查詢的約束條件,這是數據倉庫與操作型應用在數據模型設計上的一個不同點。維表層次的級別數量取決於查詢 的粒度。在實際業務環境中,多維數據模型一般含有4~15維,很多其它的維數或更少的維數一般都非常少見。在詳細工作中,設計人員一定要依據企業的實際情況確定對應的維。

在多維模型中,事實表的主碼是組合碼,維表的主碼是簡單碼,事實表中與維表主碼相相應的各個組成部分是外碼。事實表通過與各維相相應的外碼值同維表聯系在一起。查詢時通過事實表和維表之間的這樣的相應關系。

 

  3.數據組織結構:

      星型模型     

多維數據建模以直觀的方式組織數據,並支持高性能的數據訪問。每個多維數據模型由多個多維數據模式表示,每個多維數據模式都是由一個事實表和一組維表組成的。多維模型最常見的是星形模式。在星形模式中,事實表居中,多個維表呈輻射狀分布於其四周,並與事實表連接。

位於星形中心的實體是指標實體,是用戶最關心的基本實體和查詢活動的中心,為數據倉庫的查詢活動提供定量數據。每一個指標實體代表一系列相關事實,完畢一項指定的功能。位於星形圖星角上的實體是維度實體,其作用是限制用戶的查詢結果,將數據過濾使得 從指標實體查詢返回較少的行,從而縮小訪問范圍。每一個維表有自己的屬性,維表和事實表通過keyword相關聯。

 

      雪花模型

  雪花模型是對星型模型的擴展,每一個維度都可向外連接到多個具體類別表。在這樣的

模式中。維度表除了具有星型模型中的維度表功能外,還連接上對事實表

進行具體描寫敘述的洋細類別表。具體類別表通過對事實表在有關維上的具體描寫敘述,達到了

縮小事實表、提高查詢效率的目的。

 

 Q4:怎樣設計並建立數據倉庫?

設計數據倉庫的九個步驟

  1)選擇合適的主題(所要解決這個問題的領域)

  2)明白定義fact表

  3)確定和確認維

  4)choosing the facts

  5)計算並存儲fact表中的衍生數據段

  6)rounding out the dimension tables

  7)choosing the duration of the database

  8)the need to track slowly changing dimensions

  9)確定查詢優先級和查詢模式。

  技術上

  硬件平台:數據倉庫的硬盤容量通常要是操作數據庫硬盤容量的2-3倍。通常大型機具有更可靠的性能和和穩定性,也easy與歷史遺留的系統結合在一起;而PCserver或UNIXserver更加靈活,easy操作和提供動態生成查詢請求進行查詢的能力。選擇硬件平台時要考慮的問題:是否提供並行的I/O吞吐?對多CPU的支持能力怎樣?

  數據倉庫DBMS:他的存儲大數據量的能力、查詢的性能、和對並行處理的支持怎樣。

  網絡結構:數據倉庫的實施在那部分網絡段上會產生大量的數據通信,需不須要對網絡結構進行改進。

  實現上

  建立數據倉庫的步驟

  1)收集和分析業務需求

  2)建立數據模型和數據倉庫的物理設計

  3)定義數據源

  4)選擇數據倉庫技術和平台

  5)從操作型數據庫中抽取、轉化、和裝載數據到數據倉庫

  6)選擇訪問和報表工具

  7)選擇數據庫連接軟件

  8)選擇數據分析和數據展示軟件

  9)更新數據倉庫

  數據抽取、清理、轉換、和移植

  1)數據轉換工具要能從各種不同的數據源中讀取數據。

  2)支持平面文件、索引文件、和legacyDBMS。

  3)能以不同類型數據源為輸入整合數據。

  4)具有規范的數據訪問接口

  5)最好具有從數據字典中讀取數據的能力

  6)工具生成的代碼必須是在開發環境中可維護的

  7)能僅僅抽取滿足指定條件的數據,和源數據的指定部分

  8)能在抽取中進行數據類型轉換和字符集轉換

  9)能在抽取的過程中計算生成衍生字段

  10)能讓數據倉庫管理系統自己主動調用以定期進行數據抽取工作,或能將結果生成平面文件

  11)必須對軟件供應商的生命力和產品支持能力進行細致評估

 

 Q5:什么是數據挖掘? 

數據挖掘(Data Mining)就是從大量的、不全然的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在當中的、人們事先不知道的、但又是潛在實用的信息和知識的過程。

  數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。在這樣的需求牽引下,匯聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術、並行計算等方面的學者和project技術人員,投身到數據挖掘這一新興的研究領域,形成新的技術熱點。

 

 Q6:怎樣進行數據挖掘?

1.   確定業務對象

清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步。挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有盲目性,是不會成功的。

2.   數據准備

1) 數據的選擇

搜索全部與業務對象有關的內部和外部數據信息,並從中選擇出適用於數據挖掘應用的數據。

2) 數據的預處理

研究數據的質量,為進一步的分析作准備。並確定將要進行的挖掘操作的類型。

3) 數據的轉換

將數據轉換成一個分析模型。這個分析模型是針對挖掘算法建立的。建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵.

3.   數據挖掘

對所得到的經過轉換的數據進行挖掘。除了完好從選擇合適的挖掘算法外,其余一切工作都能自己主動地完畢。

4.   結果分析

解釋並評估結果.其使用的分析方法一般應作數據挖掘操作而定,一般會用到可視化技術。

5.   知識的同化

將分析所得到的知識集成到業務信息系統的組織結構中去。

 

 Q7:數據倉庫與數據挖掘的關系是如何的?

 數據倉庫和數據挖掘的關系數據倉庫和數據挖掘都是數據倉庫系統的重要組成部分, 它們既有聯系, 又有差別。

聯系是:

(1) 數據倉庫為數據挖掘提供了更好的、更廣泛的數據源。

(2) 數據倉庫為數據挖掘提供了新的支持平台。

(3) 數據倉庫為更好地使用數據挖掘這個工具提供了方便。

(4) 數據挖掘為數據倉庫提供了更好的決策支持。

(5) 數據挖掘對數據倉庫的數據組織提出了更高的要求。

(6) 數據挖掘還為數據倉庫提供了廣泛的技術支持。

差別是:

(1) 數據倉庫是一種數據存儲和數據組織技術, 提供數據源。

(2) 數據挖掘是一種數據分析技術, 可針對數據倉庫中的數據進行分析。

   

 Q8:數據倉庫與數據挖掘在一些商業領域中的應用及現實意義

1)商品銷售。商業部門把數據視作一種競爭性的財富可能比不論什么其它部門顯得更為重要,為此須要把大型市場營銷數據庫演變成一個數據挖掘系統。科拉福特(Kraft)食品公司(KGF)是應用市場營銷數據庫的公司之中的一個,該公司搜集了購買它商品的3000萬個用戶的名單,這是(KGF)通過各種促銷手段得到的。KGF定期向這些用戶發送名牌產品的優惠券,介紹新產品的性能和使用情況。該公司體會到了解自己商品的用戶越多,則購買和使用這些商品的機會也就越多,公司的營業狀況也就越好。
2)制造。很多公司不僅決策支持系統用於支持市場營銷活動,並且,由於市場競爭越演越烈,這些公司已使用決策支持系統來監視制造過程,有制造商聲稱已經指示它的各個辦事機構,在三年內把制造成本每年減少25%。不言而喻,該制造商常常收集各部件供應商的情況。由於,它們也必須遵循該制造商減少成本的戰略。為了對付來自各方的挑戰,該制造商已擁有一套“成本”決策支持系統,能夠監視各供應商提供的零部件成本,以實現所制定的價格目標,這樣的應用須要收集有關各廠商連續一年來的產品成本信息,以便確定這樣的組織方式是否能滿足原先制定的有關降價的戰略目標。
3)金融服務/信用卡。通用汽車公司(General Motors)已經採用信用卡——GM卡,在該公司的數據庫中已擁有1200萬個持有信用卡的客戶。公司通過觀察,能夠了解他們正在駕駛什么樣的汽車,下一步計划購買什么樣的汽車及他們喜歡哪一類車輛。譬如說,一個持有信用卡的客戶表示對一種載貨卡車感興趣,公司就能夠向卡車部門發出一個電子郵件,並把該客戶的信息告訴有關部門。
4)遠程通訊。很多遠程通訊的大公司近來突然發現它們面臨極大的競爭壓力,這在幾年前是不存在的。在過去,業務上並不須要他們密切注視市場動向,由於顧客的挑選余地有限,可是這樣的情況近來發生非常大變化。各公司當前都在積極收集大量的顧客信息,向他們現有的客戶提供新的服務,開拓新的業務項目,以擴大他們的市場規模。從這些新的服務中,公司在短期內就能夠取得更大的效益。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM