目的
學習一些商業智能的基本概念,如屬性、層次結構和維度
數據分析中的屬性
假設如果你是AWC公司的總經理,希望了解公司的業績,於是從業務人員那里得到一份報表
表1.1 AWC公司業績
42 |
看到這個表格你根本不能得到任何信息,也就是說這個表是沒有任何意義的,沒有上下文的數字可能是數據,但不是信息,在商業智能中,用來監控公司運行的可概況的數值被稱作度量值(measure)。在尋找數字信息的過程中,首先要做的就是確定所需要的度量值,度量值可以是“銷售額(Sales Dollars)”、“發貨量(Shipment Units)”、等,我們來看一下AWC公司的銷售報告,如圖1.2所示
表1.2 AWC公司銷售報表
銷售量 |
42 |
通過增加標簽,數字從數據變成了信息。我們從中就可以知道,42代表銷售量,這個標簽就是元數據(metadata),即關於數據的的數據。商業智能應用程序將數據轉換成信息的方式之一就是通過增加元數據。只看單個數據,我們並不能得到許多信息,因此我們希望將數據打散使其包含更多的信息。例如,要知道在一段時間內的業績如何,我們就需要如表1.3所示的分析報表
表1.3 AWC公司月度分析報表
2011年1月 | 2011年2月 | 2011年3月 | 2012年4月 |
4 | 14 | 27 | 25 |
由於我們添加了更多的元數據,就能獲得更多的信息,每個月銷售量的一個屬性是該銷售發生的月份。公司已經運作了4個月,因此在表的最上方一行的月份的屬性標簽。值得注意的是,月份標簽是按時間順序排列的,而不是按字母順序或隨機排列的。報表中屬性標簽出現的順序也是元數據,這對於幫助了解在一段時間內的業績至關重要。
你可能對前面的月度表不滿意,因為公司不止銷售一種產品,每種產品在各個時間段表現如何?此時我們就需要一份新的報表。
表1.4 AWC 公司按產品和月份列出的銷售報表
產品 | 2011年1月 | 2011年2月 | 2011年3月 | 2011年4月 |
mountain-500 black,40 | 1 | 3 | 1 | 2 |
mountain-500 black,44 | 2 | 1 | ||
mountain-500 black,48 | 1 | 2 | 1 | |
mountain-500 silver,40 | 1 | 2 | 1 | |
mountain-500 silver,44 | 1 | 1 | 1 | |
mountain-500 silver,48 | 2 | |||
Road-750 Black,44 | 10 | 7 | ||
Road-750 Black,48 | 5 | 9 | ||
Hitch Rack | 1 | 6 | 6 | 3 |
由於有更多的元數據,我們現在獲得了更多的信息。每個銷售量的值都有兩個屬性:特定的月份和特定的產品。公司總生產三種產品模型,由於尺寸和顏色的不同,共有9中不同的產品,因此,報表左列共有9個屬性標簽,分別對應每一種產品。
但這是在數據量少的情況下,你可以直觀的分析,當數據量的增多,此種情況就不適應了,我們需要尋找共有的屬性,可以創建產品分組。可以按照產品名稱模型名、顏色和尺寸屬性進行划分。
表1.5 產品屬性
產品 | 模型 | 顏色 | 尺寸 |
mountain-500 black,40 | mountain-500 | 黑色 | 40 |
mountain-500 black,44 | mountain-500 | 黑色 | 44 |
mountain-500 black,48 | mountain-500 | 黑色 | 48 |
mountain-500 silver,40 | mountain-500 | 銀色 | 40 |
mountain-500 silver,44 | mountain-500 | 銀色 | 44 |
mountain-500 silver,48 | mountain-500 | 銀色 | 48 |
Road-750 Black,44 | Road-750 | 黑色 | 44 |
Road-750 Black,48 | Road-750 | 黑色 | 48 |
Hitch Rack | Hitch Rack |
我們得到了說那個的產品屬性標簽列表,可以據此在報表中創建分組。由於“屬性標簽列表”這個表達過於繁瑣,商業智能從業者就將每一個屬性標簽稱為屬性。由於每一屬性標簽列的標簽都互相關聯並屬於一個相同的屬性,這些標簽被稱為成員。例如,“模型”屬性有三個成員:Hitch Rack、Mountain-500和Road-750;而“顏色”屬性具有兩個成員:Black和Silver。
“產品”屬性被稱為關鍵屬性。關鍵屬性唯一地確定了成員的所有其他屬性。通過查看產品屬性,我們可以知道關於該產品的所有其他屬性。例如,對於“Mounttain-500 Silver,42”這個產品,我們可以知道,這是一件銀色的,尺寸為42的Mountain-500型的自行車。另一種識別關鍵屬性的方法,是在創建如表1.5所示的相關屬性列時,關鍵屬性的成員是唯一的,“模型”不是一個關鍵屬性,因為在查看模塊屬性中Mountain-500這個成員時,無法獲知其中顏色是黑色還是銀色,也無法獲知尺寸屬性。其實,“模型”屬性成員在表1.5中是重復的。
現在我們再進行重構這張表。
表1.6 AWC公司按模型、產品和月份列出的銷售報表
模型和產品 | 2011年1月 | 2011年2月 | 2011年3月 | 201年4月 |
Mountain-500 | 3 | 8 | 6 | 6 |
Mountain-500 Black,40 | 1 | 3 | 1 | 2 |
Mountain-500 Black,44 | 2 | 1 | ||
Mountain-500 Black,48 | 1 | 2 | 1 | |
Mountain-500 Silver,40 | 1 | 2 | 1 | |
Mountain-500 Silver,44 | 1 | 1 | 1 | |
Mountain-500 Silver,48 | 2 | |||
Road-750 | 15 | 16 | ||
Road-750 Black,44 | 10 | 7 | ||
Road-750 Black,48 | 5 | 9 | ||
Hitch Rack | 1 | 6 | 6 | 3 |
Hitch Rack | 1 | 6 | 6 | 3 |
這份表已經出現了匯總信息。每個模型的匯總信息就是該模型的相關產品銷售額的綜合或叫聚合(aggregation)。“模型”屬性和“產品”屬性以層次結構(hierarchy)進行組織,由“模型”屬性的成員作為層次結構的做高層,“產品”屬性的成員作為最底層。通過將產品和模型組織成層次結構,並將產品值聚合成某一種模型值,提供了額外的元數據,從而提高了數據傳遞信息的能力。
表1.6所示的報表已經接近AWC公司生產更多產品所采用的報表。有了層次結構,就不用將全部的層級(level)展示出來,例如,我們只想查看“模型”層級,就可以讓分析員將“產品”級排除在外。
我們再繼續重構一張表,通過表1.7所示的匯總報表可以對公司業績有一個更為全面的了解。
表1.7 AWC公司按模型和月份列出銷售報表
模型 | 2011年1月 | 2011年2月 | 2011年3月 | 2011年4月 |
Mountain-500 | 3 | 8 | 6 | 6 |
Road-750 | 15 | 16 | ||
Hick Rack | 1 | 6 | 6 | 3 |
到目前為止,我們已經看到如何詳細的產品屬性划分為相關屬性的集合。在進行多維分析時,會遇到許多其他的屬性。例如,我們可能會經常創建包含日期、雇員、地理信息、客戶和其他許屬性的報表。