1.大數據的由來
之所以會出現大數據,主要是由於我們進入了信息時代,隨着進入了信息時代,各種信息激增,包括金融,交通,電商,網上的各種信息,這些信息都是各有用處的,有待挖掘;像我自己是處於金融行業的技術人員,我們建立了一個小型的數倉平台,每天都會從上交所和深交所中獲取各種交易性的數據,這些信息是有待挖掘的,里面包含了各種行業的投資情況等一系列信息;有待於進行分析;
2.大數據的特點
大數據有以下5個特點,分別是:
(1)volumn:大數據的采集,計算和存儲量都是很龐大的,例如我們的小型數倉,光是一張表的數據可能都超過10億,這種在mysql關系型數據庫中,可能一查詢就會卡死,更別說利用這些數據進行分析和計算了;
(2)variety:大數據的數據種類會存在多樣化的情況;中間包括結構化數據,半結構化數據和非結構化數據這幾種,還是以我們的數倉為例,我們一般都是結構化數據,即每天從上游數據庫中同步數據到數倉平台來;但是我們也有一些非結構化的數據要進入數倉的平台中,如爬蟲數據,爬蟲數據是從網頁上進行爬取的,屬於非結構化的數據;另外,從文章當中進行命名實體抽取則是完全的非結構化的數據,需要進行人工只能的神經網絡提取之后才能使用;
(3)Value:由於數據量過大,數據的價值密度則比較低,如在網頁上爬蟲獲取的數據,這部分數據要在數倉平台上進行過詳細的數據分析之后,才能獲取想要的信息,這些數據的數據量則是非常大的,可能需要對上億的數據進行分析之后,才可能提取出想要的數據;
(4)Velocity:大數據的數據增長速度是非常快的,隨着進入物聯網的時代,每天的數據量的增長速度會越來越快;
(5)Veracity:數據的准確性和可信賴程度;
3.OLAP和OLTP
數據處理大致可以分成兩大類:聯機事務處理OLTP(on-line transaction processing)、聯機分析處理OLAP(On-Line Analytical Processing)。
OLTP是傳統的關系型數據的主要應用,主要是基本的、日常的事務處理,例如銀行交易。
OLAP是數據倉庫系統的主要應用,支持復雜的分析操作,側重決策支持,並且提供直觀易懂的查詢結果。
OLTP 系統強調數據庫內存效率,強調內存各種指標的命令率,強調綁定變量,強調並發操作;
OLAP 系統則強調數據分析,強調SQL執行市場,強調磁盤I/O,強調分區等。
我們這邊的大數據主要就是OLAP型的,主要是針對於數據分析的,可能一個數據指標出現的時間比較長;
4.數倉的架構
根據自己所使用過的數倉,大體的架構如下:
首先將數據從上游同步到大數據的數據湖當中,這部分數據包括結構化數據,半結構化數據和非結構化數據這三種,目前來說,主要還是結構化的數據,對於半結構化和非機構化的數據主要還是在上游處理好之后,才同步過來,還是一種結構化的數據;數據在入數據湖之后,需要對同類型的數據進行整合,即P層整合,如用戶信息,將不同系統的用戶整合到一起,供后面方便使用;之后就是倉內集市了,當然也可以是倉外集市;一般采用的是倉內集市,這樣數據利用比較方便,直接可以使用P層的數據;倉內集市最后按照自己的需求,做出相應的數據指標;在倉內集市將數據處理完成之后,也會將數據同步到下游的關系型數據庫中,供下游系統使用;與此同時,對於不變化的數據,可以將數據同步到Elasticsearch當中,供下游進行查詢使用等;