大數據應用之雙色球算獎平台總體設計數據規模估算篇

本文轉載自查看原文 2013-06-27 09:19 4532 大數據

大數據應用之雙色球算獎平台總體設計數據規模估算篇

作者：張子良

引子：什么才算大數據？

　　自從寫了上一篇《大數據應用之雙色球算獎平台總體設計大綱篇一》，受到許多園友的關注和指導，在此表示感謝，尤其是園友個人知識管理給出的一個評論，讓我深思，原文如下“雙色球算獎這么簡單的活，也稱大數據。先生：不是數據多，叫大數據。雙色球算獎，用Oracle數據庫的索引，1分鍾內就算完。關鍵是人家不想這么快”。話不太好聽，尤其是稱我為先生那句，但卻發人深思，是啊：到底什么是大數據呢？選擇雙色球算獎作為大數據應用的切入點是否合適呢？然后就是讓我詫異的1分鍾理論很是嚇了我一跳的。

　　說一下自己的理解吧，大數據是指那些很大的數據集，大到傳統的數據庫軟件工具已經無法采集、存儲、管理和分析。大數據既有存儲規模方面的考慮，同時也涉及到分析計算規模的考慮。之所以選擇雙色球算獎平台作為大數據應用的案例，也正是考慮到這兩個方面的問題。其一，歷史投注明細信息的存儲，如果采用傳統的關系型數據庫，肯定是不合適，無論是分區還是分表，都無法解決根本問題。其二、當前投注規模的情況下，進行快速算獎，所要進行的計算規模肯定也不是一個傳統方式能輕易解決的問題。

　　當然關於具體多大規模的數據才算大數據，目前為止尚未有一個官方的界定閾值的存在，規定超過多少算大數據，低於多少不算大數據的說法。既然沒有標准，也就無所謂是與不是，見仁見智，不一而足。

一、概述 業務規則

雙色球獎項設置和兌獎規則如下所示：

“雙色球”彩票以投注者所選單注投注號碼（復式投注按所覆蓋的單注計）與當期開出中獎號碼相符的球色和個數確定中獎等級：

一等獎：7個號碼相符（6個紅色球號碼和1個藍色球號碼）（紅色球號碼順序不限，下同）

二等獎：6個紅色球號碼相符；

三等獎：5個紅色球號碼和1個藍色球號碼相符；

四等獎：5個紅色球號碼或4個紅色球號碼和1個藍色球號碼相符；

五等獎：4個紅色球號碼或3個紅色球號碼和1個藍色球號碼相符；

六等獎：1個藍色球號碼相符（有無紅色球號碼相符均可）。

二、數據對象分析

　　既然是數據規模的評估，我們要解決的首先就是數據對象的確認。針對雙色球算獎平台，我們需要關注那些數據對象呢？按照矛盾論的觀點，事物的矛盾分為主要矛盾和次要矛盾，其中主要矛盾起決定性作用。所以在這里我們只考慮雙色球算獎平台涉及的最主要的數據對象，而不考慮其他細節問題。

數據對象主要包括以下幾個方面：

（1）銷量統計：包括全國、分省市、銷售網點的銷量匯總統計數據。

（2）中獎統計：包括全國、分省市、銷售網點的各獎項的中獎注數匯總統計數據。

（3）開獎號碼：包括每一期開獎號碼信息。

（4）獎金信息：包括每一期次各獎項獎金多少的統計數據。

（5）選注明細：當前期次選注明細數據。

（6）選注歷史明細：歷史期次選注明細數據。

（7）中獎選注明細：當前期中獎選注明細數據。

（8）中獎選注歷史明細：歷史中獎選注明細數據。

　　如果從存儲規模和計算規模兩個維度分別考慮，針對銷量統計、中獎統計和獎金信息，我們需要關注的是計算規模；針對選注明細、選注歷史我們要關注的則是存儲規模。

三、存儲規模評估　　

3.1 數據結構

針對雙色球算獎平台而言，所有需要存儲的數據中，選注歷史明細信息的存儲是規模最大的，根據目前雙色球每一期次的平均銷量來看，需要存儲的每一期次選注明細信息約為2億條記錄。每一選注需要存儲的信息包括：站號、操作員、流水號、銷售期、有效期、銷售時間、金額、投注明細（多條）、開獎時間和附加碼。具體如下圖所示：

為簡化我們的分析，我們將復式投注和膽拖投注明細拆分成單式投注進行存儲，具體數據結構如下：

序號	字段名稱	類型	長度
1	期次	Char	7（YYYYMMN）
2	站號	Char	8（全國唯一）
3	流水號	Char	6（右側補零）
4	Red1	char	2（左側補零）
5	Red2	Char	2（左側補零）
6	Red3	Char	2（左側補零）
7	Red4	Char	2（左側補零）
8	Red5	Char	2（左側補零）
9	Red6	Char	2（左側補零）
10	Blue	char	2（左側補零）

按照簡化后的數據存儲，單注明細需要的存儲空間=35字節，每一期次需要存儲的絕對數據規模=200000000*35/1024/1024=6675.7M。如果單從這個角度來看，數據存儲規模還真的不算大。但是考慮到RDMS表的存儲和訪問，無論是采用分區，還是分表，能夠實現的其實只是把數據塞進去，至於，讀出來，如何讀出來則將會是一個悲劇。不要告訴我用索引，用索引需要付出的代價是什么，我想有更多的人比我清楚。

3.2 測試環境

項	值	備注
操作系統	Windows XP
數據庫	Sybase15.7
CPU	T5550	雙核1.83
內存	2G
硬盤	200G

3.3 測試結果-無索引插入

輪次	插入記錄數	耗時
第一輪	200w	15分03秒
第二輪	200w	18分05秒
第三輪	200w	19分04秒

3.4 數據庫空間-1000w記錄數據庫空間

四、計算規模評估

　　這部分設計到具體采用的算法，但是無論采用何種算法，2億次規模的數據遍歷是必須的，之前園友提到的方法其實很好，根據開獎號碼，設計中獎選注表，利用待兌獎數據進行組合ID比較，然后得出目標選注。然后進行獎項層次的細分，思路很好，可是有沒有想到過2億次乘以目標中獎選注表項個數的計算規模有是多少次呢。如果采用SQL的方式，時間呢，又需要多少的時間？有數據有真相，正在跑相關的測試案例。至少目前看到的結果，很不理想。

正在跑測試數據，持續更新中，有圖有真相，有數據才有說服力！敬請關注、支持！求推薦！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【原創】python基於大數據現實雙色球預測大數據——如何設計實時數據平台（設計篇）大數據總體介紹大數據虛擬混算平台Moonbox配置指南基於大數據平台的畢業設計【原創】大數據基礎之Logstash（3）應用之http（in和out）大數據平台R語言web UI應用架構設計與開發 Netsharp總體設計大數據競賽平台——Kaggle 入門篇好用的大數據平台有哪些？