大數據項目實踐指南(整體思路)


做了三個完整的大數據項目后,我整理了一下大數據的項目實踐思路。這里寫下總體思路。

假設加油的人多,我願意將其具體編寫為一本書。就叫《大數據項目實踐指南》吧?哪個出版社有興趣的話。能夠聯系我。徐建明 18971024137


為什么大多數企業都實施大數據項目?

    1,希望進行更有效的分析,他們認識到由此須要分析的數據量也會大幅添加。

這些活動往往會由一個業務單位(如營銷部門)∙來承擔。


    2,企業意識到能夠通過實時分析將其產品打包在一個服務層中。幫助客戶更高效地使用其產品。


    3,企業希望通過大數據來傳達某個業務單位或流程的全部決策。從而提升操作速度,提高操作質量並減少操作成本。
    4,企業意識到大數據對於每一個業務單位都相當重要。它們嘗試建立以數據為中心縱觀全局的基礎環境。
    5,企業認識到必須在大數據方面有所作為,不然就會落伍,但並未切實規划出怎樣開展這項工作。我們的目標就是了解並嘗試開展這項工作。


    
大數據項目為什么會失敗?
    1,目標不明朗.此項調查得出的最常見失敗原因是項目“范圍不准確”。

很多企業在項目伊始都雄心勃勃,但目標模棱兩可,無法分清項目的輕重緩急。為了實施大數據項目而草率上馬。必定會導致災難。這類項目的復雜性要求企業具有堅定的信念。為取得一定成果而不懈努力。

假設目標不確定。則顯然是不可行的。
    2,預期目標不合理.在大數據紛紛擾擾的宣傳之下,您會對項目的成果做出一下假設,而這些假設往往會產生不利影響。在非常短的時間內冒然做出一些承諾盡管看起來會非常誘人,但相同非常重要的是,您須要客觀地預計項目可能會產生的成果、項目周期以及實現這些成果所須要付出的努力。假設對影響和洞察力的期望過高。則會像大海撈針一般茫然無措。假設對交付成果的期望不切實際。您就會發現您要遵從的截止日期和預算根本就不可行。
    
    3,項目超支和延誤.因為對企業來說這方面仍然還是全新事物。您就不難理解大多數大數據項目都會成本超支或時間延誤。造成這樣的問題的解決辦法往往是期望目標不合理、加上對怎樣構建可擴展體系架構不了解在少數成本高昂的 Hadoop Java開發者從事着大規模手動編碼實施工作的同一時候,企業也非常快認識到脫離沙盒環境而不出現不論什么錯誤是不可能的。大數據項目終歸會淪落為一項科學實驗
    
    4,無法擴展.要想找到五名優秀的 Hadoop Java 開發者絕非易事。

然而,隨着項目的發展,一年須要擴充到30名 Java 開發者。事情可能就變得愈加棘手。最糟糕的並非Hadoop 群集無用武之地而是白白浪費了時間並失去了動力。企業往往青睞短期的權宜之計,而忽視了長期的可持續發展。

盡管我們能夠不負責任地提醒您能夠避免這樣的取舍,但我們還是要着重強調長期發展的重要性。

為了讓您的數據獲得合理的保護和管理,您須要隨時關注項目的長期影響。大數據項目失敗的四個原因令人擔憂。但的確非經常見。所以,接下來讓我們來看看怎樣避免這些因素,建立一個長久的實施方法。


    
怎樣讓大數據項目成功運行
    1, 制定清晰的目標並對期望目標進行管理假設您不確定該項目的目標。請參考您為現有數據基礎設施制定的目標。假設企業的某些業務流程(如欺詐檢測或市場分析)已經須要用到數據,請想想大數據怎樣才干改進這些流程或提升其價值。與其應對全新的問題,不如致力於改進現有流程或項目。

假設沒有明白的方向並向業務用戶展示出價值,您的項目將難逃厄運。
    2,確定能夠證明項目。價值的指標明白定義貼合項目目標的指標能夠讓您避免諸多麻煩。為自己制定一些能夠衡量的現實目標。其它人就能夠看出您所取得的進展。更重要的是。他們也能夠看出您的長期目標是什么。問問自己,依據您的目標,您怎樣衡量項目的影響。這一點非常重要。因為您的業務用戶須要為短期失敗找到合理的原因。而可衡量的目標能夠幫助您證明您正在實現更高的價值。


    3。從戰略的角度使用工具和手動。

編碼避免直接在 Hadoop 中對全部內容進行手動編碼。請記住,我們的目標並非從零開始人工實施一個有效的環境——而是為企業提供大數據的價值。

您不應嘗試對每一次集成和全部分析進行手動編碼並清理每一個數據集,而是應借助工具和自己主動化技術來加快這些流程的運行。

尤其是,不要讓少數成本高昂的Java 開發人才把時間浪費在無法讓其它員工接手的工作上。您的職責是制定戰略決策,將稀缺資源部署到能夠實現您的目標的地方。借助現有 ETL、數據質量和商業智能專家的技能和知識,採用能夠提高開發團隊工作效率的工具,將 Java 高手解放出來,從事具體邏輯工作。此外,因為像 Hadoop 這樣的技術日新月異,您就須要考慮採用一個抽象層來應對不斷變化的基礎技術規范。

總之,請記住。您須要的技能是稀缺的——而工具隨時可用。

何謂正確的項目
    1。明白的價值。

所謂正確的項目。就是要使 IT 與您嘗試提供幫助的業務單位都能分享到項目所帶來的價值。也就是說。須要為部門、業務單位或小組提供明白的價值,讓他們都能夠看得到。


    2,贊助方。高管能夠支持您的願景是項目取得成功的關鍵。大數據項目須要得到高層的擁護和贊同,願意為您的工作提供支持。所以。假設您能夠為物流部門打造超群的分析能力,而支持您這樣的想法的高管僅僅有 CMO,您就應該三思而后行。

假設營銷部門擁護您的工作,您就應該優先滿足營銷部門的分析需求。您不能強迫不論什么人做出改變。

順勢而為,盡力發揮最大價值。
    3,保齡球效應。您的首個戰術項目具有至關重要的戰略意義。您不僅要力排眾議,證明大數據能夠為您所在的業務單位提供幫助,還要確保它的價值能夠輕松地傳達給整個企業。因此,對於首個項目,您必須從戰略的角度進行選擇。

舉例來說。在您向營銷部門展示出大數據的價值之后。爭取獲得可能持保留意見的物流團隊的支持就會比較easy。
    4,可傳授的技能。

正如上面所說,您希望首個項目的價值能夠讓企業的其它部門信服。為此,您須要確保能夠從首個項目中獲得正確的技能、能力和經驗教訓。具體地說。就是您要確保將這些技能、能力和經驗教訓文檔化。以便在下一個項目中加以運用。請記住。取得成功須要放眼未來。隨時做好擴展的准備。這樣您才干在將來處理很多其它的項目。這不僅僅是擴展群集的問題,而是擴展您的技能和運營規模的問題。您須要召集很多其它的 Java/Hadoop高手,或者找到能夠充分發揮現有資源潛能的方法。
    
考慮產生的影響
    1,成本和干擾。從根本上說,項目成本取決於順利開展項目所須要的時間和資金。實際上,您還應考慮項目可能會造成的干擾。

有時,因為業務單位習慣自行掌控數據。而不希望將控制權轉移給一個中央數據治理框架,這樣就會在過程上造成干擾。

而假設您須要將新技術集成到現有基礎設施中並對技能進行重組或升級。則會在技術和技能方面造成干擾。

不管哪種情況,您都應該想到並確保盡可能地避免干擾,或者說明避免干擾的重要性。


    2,產生收益和影響的時間。

當考慮不同的啟動項目時。您自然而然會傾向於能夠產生最大業務影響和提升的項目。

然而,對業務影響性質的考慮也非常重要。項目的多數價值是在短期還是長期內實現?更重要的是,業務用戶什么時候才干感受到這樣的業務影響?比如,您能夠向數據倉庫引入主數據管理並大幅提高您的商業智能效率。

可是,僅僅有您的業務分析師意識到無需再清理財務數據的時候,這樣的價值才干被感知。
    3,資源和限制。

鑒於您對前述兩個因素的分析。請考慮您能支配的資源。

我們隨后會更具體地探討這一點,但如今,請記住一點,您當然是希望您的項目能不枉您的投入。

實現這個目標涉及兩個方面。一方面,您希望實現最大限度的業務影響。然而,同一時候您也必須戰略性地使用您的預算。盡管您可能會有建立像 Google 那樣的數據科學家團隊的沖動,但您真的負擔得起嗎?在工具和人員之間做出明智的選擇。對您項目的成功至關重要。

戰術性大數據項目演示樣例
    1,一家大型科技公司希望通過結合 Hadoop 和傳統的數據倉庫技術,減少每 TB 的總體成本增長。從而節省幾百萬元的數據倉庫成本增長。
    2,一家大型運輸制造商計划在未來 10 年將汽車燃油消耗率減少 1%。

這家制造商也希望通過將維護期延長 10% 並將里程提高 1%。從而減少有毒碳排放。
    3,一家機車制造商希望將日常路線提高每小時公里數,從而使客戶每年可節省 2 億元。


    4,一家支付服務公司希望通過改善客戶個性化體驗將數字業務添加 30%,作為其“零售全方位優化”大數據戰略的一部分。對於不論什么大數據團隊來說。這些都是不小的成就。



基礎大數據之旅
    1,數據倉庫優化。這一步要求選擇在最經濟高效的平台上存儲和處理數據。該步驟的開始。通常要將原始數據或不經常使用數據以及 ETL 工作負荷從昂貴的數據倉庫硬件中移除。其目的是避免數據倉庫昂貴的升級成本,並開始使用更廉價的硬件和 Hadoop 等分布式計算框架。因而使您做優點理大數據的量、種類以及速度的准備。
    2,管理數據湖。

管理數據湖是管理您全部數據供需的單個位置。

這里的關鍵詞是“管理”。該步驟的目的是將多結構的雜亂數據變成適用、可靠和安全的信息。

這意味着建立能夠優化、治理和控制您數據的數據湖。

這就須要有足夠的遠見。因為要建立數據湖。您須要融合嚴格、戰略性的數據治理策略和流程。沒有這些策略和流程,您的數據湖就會有基本陷入數據癱瘓境界的風險。


    3。實時運營智能。這一步。您將建立您的團隊訪問、分析和交付全部數據所需的技術(分析、須要大量數據的應用系統以及參與接口)。

您在該步驟建立的應用系統必須易於使用並交付用戶須要的信息。這能夠是一個接口,供客戶服務代表多渠道監控客戶行為並確定未來兩周最可能流失的客戶。


    如前文所述,要獲得最大的成本優勢,我們建議按以下順序運行這些步驟。減少您的基礎設施成本並增強企業體系架構。
    1。數據倉庫優化。

建立管理您全部數據供需的單個位置。
    2,管理數據湖。建立可提供您的團隊所需信息的前沿應用系統。
    3,實時分析。建立可提供您的團隊所需信息的前沿應用系統。

定制業務目標調研表。IT目標調研表

五個重要數據考慮事項
    1,為海量數據做好准備。

您必須做好應對須要“海量”數據的准備。從多個角度依據數據價值(如客戶交易)、使用情況( 訪問頻率)、大小(GB,TB)、復雜度(機器數據、關系數據、視頻……)以及同意訪問數據的人員(僅僅有數據科學家或不論什么暫時業務用戶)對數據進行分類。全面、有序的數據庫存有利於您確定怎樣對全部數據進行管理。評估您的當前存儲和處理能力,並尋找最經濟高效的方式來擴展它。


    2,應對多樣性。大數據最具挑戰性的一面是,您必須在分析中統協多種不同的格式和結構。假設要在您已經習慣使用的數據源(舊式關系型大型機)之外添加新的數據類型和結構(社交、傳感器、視頻),則您必須集成大量的數據源。假設要對每次集成都進行手動編碼。則會非常繁瑣。它可能會耗費您的全部時間和資源。充分利用所提供的數據集成和數據質量工具,能夠讓更有價值的任務加快進度。
    3。處理速度。實時流數據和歷史數據相結合往往能提高分析的預測能力。因此,您所須要的某些數據僅僅有在不斷涌入您的系統時才可能有價值。實際上,大多數實時分析都須要基於流數據進行 – 這樣的數據通常來自不同的源並採用不同的格式。為您的項目准備流分析技術和一個邏輯基礎設施,以便管理全部數據。
    4,確保真實性。不管您的分析有多么重要。假設人們沒有理由信任當中的數據,它就一文不值。您分析的數據越多。保持較高的數據質量就越重要。為使您的數據滿足實際須要,您須要了解數據的用途。假設數據科學家要在聚合的客戶數據中找到數據模式,則須要准備的數據就會大為減少。還有一方面,財務報表和供應鏈數據須要進行精心組織、進行清洗並獲得認證,才干確保准確性和合規性。依據須要准備的數據創建類別,包含原始數據以及由經過清洗的可靠權威數據組成的數據存儲等。該數據存儲已進行精心組織並會受到掌控。
    5,考慮合規性。您處理的不同數據集也會具有不同的安全規定和要求。對於每一個數據集,您須要考慮須要採取什么措施來依據安全策略對數據進行匿名化處理。

您的海量數據會分散在企業的數百個數據存儲中。

您須要熟悉敏感數據所在的位置。並通過加密來確保其數據源的安全性,然后對有權訪問該數據的人員加以控制。除了對敏感數據進行安全、智能存檔之外。還要隨時在其遷移或進入開發和測試環境時使用提前定義的規則使該數據脫敏。對要處理的每一個數據集應用上述五個考慮事項,您就能夠更現實地做好准備來迎接大數據的挑戰。
    

人員准備:
    1。數據科學家
    2。行業專家
    3,業務分析師
    4,數據分析師
    5,數據project師
    6,數據庫管理員
    7。企業架構師
    8,業務解決方式架構師
    9,數據架構師
    10,數據管理員
    11。ETL(數據集成)開發者
    12,應用系統開發者
    13,儀表盤開發者
    14,統計數據建模人員



工具:

1,數據注入。

以合理的方式採用合理的方法高效利用數據的過程。


    批量載入。

您能否夠訪問所需的各種數據。並高效地將批量載入的性能擴展至數據存儲?
    變更數據捕獲。

您能否夠在不影響源系統的情況下捕獲對源系統中的數據所做的更改?
    數據流。

您能否夠可靠地收集實時數據並將其流式傳輸到數據存儲?
    存檔。您能否夠存檔和壓縮不經常使用的數據,同一時候確保能夠在須要時輕松訪問存檔的數據?
    
2,數據管理
    數據集成。

您能否夠准備各種結構和數據源並將它們整合成一個統一的數據集進行分析?
    數據質量。您能否夠可靠地清洗數據、進行反復數據刪除並刪除錯誤?
    數據安全性。

您能否夠通過分配使用、訪問和權限規則來發現和保護全部數據存儲中的數據?
    虛擬數據機。您能否夠為基礎部署環境中松散處理的數據創建一個抽象層?
    主數據管理。您能否夠為各種數據域存儲一個經過整合的完整而權威的真實數據版本號?
    分布式數據框架。您能否夠使用 Hadoop 之類的技術經濟高效地擴展您的存儲和處理需求?
    數據倉庫。您是否具有能夠滿足性能、使用和可擴展性要求的數據倉庫技術,以實現 Hadoop 基礎設施的大數據分析和集成?

3,數據交付。將您的數據發送到須要該數據的系統和應用系統的過程。


    批量載入。您能否夠在源系統、分析系統和操作后端系統之間擴展數據批量載入的性能?
    實時流。您能否夠實時將數據流式傳輸到須要該數據的應用系統、分析系統和后端系統?
    數據集成中心。

您能否夠使用公布-訂閱模式之類的方法來提供數據。以避大量進行點對點集成?
    數據虛擬化。您能否夠在避免數據超載的情況下從您的系統交付數據?
    基於事件的處理。您能否夠實時檢測、分析和響應威脅、機會和其它關鍵業務事件?

4,分析。將原始數據轉化為對要分析的域生成的洞見、模式、預測和計算的工具和流程。
    可視化。您能否夠用易於消化和理解的方式展示數據和結果?
    高級分析。您能否夠將前沿分析算法應用到數據集進行復雜的計算?
    機器學習。

您能否夠在不必進行手動處理的情況下採用復雜的機器學習算法來識別模式並做出預測?
    


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM