當前工作上需要上對數據進行處理分析,以輔助運營部門工作。在此記錄下一些過程,以總結提高。
准備
由於第一次接觸數據分析以供其他部分同事使用的工作,所以走了一些彎路。一開始的時候是閱讀一些大數據分析的書籍,這些書籍基本都是從工具角度去進行介紹,而沒有從總體的角度去解析這種事情。所以對初期工作的開展沒有太大的幫助,應該是在對事情處理一般流程大概了解后,再利用特定的工具。
接下來讓我們看一下CRISP-DM(跨行業數據挖掘標准流程)是怎么樣定義流程。
業務理解(Business Understanding)
最初的階段集中在理解項目目標和從業務的角度理解需求,同時將這個知識轉化為數據挖掘問題的定義和完成目標的初步計划。
數據理解(Data Understanding)
目的是熟悉數據,識別數據的質量問題,發現數據的內部屬性。
數據准備(Data Preparation)
數據准備階段包括從未處理數據中構造最終數據集的所有活動。這些數據將是模型工具的輸入值。這個階段的任務有個能執行多次,沒有任何規定的順序。任務包括表、記錄和屬性的選擇,以及為模型工具轉換和清洗數據。
建模(Modeling)
在這個階段,可以選擇和應用不同的模型技術,模型參數被調整到最佳的數值。一般,有些技術可以解決一類相同的數據挖掘問題。有些技術在數據形成上有特殊要求,因此需要經常跳回到數據准備階段。
評估(Evaluation)
到項目的這個階段,你已經從數據分析的角度建立了一個高質量顯示的模型。在開始最后部署模型之前,重要的事情是徹底地評估模型,檢查構造模型的步驟,確保模型可以完成業務目標。這個階段的關鍵目的是確定是否有重要業務問題沒有被充分的考慮。在這個階段結束后,一個數據挖掘結果使用的決定必須達成。
部署(Deployment)
模型的作用是從數據中找到知識,獲得的知識需要便於用戶使用的方式重新組織和展現。這里還遺留一個重要問題:怎么判斷modeling是否還有效。
思考
由於整個公司都是圍繞業務進行,所以數據挖掘也需要圍繞業務進行,這就預示着第一階段的業務理解將是重要和困難。
說到這,我想起之前讀過的兩句話:
- 客戶最了解自己的業務
- 客戶不知道自己要什么
這兩句話,我的理解是客戶在明確自己的業務后,才能從客戶處挖掘出其業務流程。而如果客戶對於業務流程不明確的情況下,會挖掘出大量偽需求。或許關於需求挖掘有關於這方面的工具可以借鑒。
如果是業務流程不明確,那么是不是就沒有事情可做了呢?
在初期可以以很少的投入去完成初始數據的輸出,給運營部作參考。這樣相當於給客戶demo,起拋磚引玉的作用。