數據分析總結與感悟


小生今年研二,從事軟件數據分析與挖掘不到兩年。兩年里小生忙忙碌碌,從來沒有總結過自己的工作,今天暫停住忙碌的腳步,隨意書寫幾行文字,權當忙里偷閑總結這兩年數據分析與研究的經歷與體悟。大家共勉!

   分析數據其實說難也難說簡單也是簡單的。分析的難點在於初始分析某個專業領域的數據是“無從下手”的,數據量之大,種類之多,更新速度之快真的會讓所有 分析人員摸不着頭腦。此時,最重要的就是多看數據了,人工一條一條的解讀數據,剛開始最基本的還是解決what的問題,數據的方方面面,不同的屬性代表什 么意思,屬性之間是否有關聯關系等等都是解讀數據初期需要完成的目標。當然這個過程是痛苦的,萬事開頭難嘛!

  難點之二在於尋找分析的目 標,也就是暫定分析時要解決的問題,這可不是我們小生菜鳥能解決的問題。此時,真正需要的就是與專業領域內大牛討論學習了,不然剛開始為什么說需要學徒 呢!(學徒可不是指找個師傅幫你完成解決問題時的困難,而是以師傅的“格局”開闊的視野幫助我們找需要解決的問題。瑪蛋,聽起來是不是很欠!)好了,問題 確定了,分析的目標也就確定了,不過此時的問題之抽象不是一般人能想象的,如果能搞懂問題你也算是“大牛”了!這也就是分析數據的難點之一了。搞不懂問題 主要還是對數據理解不深,還是要繼續人工看數據。不過小生要恭喜你的是你升級了,此時看數據再也不是解決what了,而是應該心中帶着問題,帶着分析的目 標驗證數據,看看數據是否真的存在這些問題,或者尋找解決問題的角度。

  到這一步,下面就是要解決how的問題了,也許需要尋找數據內部 的規律,此時可能需要做一些統計核實規律的普遍性。不過到這一步應該本領域的數據比較熟悉了,分析起來也不覺得那么難受了(實現自己的想法還是挺有意思 的),結合分析目標也許自己可以提出一些技術方法實現一些技術路線。后面就是建模驗證技術的可行性和有效性了。模型里可能有一些參數需要調整,這些參數的 值不同便會影響模型的結果,因此訓練數據集此時很重要,不過這個小生感悟還不是很多,畢竟數據分析才搞了兩年,之前對訓練的數據也只是做了一些分組,主要 分為訓練集和實驗集。訓練集是為了調整模型參數的,而實驗集主要用來驗證模型的有效性。

  

  感謝大家耐得住寂寞,挺得住煩惱,看完這一行行無聊的文字。也許您會批評兩句,建議幾點!謙虛學習,高調做事,誠懇待人,一向是小生待人處事的原則。感謝大家的關注,大家的建議!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM