在當前大數據這么火的背景下,跟上步伐變得尤為重要,所以選擇了《數據分析的統計基礎》進行學習。
第一章主要采用篩選書的主題內容(大部分照着書敲了一遍加深記憶)並添加了百度百科的鏈接方便查閱里面的數學知識。
1.1 什么是數據分析
專業:有針對性的收集,加工,整理數據,並采用統計,挖掘技術分析和解釋數據的科學和藝術。
客觀:從行業的角度看,數據分析是基於某種行業目的,有目的地進行收集,整理,加工,和分析數據,提煉有價值信息的一個過程。
本質:a.目標,數據分析的關鍵在於設立目標,專業上叫做“有針對性”
b.方法,包括統計分析和數據挖掘
c.結果,數據分析最終要得出分析結果,結果對目標解釋的強弱,結果的應用效果如何。
1.2 數據分析六步曲
明確分析目的和內容=》數據收集=》數據預處理=》數據分析=》數據展現=》報告撰寫
1.2.1 明確分析目的和內容
分析對象是誰?商業目的是什么?解決什么業務問題?
1.2.2 數據收集
觀察法,訪談法,問卷法,測驗法等
1.2.3 數據預處理
a.數據審查
記錄數是否滿足最低要求,內容是否與要求一致,是否全面,檢查字段類型,字段值的最大值,最小值,平均數,中位數等
b.數據清理
針對a中發現的明顯錯誤值、缺失值、異常值、可疑數據、重復數據等選用適當的方法進行“清理”,使“臟”數據變為“干凈”數據。
c.數據轉換
d.數據驗證
初步評估和判斷數據是否滿足統計分析的需要,從而決定是否需要增加或減少數據量。利用簡單的線性模型及散點圖、直方圖、折線圖、
等圖形進行探索性分析、一致性檢驗等方法對數據的准確性進行驗證,確保不把錯誤和偏差的數據帶入到數據分析中。
1.2.4 數據分析
指通過分析手段、方法和技巧對准備好的數據進行探索、分析,從中發現因果關系、內部聯系和業務規律,為目標提供決策參考
分析方法:方差、回歸、因子、聚類、分類、時間序列等(原理,使用范圍,結果的解釋)
1.2.5 數據展現
餅形圖、折線圖、柱形圖/條形圖、散點圖、雷達圖、金字塔圖、矩陣圖、漏斗圖、
帕累托圖等
1.2.6 報告撰寫
明確的結論、建議和解決方案
1.3 數據分析方法簡介
1.3.1 統計分析方法簡介1.3.1.1 描述性統計分析(Description Statistics)通過圖表或數學的方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特征和隨機變量之間的關系進行估計和描述的方法。c. 相關分析1.3.1.2 回歸分析(Regression)確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法,它主要研究一個隨機變量Y對另一個隨機變量(X)或一組(X1,X2, X3...XK)變量的相依關系1.3.1.3 對應分析 (Correspondence Analysis)“關聯分析”,“R-Q型因子分析”,通過分析由定性變量構成的交互匯總表來揭示變量間的聯系。可以揭示同一個變量的各個類別之 間的差異,以及不同變量各個類別之間的對應關系。對應分析的基本思路是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。1.3.1.4 因子分析(Factor Analysis)研究從變量群中提取共性因子的統計技術。從大量的數據中尋找內在的聯系,減輕決策困難的分析方法。“變異數分析”、“F檢驗”。用於兩個及以上樣本均數差別的顯著性檢驗。從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。1.3.2 數據挖掘方法簡介1.3.2.1 聚類分析(Cluster Analysis)將物理或抽象對象集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數據分類到不同的類或者簇的過程,所以同一個簇中的對象有很大的相似性,而不同簇之間的對象有很大的相異性。1.3.2.2 分類數據分析1.3.2.2.1 決策樹(Decision Tree)優點:可以生成可理解的規則;計算量相對來說不是很大;可以處理連續和離散字段;可以清晰的顯示出哪些字段比較重要。缺點:對連續性的字段比較難預測;當類別太多時,錯誤可能會增加得比較快;一般的算法分類的時候,僅根據一個屬性來進行分類;不是全局最優。1.3.2.2.2 人工神經網絡(Artificial Neural Networks(ANNs))是一種應用類似於大腦神經突觸聯接的結構進行信息處理的數學模型,它是數據挖掘中 機器學習的典型代表。是由人工建立的以有向圖為拓撲結構的動態系統,通過對連續或斷續的輸入作狀態響應而進行信息處理。特點:可以充分逼近任意復雜的非線性關系;所有定量或定性的信息都等勢分布存於網絡內的各神經元中。故有很強的 魯棒性和容錯性;采用分布處理方法,使得快速進行大量運算成為可能;可以學習和自適應不知道或不確定的系統;能夠處理定量,定性的知識。1.3.2.2.3 貝葉斯分類(Bayesian Classification)主要用來預測類成員間的可能性。是基於 貝葉斯定律。1.3.2.2.4 支持向量機(Support Vector Machine)與傳統的神經網絡技術相比,支持向量機不僅結構簡單,而且各項技術的性能也明顯提升。支持向量機以 結構風險最小為原則。1.3.2.2.5 隨機森林(Random Forest(RF))是一種組合分類器,它利用 bootstrap重抽樣方法從原始樣本中抽取多個樣本,對每個bootstrap樣本進行決策樹建模,然后將這些決策樹組合在一起,通過投票得出最終分類或預測的結果。大量的理論和實證研究都證明了隨機森林算法具有較高的預測准確率,對異常值和噪聲具有很好的容忍度,且不容易出現擬合。1.3.2.3 關聯規則(Association Rule)主要目的是找出數據集中的頻繁模式(Frequent Pattern),既多次重復出現的模式和並發關系(Cooccurrence Relationships),即同時出現的關系,頻繁和並發關系也稱作關聯(Association)1.3.2.4 回歸分析(Regression)更多使用的是 邏輯斯蒂回歸(Logistic Regression)它包括響應預測、分類規划。在用來估算多元線性方程中自變量系數的方法中,最常用用的是最小二乘法,即找出一組對應自變量的相應參數,以使因變量的實際觀測值與回歸方程的預測值之間的總方差減到最小。1.3.3 統計分析與數據挖掘的區別和聯系1.3.3.1 統計分析與數據挖掘的聯系的抽樣估計需應用該理論,而在數據挖掘技術的 朴素貝葉斯分類中,就是這些統計理論的發展和延伸。1.3.3.2 統計分析與數據挖掘的區別
No 統計分析 數據挖掘 1 分析人員常常需要對數據分布和變量間的關系做假設,確定用什么概率函數來描述變量間的關系,以及如何檢驗參數的統計顯著性; 分析人員不需要對數據分布做任何假設,數據挖掘中的算法會自動尋找變量間的關系。相對與海量,雜亂的數據,數據挖掘技術有明顯的應用優勢。 2 在預測中的應用常表現為一個或一組函數關系式 在預測應用中的重點在於預測的結果,很多時候並不會從結果中產生明確的函數關系式。 3 分析人員先做假設或判斷,然后利用數據分析技術來驗證該假設是否成立 不需要對數據的內在關系做任何假設或判斷,而是會讓挖掘工具中的算法自動去尋找數據中隱藏的關系或規律。更靈活,更寬廣的思路和應用。
感謝您的支持與關注!