《深入淺出數據分析》筆記


剛准備轉行數據分析的時候看過一本書叫《深入淺出數據分析》,非常通俗易懂,是我數據分析的啟蒙書籍~分享下當時的筆記,書里的案例經常會在我之后的工作中給我靈感。同系列有一本《深入淺出統計學》,也寫的很棒,公式較多所以是做的紙質版的筆記,以后也會分享。

 

Chapter 1 數據分析引言 分解數據

 

需求:如何提升銷量

主要內容:數據分析的流程,統計模型與心智模型。

1、數據分析的流程:

確定:了解問題。客戶將幫助你確定問題。

分解:分解問題和數據,讓他成為更小的組成部分。找出高效的比較因子。

評估:根據了解到的情況,作出各種結論。數據分析的核心是有效的比較。

決策:重新組合結論,作出決策建議。作出自己明確的假設和結論。

2、統計模型取決於心智模型。心智模型一定要指出不確定因素。

3、數據分析的根本在於密切關注需要了解的數據。

4、分析報告parts:背景,數據解說,建議。數據報告中應該讓客戶詳細瀏覽你的思考過程。

 


Chapter 2 檢驗你的理論 做實驗

 

需求:找出解決銷量下滑的辦法

主要內容:比較法、混雜因素、控制組

1、統計與分析的最基本原理之一就是比較法。數據只有通過相互比較才會有意義。比較越多,分析結果越正確。特別是對於觀察研究。

2、觀察研究法:被研究人自行決定自己屬於哪個群體的一種研究方法。使用觀察研究法時,應當假定其他因素會混雜你的結論。

3、當懷疑因果關系的走向時,請進行反方向思考,看看結果怎么樣。如價值感的下降導致銷量下降,換過來就是,銷量下降導致價值感下降)

4、當涉及因果關系時,觀察研究法並不是那么強大有力。

5、把所想到的事物之間的聯系畫出來。

6、混雜因素:研究對象的個人差異,他們不是試圖比較的因素,最終會導致分析結果的敏感度變差。觀察分析法充滿混雜因素。

7、數據分析的重點在於分析的結論有意義。

8、拆分數據塊,管理混雜隱私。拆分的數據塊要具有同質性。

9、觀察數據本身無法預示未來。

10、好的實驗總是有一個控制組(對照組)

11、控制組:也稱作對照組。一組體現現狀的處理對象,未經過任何新的處理。

12、歷史控制法,同期控制法(后者比較好)

13、妥善報告可能令人沮喪的消息。

14、從對象池中隨機選擇對象是避免混雜因素的好辦法。

 


Chapter 3 尋找最大值 最優化

 

需求:尋找最佳的生產方案

主要內容:最優化問題、Solver求解器

1、將需要的數據分為兩類:

無法控制的因素,eg:生產用時,原料量

可以控制的因素,eg:生產多少產品A,生產多少產品B –決策變量

約束條件:約束決策變量

2、任何最優化問題都有一些約束條件和一個目標函數。

將決策變量、約束條件和希望最大化的目標合並成一個目標函數。

找出決策變量的可行域。

得出目標函數的最大值。

3、Excel函數插件:Solver(求解器)

4、模型只告訴如果實現最大利潤,但僅僅是在規定的約束條件下。還需要結合事實,歷史數據,務必要規定假設中的各種變量的相互關系,不要假定變量是不相關的。

5、假設立足於不斷變化的實際情況,有時效性,要在必要的時候重新構建分析方法,反復不斷地構建。


Chapter 4 數據圖形化:圖形讓你更精明

 

需求:三種主頁選擇

主要內容:數據圖形化、散點圖、R語言、數據圖形化

Fancy visualization的背后無非都是data.

1、標簽雲:http://www.wondle.net

2、體現數據:用數據思考。數據分析的根本在於總結數據。

3、面對大,量數據:記住目標,目光停留,在和目標。有關的數據上,無視其他。

4、數據圖形化的根本在於正確比較。明確客戶的比較對象。

5、好的數據圖形:展示了數據,做了有效的比較,展示了多個變量。

6、散點圖:發現因果關系。X自變量,Y因變量。

7、圖形多元化:如果一個圖形能對三個以上的變量進行比較,這張圖就是多元圖形。盡量讓圖形多元化最有可能促成最有效的比較。(R的lattice散點圖)

8、Edward Tufte的書,數據圖形化最高權威。

9、不是僅僅將數據展示出來就可以了,還要剖析因果關系,描述圖形。描述數據圖形時,需要論述可相互換用的兩種因果模型或圖解,如不同的原因假設。


Chapter 5 假設檢驗:假設並非如此

 

需求:何時開始生產新產品

主要內容:假設檢驗、證據的診斷性

1、觀察數據變量的方法之一:看他們之間是正相關,還是負相關。

2、現實世界中的各種原因呈因果關系網絡,而非線性關系。

3、假設檢驗的核心是證偽,剔除無法證實的假設,而不是選出最合理的假設。

4、滿意法:選出看上去最可信的第一個假設。主觀性太強。

5、進行假設檢驗時,要使用證偽法,回避滿意法。證偽法可以對各種假設保持敏銳,防止掉入認知陷阱。

6、診斷性:證據所具有的一種功能,能夠幫助評估所考慮的假設的相對似然性。只要能夠幫助評估各種假設的相對強度,證據和數據就具有診斷性。如果證據具有診斷性,就能幫助對假設的排序。


Chapter 6 貝葉斯統計:穿越第一關

 

需求:判斷患病的概率

主要內容:條件概率、基礎概率、貝葉斯規則

1、條件概率:以一件事的發生為前提的另一件事的發生概率。

2、基礎概率:又叫事前概率。在根據試驗結果分析之前,已經知道的概率。如果有基礎概率,一定要考慮。

3、將概率轉變為整數,然后進行思考,是避免犯錯誤的一個有效辦法。

4、貝葉斯規則可以反復使用,注意每次使用時,要根據上一次的結果調整新的基礎概率。

5、避免基礎概率謬誤的唯一方法就是對基礎概率提高警惕,而且務必要將它整合到分析中去。

 

患病案例:

Background:

條件概率:

診斷實驗正確性分析報告(common sense):

Y:患病。N: 未患病。 +:陽性。 -:陰性

1.若某人被診斷患病(條件),試驗結果為陽性的概率為90% -- True positive. 即P(+|Y) = 90%
 
2.若某人未患病(條件),試驗結果為陽性的概率為9% -- False positive.即P(+|N) = 9%

3.由1得:若某人被診斷患病,試驗結果為陰性的概率為10% -- False negative.即P(-|Y) = 10%

4.由2得:若某人未患病,試驗結果為陰性的概率為91% -- True negative.即P(-|N) = 91%

想要求試驗結果為陽性的情況下,一個人真的患病的概率,即P(Y|+)

Ture positive

False negative

1

False positive

True negative

1

 

基礎概率:

研究表明,總人口中有1%的人患病。

基礎概率是根據試驗結果單獨分析每個人的情況之前,已經知道患病的人口有1%,所以基礎概率又叫事前概率。

下方為樹圖:

 

 

 

1000人

 

 

 

 

患病者1%,10人

 

 

 

未患病者990人

 

試驗結果為陽性90%,9人

 

試驗結果為陰性1人

 

試驗結果為陽性9%,89人

 

試驗結果為陰性,901人

在試驗結果為陽性的條件下,患病的概率 = 9 / (9+89) = 0.09 = 9%

貝葉斯公式:

P(Y|+) = true positive / (true positive + false positive)


Chapter 7 主觀概率:信念數字化

 

需求:解決分歧,統一決策

主要內容:主觀概率、標准偏差、貝葉斯規則

1、主觀概率:用一個數字形式的概率來表示自己對某事的確認程度。特別適合在預測孤立事件卻缺乏從前在相同條件下發生過的事件的可靠數據的情況下。

2、主觀概率是一種向別人精確地傳達你的想法和信念的富有啟示性的表達方法。

3、標准偏差:量度分析點與平均值的偏差。Excel中STDEV函數。

4、貝葉斯規則是修正主觀概率的好辦法。找出在假設成立的條件下,證據出現的概率。


Chapter 8 啟發法:憑人類的天性做分析

 

需求:工作成果評估

主要內容:啟發法、快省樹

1、啟發法:(心理學)用一種更便於理解的屬性代替一種難解的、令人困惑的屬性。(計算機科學)一種解決問題的方法,可能會得出正確答案,但不保證得出最優化答案。從直覺走向最優化的橋梁。

2、快省樹:描述啟發法的圖形。

3、固定模式都具有啟發性。


Chapter 9 直方圖:數字的形狀

 

需求:要求加薪的策略

主要內容:直方圖、鈴形曲線

1、直方圖:顯示數據點在數值范圍內的分布情況。

2、直方圖不同區間之間的缺口即數據點之間的缺口。

3、鈴形曲線:正態分布/高斯分布。只要數據呈現正態分布,大量簡單有效的統計方法就能派上用場。

4、只要峰的數目超過一個,就不能成為鈴形,就不是正態分布。


Chapter 10 回歸:預測

 

需求:加薪結果預測

主要內容:平均值圖、散點圖、相關性、相關系數

1、算法:為了完成某個計算而執行的任何過程。

2、只要兩種變量成對出現並描述了數據中包含的人或事,就可以同時放,就在散點圖中。

3、散點圖的根本在於尋找變量之間的因果關系。

4、散點圖和直方圖的差別在於顯示兩種變量。

5、平均值圖是一種散點圖,顯示出與X軸上的每個區間相對應的Y軸數值。

6、回歸線是最准確地貫穿平均值圖中的各個點的直線。

7、相關性:兩種變量之間的線性關系。

8、回歸線對於具有線性相關特點的數據很有用。

9、相關系數r:衡量相關性的強弱,范圍為-1至1,0表示無相關性,1和-1表示兩個變量完全相關。計算相關系數cor()函數。

10、相關性是否足夠取決於實際的經驗判斷。任何軟件都無法判別回歸線是否有用。只要能看出兩個變量之間具有密切的關系,只要回歸線有意義,就可以充滿信心地讓軟件計算各個系數。

11、用R創建回歸對象:lm()函數。算出斜率和截距(回歸系數),生成回歸方程。查看回歸系數:summary(myLm)$coefficients


Chapter 11 誤差:合理誤差

 

需求:讓加薪預測更有效

主要內容:外插法、內插法、機會誤差、均方根誤差、回歸分析的功能。

1、外插法:用回歸方程預測數據范圍以外的數值。

2、內插法:對數據范圍內的點進行預測。

3、如果使用外插法,要指定附加假設條件。

4、低劣的預測比不作預測更糟糕。

5、如果使用抽樣數據,就要確保能代表整個數據集。

6、不合適的假設會使模型完全失效,甚至結果具有欺騙性。

7、機會誤差:又叫殘差。實際結果與預測結果之間的偏差。殘差分析是優秀的統計模型的核心。

8、均方根誤差描述的是回歸線周圍的分布情況,標准偏差描述的是平均值周圍的分布情況。他們都是預測實際結果與典型預測結果之間可能有多大的差距。

R用lm()創建回歸對象后, summary(myLm)$sigma查看均方根誤差,顯示為residual standard error.可以利用均方根誤差改善模型,利用每個取值段的殘差細化。

9、線性回歸一般用均方根誤差公式描述誤差,但是也有其他量度方法。

10、分割的根本目的是管理誤差。

11、優秀的回歸分析兼具解釋功能和預測功能。


Chapter 12 關系數據庫:你能關聯嗎?

 

需求:分析雜志銷量

主要內容:數據庫、RDBMS

1、數據庫就是一系列相互有特定關系的數據。

2、數據庫要求表格之間的關系都是量化關系。

3、關系數據庫管理系統(RDBMS)每一行都有一個ID,確保表格之間量化關系不被破壞

4、R繪圖時jitter函數,在數字中添加噪音,使數據相互分隔,易於在散點圖上識別。eg,橫坐標article的數量,縱坐標銷售額:

Plot(sales~jitter(article.count), data = dispatch)

R中實現select subset:

myLm <- lm (received [negotiate == TRUE & request >10] ~ request [negotiate == TRUE & request > 10], data = employees)

R中實現lattice散點圖:lattice包中的xyplot函數:

Xyplot(webHits~commentCount | authorName, data = articleHitsComments)

| authorName表示以作者名分組。


Chapter 13 整理數據:井然有序

 

需求:整理收集到的凌亂數據

主要內容:整理數據、Excel分列功能、常用函數、正則表達式

1、數據分析和整理上的時間要多於數據分析的時間。

2、整理數據必須從復制原始數據開始,步驟如下:

1)保存原始數據副本。

2)設想數據集的最終外觀。

3)區分混亂數據中重復出現的模式。

4)整理並重新構造。

3、Excel可以通過分隔符將數據分成多個列。(數據-分列)

4、常用函數:

Find:在單元格中的哪個位置查找搜索字符串

Left:取單元格左邊的字符

Right:取單元格右邊的字符

Trim:刪除單元格中的空格

Len:求單元格的長度

Concatenate:取兩個值,然后合並在一起

Value:以文本格式存儲的數字的數值

Substitute:以指定的新文本替代單元格中不需要的文本

5、不要把較小的公式合並成一個大公式,而是拆成幾個不同的單元格,再用一個最終的公式將所有單元格合並起來。

6、正則表達式:可以指定復雜的模式,以便匹配和替換文本字符串。是整理混亂數據的殺手鐧。Excel並不適用正則表達式。

正則表達式包括三個部分:左括號,右括號和括號里面的所有內容。

R中的正則表達式:\\(.*\\)  \\為退出符

Newlastname <- sub (\\(.*\\), “”, hfhh$LastName),

sub指令用空格替換所發現的所指定模式。

7、如果出現數據重復,要判斷是因為查詢返回數據的方式,還是數據本身質量低劣。


附錄:

1、需要補充的知識:

1)統計知識

2)Excel技巧

3)Edward Tufte的圖形原則:

體現出比較、對比、差異

體現出因果關系、機制、理由、系統結構

體現出多元數據,即體現出1個或2個變量

將文字、數字、圖片、圖形全面結合起來

充分描述證據

數據分析報告的成敗在於報告內容的質量、相關性和整體性

4)數據透視表

5)R社區

6)非線性與多元回歸

7)原假設-備擇假設檢驗

8)隨機性

9)Google Docs

10)專業技能

2、R:www.r-project.org


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM