一、數據讀取:左上角“文件 -->打開流 --> 選擇文件所在位置導入即可”
二、數據的身份:下方“字段選項 -- >類型"節點(處理數據類型)、下方“字段選項 -- >過濾”節點(刪除不需要的字段屬性)
三、數據的集成:合並(橫向合並,涉及內鏈接、外連接等)和追加(縱向合並)
四、描述性統計指標:下方的“輸入-->數據審核”節點就可以算出所有雖需要的描述性統計指標
1、集中趨勢:
平均數:非常容易受到異常點的影響,會影響對整體數量的集中分析,比如收入指標
中位數:不會收到異常點的影響,但中位數只是利用了部分信息,對整體數據的信息利用不充分
## 一般時平均數和中位數一起結合使用,看看數據分布是否左偏還是右偏
## 實際生活中,為了解決這些缺點,會提出幾個最大值和最小值,然后再對剩下的數據求平均
眾數:一般用在分類變量中,連續性變量用這個指標相對較少
2、離散趨勢:
極差:一組數據中最大值減去最小值的差;極差利用整體數據的信息不充分
離差、平均差、方差、標准差:
3、分布趨勢:
偏度:研究數據分布對稱的統計量,通過對偏度系數的測量,我門可以判定數據分布的不對稱程度以及方向,尾巴在哪就是那偏
偏度的公式:
峰度:時研究數據分布陡峭或者平滑的統計量,通過對鋒度系數的測量,我么能夠判定數據分布相對於正太分布而言時更陡峭還是平滑
峰度的公式:當峰度等於0時,則該數據的分布形態是服從正態分布