一、數據分析介紹
- 數據分析是什么?
- 數據分析能干什么?
- 為什么利用Python進行數據分析?
- 數據分析過程概述
- 常用庫簡介
1、數據分析是什么
在我們如今這個時代,相信大多數人都能明白數據的重要性,數據就是信息,而數據分析就是可以讓我們發揮這些信息功能的重要手段。
2、數據分析能干什么
對於數據分析能干什么其實我們可以簡單的舉幾個例子:
1、淘寶可以觀察用戶的購買記錄、搜索記錄以及人們在社交媒體上發布的內容選擇商品推薦
2、股票可以根據相應的數據選擇買進賣出
3、今日頭條可以將數據分析應用到新聞推送排行算法當中
4、愛奇藝可以為用戶提供個性化電影推薦服務
其實數據分析不僅可以完成像以上這樣的推薦系統,在制葯行業也可運用數據分析來預測什么樣的化合物更有可能制成高效葯物等
所以說數據分析絕對是未來所有公司不可或缺的崗位,目前社會上獲取數據方式太多了,這么多的數據,只要我們擁有數據分析的技能,絕對可以應付任何崗位上的工作。
3、為什么利用Python進行數據分析
- 1、Python的代碼語法簡單易學
- 2、Python可以很容易的整合C、C++等語言的代碼
- 3、Python有大量用於科學計算的庫
- 4、Python不僅可以用於研究和原型構建,同時也適用於構建生產系統
4、數據分析過程概述
4.1、提出問題
在真正的工作場景下,往往我們需要的處理的是多個龐大的數據集還有可能是類型完全不同的數據,那這個時候一個准確的問題就可以讓我們聚集與問題相關的那部分數據,為后續的分析操作提供一個明確的方向,幫助我們得到一個有意義的結論。
4.2、整理數據
整理數據主要分為三步:
(1)、收集數據
通過多種途徑拿到數據,導入到Jupyter Notebook
中
(2)、評估數據
這一步主要是需要找出數據是否存在質量或者結構等方面的問題
(3)、清理數據
通過修改、替換、刪除等方式保證數據質量高、結構好
3.3、探索性數據分析
在這一步驟主要可以探索並且擴充數據
4.4、得出結論
在進行完探索性數據分析之后肯定會得出一個結果或者說是結論,這樣我們就可以根據這樣一個結論進行相應的操作,就比如說分析股票數據得到那個大盤趨勢好可以選擇買進,又或者說類似於萬達這樣的大型商場可以分析那種類型的商品會比較受用戶的歡迎,以便針對性的存貨。但是具體的操作可能就需要用到機器學習或者推斷統計學來實現,這個就與數據分析不一樣了
4.5、傳達結果
分析的能力有多強,分析的價值就有多大。
這一步主要是向其他人證明你發現的見解以及傳達意義
5、常用庫簡介
Numpy
Numpy是Numerical Python的簡寫,主要可以用來做Python數值計算。它提供了多種數據結構、算法以及大部分涉及Python數值計算所需的接口。
- 快速、高效的多維數組對象ndarray
- 基於元素的數組計算以及直接對數組執行數學運算的函數
- 用於讀寫硬盤上基於數組的數據集的工具
- 線性代數運算、傅里葉變換,以及隨機數生成
- 用於將C、C++、Fortran代碼集成到python的工具
Pandas
Pandas使我們進行數據分析的一個主要工具。它所包含的數據結構和數據處理工具的設計使得Python中進行數據清洗和分析非常快捷。pandas一般也是和其他數值計算工具一起使用的,支持大部分Numpy語言風格的數組計算。pandas和numpy最大的區別就是pandas是用來處理表格型或者異質性數據的,而Numpy則剛好相反,它更適合處理同質型的數值類數組數據
matplotlib
matplotlib是最流行的用於繪制數據圖表的python庫。
Scipy
Scipy是科學計算領域針對不同標准問題域的包集合。提供了強大的科學計算方法(矩陣分析、信號分析、數理分析等)
IPython和Juypyter notebook
IPython是一個加強版的Python解釋器,Juypyter notebook是一種基於Web的代碼筆記本,最初也是源於IPython項目。