第一章 准備工作 今天開始碼這本書--《利用python進行數據分析》。R和python都得會用才行,這是碼這本書的原因。首先按照書上說的進行安裝,google下載了epd_free-7.3-1-win-x86.msi,譯者建議按照作者的版本安裝,EPDFree包括了Numpy,Scipy ...
pandas是本書后續內容的首選庫。pandas可以滿足以下需求: 具備按軸自動或顯式數據對齊功能的數據結構。這可以防止許多由於數據未對齊以及來自不同數據源 索引方式不同 的數據而導致的常見錯誤。. 集成時間序列功能 既能處理時間序列數據也能處理非時間序列數據的數據結構 數學運算和簡約 比如對某個軸求和 可以根據不同的元數據 軸編號 執行 靈活處理缺失數據 合並及其他出現在常見數據庫 例如基於SQ ...
2015-11-30 09:17 4 64601 推薦指數:
第一章 准備工作 今天開始碼這本書--《利用python進行數據分析》。R和python都得會用才行,這是碼這本書的原因。首先按照書上說的進行安裝,google下載了epd_free-7.3-1-win-x86.msi,譯者建議按照作者的版本安裝,EPDFree包括了Numpy,Scipy ...
http://www.cnblogs.com/batteryhp/p/5046450.html 對數據進行分組並對各組應用一個函數,是數據分析的重要環節。數據准備好之后,通常的任務就是計算分組統計或生成透視表。groupby函數能高效處理數據,對數據進行切片、切塊、摘要等操作。可以看出 ...
輸入輸出一般分為下面幾類:讀取文本文件和其他更高效的磁盤存儲格式,加載數據庫中的數據。利用Web API操作網絡資源。 1、讀寫文本格式的數據 自己感覺讀寫文件有時候“需要運氣”,經常需要手工調整。因為其簡單的文件交互語法、直觀的數據結構,以及諸如元組打包解包之類的便利功能,Python在文本 ...
5、時期及其算數運算 時期(period)表示的是時間區間,比如數日、數月、數季、數年等。Period類所表示的就是這種數據類型,其構造函數需要用到一個字符串或整數,以及頻率。 array([126, 129, 132], dtype=int64)[Finished ...
7、時間序列繪圖 pandas時間序列的繪圖功能在日期格式化方面比matplotlib原生的要好。 下面是作出的幾張圖: 8、移動窗口函數 在移動窗口(可以帶有指數衰減權數)上計算的各種統計函數也是一類常見於時間序列的數組變換。作者將其稱為移動窗口函數 ...
http://www.cnblogs.com/batteryhp/p/5025772.html python有許多可視化工具,本書主要講解matplotlib。matplotlib是用於創建出版質量圖表的桌面繪圖包(主要是2D方面)。matplotlib的目的是為了構建一個MATLAB式 ...
第三節中的四個示例。(ps:新開一篇是為了展現對例子的重視。) 3.1用特定於分組的值填充缺失值 對於缺失值的清理工作,可以用dropna進行刪除,有時候需要進行填充(或者平滑化)。這時候用的是fillna。 0 -0.3114181 -0.0543052 ...
時間序列是很重要的。時間序列(time series)數據是一種重要的結構化數據格式。時間序列的意義取決於具體的應用場景,主要有以下幾種: 時間戳(timestamp),特定的時刻 固定時期(period),如2015年 ...