數據分析(7):pandas介紹和數據導入和導出


前言

  1. Numpy
    Numpy是科學計算的基礎包,對數組級的運算支持較好
  2. pandas

pandas提供了使我們能夠快速便捷地處理結構化數據的大量數據結構和函數。pandas兼具Numpy高性能的數組計算功能以及電子表格和關系型數據(如SQL)靈活的數據處理能力,處理上千萬的大數據易於反掌。對於金融行業的用戶,pandas提供了大量適用於金融數據的高性能時間序列功能和工具。DataFrame是pandas的一個對象,它是一個面向列的二維表結構,且含有行標和列標。

DataFrame是pandas的一個對象,它是一個面向列的二維表結構,且含有行標和列標。

  1. matplotlib
    matplotlib是最流行的用於繪制數據圖表的python庫。
  2. Scipy
    Scipy是一組專門解決科學計算中各種標准問題域的包的集合。
  3. statsmodels
    提供了各種模型
  4. scikit-learn
    machine learning模塊

數據導入和導出

1.本地讀取

import pandas as pd data = pd.read_csv(filepath)

2.網絡讀取

import pandas as pd data_url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv" #填寫url讀取 df = pd.read_csv(data_url)

3.讀取excel文件

data = pd.read_excel(filepath)

4.導出到csv文件

`
data.to_csv(filepath, encoding = 'utf-8', index = False)

index=False表示導出時去掉行名稱,如果數據中含有中文,一般encoding指定為‘utf-8’

`


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM