主流數據文件類型(.dat/.txt/.json/.csv)導入到python


手寫很累,復制的同學請點贊犒勞下在下哦 ^_^

一、對於.CSV類型的數據

它們的數據導入都很簡單

且看下面一頓操作:

我平時一般是讀取整個文件,直接這樣就可以了:

1 import pandas as pd
2 data = pd.read_csv('test.csv',encoding = 'GBK', engine="python")

得到的,是一個DataFrame類型的data,不熟悉處理方法可以參考pandas十分鍾入門

如有 OSError: Initializing from file failed 這樣的錯誤,就是沒有加 engine = "python"

還有一種方法就是用CSV庫:

1 import csv
2 
3 with open("test.csv","r") as csvfile:
4     data = csv.reader(csvfile)
5     #這里不需要readlines
6     for line in data:
7         print line

 

其次是寫入,一般簡單的寫入只需要:

 1 import pandas as pd
 2 
 3 #這里只是范例,a,b可根據實際替換為你想寫入的內容
 4 #搞出來一個字典,然后轉成dataframe類型
 5 a = [1,2,3]
 6 b = [4,5,6]    
 7 dataframe = pd.DataFrame({'a_name':a,'b_name':b})
 8 
 9 #將DataFrame存儲為csv格式, index表示是否顯示行名,default=True
10 dataframe.to_csv("test.csv",index=False,sep=',')

ok 完工

 

需求高一點的就是逐行寫。

1 import csv
2 
3 with open("test.csv","w") as csvfile: 
4     data = csv.writer(csvfile)
5 
6     #先寫入columns_name
7     data.writerow(["index","a_name","b_name"])
8     #寫入多行用writerows
9     data.writerows([[0,1,3],[1,2,3],[2,3,4]])

 

二、.txt 就簡單了

直接上去三板斧

1 f = open('/test.txt')
2 
3 f.read()
4 
5 f.close()

需要注意的是,f.write()有坑,要注意模式,

1 f1 = open('/test.txt','w')
2 f1.write('hello buddy!')

但此時數據只寫到了緩存中,並未保存到文件,而且從下面的輸出可以看到,原先里面的配置被清空了然后就囧了。

使用r+ 模式不會先清空,但是會替換掉原先的文件。

如果在寫之前先讀取一下文件,再進行寫入,則寫入的數據會添加到文件末尾而不會替換掉原先的文件。這是因為指針引起的,r+ 模式的指針默認是在文件的開頭,如果直接寫入,則會覆蓋源文件,通過read() 讀取文件后,指針會移到文件的末尾,再寫入數據就不會有問題了。這里也可以使用a 模式。

 

三、.dat文件很方便,因為他既能轉成.txt,他的格式也很方便,一般都是用”,“或者”::“分割開。

處理的話,我是用

users = pd.read_table(path+'users.dat',sep = '::',header=None, names = unames,engine='python')

這種方法的,path可以定義一個絕對路徑,移植的時候也很方便。

 

四、.json文件的讀寫

pandas庫還為我們提供了可以讀取很多種類文件類型的函數。

我就不一一列舉示例了,調用很簡單,而且很多編輯器也會給你一些參數上的提示。

Json文件是相當常見一種文件類型。對於這類數據的讀取,極其極其簡單。

直接上個例子:

設Json文件

{
    "fontFamily": "微軟雅黑",
    "fontSize": 12,
    "BaseSettings":{
        "font":1,
        "size":2
                   }
}

 

只需要這樣讀取:

 1 import json
 2 
 3 def loadFont():
 4     f = open("Settings.json", encoding='utf-8')  //設置以utf-8解碼模式讀取文件,encoding參數必須設置,否則默認以gbk模式讀取文件,當文件中包含中文時,會報錯
 5     setting = json.load(f)    //其實讀取的核心就是這個函數
 6     family = setting['BaseSettings']['size']   //注意多重結構的讀取語法
 7     size = setting['fontSize']   
 8     return family, size
 9 
10 t,x = loadFont()
11 
12 print(t)
13 #將會返回t值為2, x為12

how easy it is

 

.txt文件可以直接用pandas中的pd.read_csv('filename')直接傻瓜式讀寫。參見最上面csv文件的讀寫。

類型轉換格式對應表:

JSON Python
Object dict
array list
String unicode
number(int) int, long
number(real) float
true True
false False
null None

 

使用第三方庫:Demjson

Demjson是python的第三方模塊庫,可用於編碼和解碼JSON數據,包括了JSONLint的格式化及校驗功能。

linux安裝:

環境配置

在使用 Demjson 編碼或解碼 JSON 數據前,我們需要先安裝 Demjson 模塊。本教程我們會下載 Demjson 並安裝:

$ tar -xvzf demjson-2.2.3.tar.gz
$ cd demjson-2.2.3
$ python setup.py install

更多安裝介紹查看:http://deron.meranda.us/python/demjson/install

JSON函數

函數 描述
encode 將python對象編碼成JSON字符串
decode 將一遍嗎的JSON字符串解碼為Python對象

Encode語法:

demjson.encode(self, obj, nest_level=0)
實例:
以下實例將數組編碼為 JSON 格式數據:
#!/usr/bin/python
import demjson

data = [ { 'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4, 'e' : 5 } ]

json = demjson.encode(data)
print json

執行結果為:  [{"a":1,"b":2,"c":3,"d":4,"e":5}]

 

Decode:解碼 JSON 數據。該函數返回 Python 字段的數據類型。

語法:

demjson.decode(self, txt)
示例:
import demjson

json = '{"a":1,"b":2,"c":3,"d":4,"e":5}';

text = demjson.decode(json)
print  text

  執行結果為:    {u'a': 1, u'c': 3, u'b': 2, u'e': 5, u'd': 4}

 

導入數據

  • pd.read_csv(filename):從CSV文件導入數據
  • pd.read_table(filename):從限定分隔符的文本文件導入數據
  • pd.read_excel(filename):從Excel文件導入數據
  • pd.read_sql(query, connection_object):從SQL表/庫導入數據
  • pd.read_json(json_string):從JSON格式的字符串導入數據
  • pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中的tables表格
  • pd.read_clipboard():從你的粘貼板獲取內容,並傳給read_table()
  • pd.DataFrame(dict):從字典對象導入數據,Key是列名,Value是數據

 

導出數據

    • df.to_csv(filename):導出數據到CSV文件
    • df.to_excel(filename):導出數據到Excel文件
    • df.to_sql(table_name, connection_object):導出數據到SQL表
    • df.to_json(filename):以Json格式導出數據到文本文件

創建測試對象

  • pd.DataFrame(np.random.rand(20,5)):創建20行5列的隨機數組成的DataFrame對象
  • pd.Series(my_list):從可迭代對象my_list創建一個Series對象
  • df.index = pd.date_range('1900/1/30', periods=df.shape[0]):增加一個日期索引

 

查看、檢查數據

  • df.head(n):查看DataFrame對象的前n行
  • df.tail(n):查看DataFrame對象的最后n行
  • df.shape():查看行數和列數
  • :查看索引、數據類型和內存信息
  • df.describe():查看數值型列的匯總統計
  • s.value_counts(dropna=False):查看Series對象的唯一值和計數
  • df.apply(pd.Series.value_counts):查看DataFrame對象中每一列的唯一值和計數

 

數據選取

  • df[col]:根據列名,並以Series的形式返回列
  • df[[col1, col2]]:以DataFrame形式返回多列
  • s.iloc[0]:按位置選取數據
  • s.loc['index_one']:按索引選取數據
  • df.iloc[0,:]:返回第一行
  • df.iloc[0,0]:返回第一列的第一個元素

 

數據清理

  • df.columns = ['a','b','c']:重命名列名
  • pd.isnull():檢查DataFrame對象中的空值,並返回一個Boolean數組
  • pd.notnull():檢查DataFrame對象中的非空值,並返回一個Boolean數組
  • df.dropna():刪除所有包含空值的行
  • df.dropna(axis=1):刪除所有包含空值的列
  • df.dropna(axis=1,thresh=n):刪除所有小於n個非空值的行
  • df.fillna(x):用x替換DataFrame對象中所有的空值
  • s.astype(float):將Series中的數據類型更改為float類型
  • s.replace(1,'one'):用‘one’代替所有等於1的值
  • s.replace([1,3],['one','three']):用'one'代替1,用'three'代替3
  • df.rename(columns=lambda x: x + 1):批量更改列名
  • df.rename(columns={'old_name': 'new_ name'}):選擇性更改列名
  • df.set_index('column_one'):更改索引列
  • df.rename(index=lambda x: x + 1):批量重命名索引

 

數據處理:Filter、Sort和GroupBy

  • df[df[col] > 0.5]:選擇col列的值大於0.5的行
  • df.sort_values(col1):按照列col1排序數據,默認升序排列
  • df.sort_values(col2, ascending=False):按照列col1降序排列數據
  • df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,后按col2降序排列數據
  • df.groupby(col):返回一個按列col進行分組的Groupby對象
  • df.groupby([col1,col2]):返回一個按多列進行分組的Groupby對象
  • df.groupby(col1)[col2]:返回按列col1進行分組后,列col2的均值
  • df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):創建一個按列col1進行分組,並計算col2和col3的最大值的數據透視表
  • df.groupby(col1).agg(np.mean):返回按列col1分組的所有列的均值
  • data.apply(np.mean):對DataFrame中的每一列應用函數np.mean
  • data.apply(np.max,axis=1):對DataFrame中的每一行應用函數np.max

 

數據合並

  • df1.append(df2):將df2中的行添加到df1的尾部
  • df.concat([df1, df2],axis=1):將df2中的列添加到df1的尾部
  • df1.join(df2,on=col1,how='inner'):對df1的列和df2的列執行SQL形式的join

 

數據統計

  • df.describe():查看數據值列的匯總統計
  • df.mean():返回所有列的均值
  • df.corr():返回列與列之間的相關系數
  • df.count():返回每一列中的非空值的個數
  • df.max():返回每一列的最大值
  • df.min():返回每一列的最小值
  • df.median():返回每一列的中位數

 

    • df.std():返回每一列的標准差

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM