手寫很累,復制的同學請點贊犒勞下在下哦 ^_^
一、對於.CSV類型的數據
它們的數據導入都很簡單
且看下面一頓操作:
我平時一般是讀取整個文件,直接這樣就可以了:
1 import pandas as pd 2 data = pd.read_csv('test.csv',encoding = 'GBK', engine="python")
得到的,是一個DataFrame類型的data,不熟悉處理方法可以參考pandas十分鍾入門
如有 OSError: Initializing from file failed 這樣的錯誤,就是沒有加 engine = "python"
還有一種方法就是用CSV庫:
1 import csv 2 3 with open("test.csv","r") as csvfile: 4 data = csv.reader(csvfile) 5 #這里不需要readlines 6 for line in data: 7 print line
其次是寫入,一般簡單的寫入只需要:
1 import pandas as pd 2 3 #這里只是范例,a,b可根據實際替換為你想寫入的內容 4 #搞出來一個字典,然后轉成dataframe類型 5 a = [1,2,3] 6 b = [4,5,6] 7 dataframe = pd.DataFrame({'a_name':a,'b_name':b}) 8 9 #將DataFrame存儲為csv格式, index表示是否顯示行名,default=True 10 dataframe.to_csv("test.csv",index=False,sep=',')
ok 完工
需求高一點的就是逐行寫。
1 import csv 2 3 with open("test.csv","w") as csvfile: 4 data = csv.writer(csvfile) 5 6 #先寫入columns_name 7 data.writerow(["index","a_name","b_name"]) 8 #寫入多行用writerows 9 data.writerows([[0,1,3],[1,2,3],[2,3,4]])
二、.txt 就簡單了
直接上去三板斧
1 f = open('/test.txt') 2 3 f.read() 4 5 f.close()
需要注意的是,f.write()有坑,要注意模式,
1 f1 = open('/test.txt','w') 2 f1.write('hello buddy!')
但此時數據只寫到了緩存中,並未保存到文件,而且從下面的輸出可以看到,原先里面的配置被清空了然后就囧了。
使用r+ 模式不會先清空,但是會替換掉原先的文件。
如果在寫之前先讀取一下文件,再進行寫入,則寫入的數據會添加到文件末尾而不會替換掉原先的文件。這是因為指針引起的,r+ 模式的指針默認是在文件的開頭,如果直接寫入,則會覆蓋源文件,通過read() 讀取文件后,指針會移到文件的末尾,再寫入數據就不會有問題了。這里也可以使用a 模式。
三、.dat文件很方便,因為他既能轉成.txt,他的格式也很方便,一般都是用”,“或者”::“分割開。
處理的話,我是用
users = pd.read_table(path+'users.dat',sep = '::',header=None, names = unames,engine='python')
這種方法的,path可以定義一個絕對路徑,移植的時候也很方便。
四、.json文件的讀寫
pandas庫還為我們提供了可以讀取很多種類文件類型的函數。
我就不一一列舉示例了,調用很簡單,而且很多編輯器也會給你一些參數上的提示。
Json文件是相當常見一種文件類型。對於這類數據的讀取,極其極其簡單。
直接上個例子:
設Json文件
{ "fontFamily": "微軟雅黑", "fontSize": 12, "BaseSettings":{ "font":1, "size":2 } }
只需要這樣讀取:
1 import json 2 3 def loadFont(): 4 f = open("Settings.json", encoding='utf-8') //設置以utf-8解碼模式讀取文件,encoding參數必須設置,否則默認以gbk模式讀取文件,當文件中包含中文時,會報錯 5 setting = json.load(f) //其實讀取的核心就是這個函數 6 family = setting['BaseSettings']['size'] //注意多重結構的讀取語法 7 size = setting['fontSize'] 8 return family, size 9 10 t,x = loadFont() 11 12 print(t) 13 #將會返回t值為2, x為12
how easy it is
.txt文件可以直接用pandas中的pd.read_csv('filename')直接傻瓜式讀寫。參見最上面csv文件的讀寫。
類型轉換格式對應表:
JSON | Python |
Object | dict |
array | list |
String | unicode |
number(int) | int, long |
number(real) | float |
true | True |
false | False |
null | None |
使用第三方庫:Demjson
Demjson是python的第三方模塊庫,可用於編碼和解碼JSON數據,包括了JSONLint的格式化及校驗功能。
linux安裝:
環境配置
在使用 Demjson 編碼或解碼 JSON 數據前,我們需要先安裝 Demjson 模塊。本教程我們會下載 Demjson 並安裝:
$ tar -xvzf demjson-2.2.3.tar.gz $ cd demjson-2.2.3 $ python setup.py install
更多安裝介紹查看:http://deron.meranda.us/python/demjson/install
JSON函數
函數 | 描述 |
encode | 將python對象編碼成JSON字符串 |
decode | 將一遍嗎的JSON字符串解碼為Python對象 |
Encode語法:
demjson.encode(self, obj, nest_level=0)
實例:
以下實例將數組編碼為 JSON 格式數據:
#!/usr/bin/python import demjson data = [ { 'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4, 'e' : 5 } ] json = demjson.encode(data) print json
執行結果為: [{"a":1,"b":2,"c":3,"d":4,"e":5}]
Decode:解碼 JSON 數據。該函數返回 Python 字段的數據類型。
語法:
demjson.decode(self, txt)
示例:
import demjson json = '{"a":1,"b":2,"c":3,"d":4,"e":5}'; text = demjson.decode(json) print text
執行結果為: {u'a': 1, u'c': 3, u'b': 2, u'e': 5, u'd': 4}
導入數據
- pd.read_csv(filename):從CSV文件導入數據
- pd.read_table(filename):從限定分隔符的文本文件導入數據
- pd.read_excel(filename):從Excel文件導入數據
- pd.read_sql(query, connection_object):從SQL表/庫導入數據
- pd.read_json(json_string):從JSON格式的字符串導入數據
- pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中的tables表格
- pd.read_clipboard():從你的粘貼板獲取內容,並傳給read_table()
- pd.DataFrame(dict):從字典對象導入數據,Key是列名,Value是數據
導出數據
- df.to_csv(filename):導出數據到CSV文件
- df.to_excel(filename):導出數據到Excel文件
- df.to_sql(table_name, connection_object):導出數據到SQL表
- df.to_json(filename):以Json格式導出數據到文本文件
創建測試對象
- pd.DataFrame(np.random.rand(20,5)):創建20行5列的隨機數組成的DataFrame對象
- pd.Series(my_list):從可迭代對象my_list創建一個Series對象
- df.index = pd.date_range('1900/1/30', periods=df.shape[0]):增加一個日期索引
查看、檢查數據
- df.head(n):查看DataFrame對象的前n行
- df.tail(n):查看DataFrame對象的最后n行
- df.shape():查看行數和列數
- :查看索引、數據類型和內存信息
- df.describe():查看數值型列的匯總統計
- s.value_counts(dropna=False):查看Series對象的唯一值和計數
- df.apply(pd.Series.value_counts):查看DataFrame對象中每一列的唯一值和計數
數據選取
- df[col]:根據列名,並以Series的形式返回列
- df[[col1, col2]]:以DataFrame形式返回多列
- s.iloc[0]:按位置選取數據
- s.loc['index_one']:按索引選取數據
- df.iloc[0,:]:返回第一行
- df.iloc[0,0]:返回第一列的第一個元素
數據清理
- df.columns = ['a','b','c']:重命名列名
- pd.isnull():檢查DataFrame對象中的空值,並返回一個Boolean數組
- pd.notnull():檢查DataFrame對象中的非空值,並返回一個Boolean數組
- df.dropna():刪除所有包含空值的行
- df.dropna(axis=1):刪除所有包含空值的列
- df.dropna(axis=1,thresh=n):刪除所有小於n個非空值的行
- df.fillna(x):用x替換DataFrame對象中所有的空值
- s.astype(float):將Series中的數據類型更改為float類型
- s.replace(1,'one'):用‘one’代替所有等於1的值
- s.replace([1,3],['one','three']):用'one'代替1,用'three'代替3
- df.rename(columns=lambda x: x + 1):批量更改列名
- df.rename(columns={'old_name': 'new_ name'}):選擇性更改列名
- df.set_index('column_one'):更改索引列
- df.rename(index=lambda x: x + 1):批量重命名索引
數據處理:Filter、Sort和GroupBy
- df[df[col] > 0.5]:選擇col列的值大於0.5的行
- df.sort_values(col1):按照列col1排序數據,默認升序排列
- df.sort_values(col2, ascending=False):按照列col1降序排列數據
- df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,后按col2降序排列數據
- df.groupby(col):返回一個按列col進行分組的Groupby對象
- df.groupby([col1,col2]):返回一個按多列進行分組的Groupby對象
- df.groupby(col1)[col2]:返回按列col1進行分組后,列col2的均值
- df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):創建一個按列col1進行分組,並計算col2和col3的最大值的數據透視表
- df.groupby(col1).agg(np.mean):返回按列col1分組的所有列的均值
- data.apply(np.mean):對DataFrame中的每一列應用函數np.mean
- data.apply(np.max,axis=1):對DataFrame中的每一行應用函數np.max
數據合並
- df1.append(df2):將df2中的行添加到df1的尾部
- df.concat([df1, df2],axis=1):將df2中的列添加到df1的尾部
- df1.join(df2,on=col1,how='inner'):對df1的列和df2的列執行SQL形式的join
數據統計
- df.describe():查看數據值列的匯總統計
- df.mean():返回所有列的均值
- df.corr():返回列與列之間的相關系數
- df.count():返回每一列中的非空值的個數
- df.max():返回每一列的最大值
- df.min():返回每一列的最小值
- df.median():返回每一列的中位數
- df.std():返回每一列的標准差