主流數據文件類型（.dat/.txt/.json/.csv）導入到python

本文轉載自查看原文 2018-01-29 12:51 15546 python

手寫很累，復制的同學請點贊犒勞下在下哦 ^_^

一、對於.CSV類型的數據

它們的數據導入都很簡單

且看下面一頓操作：

我平時一般是讀取整個文件，直接這樣就可以了：

1 import pandas as pd
2 data = pd.read_csv('test.csv',encoding = 'GBK', engine="python")

得到的，是一個DataFrame類型的data，不熟悉處理方法可以參考pandas十分鍾入門

如有 OSError: Initializing from file failed 這樣的錯誤，就是沒有加 engine = "python"

還有一種方法就是用CSV庫：

1 import csv
2 
3 with open("test.csv","r") as csvfile:
4     data = csv.reader(csvfile)
5     #這里不需要readlines
6     for line in data:
7         print line

其次是寫入，一般簡單的寫入只需要：

 1 import pandas as pd
 2 
 3 #這里只是范例，a,b可根據實際替換為你想寫入的內容
 4 #搞出來一個字典，然后轉成dataframe類型
 5 a = [1,2,3]
 6 b = [4,5,6]    
 7 dataframe = pd.DataFrame({'a_name':a,'b_name':b})
 8 
 9 #將DataFrame存儲為csv格式, index表示是否顯示行名，default=True
10 dataframe.to_csv("test.csv",index=False,sep=',')

ok 完工

需求高一點的就是逐行寫。

1 import csv
2 
3 with open("test.csv","w") as csvfile: 
4     data = csv.writer(csvfile)
5 
6     #先寫入columns_name
7     data.writerow(["index","a_name","b_name"])
8     #寫入多行用writerows
9     data.writerows([[0,1,3],[1,2,3],[2,3,4]])

二、.txt 就簡單了

直接上去三板斧

1 f = open('/test.txt')
2 
3 f.read()
4 
5 f.close()

需要注意的是，f.write()有坑，要注意模式，

1 f1 = open('/test.txt','w')
2 f1.write('hello buddy!')

但此時數據只寫到了緩存中，並未保存到文件，而且從下面的輸出可以看到，原先里面的配置被清空了然后就囧了。

使用r+ 模式不會先清空，但是會替換掉原先的文件。

如果在寫之前先讀取一下文件，再進行寫入，則寫入的數據會添加到文件末尾而不會替換掉原先的文件。這是因為指針引起的，r+ 模式的指針默認是在文件的開頭，如果直接寫入，則會覆蓋源文件，通過read() 讀取文件后，指針會移到文件的末尾，再寫入數據就不會有問題了。這里也可以使用a 模式。

三、.dat文件很方便，因為他既能轉成.txt，他的格式也很方便，一般都是用”，“或者”：：“分割開。

處理的話，我是用

users = pd.read_table(path+'users.dat',sep = '::',header=None, names = unames,engine='python')

這種方法的，path可以定義一個絕對路徑，移植的時候也很方便。

四、.json文件的讀寫

pandas庫還為我們提供了可以讀取很多種類文件類型的函數。

我就不一一列舉示例了，調用很簡單，而且很多編輯器也會給你一些參數上的提示。

Json文件是相當常見一種文件類型。對於這類數據的讀取，極其極其簡單。

直接上個例子：

設Json文件

{
    "fontFamily": "微軟雅黑",
    "fontSize": 12,
    "BaseSettings":{
        "font":1,
        "size":2
                   }
}

只需要這樣讀取：

 1 import json
 2 
 3 def loadFont():
 4     f = open("Settings.json", encoding='utf-8')  //設置以utf-8解碼模式讀取文件，encoding參數必須設置，否則默認以gbk模式讀取文件，當文件中包含中文時，會報錯
 5     setting = json.load(f)    //其實讀取的核心就是這個函數
 6     family = setting['BaseSettings']['size']   //注意多重結構的讀取語法
 7     size = setting['fontSize']   
 8     return family, size
 9 
10 t，x = loadFont()
11 
12 print(t)
13 #將會返回t值為2， x為12

how easy it is

.txt文件可以直接用pandas中的pd.read_csv('filename')直接傻瓜式讀寫。參見最上面csv文件的讀寫。

類型轉換格式對應表：

JSON	Python
Object	dict
array	list
String	unicode
number(int)	int, long
number(real)	float
true	True
false	False
null	None

使用第三方庫：Demjson

Demjson是python的第三方模塊庫，可用於編碼和解碼JSON數據，包括了JSONLint的格式化及校驗功能。

linux安裝：

環境配置

在使用 Demjson 編碼或解碼 JSON 數據前，我們需要先安裝 Demjson 模塊。本教程我們會下載 Demjson 並安裝：

$ tar -xvzf demjson-2.2.3.tar.gz
$ cd demjson-2.2.3
$ python setup.py install

更多安裝介紹查看：http://deron.meranda.us/python/demjson/install

JSON函數

函數	描述
encode	將python對象編碼成JSON字符串
decode	將一遍嗎的JSON字符串解碼為Python對象

Encode語法：

demjson.encode(self, obj, nest_level=0)
實例：
以下實例將數組編碼為 JSON 格式數據：

#!/usr/bin/python
import demjson

data = [ { 'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4, 'e' : 5 } ]

json = demjson.encode(data)
print json

執行結果為： [{"a":1,"b":2,"c":3,"d":4,"e":5}]

Decode：解碼 JSON 數據。該函數返回 Python 字段的數據類型。

語法：

demjson.decode(self, txt)
示例：

import demjson

json = '{"a":1,"b":2,"c":3,"d":4,"e":5}';

text = demjson.decode(json)
print  text

　　執行結果為： {u'a': 1, u'c': 3, u'b': 2, u'e': 5, u'd': 4}

導入數據

pd.read_csv(filename)：從CSV文件導入數據
pd.read_table(filename)：從限定分隔符的文本文件導入數據
pd.read_excel(filename)：從Excel文件導入數據
pd.read_sql(query, connection_object)：從SQL表/庫導入數據
pd.read_json(json_string)：從JSON格式的字符串導入數據
pd.read_html(url)：解析URL、字符串或者HTML文件，抽取其中的tables表格
pd.read_clipboard()：從你的粘貼板獲取內容，並傳給read_table()
pd.DataFrame(dict)：從字典對象導入數據，Key是列名，Value是數據

導出數據

df.to_csv(filename)：導出數據到CSV文件
df.to_excel(filename)：導出數據到Excel文件
df.to_sql(table_name, connection_object)：導出數據到SQL表
df.to_json(filename)：以Json格式導出數據到文本文件

創建測試對象

pd.DataFrame(np.random.rand(20,5))：創建20行5列的隨機數組成的DataFrame對象
pd.Series(my_list)：從可迭代對象my_list創建一個Series對象
df.index = pd.date_range('1900/1/30', periods=df.shape[0])：增加一個日期索引

查看、檢查數據

df.head(n)：查看DataFrame對象的前n行
df.tail(n)：查看DataFrame對象的最后n行
df.shape()：查看行數和列數
：查看索引、數據類型和內存信息
df.describe()：查看數值型列的匯總統計
s.value_counts(dropna=False)：查看Series對象的唯一值和計數
df.apply(pd.Series.value_counts)：查看DataFrame對象中每一列的唯一值和計數

數據選取

df[col]：根據列名，並以Series的形式返回列
df[[col1, col2]]：以DataFrame形式返回多列
s.iloc[0]：按位置選取數據
s.loc['index_one']：按索引選取數據
df.iloc[0,:]：返回第一行
df.iloc[0,0]：返回第一列的第一個元素

數據清理

df.columns = ['a','b','c']：重命名列名
pd.isnull()：檢查DataFrame對象中的空值，並返回一個Boolean數組
pd.notnull()：檢查DataFrame對象中的非空值，並返回一個Boolean數組
df.dropna()：刪除所有包含空值的行
df.dropna(axis=1)：刪除所有包含空值的列
df.dropna(axis=1,thresh=n)：刪除所有小於n個非空值的行
df.fillna(x)：用x替換DataFrame對象中所有的空值
s.astype(float)：將Series中的數據類型更改為float類型
s.replace(1,'one')：用‘one’代替所有等於1的值
s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3
df.rename(columns=lambda x: x + 1)：批量更改列名
df.rename(columns={'old_name': 'new_ name'})：選擇性更改列名
df.set_index('column_one')：更改索引列
df.rename(index=lambda x: x + 1)：批量重命名索引

數據處理：Filter、Sort和GroupBy

df[df[col] > 0.5]：選擇col列的值大於0.5的行
df.sort_values(col1)：按照列col1排序數據，默認升序排列
df.sort_values(col2, ascending=False)：按照列col1降序排列數據
df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，后按col2降序排列數據
df.groupby(col)：返回一個按列col進行分組的Groupby對象
df.groupby([col1,col2])：返回一個按多列進行分組的Groupby對象
df.groupby(col1)[col2]：返回按列col1進行分組后，列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：創建一個按列col1進行分組，並計算col2和col3的最大值的數據透視表
df.groupby(col1).agg(np.mean)：返回按列col1分組的所有列的均值
data.apply(np.mean)：對DataFrame中的每一列應用函數np.mean
data.apply(np.max,axis=1)：對DataFrame中的每一行應用函數np.max

數據合並

df1.append(df2)：將df2中的行添加到df1的尾部
df.concat([df1, df2],axis=1)：將df2中的列添加到df1的尾部
df1.join(df2,on=col1,how='inner')：對df1的列和df2的列執行SQL形式的join

數據統計

df.describe()：查看數據值列的匯總統計
df.mean()：返回所有列的均值
df.corr()：返回列與列之間的相關系數
df.count()：返回每一列中的非空值的個數
df.max()：返回每一列的最大值
df.min()：返回每一列的最小值
df.median()：返回每一列的中位數

df.std()：返回每一列的標准差

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python導入csv/txt文件 Oracle sqlldr導入導出txt數據文件詳解 TXT文件導入到ORACLE數據庫中將csv文件導入到數據庫中 CSV 數據文件設置將xls/csv數據導入到ES中將csv格式的數據文件導入/導出數據庫+添加新的字段 python連接mysql數據表查詢表獲取數據導入到txt中 oracle數據庫備份、還原（如何將Oracle 11g備份的dat文件導入到10g數據庫里面）自定義Qt構建步驟，添加數據文件(txt,json等)到構建目錄