python中利用pandas讀寫csv文件


問題1:錯誤提示:UnicodeDecodeError: 'ascii' codec can't decode byte 0xb8

原因:含有中文字符

import pandas

pandas.read_csv(r'C:\test.csv',encoding='gbk')

 

 問題2:將DataFrame格式的文件保存為csv格式,比如,DF變量為DataFrame格式的數據

DF.to_csv(r'C:\test.csv',encoding='gbk')

 

問題3:將特定格式的字符串保存為csv文件,比如

string_data = "1111,2222,242424,,55325,36666,112414" 
pd_data = pd.Series(string_data)
pd_data_expend = pd_data.str.split(",", expand=True)
pd_data.shape
pd_data_expend.shape

 

問題4:如何刪除DataFrame存在重復數據?

import pandas as pd

DataFrame.drop_duplicates()

 問題5:to_csv保存的時候,如何隱藏行和列的頭文件?

import pandas as pd

DataFrame.to_csv(r"*\test.csv", header=False, index=False)

 問題6:dict的keys具有無序的特性,如何保證dict轉為dataframe數據時,按照制定的列進行排列? 比如Data ={'col2': [3, 4], 'col4': [1, 2]}

import pandas as pd

Data = {'col2': [3, 4], 'col4': [1, 2]}
pd.DataFrame(Data)

輸出結果:

      col2  col4
0      3       1
1      4       2

import pandas as pd

Data = {'col2': [3, 4], 'col4': [1, 2]}
pd.DataFrame(Data, columns=["col4","col2"])

  輸出結果: 

   col4  col2
0  1      3
1  2      4

如果columns中的知道的字符串不存在,將自動賦值為NAN

 

import pandas as pd
Data = {'col2': [3, 4], 'col4': [1, 2]}
pd.DataFrame(Data, columns=["col4","col2", "col10"])

輸出結果為:

      col4  col2  col10
0      1     3      NaN
1      2    4       NaN

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM