問題1:錯誤提示:UnicodeDecodeError: 'ascii' codec can't decode byte 0xb8
原因:含有中文字符
import pandas pandas.read_csv(r'C:\test.csv',encoding='gbk')
問題2:將DataFrame格式的文件保存為csv格式,比如,DF變量為DataFrame格式的數據
DF.to_csv(r'C:\test.csv',encoding='gbk')
問題3:將特定格式的字符串保存為csv文件,比如
string_data = "1111,2222,242424,,55325,36666,112414" pd_data = pd.Series(string_data) pd_data_expend = pd_data.str.split(",", expand=True) pd_data.shape pd_data_expend.shape
問題4:如何刪除DataFrame存在重復數據?
import pandas as pd DataFrame.drop_duplicates()
問題5:to_csv保存的時候,如何隱藏行和列的頭文件?
import pandas as pd DataFrame.to_csv(r"*\test.csv", header=False, index=False)
問題6:dict的keys具有無序的特性,如何保證dict轉為dataframe數據時,按照制定的列進行排列? 比如Data ={'col2': [3, 4], 'col4': [1, 2]}
import pandas as pd Data = {'col2': [3, 4], 'col4': [1, 2]} pd.DataFrame(Data)
輸出結果:
col2 col4
0 3 1
1 4 2
import pandas as pd Data = {'col2': [3, 4], 'col4': [1, 2]} pd.DataFrame(Data, columns=["col4","col2"])
輸出結果:
col4 col2
0 1 3
1 2 4
如果columns中的知道的字符串不存在,將自動賦值為NAN
import pandas as pd Data = {'col2': [3, 4], 'col4': [1, 2]} pd.DataFrame(Data, columns=["col4","col2", "col10"])
輸出結果為:
col4 col2 col10
0 1 3 NaN
1 2 4 NaN
