剛接觸python不久,編程也是三腳貓,所以對常用的這幾個工具還沒有一個好的使用習慣,畢竟程序語言是頭順毛驢。所以最近在工作中使用的時候在使用pandas的DataFrame時遇到了以下報警:
SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
debug了半天,也在網上找了很多,還是沒有解決,在報警的那一句調了半天,后來發現主要問題並不是出現在報警的那一句。
給個例子復現一下這個問題:
1 import pandas as pd 2 A = pd.DataFrame([[1,2,3],[2,3,4],[3,4,5]], columns = ['a','b','c']) 3 B = A[['a', 'b']] 4 B['a'] = B['a'] + 1 # same result by using B.loc[:,'a'] = B.loc[:,'a']+ 1
輸出:
A Out[1]: a b c 0 1 2 3 1 2 3 4 2 3 4 5 B Out[2]: a b 0 1 2 1 2 3 2 3 4 B Out[3]: a b 0 2 2 1 3 3 2 4 4
先說一下我的感覺:這個報警主要是說,你當前對B的操作可能會改變另一個DataFrame A,所以你要小心了。(當然實際的警告並不是這個意思,但是“在DataFrame的一個切片的copy上進行操作”我感覺不出來有什么問題,還請大神們解答一下。)
報警出現在第4行,但主要的問題在於第3行:應該使用.loc方法得到新的DataFrame,而不是直接使用[]引用。
C = A.loc[:,['a','b']] C['a'] = C['a']+1
這樣就不會出現報警了。
個人感覺好像是說用.loc是對原有DataFrame的一種復制性引用,而[]的引用則是指針性的引用,和python本身的賦值特性有關。不過我看了A的值也並沒有在B被更改時一同被改掉。總之我現在還只是知其然,不知其所以然,希望有大神幫忙解惑。