一、category數據類型
Categoricals 是 pandas 的一種數據類型,對應着被統計的變量。
- Categoricals 是由固定的且有限數量的變量組成的。比如:性別、社會階層、血型、國籍、觀察時段、贊美程度等等。
- 與其它被統計的變量相比,categorical 類型的數據可以具有特定的順序——比如:按程度來設定,“強烈同意”與“同意”,“首次觀察”與“二次觀察”,但是不能做按數值來進行排序操作(比如:sort_by 之類的,換句話說,categorical 的順序是創建時手工設定的,是靜態的)
- 類型數據的每一個元素的值要么是預設好的類型中的某一個,要么是空值(np.nan)。
- categorical 實例的內部是由類型名字集合和一個整數組成的數組構成的,后者標明了類型集合真正的值。順序是由預設好的類型集合來決定的,而不是按照類型集合中各個元素的字母順序排序的。
看官網介紹https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html?highlight=category
自己英文不是很好,就copy一下別人的說法
二、object 數據類型
默認是object ,一切數據皆可object
三、差別
根據上面二者的定義,有限數量且有順序時候使用類別,其余就使用默認的吧,
又或者需要進行label編碼時,轉換一下類別