https://study.163.com/course/courseMain.htm?courseId=1006383008&share=2&shareId=400000000398149(博主錄制)
1 數據切片選取
1.1 pandas.DataFrame.sample 隨機選取若干行
1.1.1 功能說明
有時候我們只需要數據集中的一部分,並不需要全部的數據。這個時候我們就要對數據集進行隨機的抽樣。pandas中自帶有抽樣的方法。
功能相似:numpy.random.choice
Generates a random sample from a given 1-D numpy array.
1.1.2 使用說明
1. 函數名及功能
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source]
2. 輸入參數說明
參數名稱 參數說明 舉例說明
n 要抽取的行數
df.sample(n=3,random_state=1)
提取3行數據列表
注意,使用random_state,以確保可重復性的例子。
frac
抽取行的比例
例如frac=0.8,就是抽取其中80%。
df.sample(frac=0.8, replace=True, random_state=1)
replace
是否為有放回抽樣,
True:有放回抽樣
False:未放回抽樣
True:取行數據后,可以重復放回后再取
False:取行數據后不放回,下次取其它行數據
注意:當N>總數據容量,replace設置為值時有效
weights
字符索引或概率數組
axis=0:為行字符索引或概率數組
axis=1:為列字符索引或概率數組
random_state
int: 隨機數發生器種子
或numpy.random.RandomState
random_state=None,取得數據不重復
random_state=1,可以取得重復數據
axis
選擇抽取數據的行還是列
axis=0:抽取行
axis=1:抽取列
也就是說axis=1時,在列中隨機抽取n列,在axis=0時,在行中隨機抽取n行。
3. 返回值說明
返回選擇的N行元素的DataFrame對象。
https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149(博主視頻教學主頁)