如果對序列進行數學函數的運算,首選numpy模塊;
如果對序列做統計運算,首選序列的“方法”,因為序列的“方法”更加豐富,如計算序列的偏度、峰度等,而Numpy模塊是沒有這樣的函數。
手工構造數據框DataFrame時,一般首選字典方法。因為通過字典的方法構造數據框,則字典的鍵構成數據框的變量名。
arr1=pd.DataFrame([['張三',23,'男'],['李四',27,'女'],['王二',26,'女']]) print(arr1) print("") print("對比兩種方式的區別:\n") arr2=pd.DataFrame({'姓名':['張三','李四','王二'],'年齡':[23,27,26],'性別':['男','女','女']}) print(arr2)

構造序列時:pd.Series( ) 參數是列表或元組都可以
構造數據框時,pd.DataFrame( ) 使用列表或元組構造時,嵌套的最外層必須是列表list,里面一層是列表或元組都可以
#外層是元組 括號形式,不能運行,會報錯 arr1=pd.DataFrame((('張三',23,'男'),('李四',27,'女'),('王二',26,'女'))) #下面兩種形式 最外層是列表List的都能正常運行 arr2=pd.DataFrame([('張三',23,'男'),('李四',27,'女'),('王二',26,'女')]) arr3=pd.DataFrame([['張三',23,'男'],['李四',27,'女'],['王二',26,'女']])
讀取電子表格pd.read_excel( )時指定header=False,然后報出下面的錯誤:
TypeError: Passing a bool to header is invalid. Use header=None for no header or header=int or list-like of ints to specify the row(s) making up the column names
如果不將數據集的第一行作為表頭,需要設置header=None,而不能是header=0或header=False
