z-score標准化
z-score標准化是將數據按比例縮放,使之落入一個特定區間。 要求:均值 μ = 0 ,σ = 1
標准差公式:

image
z-score標准化轉換公式:

image
歸一化
歸一化:把數變為(0,1)之間的小數
歸一化公式:

image
這里利用sklearn的MinMaxScaler和StandardScaler兩個類,對所有數據進行歸一化處理
import pandas as pd from sklearn import preprocessing from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import StandardScaler # 讀取數據 features = ['accommodates','bedrooms','bathrooms','beds','price','minimum_nights','maximum_nights','number_of_reviews'] dc_listings = pd.read_csv(r'D:\codes_jupyter\數據分析_learning\課件\05_K近鄰\listings.csv', engine='python') dc_listings = dc_listings[features] # 對price列進行一定的處理,使其變成float型 dc_listings['price'] = dc_listings.price.str.replace(r'\$|,', '').astype(float) # 對缺失值進行處理,刪除有缺失值的數據 dc_listings = dc_listings.dropna() # 歸一化 dc_listings[features] = MinMaxScaler().fit_transform(dc_listings) # 標准化 # dc_listings[features] = StandardScaler().fit_transform(dc_listings) print(dc_listings.shape) dc_listings.head()
輸出結果如下:

image
得到標准化的數據后,就可以利用多個指標對房租價格進行預測了。
作者:叫我老村長
鏈接:https://www.jianshu.com/p/26d198115908
來源:簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。