在《Python機器學習及實踐》中,發現對數據標准化操作有些疑問,代碼如下:
X_train = vec.fit_transform(X_train)
X_test = vec.fit_transform(X_test)
為什么X_train標准化是用fit_transform(),而X_test標准化是用transform()呢?
- fit_transform()干了兩件事:fit找到數據轉換規則,並將數據標准化
- transform()可以直接把轉換規則拿來用,所以並不需要fit_transform(),否則,兩次標准化后的數據格式就不一樣了