特征工程（4）-數據預處理二值化

本文轉載自查看原文 2018-05-08 18:55 1247 機器學習

https://www.deeplearn.me/1389.html

上一篇文章講解了區間縮放法處理數據，接下來就講解二值化處理

這個應該很簡單了，從字面意思就是將數據分為 0 或者 1，聯想到之前圖像處理里面二值化處理變為黑白圖片

下面還是進入主題吧

首先給出當前的二值化處理公式：

$y={0if x<=θ1if x>θy={0if x<=θ1if x>θ$

上圖中 $θ$

sklearn 函數

from sklearn.preprocessing import Binarizer
tmp=Binarizer().fit_transform(irisdata.data)
print tmp[0:5]

輸出結果

[[ 1. 1. 1. 1.]
[ 1. 1. 1. 1.]
[ 1. 1. 1. 1.]
[ 1. 1. 1. 1.]
[ 1. 1. 1. 1.]]

spark 函數

 
          >>> df = sqlContext.createDataFrame([(0.5,)], ["values"])
>>> binarizer = Binarizer(threshold=1.0, inputCol="values", outputCol="features")
>>> binarizer.transform(df).head().features
0.0
#setParams 是用來設置二值化參數
>>> binarizer.setParams(outputCol="freqs").transform(df).head().freqs
0.0
>>> params = {binarizer.threshold: -0.5, binarizer.outputCol: "vector"}
>>> binarizer.transform(df, params).head().vector
1.0
 
         

transform ( dataset, params=None )，其中 param 可以是字典參數，字典的鍵是類對象成員

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據預處理和特征工程 sklearn中的數據預處理和特征工程特征工程（5）-數據預處理啞編碼數據預處理與特征工程：啞變量(離散數據) 1. 特征工程之特征預處理特征工程之特征預處理機器學習 | 特征工程（一）- 數據預處理數據預處理：標稱型特征的編碼和缺失值處理 python數據特征預處理數據預處理 | 使用 Filter Wrapper Embedded 實現特征工程中的特征選擇