等距、等頻、最優分箱分段

本文轉載自查看原文 2020-08-18 15:07 4088 機器學習

無監督分箱法:

等距划分、等頻划分

等距分箱

從最小值到最大值之間,均分為 N 等份, 這樣, 如果 A,B 為最小最大值, 則每個區間的長度為 W=(B−A)/N , 則區間邊界值為A+W,A+2W,….A+(N−1)W 。這里只考慮邊界，每個等份里面的實例數量可能不等。

等頻分箱

區間的邊界值要經過選擇,使得每個區間包含大致相等的實例數量。比如說 N=10 ,每個區間應該包含大約10%的實例。

以上兩種算法的弊端

比如,等寬區間划分,划分為5區間,最高工資為50000,則所有工資低於10000的人都被划分到同一區間。等頻區間可能正好相反,所有工資高於50000的人都會被划分到50000這一區間中。這兩種算法都忽略了實例所屬的類型,落在正確區間里的偶然性很大。

“最優分箱化”過程通過將每個變量的值分布到分箱中離散化一個或多個刻度變量（因此稱為分箱化輸入變量）。分箱的構成根據“監督”分箱化過程的分類向導變量得以最優化。然后，可以使用分箱而非原始數據值進行進一步的分析。

示例。減少變量具有的不同值的數量具有多種用途，包括：

最優分箱化與可視分箱化。“可視分箱化”對話框提供了多種不使用向導變量創建分箱的自動方法。這些“未受監督”的規則對於生成描述統計（例如頻率表）十分有用，但如果最終目標是生成預測模型，則“最優分箱化”更好。

輸出。該過程生成分箱的分割點以及每個分箱化輸入變量的描述統計的表。此外，您可以將新變量保存到包含分箱化輸入變量的分箱化值的活動數據集中，並將分箱化規則作為命令語法保存以便用於分箱化新數據。

最優分箱化數據注意事項

數據。此過程需要分箱化輸入變量是數值型刻度變量。向導變量應是分類變量，可以是字符串或數值。

獲取最優分箱化

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hive自定義分段函數(分箱) 4-Pandas數據預處理之離散化、面元划分（等距pd.cut()、等頻pd.pcut())）數據分箱什么是跳頻？ CAXA基本操作--等距線 Matlab時頻圖關於PDH穩頻原理特征工程之分箱--Best-KS分箱基於卡方分箱的評分卡建模為什么要進行數據分箱？（轉）