無監督分箱法:
等距划分、等頻划分
等距分箱
從最小值到最大值之間,均分為 N 等份, 這樣, 如果 A,B 為最小最大值, 則每個區間的長度為 W=(B−A)/N , 則區間邊界值為A+W,A+2W,….A+(N−1)W 。這里只考慮邊界,每個等份里面的實例數量可能不等。
等頻分箱
區間的邊界值要經過選擇,使得每個區間包含大致相等的實例數量。比如說 N=10 ,每個區間應該包含大約10%的實例。
以上兩種算法的弊端
比如,等寬區間划分,划分為5區間,最高工資為50000,則所有工資低於10000的人都被划分到同一區間。等頻區間可能正好相反,所有工資高於50000的人都會被划分到50000這一區間中。這兩種算法都忽略了實例所屬的類型,落在正確區間里的偶然性很大。
“最優分箱化”過程通過將每個變量的值分布到分箱中離散化一個或多個刻度變量(因此稱為分箱化輸入變量)。分箱的構成根據“監督”分箱化過程的分類向導變量得以最優化。然后,可以使用分箱而非原始數據值進行進一步的分析。
示例。減少變量具有的不同值的數量具有多種用途,包括:
- 其他過程的數據要求。離散化變量可作為分類變量用於需要分類變量的過程。例如,“交叉表格”過程要求所有變量均為分類變量。
- 數據隱私。報告分箱化值而不是實際值可幫助保護數據源的隱私。“最優分箱”過程可指導分箱的選擇。
- 速度性能。有些過程在處理較少數量的不同值時更加有效。例如,使用離散化變量時“多項 Logistic 回歸”的速度會提高。
- 揭示數據的完全分離或准完全分離。
最優分箱化與可視分箱化。“可視分箱化”對話框提供了多種不使用向導變量創建分箱的自動方法。這些“未受監督”的規則對於生成描述統計(例如頻率表)十分有用,但如果最終目標是生成預測模型,則“最優分箱化”更好。
輸出。該過程生成分箱的分割點以及每個分箱化輸入變量的描述統計的表。此外,您可以將新變量保存到包含分箱化輸入變量的分箱化值的活動數據集中,並將分箱化規則作為命令語法保存以便用於分箱化新數據。
最優分箱化數據注意事項
數據。此過程需要分箱化輸入變量是數值型刻度變量。向導變量應是分類變量,可以是字符串或數值。
獲取最優分箱化
- 從菜單中選擇:
- 選擇一個或多個分箱化輸入變量。
- 選擇一個向導變量。