【轉】SPSS 數據測量類型


查看IBM SPSS Modeler 幫助文檔,解釋如下:

 

• 默認值。具有未知存儲類型和值的數據(例如,由於其尚未被讀取)將顯示為<默認值>。

 

•  連續。用於描述數字值,如范圍 0 - 100 或 0.75 - 1.25。連續值可以是整數、實數或日期/時間。

 

•  分類。用於字符串值(可取的值的確切數量未知時)。這是一種非實例化數據類型,表示有關數據存儲類型和用法的所有可用信息均未知。讀取數據后,測量級別將為標志、名義或無類型,具體取決於“流屬性”對話框中指定的最大名義字段數量。

 

 •  標志。標志字段用於顯示具有兩個不同值的數據。
表示存在或不存在一個特性,如 true 和 false、Yes 和 No 或 0 和 1。所用值可能有所不同,但其中總會有個值代表“真”值,另一個代表“假”值。標志的存儲類型數據可表示為文本、整數、實數、日期、時間或時間戳。
真。指定條件成立時字段的標志值。假。指定條件不成立時字段的標志值。
標簽。為標志字段中的每個值指定標簽。這些標簽將按照您在“流屬性”對話框中選擇的選項出現在多個位置,如圖形、表格、輸出和模型瀏覽器中。
  
擴展:“字段選項”—“導出”設置導出為“標志”選項
Derive Flag 節點用於指明特定條件,如高血壓或客戶帳戶停用。對於每條記錄都會創建一個標志字段,當條件為真時,會在字段中添加代表真的標志值。
真值。指定針對滿足以下指定條件的記錄要在標志字段中包括的值。缺省值為 T。
假值。對於那些不滿足以下指定條件的記錄,指定其標志字段中的值。 缺省值為 F。
以下情況時為真。指定某個 CLEM 條件,用於評估每條記錄的某些值,並為記錄賦予真值或假值(定義如上)。請注意,對於非假數字值,會將真值賦予記錄。
注意:要返回空字符串,您應該輸入一對引號,並且中間不包含任何內容,如 ""。例如,空字符串通常可用作假值,以使真值在表中更為明顯。類似地,如果希望某個字符串值在其他情況下被視為數值,應使用引號 
 
 •  名義。用於描述具有多個不同值的數據,其中的每個值都被視為集合的一個成員,如 small/medium/large。名義數據可具有任何存儲—數值、字符串或日期/時間。請注意,將測量級別設置為名義不會自動將值更改為字符串存儲。
擴展:設置派生名義選項
Derive Nominal 節點用於執行一組 CLEM 條件,以確定每條記錄滿足的條件。當每條記錄滿足某個條件時,會將一個值(指示滿足哪組條件)添加到新的導出字段。
缺省值。指定不滿足任何條件時要使用的值。
將字段設置為。指定滿足某個特定條件時要在新字段中輸入的值。列表中的每個值都有一個關聯條件,該條件由用戶在相鄰列中指定。
若此條件為真。為集合字段中要列出的每個成員指定條件。使用表達式構建器在可用的函數和字段中進行選擇。可以使用箭頭和刪除按鈕對條件進行重新排序或刪除。
條件的工作原理是對數據集中特定字段的值進行檢驗。檢驗每個條件時,都會為新字段分配上述指定值,以指示滿足哪個條件(如果有)。如果不滿足任何條件,則會使用缺省值。
 
• 有序。用於描述具有順序固定的不同值的數據。例如,工資類別或滿意度排序可以歸類為有序數據。順序由數據元素的自然排列順序定義。例如,1, 3, 5 是某個整數集合的默認排列順序,而 HIGH, LOW, NORMAL(按字母升序)是某個字符串集合的順序。使用有序測量級別可以將一組分類數據定義為有序數據,以進行可視化處理、模型構建以及導出到將有序數據識別為不同類型的其他應用程序(如 IBM® SPSS® Statistics)。您可以在任何能夠使用名義字段的位置使用有序字段。此外,可以將任何存儲類型(實數、整數、字符串、日期、時間等等)的字段定義為有序。

 

•  無類型。用於不屬於任何上述類型的數據,具有單個值的字段,或集合的成員數超過定義的最大值的名義數據。當測量級別為包含許多成員(如帳號)的集合時,這種類型也將十分有用。當您為字段選擇無類型時,角色將自動設為無,記錄 ID 作為唯一的替代項。默認的集合最大容量為 250 個唯一值。可在“流屬性”對話框(可通過“工具”菜單訪問)的“選項”選項卡上調整或禁用該數字。

 

可以手動指定測量級別,也可以由軟件讀取數據並根據所讀取的值確定其測量級別。
此外,如果有多個連續數據字段需視為類別數據,可以選擇一個選項來轉換它們。請參閱 主題 轉換連續數據 詳細信息。

 

字段角色設置:


字段的角色用於指定其在模型構建過程中的用法 - 例如,字段是輸入還是目標(預測的對象)。

注意:“分區”、“頻率”和“記錄標識”角色只能分別應用到單個字段。

 

可用的角色如下:

 

輸入。字段將用作機器學習的輸入(預測變量字段)。

 

目標。字段將用作機器學習的輸出或目標(模型將嘗試預測的字段之一)。

 

兩者。字段將被 Apriori 節點同時用作輸入和輸出。所有其他建模節點都將忽略該字段。

 

無。機器學習將忽略該字段。測量級別已設置為無類型的字段將在角色列中自動設置為無。

 

分區。指明字段用於將數據分區為單獨的樣本(用於訓練、測試,也可用於驗證)。該字段必須屬於實例化集合類型,具有兩個或三個可能值(在“字段值”對話框中定義)。第一個值表示訓練樣本,第二個值表示測試樣本,第三個值(如果存在)表示驗證樣本。所有其他值都將被忽略,且不能使用標志字段。請注意,要在分析中使用分區,必須在相應的模型構建或分析節點的“模型選項”選項卡中啟用分區。啟用分區時,會將對於分區字段具有空值的記錄從分析中排除。如果已在流中定義多個分區字段,那么必須在每個相應建模節點的“字段”選項卡中指定單一分區字段。如果數據中不存在適合的字段,您可以使用“分區”節點或“派生”節點進行創建。請參閱主題分區節點,了解更多信息。

分割。(僅名義、有序和標志字段)指定為字段的每個可能值構建一個模型。

 

頻率。 (僅數字字段)設置此角色允許將字段值用作記錄的頻率加權因子。僅 C&R 樹、CHAID、QUEST 和線性模型支持此功能;所有其他節點將忽略此角色。在支持此功能的建模節點的“字段”選項卡上,選擇使用頻率權重以啟用頻率加權。

 

記錄標識。此字段將用作唯一記錄標識。大多數節點都會忽略此特征;但它受線性模型支持,並且是 IBM Netezza 數據庫內挖掘節點所必需的。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM