SPSS Modeler相關問題


問題1:在SPSS Modeler 14.1調用了某些Statistics功能之后,原來的節點為什么無法正常工作?
答: Modeler 14.1 Fix Pack 1 及Fix Pack 2 已修復此問題,請下載安裝。
 
 
問題2:SPSS Modeler Server在Unix環境安裝時,是否一定要使用root權限?
答: 是的,Modeler 15 版本之前,必須root權限安裝Modeler Server,但是可以使用非根權限運行服務。若您正在使用的是15版本,可以參考IBM SPSS Modeler Server 15 for UNIX Installation Instructions手冊以使用非跟權限安裝。
 
 
問題3:為什么更新了SPSS Modeler為最新版本時,在運行某流文件時所需的時間更長了?
答: 在之前版本的SPSS Modeler設置中,”SQL優化”可能出於關閉狀態。在使用新版本SPSS Modeler時此項被打開,但是可能因為流文件與SQL轉化過程中,數據庫無法更快地解讀轉化后的SQL,反而給計算造成了負擔。您可以嘗試在合並等節點鍾增加緩存,並精簡優化數據流,從而達到提高運算速度的目的。
 
問題4:Modeler可以用同樣的模型和輸入字段,一次對多個目標字段做分析嗎?因為待求目標很多,手動建立多個流不現實。
答: 對於時間序列模型來說,是可以一次預測多個變量,對於其他模型,可以通過script來實現。
 
問題5:Modeler 14.1 關聯分析中GRI算法沒有了 ? 
:這個是老算法,14.0之后已經不被采用了。
 
問題6 :  在使用Modeler過程中遇到unicode_value函數的使用問題,unicode_value(to_string(sex)) ,sex字段本身是數值字段,也嘗試其它辦法,不過基本都是顯示錯誤,請問下這個函數具體怎么使用?
答: 關於這個函數的使用,需要注意兩點,一個是函數參數只能是一個字符,比如unicode_value(`a`),另外,字符的引號是鍵盤左上角第二行第一個的引號。
 
問題7 :   做流失預測時,常用的算法有哪些,用哪個更好?
答:因為流失預測的結果只有兩種,流失(1)或者不流失(0),所以常用的二元預測方法都適用:如決策樹、Logistic回歸、判別分析、神經網絡、支持向量機等。一般來說Logistic回歸的運用更普遍一些,但是一般在實踐中會把每種模型都嘗試一下,然后比較哪種模型的預測結果更好。
具體的方法是:將數據分為訓練樣本和測試樣本(如70%:30%)。用訓練樣本來用不同的算法訓練模型,之后將測試樣本代入到訓練好的模型中,評估預測的效果。
 
問題8 :   如何用提升(lift)指標評估二元預測的結果?
答:除此以外,提升(Lift)也是一個很好的評價指標,特別是在預算有限的情況下。比如(因為預算或其它原因)企業只對最有可能流失的那10%的客戶有興趣,那么這時將概率在前10%的樣本預測為Positive,剩余90%預測為Negative。那么在10%的閥值下:提升=(TP/P) / (P/(P+N)),也就是前10%的樣本中Positive樣本所占比例除以Positive樣本在整體樣本中的比例。
比如總樣本有1000個,包括900個Negative樣本和100個Positive樣本。假設Positive概率最高的那100個樣本中,實際包括了40個Positive樣本和60個Negative樣本。這時的提升= (40/100) / (100/1000) = 4.0。
提升表明了預測模型優於隨機選擇的倍數。以上面的例子為例,模型選擇出來的10%的樣本所包括Positive樣本數量是隨機選擇出來的10%的樣本所包括Positive樣本數量的4倍。
 
問題9 :   購物籃數據怎么分析?怎么運用分析的結論?
關聯規則是最常用的購物籃數據的分析算法。一個最有名的例子即是沃爾瑪的“啤酒與尿布”的故事。如購買牛奶的顧客有80%也會買面包,購買了鐵錘的顧客有70%也買了釘子。典型的關聯規則算法包括:Apriori、Carma以及Sequence(在Modeler中均有相關的節點)。
對於零售企業而言,關聯規則的結果可以用於產品推薦及精准營銷(購買了該產品的顧客同時也會購買……;電子郵件促銷等);對超市這類有固定營業場所的商家而言可以對產品的擺放進行指導。
 
問題10 :   在使用決策樹時為什么需要對決策樹進行修剪?
         首先想想一下我們熟悉的一元回歸模型,假設有N個觀測值,那么總是可以用N-1次線性模型來完美擬合:比如有兩個觀測值的情況下,可以用一條直線來完美擬合這兩個點;有三個觀測值的時,可以用一條二次曲線……。我們訓練模型的目的並不是完美地擬合這批訓練樣本,而是為了預測更一般性的數據。然而隨着指數的增加,模型會變得越來越貼近這批特定的訓練樣本,而失去了一般性,導致用來預測一般性的數據時的效果反而變差。這種現象叫做“過擬合”。
         同樣地,在決策樹中,隨着決策樹的生長,其對數據總體規律的代表程度會有一個先升后降的過程,降低是因為越來越貼近於訓練樣本而失去了一般性。為了解決“過擬合”的問題,我們需要用修剪的方法來調整決策樹。具體的方法是:用訓練樣本訓練完整的決策樹后,用修剪的方法生成多個修剪后的決策樹(修剪的層數不同);然后將測試樣本代入到這些決策樹模型中,尋找預測效果最好的那個樹最為最終的決策樹模型。
 
問題11 :   Modeler 中能否使用K折疊的交叉驗證?
 
答: 可以,在KNN節點中的設置項下,可以設置交叉驗證。此外在C5節點的模型選項下,也可以設置交互驗證。
 
問題12 :   我能否對自己創建的流進行加密?
 
答: 可以,在保存節點對話框中,點擊加密選項,勾選對文件加密,就可以輸入密碼並對模型加密。
 
問題13 :   如何探索離散變量間的關聯?
 
答:可以使用網絡圖分析事件同時出現的潛在關聯。在圖形節點類中選擇網絡節點,該圖可以顯示兩個或更多符號字段的值之間,關系的緊密程度。其圖形使用不同類型的線條顯示鏈接,說明鏈接強度。如果有某個目標字段,可以使用導向網路,分別定義結束字段和源字段。在繪制出網絡圖后,通過調節閾值,可以隱去關聯過弱或者關聯過強的線。
 
問題14 如何利用圖形評估預測的結果?
 
答:可以使用評估節點,評估節點提供了一個評估並比較預測模型,以選擇最適合模型的便捷方法。評估圖表顯示模型如何執行對特定結果的預測。評估圖表的工作原理是:根據預測值及預測的置信度排序記錄、將記錄分割為大小相等的組(分位數)並按由高到低順序為每個分位數繪制業務標准值。在散點圖中,將以單獨的線條顯示多個模型。
通過將具體值或值的范圍定義為匹配,處理結果。通常,匹配表示相關的某類別(如向顧客銷售)或某事件(如某項醫療診斷)成功執行。您可以在對話框的“選項”選項卡上定義匹配標准,或使用以下描述的默認匹配標准:
  • 標志輸出字段是正向的,即匹配表現為 true 值。
  • 對於名義輸出字段,集合中的第一個值確定是否匹配。
  • 對於連續輸出字段,大於字段范圍中點的值即為匹配。
 
一共有五種評估圖表,每一種針對不同的評估標准:
1.收益圖表
收益的定義是相對於全部匹配,發生於每個分位數中的匹配的百分比。其計算方法為(分位數中的匹配數量/全部匹配數量) × 100%。
 
2.提升圖
提升將每個分位數中匹配記錄的百分比與在全部訓練數據中匹配的百分比進行比較。其計算方式為(在分位數中的匹配/在分位數中的記錄)/(全部匹配/全部記錄)。
 
3.響應圖
響應即分位數中,匹配記錄的比例。其計算方式為(分位數中的匹配/分位數中的記錄)× 100%。
 
4.利潤圖
利潤等於每個記錄的收入減去該記錄的成本。也就是說,分位數的利潤就是位於該分位數內的所有記錄的利潤總和。這里假定收入僅應用於匹配項,但成本可應用於所有的記錄。利潤及成本都可以是固定的,也可以由數據中的字段決定。其計算方法為(分位數中所有記錄收入的總和 − 分位數中所有記錄成本的總合)。
 
5.投資回報圖
投資回報 (ROI) 也需要確定收入和成本,從這一點上來說,它與利潤相同。ROI 將分位數的成本和利潤進行比較。其計算方法為(分位數利潤/分位數成本)× 100%。
評估圖表也可以累積,因此每個點等於相應分位數的值加上所有更高分位數的值。累積圖表通常能夠更好的表現模型性能,而非累積圖則更有利於指出模型中可能存在問題的地方。
 
問題15:使用 modeler server 進行大數據量挖掘時,會用到緩存,然而數據流中使用緩存節點過多,可能導致流自動關閉,如何解決這種情況?
答:這時可以設置緩存的存儲位置,將緩存文件暫時存放於空間較大的硬盤上,設置方式:在modeler server的安裝目錄的config文件夾下找到option.cfg文件,打開option.cfg文件,默認的緩存路徑是空的,即temp_directory, "",需要填入新的路徑,比如temp_directory, "C:/Temp"。
 
問題16:modeler數據流運行過程中,報錯 SPSS modelevaluation/menode 無法評估模型,產生該錯誤的原因是什么,怎么解決?
答:這種情況是modeler安裝目錄下menode.dll文件損壞,可以將其他人機器上正常的文件拷貝到IBM/SPSS/Modeler/15/ext/bin/SPSS modelevaluation文件夾中覆蓋原來的文件,即可。
 
問題17:精確度是評估二元預測的結果的一個很好指標嗎?
答:二元的預測的真實數據與預測的結果都只有兩種可能:Positive/Negative(1/0)。因此將真實數據與預測結果做成一個列聯表,既是我們熟知的混淆矩陣。

-     TP(True Positive):一個樣本的真實值為Positive,被正確地預測值為Positive。
-     TN(True Negative):一個樣本的真實值為Negative,被正確地預測值為Negative。
-     FP(False Positive):一個樣本的真實值為Negative,被錯誤地預測為Positive。
-     FN(False Negative):一個樣本的真實值為Positive,被錯誤地預測為Negative。
精確度(ACC) = (TP+TN)/(TP+TN+FP+FN),即被正確預測的樣本數所占的比例。在均衡樣本的情況下(P與N的比例大致一樣),精確度是一個不錯的預測指標,簡單易用。但是我們面對的往往是不均衡樣本——如流失預測(或者欺詐檢測),流失客戶(欺詐客戶)的比例一般遠遠小於未流失(非欺詐)客戶。對於這種不均衡樣本,精確度並不是一個很好的模型評價指標:比如真實的情況是90%的客戶不流失,10%的客戶流失;當模型將全部的客戶都預測為不流失客戶時,模型的精確度是90%,一個非常高的分數,但這樣的模型是毫無意義的。
問題18:重新結構化和設為標志的區別?
   答:重新結構化節點可用於根據名義字段或標志字段的值生成多個字段。新生成的字段可包含來自另一個字段或數值標志(0 和 1)的值。此節點的功能與設為標志節點類似,但更加靈活。使用這種節點,可以使用另一個字段的值創建任意類型的字段(包括數值標志)。隨后,您可以對其他下游節點執行匯總或其他操作。設為標志節點允許您在一個步驟中匯總字段,因此如果要創建標志字段,使用設為標志節點更為方便。
 
問題19 : 針對連續型數據分箱一直是個頭痛的問題,有沒有可以自動分或者其他的做法呢?
答:在SPSS Statistics軟件中,有一個最優離散化的菜單,進行離散化的。不過,它也是針對另外一個分類變量進行的。操作:菜單“轉換”---“最有離散化”。
在IBM SPSS Modeler中的分箱節點里,也有最優化分箱選項的。功能和Statistics一致。
問題20 :    Modeler軟件,數據出現空值,如何快速過濾所有空值啊?
答:利用數據審核節點,在'生成'里選擇數據質量高於OO%的。
問題21 :    SPSS  Modeler怎樣與SQL Server連接?如何安裝odbc驅動?要裝 SPSS  Modeler server嗎?
答:Modeler通過配置ODBC連接SQL,如果數據量不大的話,可以不安裝Modeler server。配置ODBC的過程是:控制面板-ODBC數據源-添加-SQL server,然后填上SQL數據庫的用戶名和密碼。
問題22  :  SPSS Modeler做聚類分析時提示:字段指定的類型不足?
答:在建模節點之前加個類型節點,給字段指定類型。
問題23 :    用決策樹  c5.0算法建模,可否用收益圖來進行模型評價?收益圖代表什么含義?
    答:收益的定義是相對於全部匹配,發生於每個分位數中的匹配的百分比。其計算方法為(分位數中的匹配數量/全部匹配數量) × 100%。解讀收益圖: 累積收益圖的線 從左至右的走勢通常是從0% 到100%。優秀模型的收益圖將陡升至100%,然后保持平直。無法提供有用信息的模型將呈對角線狀,即從左下角到右上角(選擇了包含基線后將顯示類似圖表)。
 
問題24 :   用神經網絡模型進行預測,有一點不明白:就是利用modeler軟件建模時,還需要對原始數據進行預處理?比如,標准化或歸一化等處理。
    答:神經網絡和其他模型類似,需要大量對數據的准備和預處理;比如,由於神經網絡要求數量變量,對於分類變量就要用許多二值變量來替換;多層感知器算法要求輸入值是數值型的取值在[0,1]閉區間內,因此建模前要進行數據轉換。
 
 
問題25 :   假設有一個數據集 A有自變量x,應變量y。選好節點,完成建模;現有另一個數據集B有x,要用前面的模型做預測,應該如何操作,結果如何輸出到數據集?
    答:把數據集B替換數據集A,中間數據處理過程不變,建模得到模型(右上角模型列表)拖入數據流區域,將建模節點去掉,在模型節點后邊連接表查看結果,或者連接excel表或數據庫將結果導出。
 
問題26 :    在流失分析數據挖掘應用中如何定義預測的輸入變量(自變量)和預測目標變量(因變量)的時間窗口?
    答:對自變量來說,進行流失分析的目的是希望客戶流失之前發現他,在業務系統中,客戶行為是連續發生的,選取分析數據時,取的時間過短,可能客戶的行為受隨機因素影響較大,數據不具有代表性,取時間過長,久遠的歷史數據不能反映客戶最新的行為趨勢,綜合考慮數據的可獲取性和有效性,建議取6個月的數據。對於因變量(是否流失)的數據窗口來說,為了使得到的預測結果具有前瞻性,又要留出營銷時間,流失定義的時間窗口與自變量的定義時間窗口間隔一個月,再考慮流失定義一般需要3個月的觀察期,具體預測自變量和目標變量的時間窗口如圖所示:

問題27:輸入為Excel時,有些列的內容在Modeler中被誤認為空值或無效值怎么辦?
答:可以在Modeler中,先把Excel文件導出為csv文件,再把此csv文件作為輸入源輸入模型中。
 
問題28:如何為原數據增加一列從2013-1-1到2013-3-31的日期?
答:可以利用用戶輸入節點生成日期,然后和原數據合並。
 

問題29:為什么我的流不能保存?
答:在Modeler15.0中,由圖形或其他生成的選擇節點會導致流不能保存。如果碰到此問題,需要將Modeler升到15.1或15.2即可。
 
問題30:完成有輸入的時間序列時,為何在生成包含預測值的時間散點圖時會報錯?
答:對於有輸入的時間序列,由於目標值是根據輸入值得到的,因此在對目標值進行預測時,需要先填充輸入在未來一段時間內的數值,然后再繪制時間散點圖。






免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM