用戶畫像之正反占比與TGI


示例:

在信貸數據中,征信認證是用戶的屬性之一,值域是:已認證、未認證。逾期也是屬性之一,值域是:已逾期、未逾期。
要查看不同征信情況對逾期的影響。
 
計算方式1:
已認證占比=sum(已認證and已逾期)/sum(已逾期)
未認證占比=sum(未認證and已逾期)/sum(已逾期)
即在已逾期的范圍里查看是否認證的占比。相加之和是100%。
問題是,如果未認證的基數特別大,那么99%的未認證占比和1%的已認證占比並不能說明什么,可能約等於已/未認證在總人數中的占比。沒有意義。
 
計算方式2:
已認證占比=sum(已認證and已逾期)/sum(已認證)
未認證占比=sum(未認證and已逾期)/sum(未認證)
即在是否認證兩方陣營里查看已逾期的占比。相加之和並不是100%。
比較兩種占比值,那個值高就表示該情況對逾期的影響更大。
 
 
想起前幾日看智能手機的數據分析報告,研究某特定人群里APP的使用情況,多次提及的 目標群體指數TGI
 
*********科普分割線*********
目標群體指數是一個“傾向性指數”,是指某一子群、某一指標的比例,與總群同一指標比例之比,再乘以標准數100所得的值。目標群體指數可反映目標群體在特定研究范圍(如地理區域、人口統計領域、媒體受眾、產品消費者)內的強勢或弱勢;有助於明確目標市場,是設定目標時經常使用的主要工具。
 
TGI指數= [目標群體中具有某一特征的群體所占比例/總體中具有相同特征的群體所占比例]*標准數100。TGI指數表征不同特征用戶關注問題的差異情況,其中TGI指數等於100表示平均水平,高於100,代表該類用戶對某類問題的關注程度高於整體水平。例如,在15-24歲的人群中,有8.9%的人過去一年內服用過斯達舒,而在總體人群中,服用過斯達舒的人數比例為6.6%,則斯達舒在15-24歲人群中的TGI指數是134.9。假如其他年齡段的TGI指數都遠遠小於此值,則說明斯達舒的目標群體是15-24歲人群。
*********科普分割線*********
 
 
回到本示例,TGI 計算方式
已認證TGI=sum(已逾期and已認證)/sum(已認證)  /   sum(已逾期)/sum(總人數) 
未認證TGI=sum(已逾期and未認證)/sum(未認證)  /   sum(已逾期)/sum(總人數) 
 
不難發現,TGI計算方式和計算方式2是大同小異:TGI計算方式比計算方式2多了個分母。
如果分母不同,那么TGI計算方式就是唯一有效的了,這種情況也挺多的,比如那個智能手機的數據分析,對特定人群下使用多個APP的分析,多個APP的總人數都是不同的,分母自然就不一樣了。
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM