聲明
不提供任何下載,不提供任何指引,無需問我怎么得到,我不會回答。
前言
這個分析純粹是我喜歡數據挖掘,周末閑來無事練一下手。
源文件
源文件是一個SQL Server數據庫備份文件,從數據庫“shifenzheng”完整備份,從服務器GHOSTSLC-6BBFCB備份,備份日期是2013/5/27 0:45:49 備份用戶名叫anyi,備份數據庫大小8030071808 (約7.5GB)。
基本信息
1. 字段
數據庫只有一個表,叫cdsgus。里面有姓名、身份證號碼、性別、地址、國家、手機號碼、電子郵件等數據,其它的如卡號、固話、傳真、公司、教育、興趣等基本上是殘缺甚至沒有的,甚至部分人的身份證號碼也是錯亂的,估計導入的時候沒有處理好。
而每個字段都設為長度2000的nvarchar,相當蛋痛,相信這不是原始設計,而單純是泄露后自行快速導入的產物。
2. 記錄
里面有20050144條記錄(2005萬)。
3. 姓
取姓名的第一個字符做姓(不考慮復姓),有4644個性,最多是王,其次是張、李、劉、陳,似乎和中國的大姓吻合。有趣的是有人姓“色”、“糊”、“痕”、“&”、“@”、“π”(數學里面的pi)。。。相信是亂寫的。
10大姓里面已經占了821萬用戶。
4. 性別
男性比女性多一倍。
5. 年齡段
剔除那些無效或不靠譜年齡,80后是主力,70后次之。90后只有60后的一半,貌似不科學。。。
5. 省份
省份數據基於身份證號碼,部分用戶使用的不是身份證號號碼,部分用戶提供了的數據不合法,我都一並剔除了。江蘇、山東和浙江用戶最多,相信是某某連鎖酒店在這些地區網點最多。
6. 更多
其實我還可以分析一下如手機提供商(移動/電信/聯通等)、登記時間的分布等,甚至多維如不同省份里的不同年齡段里的不同手機用戶之類,不過頸椎病發作,強忍疼痛寫了這篇博客,就此打住了,休息去。
后言
互聯網時代,每天產生的數據越來越多,數據安全問題日益嚴重,譬如之前的CSDN個人信息泄露,還有幾個大游戲網站的數據泄露,當然還有諸多沒有公開,只是在某些組織內部流轉的。
我的建議,保護好自己的個人信息,不要在網上隨意填寫敏感數據,譬如身份證等,盡可能不同服務使用不同密碼並經常修改。電話號碼等,如果非得要填寫,填寫一個備用號碼(專門用來填寫申請/注冊用,可隨便丟棄,不怕別人騷擾)。