原作者:陳成龍 https://github.com/ChenglongChen 簡介 Kaggle 於 2010 年創立,專注數據科學,機器學習競賽的舉辦,是全球最大的數據科學社區和數據競賽平台。筆者從 2013 年開始,陸續參加了多場 Kaggle上面舉辦的比賽,相繼獲得了 ...
數據挖掘 非常火爆的一個話題,跟大數據結合的模式也是賺足了噱頭,工業界各土豪公司也是砸下重金網羅各種數據挖掘 機器學習人才。如今掌握一門挖掘技巧的實用性跟急迫性。在學習的過程中,除了相關理論的學習之外,最重要的就是如何把理論用於實踐,當然做項目是最直接有效的實踐方式,除此之外,參加一些數據挖掘比賽也是非常不錯的經歷,比賽過程中,我們不僅能加深模型 算法的學習,也能從別的參賽隊員中學習他們的技巧。 ...
2014-11-24 12:14 13 30512 推薦指數:
原作者:陳成龍 https://github.com/ChenglongChen 簡介 Kaggle 於 2010 年創立,專注數據科學,機器學習競賽的舉辦,是全球最大的數據科學社區和數據競賽平台。筆者從 2013 年開始,陸續參加了多場 Kaggle上面舉辦的比賽,相繼獲得了 ...
完整代碼: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始數據分析和數據處理 Titanic系列之數據變換 Titanic系列之派生屬性&維歸約 缺失值填充之后,就要對其他格式有問題的屬性進行 ...
【說在前面】本人博客新手一枚,象牙塔的老白,職業場的小白。以下內容僅為個人見解,歡迎批評指正,不喜勿噴![握手][握手] 1. 數據預處理 1.1 選擇數據樣本(企業級應用) 例如客觀選擇某一時間段內的所有樣本集合等(避免人為主觀選擇) 例如在評價樣本中去除惡意/隨意評價樣本 ...
一、單個特征的EDA 對於 binary feature 和 categorical feature,train['feature_name'].value_counts().sort_in ...
先看這個 kaggle數據集下載 -------------------------------- 有時發現下載不了kaggle數據 關於kaggle沒有辦法下載數據集dataset問題 安裝kaggle庫時又出現time out的情況? pip 下載報"connection ...
從百度搜索,凈是csdn下載的,現在csdn下載弄的很惡心,壟斷並且只想賺錢了,不想使用, 去github上找到了。 https://github.com/PacktPublishing/Lear ...
用戶畫像-數據挖掘項目實戰 一,典型課題研究 用戶畫像又稱用戶角色,作為一種勾畫目標用戶、聯系用戶訴求與設計方向的有效工具,用戶畫像在各領域得到了廣泛的應用。我們在實際操作的過程中往往會以最為淺顯和貼近生活的話語將用戶的屬性、行為與期待的數據轉化聯結起來。作為實際用戶的虛擬代表,用戶畫像 ...
《數據挖掘:R語言實戰》 基本信息 作者: 黃文 王正林 叢書名: 大數據時代的R語言 出版社:電子工業出版社 ISBN:9787121231223 上架時間:2014-6-6 出版日期:2014 年6月 開本:16開 頁碼:292 版次:1-1 所屬分類:計算機 ...