一、簡介 在現實的機器學習任務中,自變量往往數量眾多,且類型可能由連續型(continuou)和離散型(discrete)混雜組成,因此出於節約計算成本、精簡模型、增強模型的泛化性能等角度考慮,我們常常需要對原始變量進行一系列的預處理及篩選,剔除掉冗雜無用的成分,得到較為滿意的訓練集,才會 ...
作為Python中經典的機器學習模塊,sklearn圍繞着機器學習提供了很多可直接調用的機器學習算法以及很多經典的數據集,本文就對sklearn中專門用來得到已有或自定義數據集的datasets模塊進行詳細介紹 datasets中的數據集分為很多種,本文介紹幾類常用的數據集生成方法,本文總結的所有內容你都可以在sklearn的官網: http: scikit learn.org stable mo ...
2018-04-01 14:51 0 7723 推薦指數:
一、簡介 在現實的機器學習任務中,自變量往往數量眾多,且類型可能由連續型(continuou)和離散型(discrete)混雜組成,因此出於節約計算成本、精簡模型、增強模型的泛化性能等角度考慮,我們常常需要對原始變量進行一系列的預處理及篩選,剔除掉冗雜無用的成分,得到較為滿意的訓練集,才會 ...
一、簡介 在現實的機器學習任務中,我們往往是利用搜集到的盡可能多的樣本集來輸入算法進行訓練,以盡可能高的精度為目標,但這里便出現一個問題,一是很多情況下我們不能說搜集到的樣本集就能代表真實的全體,其分布也不一定就與真實的全體相同,但是有一點很明確,樣本集數量越大則其接近真實全體的可能性也就 ...
本文示例代碼及文件已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介 pandas發展了如此多年,所包含的功能已經覆蓋了大部分數據清洗、分析場景,但仍然有着相當一部分的應用場景pandas中 ...
一、簡介 seaborn是Python中基於matplotlib的具有更多可視化功能和更優美繪圖風格的繪圖模塊,當我們想要探索單個或一對數據分布上的特征時,可以使用到seaborn中內置的若干函數對數據的分布進行多種多樣的可視化,本文以jupyter notebook為編輯工具,針對 ...
一、簡介 KNN(k-nearst neighbors,KNN)作為機器學習算法中的一種非常基本的算法,也正是因為其原理簡單,被廣泛應用於電影/音樂推薦等方面,即有些時候我們很難去建立確切的模型來描述幾種類別的具體表征特點,就可以利用天然的臨近關系來進行分類; 二、原理 KNN ...
一、簡介 循環神經網絡(recurrent neural network,RNN),是一類專門用於處理序列數據(時間序列、文本語句、語音等)的神經網絡,尤其是可以處理可變長度的序列;在與傳統的時間序列分析進行比較的過程之中,RNN因為其梯度彌散等問題對長序列表現得不是很好,而據此提出的一系列 ...
本文示例代碼及文件已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介 在日常開展數據分析的過程中,我們經常需要對字符串類型數據進行處理,此類過程往往都比較繁瑣,而pandas作為表格數據 ...
一、簡介 作為集成學習中非常著名的方法,隨機森林被譽為“代表集成學習技術水平的方法”,由於其簡單、容易實現、計算開銷小,使得它在現實任務中得到廣泛使用,因為其來源於決策樹和bagging,決策樹我在前面的一篇博客中已經詳細介紹,下面就來簡單介紹一下集成學習與Bagging; 二、集成 ...