機器學習入門介紹(非常易懂)


機器學習入門介紹(非常易懂)

//2019.07.31早上
機器學習基本概念介紹
1、機器學習的含義在於讓機器去學習,其核心在於學習


2、最早的機器學習應用是在垃圾郵件的分辨,它開啟了機器學習的領域和時代


3、機器學習的典型應用主要體現在以下幾個方面:
(1)圖像識別
(2)語音識別
(3)數字識別
(4)......
4、機器學習算法的學習必須建立在以下四個方面上面:
(1)深入學習機器學習算法的基本原理;
(2)實際使用算法解決實際場景問題;
(3)對於不同算法進行對比試驗;
(4)對於同一算法的不同參數進行對比試驗。
5、對於不同的算法的具體使用,主要關鍵的幾個方面在於:
(1)如何評價算法的好壞;
(2)如何避免解決算法的過擬合和欠擬合;
(3)如何調節不同機器學習算法的參數;
(4)如何驗證算法的正確性;
(5)對底層算法進行編寫。
6、機器學習的搭建環境:
(1)語言:python3
(2)框架:scikitlearn
(3)其他:numpy、matplotlib等
(4)IDE:Jupyter-Notebook或者Pycharm
7、手寫數字數據集:MNIST數據集
8、對於機器學習算法的學習與使用原則:
不僅僅是調庫,而是要深入到算法的內部,更好的理解算法的好壞,在理解的接觸上爭取創造新的算法。

//2019.07.31下午
機器學習基礎入門
1、機器學習的典型數據集iris數據集(根據花的四種特征來區分三種不同的花)
iris數據集總共150行,5列數據,其中前4列為花的四種特征數據(萼片長度、萼片寬度、花瓣長度及其花瓣寬度)最后一列為花的種類數據集(0、1、2)
2、對於機器學習的數據,其數據整體稱之為數據集,每一行數據為一個樣本,除最后一列數據,其余各列數據都是樣本的一個特征,最后一列數據稱之為label,即函數值y,而前面的列數據為X向量


3、對於數據集的每一行疏浚轉置以后變為一個列向量,它可以稱之為樣本數據的特征向量。
4、對於機器學習算法,其數據集的不同特征向量會組成一個特征空間,而分類任務的實質是對於其樣本數據組成的特征空間進行切分(低維和高維空間都是同理的)。
5、對於圖像處理的每一個圖像,其每個像素點都是一個特征,一般的手寫數字集MNIST數據集的每個圖像都是有28*28=784個特征點,而特征點會因為圖像的不同有很多的特征,這些都將是用來識別圖像所表達內容的基礎。
6、機器學習算法的不同任務:根據結果的離散與連續分為分類算法(結果離散,不連續)與回歸算法(結果連續,是一個具體的數值,而非一個類別)
(1)分類任務:
1)二分類任務:郵件是否為垃圾郵件、股票的跌與漲等;
2)多分類任務:手寫數字數據集的識別,多種圖像處理與識別、判斷信用卡的風險等級等;
3)對於一些算法只支持二分類任務,但是有很多的多分類任務可以轉化為二分類任務,從而使用相應的二分類算法,也有一些算法可以天然解決多分類任務。
4)多標簽任務:多標簽任務主要是對一張圖像或者一個數據集進行多個屬性和特征的識別和歸類,然后結合多個歸類信息對其進行整體含義的推測與識別,屬於高層次機器學習算法的研究內容。
(2)回歸任務:回歸任務的結果是連續的數值,而不是離散的一些類別,比如股票價格的預測,房價的預測,市場分析,學生成績等
(3)有些算法只可以解決分類問題,有些算法只可以解決回歸問題,而有的算法既可以解決分類問題,又可以解決回歸問題。
(4)一些情況下,一些回歸任務可以根據實際情況將其轉換為分類任務。
7、機器學習主要分為非監督學習、監督學習、半監督學習以及增強學習四種大類算法,其中監督學習主要分為分類問題和回歸問題。
8、對於監督學習算法,其機器學習進行數據訓練的數據集都擁有以下特點:都擁有標記或者答案(最后一列y數據)也就是說其數據集一般都擁有標定信息,比如:
(1)圖像都已經擁有了其標定信息;
(2)醫院都已經積累了一定的病人信息以及最終是否患病的情況;
(3)銀行已經積累一定的客戶信息和他們的信用卡使用情況等
(4)房屋市場以及積累了房屋的基本信息和成交金額。
9、對於大部分機器學習算法,大多屬於監督學習算法,比如:k近鄰、線性回歸和多項式回歸、邏輯回歸、SVM以及決策樹和隨機森林等。


10、對於非監督學習算法,主要的意義在於:
(1)數據集的聚類分析
(2)對於數據進行降維處理,其具體包括對於數據的特征提取和特征壓縮(PCA)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM