如何認識機器學習?


一、概述

在數據分析中,我們經常討論如何才能從數據中進行挖掘和分析出其中有價值的地方。一直是每一個學習機器學習和數據挖機的從業人員,不得不思考的問題。如果用DIKW體系討論 數據、信息、知識、智慧之間的關系,我們可以從下圖清洗的看到每一層之間的邏輯關系。

                                                  

 

       數據是記錄下來的圖形符號數字。它是原始的素材,未被加工解釋,沒有回答特定的問題,沒有任何意義;

       信息是已經被處理、具有邏輯關系的數據,是對數據的解釋,這種信息對其接收者具有意義;

       知識是從信息中過濾、提煉及加工而得到的,我們能從其中抽象出一個本質的東西,原則的東西,規律的東西;

       智慧是從知識的積累與創新中凝華而成的,體現了一定的人生哲理。

 

二、認識數據

       數據是我們生活中無時無刻不在產生的,每時每刻我們發布的新聞,頭條,鏈接,分享,語音等等,現今的時代已經是信息爆炸的時代,我們如何認識數據,如何定義數據,如何分析數據今天又好像特別陌生。所以我們需要一些方法、策略、技術去幫助我們理解數據以及數據的抽象。

       定性和定量屬性

  在數據分析中,屬性、維(Dimension)、特征(feature)和變量(Variable)可以互換使用,按照屬性值功能的不同,可以把屬性分位定性屬性和定量屬性。

  (1)定性屬性是指用文本描述對象的特征,定性屬性主要分為三類:

    標稱屬性:也叫做類別屬性,用於對數據對象分類(Category),比如,頭發的顏色、職業;

    二元屬性:只有兩個類別的屬性,兩個屬性之間有對稱和不對稱的,對稱的屬性比如性別,非對稱的屬性比如是否喝酒開車更不安全的權重不同。

    序數屬性:屬性的順序是有意義的,通常用於等級評定。序數屬性也可以通過把數值屬性分割成不同的區間來得到,比如,年齡段。

            在序數屬性中,有一類重要的屬性,叫做時間屬性,一些常見的分析方法,比如時序分析,周期性分析等都是基於時間屬性的。

  (2)定量屬性是指用數值描述對象,可以比較大小,是可以量化的屬性,定量屬性主要分為兩個標度:

    區間標度:可度量的數值,用整數或實數表示,比如,年紀、薪水

    比率標度:比例數值,比如,速度、留存率

    定量屬性通常含有量綱,例如,身高的量綱是cm,而薪水的量綱是元,同一量綱的數據可以比較大小,

    不同量綱的數據,需要通過歸一化去量綱之后,比較大小才有意義。定性數據通常是分析數據的一個角度,

    增加維度,從不同的角度來看待問題,能夠細分指標,增加分析的深度。

 

二、機器學習三要素

       (1)模型

      在機器學習的過程中,我們一般要先定義模型,什么是模型? 我們借用知乎(https://www.zhihu.com/question/285520177)上的一段話,可以簡要的理解一下。模型本質上是一個函數。是一個什么函數呢? 是從一個樣本 [公式] 到樣本的標記值 [公式] 的映射,即 [公式] 。因為在機器學習中,如果我沒有假設前提是存在的,那么我們不可能從未知到已知的過程中解脫出來,我們面臨的是一個未知的世界,但我們假設一些前提或者因果,通過推到論證,一步一步去逼近擬合我們的真實世界。所以我們要進行模型的定義。

    (2)策略

      由於假設的前提存在,客觀世界並不存在我們理想化的模型函數,否則我們不必要進行相應的假設前提,那么我們如何逼近真實的世界呢,這里我們需要引用一些策略去逼近我們的真實情況。在這里我們通常的做法有以下兩種策略方法:損失函數與風險函數。

          損失函數
​     損失函數用來度量預測錯誤的程度。常用的損失函數有0-1損失函數(等於設定值損失為零,不等於損失為1),平方損失函數(設定值與預測值的差的平方),絕對損失函數(設定值與預測值的差的絕對值)。但是損失函數一般是用來度量模型對於一個樣本的預測與分類的准確度。一般我們進行訓練時,需要很多樣本。

     風險函數
​     若有多個樣本,則可以通過求出每個樣本的損失,然后求這些樣本的平均損失,這個平均損失,就是模型的經驗風險。風險函數可以度量模型對於多個樣本的預測的准確度,除了經驗風險,還有結構風險。結構化風險是為了防止模型的過擬合,加入了一個正則化項,這個正則化項是關於結構的函數。

    (3)算法 

    機器學習中的算法,主要是為了求解我們假設的模型的變量,我們需要通過一些算法如:決策樹方法、SVM、朴素貝葉斯方法、KNN 、K均值、隨機森林方法等。

 

三、監督學習

       機器學習的主要任務便是聚焦於幾個常見的問題:分類、回歸和標注。

    機器學習在不同的維度會有不同的划分,最普遍的划分大致可以分為監督學習、非監督學習、半監督學習、強化學習。

              監督學習的數據集擁有既定的標簽,即訓練的數據集已經有了某種特定的屬性,

         非監督學習的數據集沒有任何既定標簽,完全讓算法去分析這些數據,找出一些特殊情況,大多數聚類算法都是非監督學習。

              半監督學習,雖然數據集有既定標簽,但是有時候有些數據會有缺失,例如銀行信用體系中,有些人的年齡數據缺失、有些人性別數據缺失等等。

              強化學習,即根據當下的環境不斷的去學習,不斷的發現數據集,不斷的訓練自己,例如阿爾法狗以及無人駕駛等,都是增強學習的應用。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM