1.機器學習概述
1.1人工智能概述
1.1.1機器學習與人工智能、深度學習
-
機器學習和人工智能,深度學習的關系
- 機器學習是人工智能的一個實現途徑
- 深度學習是機器學習的一個方法發展而來
-
達特茅斯會議-人工智能的起點
1956年8月,在美國漢諾斯小鎮寧靜的達特茅斯學院中,
約翰·麥卡錫(John McCarthy)
馬文·閔斯基(Marvin Minsky,人工智能與認知學專家)
克勞德·香農(Claude Shannon,信息論的創始人)
艾倫·紐厄爾(Allen Newell,計算機科學家)
赫伯特·西蒙(Herbert Simon,諾貝爾經濟學獎得主)等科學家正聚在一起,討論着一個完全不食人間煙火的主題:
用機器來模仿人類學習以及其他方面的智能。
會議足足開了兩個月的時間,雖然大家沒有達成普遍的共識,但是卻為會議討論的內容起了一個名字:人工智能
因此,1956年也就成為了人工智能元年。
1.1.2 機器學習、深度學習能做些什么
-
用在挖掘、預測領域:
- 應用場景:店鋪銷量預測、量化投資、廣告推薦、企業客戶分類、SQL語句安全檢測分類…
-
用在圖像領域:
- 應用場景:街道交通標志檢測、人臉識別等等
-
用在自然語言處理領域:
- 應用場景:文本分類、情感分析、自動聊天、文本檢測等等
1.2 什么是機器學習
1.2.1 定義
機器學習是從數據中自動分析獲得模型,並利用模型對未知數據進行預測。
1.2.2理解
人類從大量的日常經驗中歸納規律,當面臨新的問題的時候,就可以利用以往總結的規律去分析現實狀況,采取最佳策略。
例如:
- 從數據(大量的貓和狗的圖片)中自動分析獲得模型(辨別貓和狗的規律),從而使機器擁有識別貓和狗的能力。
- 從數據(房屋的各種信息)中自動分析獲得模型(判斷房屋價格的規律),從而使機器擁有預測房屋價格的能力。
1.2.3 數據集構成
- 結構:特征值+目標值
注:每一行數據被稱為一個樣本,目標值不是必須存在的,但是會存在特征值。
1.3 機器學習算法分類
分類:
- 特征值:貓/狗的圖片;目標值:貓/狗-類別
- 分類問題
- 特征值:房屋的各個屬性信息;目標值:房屋價格-連續型數據
- 回歸問題
- 特征值:人物的各個屬性信息;目標值:無
- 無監督學習
1.3.1小結
1.3.2機器學習算法分類
- 監督學習(supervised learning)(預測)
- 定義:輸入數據是由輸入特征值和目標值所組成。函數的輸出可以是一個連續的值(稱為回歸),或是輸出是有限個離散值(稱作分類)。
- 分類 k-近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經網絡
- 回歸 線性回歸、嶺回歸
- 無監督學習(unsupervised learning)
- 定義:輸入數據是由輸入特征值所組成。
- 聚類 k-means
1.4 機器學習開發流程
注:參考了黑馬程序員相關資料。