一、人工智能基本概念
1.1 基本概念
數據分析:對歷史規律的展現、對未來數據的預測。
機器學習:機器學習是指從一系列的原始數據中找到規律,提取人們可以識別的特征,然后通過學習這些特征,最終產生一個模型。
流程:原始數據-->特征提取-->模型。機器學習偏向於算法。
人工智能:Artificial Intelligence, AI,亦稱機器智能,是指利用計算機來對人的意識、思維信息過程、智能行為進行模擬(如學習、 推理、 思考、 規划等)和延伸,使計算機能實現更高層次的應用。人工智能基於機器學習偏向於應用。
數據挖掘:綜合運用機器學習和人工智能技術來解決生產或生活中的問題,是一個過程,一個解決方案。
1.2 人工智能發展歷程
1.3 人工智能系統技術架構
-
基礎層(基礎資源):
-
計算資源:學習數據的過程,如果資源不足將導致訓練時間非常的漫長。
-
數據資源:數據要保證可靠、充分、准確
-
-
技術層:算法、算法底層支撐的框架、算法運行環境、友好的建模界面
-
應用層:人工智能只是一種技術,不是一個行業,需要和各個行業進行結合,才能發揮價值。因此需要懂技術,還要懂業務。
從整個人工智能項目要經歷的階段來看
-
基礎層:數據收集-->數據理解-->數據處理-->
-
技術層:特征提取-->模型構建-->模型評估-->模型訓練-->
-
應用層:模型應用
1.4 人工智能應用領域
機器視覺:將被攝目標的形態信息、像素分布和亮度、顏色等信息,轉變成數字化圖像信號,傳送給圖形處理系統;比如手機的AI攝像頭對照片進行美化。
生物識別:通過計算機,與光學、聲學、生物傳感器、統計學的概念手段結合,利用人體固有的身體特征、行為特征進行個人身份的鑒定。比如人臉、指紋、虹膜等。一般將特征分為兩類:靜態特征 和 行為特征(或動態特征)
專家系統:模擬人類專家解決領域問題的系統。數據庫里包含含有大量的某個領域專家水平的知識與經驗,跟進用戶的咨詢,進行推理和判斷,模擬人類專家的決策過程。比如智能客服,能夠進行自我學習,天貓雙11 80%以上是智能客服完成的。比如券商的智能投顧。
編碼遺傳:AI系統利用遺傳算法和圖靈完備語言開發的程序理論上能夠完成任何類型的任務。比如基因改造、基因測序,這一塊屬於較敏感的話題。
機器人學:機器人是一個綜合性的人工智能產品。應用機器的視覺觸覺聽覺等技術、機器人語言和智能控制軟件等,來承擔危險的事務。比如可以參與到人不可觸及、高危的場景
舉例:生物識別的通用流程
1.5 人工智能模型分類
人工智能的核心是機器學習,機器學習的核心是算法。常見的算法可以分為兩大陣營:
1、傳統的機器學習算法:主要解決一些簡單的應用場景以及結構化的數據。
2、非傳統的機器學習算法:主要解決一些比較復雜的應用場景以及非結構化的數據或者多樣化的數據。
常見的算法:
- 傳統的機器學習又分為有監督學習和非監督學習,
有監督學習:有feture和label;業務系統提供的數據源知道原因又知道結果,根據原因找結果,此時稱之為有監督的學習,
非監督學習:只有feture;業務系統提供的數據源不知道會產生什么結果,此時稱之為非監督的學習。 百度百科:指在沒有類別信息情況下,通過對所研究對象的大量樣本的數據分析實現對樣本分類的一種數據處理方法。
半監督學習:兩者的結合。
- 監督學習算法又可以分為分類算法和回歸算法
分類算法:看label的類型。如果label離散型變量,二分類/多分類。 比如線性回歸算法
回歸算法:連續性變量,比如預測股票價格、交通流量等。比如邏輯回歸、決策樹、朴素貝葉斯、支持向量機。
隨機森林、K-近鄰、神經網絡即可做回歸,也可做分類。
強化學習:根據環境來調整學習xiao,反饋機制,每一階段其實還是傳統算法
1.6 人工智能原理舉例
- 例1:賣房子
房子有很多的屬性,比如面積、樓層、朝向、學區、交通是否便利等等。利用機器學習,基於已經賣掉的房子數據可以訓練出一個房價和房子眾多屬性之間的關聯函數,以后在房子估價時只需要輸入參數到模型中,就可以輸出房子可以賣多少錢。這是一個典型的機器學習的回歸模型的應用。
- 例2 買蘋果
根據你每次買蘋果的口味進行決策,最終選出最適合你的口味,這屬於二分類問題,這是一個典型的機器學習決策樹模型的應用。
二、人工智能基本原理
本章節從業務溝通與業務目標確認、業務問題轉換為機器學習問題、常規建模流程、模型/業務解釋四個方面進行說明。
2.1 項目角色-甲方乙方
甲方:對自己的業務比較了解,但建模水平可能還達不到企業的自身要求。
乙方:建模技術、建模經驗比較充分,具有一定的業務,但還需要和甲方進行深入溝通。
注意:在項目過程中,任何時候都要注意數據安全和數據隱私。
2.2 業務溝通與業務確認
建模不是調算法,而是需要從業務本身出發,最終目的是為了業務提升。
數據與目標:有哪些數據?想做什么?之前是怎么做的?之前結果有什么不滿意?
做法與思路:能不能用機器學習方法來做?如何轉換為機器學習問題以及優先級?
應用於評估:訓練出來的模型怎么用?期望達到什么樣的效果(業務角度的效果)?
2.3 業務問題轉化為機器學習問題
在用人工智能技術解決真實業務問題之前,需要思考:
- 是否可以用機器學習方法來做
-
溝通需求與業務目標
-
明確是否是機器學習的范疇以及是哪種問題
- 如何實際開發節奏
-
明確人工智能建模流程
-
預設各階段的開發周期和檢驗標准
- 最終產品的檢驗標准
-
確定最終模型使用方式
-
明確最終模型的效果評估方式
2.4 人工智能建模流程
階段概要說明:
數據收集:ETL
數據理解:數據代表業務
數據處理:數據的准確性、數據的質量。
特征提取:兩種方式。一:基於人對業務經驗的了解,可能存在人為因素。二:用一些神經網絡的方法,基於數據本身的特征進行加工和特征提取,但只能提取通用的規律。各有利弊
模型構建:選擇算法
模型評估:評估模型、優化模型。
模型最終是否能產生價值,還需要業務推動、調整,因此需要和業務進行充分、反復的溝通,確認目標、確認做工作的方式和效果。
2.5 人工智能模型與業務解釋
最終一定要轉化為業務語言,指導業務。
三、人工智能技術發展趨勢
3.1 各大廠商一些典型的應用
-
微軟
主要 研究大數據(城市計算)、智慧醫療、知識圖譜(微軟認知服務),NLP(機器翻譯、實時語音翻譯、微軟小英、微軟小冰),計算機視覺等領域。 -
百度研究院
下設 深度學習實驗室(IDL)、大數據實驗室(BDL)、硅谷人工智能實驗室(SVAIL)、商業智能實驗室(BIL)、機器人與自動駕駛實驗室(RAL)、認知計算實驗室(CCL)、量子計算研究所(IQC);多模態深度語義理解的百度大腦3.0,Apollo平台; -
騰訊AI實驗室
游戲類AI,圍棋AI(絕藝)、王者榮耀AI(絕悟)等 -
華為諾亞方舟實驗室
計算機視覺、推薦與搜索、AI基礎理論、語音和語言處理、決策與推理等 -
阿里巴巴達摩院
分為機器智能、數據計算、機器人、金融科技、X實驗室共5大研究領域,14個實驗室。產品:人工智能芯片平頭哥。
3.2 人工智能研究方向
1、深度神經網絡:解開神經網絡的工作原理
2、模糊計算:以模糊集理論為基礎,它可以模擬人腦非精確、非線性的信息處理能力
3、強化深度學習:與環境交互以解決業務問題
4、生成對抗網絡:配對神經網絡刺激學習,減輕處理負擔
5、混合學習模式:模型融合,提高模型准確性
6、自動化機器學習:自動化建模、讓AI更智能。
四、人工智能典型技術方案
星環科技企業級人工智能平台SOPHON
目的:幫助企業用戶以可視化方式實現人工智能的快速落地
功能:數據導入、數據預處理、特征工程、模型訓練、模型驗證、模型部署、模型應用等
產品優勢:自動建模技術、全場景工具、優化的分布式算法、多數據融合、微服務部署、全流程圖形化、多用戶協作、流式機器學習、多種計算框架、工作流調度等。
五、人工智能應用場景
5.1 基於關聯分析的經典案例:沃爾瑪的啤酒尿布
5.2 回歸預測:比如新冠肺炎疫情的預測
5.3 知識圖譜:比如超級傳播者的識別
5.4 自然語言處理NP:比如垃圾郵件檢測與分類
5.5 神經網絡(深度學習):人臉識別VS豬臉識別
5.6 強化學習(深度學習):比如電子競技-AI dota。AI選手訓練量驚人,相當於每天可打200萬局dota;256塊GPU,12.8萬個CPU核心
5.7 人工智能應用領域
歡迎關注我的個人公眾號“碼大叔”,也可以加我的個人微信:qiaojs,我們一起java相關的交流學習!
本文是我觀看星環科技AI工程師公開培訓視頻的學習筆記,拿出來和大家一起分享學習,版權歸星環科技所有。大家也可以直接去觀看視頻,老師講的更為詳細。
B站直播地址:https://live.bilibili.com/21878856,免費噢(星環科技最近不定時有很多大數據、雲計算、人工智能相關的分享)
AI講師:孫國庫 星環科技AI架構師&金牌講師
感謝星環科技孫老師的精彩分享!