1. ===功能===
人工智能現在已經能實現很多功能了,比如
語音識別——李開復博士當年做的工作奠定了很多當今識別系統的基礎。這里忍不住說一下,Siri本身的技術並沒有特別大的亮點,真正nb的是它的模式(語音識別直接與搜索引擎結合在一起,產品體驗做得好。而且關鍵是這樣的模式能采集到更多數據,使得系統的精度越來越高)
自然語言理解——目前看到的最強的結果應該是IBM Watson。但其實我們現在用的搜索引擎、中文輸入法、機器翻譯(雖然其實還不怎么work)都和自然語言理解相關。這塊兒不是我的專業,請 @段維斯 同學補充。
數據挖掘——隨着近年數據量的瘋狂增長,數據挖掘也有了長足進步。最具有代表性的是前幾年著名的Netflix challenge(Netflix公司公開了自己的用戶評分數據,讓研究者根據這些數據對用戶沒看過的電影預測評分,誰先比現有系統好10%,誰就能贏100萬美元)最后這一比賽成績較好的隊伍,並非是單一的某個特別nb的算法能給出精確的結果,而是把大量刻畫了不同方面的模型混合在一起,進行最終的預測。
計算機視覺——目前越來越多的領域跟視覺有關。大家可能一開始想到的都是自動駕駛。雖然大家都在說googleX的無人車, 但實際上現在無論是商業上,還是技術整合上最成功的算法是Mobile Eye的輔助駕駛系統。這個公司也是目前computer vision領域最掙錢的公司。
從實現新功能方面說,視覺的發展的趨勢主要有兩方面,A) 集成更多的模塊,從問題的各種不同方面,解決同一個問題(比如Mobile Eye,就同時使用了數十種方法,放到一起最終作出決策) B) 使用新的信息,解決一個原來很難的問題。這方面最好的例子是M$的Kinect,這個產品最讓人拍案叫絕的就是那個紅外pattern投影儀。
2. ===理論基礎===
這里說的是數學理論,是為實現功能解決問題而存在的。與人類的智能的聯系在下一節說。從這個角度,我們已經有了很多強有力的數學工具,從高斯時代的最小二乘法,到現在比較火的凸優化,其實我們解決絕大多數智能問題的套路,都可以從某種意義上轉換成一個優化問題。
真正限制我們解這個優化問題的困難有以下三個:
計算復雜度——能保證完美解的算法大都是NP-hard的。如何能讓一個系統在當前的硬件下“跑起來”,就需要在很多細節取巧,這是很多learning paper的核心沖突。
模型假設——所有模型都要基於一些假設,比如說,無人車會假設周圍的汽車加速度有一個上限(至少不會瞬間移動吧,否則怎么閃避)絕大多數假設都不能保證絕對正確,我們只是制定那些在大多數時候合理的假設,然后基於這些假設建模(比如,在語音識別里,我們是否要假設存在背景噪聲呢?如果有背景噪聲,這個噪聲應該符合什么特點呢?這時候無論你怎么定標准,總能找出“反例”)
數據基礎——任何學習過程都需要數據的支持,無論是人類學說話學寫字,還是計算機學習汽車駕駛。但是就數據采集本身來說,成功的案例並不多。大概這個世界上最強的數據采集就是google了吧。每次你搜索一個關鍵詞,然后點進去,google就自動記錄了你的行為,然后以此數據來訓練自己的算法。
隨着深度學習技術的成熟,AI人工智能正在逐步從尖端技術慢慢變得普及。AlphaGo和人類的對弈,並不是我們以往所理解的電子游戲,電子游戲的水平永遠不會提升,而AlphaGo則具備了人工智能最關鍵的“深度學習”功能。AlphaGo中有兩個深度神經網絡,Value Networks(價值網絡)和 Policy Networks(策略網絡)。其中Value Networks評估棋盤選點位置,Policy Networks選擇落子。這些神經網絡模型通過一種新的方法訓練,結合人類專家比賽中學到的棋譜,以及在自己和自己下棋(Self-Play)中進行強化學習。也就是說,人工智能的存在,能夠讓AlphaGo的圍棋水平在學習中不斷上升。
人工智能的技術應用主要是在以下幾個方面:
自然語言處理(包括語音和語義識別、自動翻譯)、計算機視覺(圖像識別)、知識表示、自動推理(包括規划和決策)、機器學習和機器人學。按照技術類別來分,可以分成感知輸入和學習與訓練兩種。計算機通過語音識別、圖像識別、讀取知識庫、人機交互、物理傳感等方式,獲得音視頻的感知輸入,然后從大數據中進行學習,得到一個有決策和創造能力的大腦。
從上世紀八九十年代的PC時代,進入到互聯網時代后,給我們帶來的是信息的爆炸和信息載體的去中心化。而網絡信息獲取渠道從PC轉移到移動端后,萬物互聯成為趨勢,但技術的限制導致移動互聯網難以催生出更多的新應用和商業模式。而如今,人工智能已經成為這個時代最激動人心、最值得期待的技術,將成為未來10年乃至更長時間內IT產業發展的焦點。
人工智能概念其實在上世紀80年代就已經炒得火熱,但是軟硬件兩方面的技術局限使其沉迷了很長一段時間。而現在,大規模並行計算、大數據、深度學習算法和人腦芯片這四大催化劑的發展,以及計算成本的降低,使得人工智能技術突飛猛進。
一、驅動人工智能發展的先決條件
物聯網——物聯網提供了計算機感知和控制物理世界的接口和手段,它們負責采集數據、記憶、分析、傳送數據、交互、控制等等。攝像頭和相機記錄了關於世界的大量的圖像和視頻,麥克風記錄語音和聲音,各種傳感器將它們感受到的世界數字化等等。這些傳感器,就如同人類的五官,是智能系統的數據輸入,感知世界的方式。而大量智能設備的出現則進一步加速了傳感器領域的繁榮,這些延伸向真實世界各個領域的觸角是機器感知世界的基礎,而感知則是智能實現的前提之一。
大規模並行計算——人腦中有數百至上千億個神經元,每個神經元都通過成千上萬個突觸與其他神經元相連,形成了非常復雜和龐大的神經網絡,以分布和並發的方式傳遞信號。這種超大規模的並行計算結構使得人腦遠超計算機,成為世界上最強大的信息處理系統。近年來,基於GPU(圖形處理器)的大規模並行計算異軍突起,擁有遠超CPU的並行計算能力。
從處理器的計算方式來看,CPU計算使用基於x86指令集的串行架構,適合盡可能快的完成一個計算任務。而GPU從誕生之初是為了處理3D圖像中的上百萬個像素圖像,擁有更多的內核去處理更多的計算任務。因此GPU天然具備了執行大規模並行計算的能力。雲計算的出現、GPU的大規模應用使得集中化的數據計算處理能力變得前所未有的強大。
大數據——根據統計,2015年全球產生的數據總量達到了十年前的20多倍,海量的數據為人工智能的學習和發展提供了非常好的基礎。機器學習是人工智能的基礎,而數據和以往的經驗,就是人工智能學習的書本,以此優化計算機的處理性能。
深度學習算法——最后,這是人工智能進步最重要的條件,也是當前人工智能最先進、應用最廣泛的核心技術,深度神經網絡(深度學習算法)。2006年,Geoffrey Hinton教授發表的論文《A fast learning algorithm for deep belief nets》。他在此文中提出的深層神經網絡逐層訓練的高效算法,讓當時計算條件下的神經網絡模型訓練成為了可能,同時通過深度神經網絡模型得到的優異的實驗結果讓人們開始重新關注人工智能。之后,深度神經網絡模型成為了人工智能領域的重要前沿陣地,深度學習算法模型也經歷了一個快速迭代的周期,Deep Belief Network、Sparse Coding、Recursive Neural Network, Convolutional Neural Network等各種新的算法模型被不斷提出,而其中卷積神經網絡(Convolutional Neural Network,CNN)更是成為圖像識別最炙手可熱的算法模型。
二、IT巨頭在人工智能上的投入
技術的進步使得人工智能的發展在近幾年顯著加速,IT巨頭在人工智能上的投入明顯增大,一方面網羅頂尖人工智能的人才,另一方面加大投資力度頻頻並購,昭示着人工智能的春天已經到來。
電商一班邢利棟