最近在寫機器學習的白話系列主題文章,突然有人問我,機器學習到底有什么用,如何才能用到實際生活中。我覺得很有必要停下腳步,來認真思考一下這個問題:機器學習,包括深度學習,自然語言處理,如何真正應用到實際生活中去。希望大家能夠踴躍討論。
說到機器學習,最出名的無非就是Google的AlphaGo這樣的項目,機器在人類傳統的智力游戲中,無情而殘酷的戰勝了人類。當然,對於大部分正在讀這篇文章的你來說,對於大部分正在學習機器學習的人來說,那只是一個終極目標。支撐着AlphaGo的服務器資源和海量數據不是任何機構可以獲得的。
在沒有大量數據資源和服務器資源的情況下,機器學習到底可以怎么應用到生活中呢?
隨着Tensorflow的發布,其實我們已經可以在手機程序中使用人工智能了,下面的圖就是Tensorflow通過ImageNet進行圖像識別的例子。
當然,圖像識別只是一個基礎功能,如何使得圖像識別應用在實際生活中,則是一個需要研究的課題。同時,由於手機這樣的設備,運算能力有限,精度不是很高的情況下,如何滿足實際需要,也是一個課題。
當然,如果你懂一些硬件的話,也可以和樹莓派一起做一個智能硬件,做一個小車到處逛,順便執行一些簡單的任務。
http://www.leiphone.com/news/201703/2MCSRGD5XpPNbK8c.html
機器學習,一般來說,能做的事情,一種是分類任務,一種是回歸任務。
分類的話,在Tensorflow發布的時候,日本有個大叔做了一個智能黃瓜分類器,將原本農作物的分類分揀工作,交給了機器去完成。但是我看了一下,除了垃圾分類之外,暫時也沒有什么需要我們去分類的東西。當然,如果能夠做到機器學習的自動垃圾分類,也是一個好的主意,做一個智能垃圾回收站。
http://www.infoq.com/cn/news/2016/09/tensorflow-cucumbers
如果你的工作有需要分類的任務,而且對於結果精度要求不高,則可以嘗試一下,例如茶葉的分揀。
做HR的或許可以將簡歷信息和最后錄取情況作為數據,訓練出一個簡歷篩選的工具,幫助降低工作強度,當然也可能導致自己失業。
說到回歸任務,也就是預測。說到預測,呵呵,股票預測。
股票預測到底靠不靠譜,我覺得,中國股市是一個政策導向的市場,這種市場的預測基本沒戲。
其他預測,我也暫時沒有想到什么好的項目。原因就是,找到帶有標簽的大量數據源是一件成本非常高的事情。用爬蟲去抓取數據,然后進行標簽的整理,也是相當耗時間的事情。
真的要用好機器學習,在這個框架泛濫的時代,可能領域專家比機器學習專家更加重要。Keras這樣的框架,如果加上一個可視化的UI,普通人都可以做神經網絡了。
自然語言處理,也是機器學習的一個分支。大致有兩種模型,一個是LDA主題模型。一個是情感分析模型。
實際生活中的應用,一般也就是抓取各種點評文字,然后通過點評分值,歸納出分值和文字之間的特征。我遇到過一個項目,是金融業的。金融網站會有各種行業里面的針對公司的新聞(相當於數據),證券公司會有對於公司股票級別的評定(買入,持有,賣出,相當於標簽),然后將歷年的新聞和評級收集起來,做成一個新聞VS評級的模型(輸入新聞,輸出評級)。有了這個模型之后,通過爬蟲去抓取實時新聞,計算出新聞中出現的公司可能出現的股票評級變化情況,推送通知相關客戶。這個項目的效果還不知道,或許沒有什么實際價值。
現在流行創業,很多人,包括我在內,也希望抓住機器學習這個風口,做一個創業項目。我也深深知道,其實當今資本時代,技術的地位沒有那么重要了。除非能夠潛心研究一個高大上,無法被抄襲的東西出來。機器學習的核心價值,是大數據和模型。如果有機會拿到一些很有價值的,稀缺性的數據,然后訓練,調整出一個高精度的模型,則就離成功很近了。高價值,沒有被人利用的數據在哪?能夠訓練出什么獨特的模型,解決實際的問題?找到問題的答案,這個是關鍵。
關注公眾號 TensorFlow教室 深度學習,機器學習,自然語言處理。