「機器學習和大數據計算都是學數學應該干的,學計算機的相比毫無優勢」


「機器學習和大數據計算都是學數學應該干的,學計算機的相比毫無優勢」這種說法是否正確?為什么?

陳懷臨前輩今天在微博上說的,各位是否贊同這種觀點?
我在本科階段學的軟件,學的數學確實不多,后來發現機器學習是自己的樂趣所在,看到陳懷臨前輩的言論,讓我比較擔憂是否計算機出身是否不好、是否出現瓶頸。
 

高英愷格格不入工科不悶騷男~

17 票,來自 知乎用戶、田野、知乎用戶 更多
首先想說的是別把學計算機的和學數學的划分的太清。學數學的可以不了解計算機,但如果你想在計算機科學(注意是科學)領域做出點成就的話不可能不精通數學。

另外,機器學習和大數據也分很多方面啊,最簡單的分類就可以分成理論研究和工程應用。
理論研究來說,比如說提出新的算法啦,改善核函數,研究概率模型之類的工作,肯定是數學感覺好的人占優勢。
而對 工程應用來說,計算機工程師需要考慮的就不僅僅是算法的問題了,還要考慮整個系統的種種因素。現在這些大的網站哪個不是大數據多層分布式架構,哪個沒有一些機器學習的應用?讓純玩數學的人來做能搞好?

最 后補充一點,記得在微博上看到MSRA的一個大牛(對不起我忘了是哪位了)解釋為什么科研中提出的新(好)算法,在工程應用中不一定好用。他說,因為工程 中不僅僅是一個機器學習的模塊在跑,而是整個系統在跑,整個系統的各個模塊之間的配合需要考慮很多因素,而不僅僅是一個模塊。

------------------------------------------------------------
半夜從床上爬起來答的,講的凌亂見諒。。。
2012-08-23 1 條評論
 

王棟愛編程,愛敏捷,愛互聯網,愛NLP,愛機…

6 票,來自 章魚哥、知乎用戶、濤吳 更多
要說數學功底,大學里計算機系和數學系本來就是一牆之隔,CS學生的數學功底一般還不錯,如果不是去搞特別高深的理論研究,再加上一點自學肯定是夠用的了。 計算機系的學生絕不應該與數學絕緣,即使離開校園,數學的充電也不能間斷。

另 外,機器學習並不涉及數學的各個方面,與數學的交集主要是統計學(嚴格講,統計學也不完全屬於數學)、線性代數、應用數學(如運籌學),一部分數學分析 等,當然不排除對其他數學分支的深入研究會有助於機器學習理論的突破,但數學絕不是機器學習的全部(就像數學之於物理學)。

如果簡單的把 機器學習分成理論和應用,起碼在目前階段,理論還只是它的一小部分,而且我覺得很長一段時間內機器學習都將是一個實驗性質很強的學科,所以計算機系的學生 不僅是沒有優勢,而且還有很大的優勢。多去交一些統計系、數學系、心理學系、社會學系、 經濟學系的朋友,偉大的成就總是在那些交叉口產生的。
2012-09-28 1 條評論
 

知乎用戶,計算機科學、歷史和邏輯

4 票,來自 王小小余露黎明 更多
我覺得這種說法非常不專業,無論從計算機科學還是計算機工程角度。或許有這種想法是因為陳懷臨在計算機工程方面的項目經驗有限。

在拿到碩士學位后,我也猶豫過是到底是轉離散數學PhD還是繼續在機器學習領域做研究,最終放棄了前者。 我不確定 是否世界上所有問題都可以通過數學語言描述,計算機科學的研究不應是純理論研究,我希望我的研究至少在有生之年可以造福周圍的人,哪怕只是很少的人。

近幾年的實踐表明,在統計機器學習領域,統計學在很多時候不能完全解決實際問題,雖然它確實可以提供方向和理論基礎。

舉 一個簡單的例子,自然語言處理中利用語料訓練分詞模型,HMM和CRF算是主流模型。但在新詞發現上,如果原有語料完全沒有包含新詞,那么分詞結果遠不如 一個手工添加過新詞詞典的普通匹配算法。從本質上說,統計機器學習的過擬合現象,其根源就是統計數學模型無法很好地預測訓練集之外的現實情況。這就導致了 在機器學習中很多數學模型需要加入各種平滑值,而平滑值的大小往往是經驗性的,如潛狄利克雷模型應用於文本聚類時需要設定α和β參數。

並 且,統計機器學習機中采用的很多模型依賴於假設,而有些假設過強。例如在模式識別中假設數據符合共軛先驗(Conjugate Prior)分布以便於可以使用Bayes公式作為訓練模型,但Bayes評估的問題在於先驗概率的選取有時候只是方便數學推導,而非准確地反映先驗知 識。

關於大數據計算,我猜想他說的是分布式和並行計算。由於目前海量數據對存儲和計算的壓力,分布式存儲和計算,以及並行計算的需求越來 越多(機器學習大多需要密集計算)。主要問題是計算機領域原有大量的串行算法很難簡單轉換為並行算法,但這里的算法並不僅僅和數學有關,很大程度上還和計 算機體系結構有關。

當然,在機器學習和數據挖掘領域想發頂級期刊和會議的paper,有良好的數學理論支撐是必須的,但這不意味着你得是數學家。
2012-09-27 1 條評論
 

孫文全兄弟在河畔有幾個鍾頭的課

3 票,來自 李庚王曉翔Keith Li
根據個人經歷來看出身於數學專業或者是計算機專業並沒有太大關 系,因為機器學習和並行計算這塊涉及到的數學並不需要太多時間去掌握,甚至使用coursera等在線課程平台學到能用能靠着文獻撐下去大概也只需要二十 來周的時間,而且CS出身的數學一般是弱不了的,靠着這種夾生飯現學現賣的方法,發paper什么的困難,把工程推進下去是完全可以的,畢竟在工程中遇到 的問題很多前人已經有了解決方案了,拿來稍微改一改就能跑起來,比自己提出一個要容易很多,再者,在實踐中做了幾次之后對機器學習等等地方的認識也會逐漸 地變深刻的,到時再細細研究,深挖基礎,事半功倍(希望沒用反,這詞錯的太多了。。。)。
另外,計算機科學從來都不是計算機的科學,除非想當一輩子Coder,否則任何一個方向學下去的數學基礎都是少不了的,而在解決計算機的具體問題的時候有意無意地,你的數學也會跟着提高。
2012-12-24 添加評論
 

石磊計算機-網絡-數碼-程序

1 票,來自 卓勇霖
計算機相關領域的哪個大牛數學差 都是頂呱呱的
而且常見的很多是從數學 物理轉過來的
你做研究不到一定階段根本顯不出動數學和不懂的區別
如果你能做到了一定階段了 你的數學肯定差不了
2012-09-27 1 條評論
 

潘屹峰熟悉常用算法,感興趣...

 
同意@高英愷的觀點。
就機器學習而言,如果從理論出發, 推理出實踐,可以看成自底向上的過程;反之,如果從實踐出發,歸納出理論可以看成是自頂向下的過程。對於一個具體問題來說,他距離頂部較近(偏向實際應 用),自頂向下的路徑可以先得到收益;反過來,如果這個問題距離底部較近(偏向理論研究),那么自底向上的路徑可以先得到收益。所以你要搞清楚希望從事的 機器學習工作在什么位置:如果是用機器學習問題解決實際問題,那么軟件工程的背景沒有問題,只不過要補充一些statistic方面的基礎知識。 (p.s.上周聽Jiawei Han作報告時提到,他的學生里有statistic背景的學生,做出的工作往往更突出)。
大數據計算,個人認為和實際應用關聯更緊密,軟件工程的同學完全可以勝任這方面的工作。
2012-08-24 添加評論
 

肖智博在讀博士,做個幾個項目

3 票,來自 曾俊瑀ligexiao劉嶠
不贊同這種說法!

而且,也不用擔心什么出身問題吧,覺得你有點想太多了。既然你覺得現在做機器學習有興趣,那么這個就是最大的動力。說實話,即使是學數學的,在看機器學習的很多算法的時候,里面的數學知識都是聽都沒有聽過的,都是靠自己學的。你有興趣,就可以靠這興趣去推動自己,去學習。

至於別人說什么,不用太往心里去,自己去做就好了啊。
2012-08-24 添加評論
 

張峻新技術愛好者

2 票,來自 李庚劉嶠
在自然科學的鄙視鏈條上,數學的排位是非常靠前的,所以不要奇怪被數學的人鄙視。

但是實際中解決問題能力誰更強就完全是一個個體性的問題了
2012-09-23 添加評論
 
搞理論的話要數學好,搞應用的話需要領域知識
2012-09-23 添加評論
 

匿名用戶

 
首先,數據挖掘確實需要大量數學尤其是統計學知識,

但是,像我認識的一個老師Jian Pei就是看到哈佛生物系的bi-clustering算法太慢了,聯系上幫他們大大優化了運算速度。好像還出了改進后的 論文

否則那種上百萬的microarray,真是算到計算機都吐血。
2013-05-25 添加評論
 

卓勇霖數學,旅行,讀書,下廚

 
假設只是做一般的工作而不是到科學家級別的工程師,其實用到的數 學理論都能很好的去掌握,我自己是學數學的,也打算一直在機器學習相關領域做下去,反而遇到的問題也很多,比如對計算機的掌握欠火候,其他的領域知識也積 累得不夠。另外,個人認為現如今機器學習也好,數據挖掘也罷,其實發展的程度還是太淺了,到底是不是數學能搞定大部分問題還要打一個大問號。
2012-09-30 添加評論 感謝 分享 收藏


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM