[轉]大數據時代,python竟是最好的語言?


 

隨着大數據瘋狂的浪潮,新生代的工具Python得到了前所未有的爆發。簡潔、開源是這款工具吸引了眾多粉絲的原因。目前Python最熱的領域,非數據分析和挖掘莫屬了。從以Pandas為代表的數據分析領域開始,便是Python的天下;一邊以實際項目實操,一邊跟着已有的資料學習,再輔以相關的理論知識,勢必將集Python技能於大成。

 

在圖靈世界里,Python被賦予的形象是蟒蛇,而蟒蛇不僅僅是靈活的象征,更有一招制敵的大殺器。

 

Python是一條大蟒蛇,自然算是編程語言中靈活,且有靈性的。


在現階段的數據體系內,只要你有所了解的話,想必你會有個感覺:怎么處處都有Python的蹤影!其實每一種的計算機編程語言,似乎都有自己成名或適用的領域。比如Java更多用於系統開發,Matlab則用於數值計算及矩陣運算,而Python的自身基因,讓其更符合數據領域的策略分析。


Python已經成為數據分析領域里事實上的最常用語言。

 

讓我們來看看,Python在數據分析領域的生態圈吧!

 

基礎庫

 

  • Numpy:矩陣計算與其它大多數框架的數據處理基礎;

  • Scipy:科學計算庫,提供了很多科學計算工具包和算法;

  • Matplotlab:專業畫圖工具,話說這個單詞還是真是在Matlab之間插入了plot這個詞形成的;

  • Pandas:提供類似於R語言的DataFrame操作,非常方便;


機器學習與深度學習

 

  • OpenCV:提供圖像識別的很多方便的操作;

  • Orange:基於圖形界面的機器學習程序,也可以用Python腳本來操作調用;

  • Scikit-Learn:前面說了,這是Python在機器學習領域里面的代表作。尤其是它的文檔,完全可以當成機器學習的參考資料來閱讀了,曾經我向朋友推薦的時候說,說過,把scikit-learn的文檔當成佛經來讀,假以時日,功力定會大增。

  • Theano:深度學習里面非常有名的一個框架了,也非常具有代表性。是其它很多框架的基礎。

  • Keras:基於Theano進行了抽象,建議入門的話使用這個,搭積木一樣地就可以弄個神經網絡出來了。

  • NLTK:自然語言處理,提供的功能也很強大。

 

國內出品的Mxnet的Python接口

 

分布式機器學習與深度學習

 

  • Spark之MLlib的Python接口Pyspark

  • H2o的Python接口

  • 收費的Graph Create的Python接口

  • Google最近剛出的TensorFlow的Python接口

  • 三星最近剛出的Veles,目前只提供Python接口


新的機器學習或深度學習框架,如果不提供Python接口的話,恐怕會難以推廣吧。

 

上面列舉的只是其中一部分,還有很多很多。當然,他們很多並非是用Python來實現,但都共同的提供了Python接口,甚至好幾個都把Python當成了頭等公民(First-Class)。

 

在此並非想說Python這門語言很強大或者復雜,而恰恰相反,得益於Python的簡潔和包容。才讓它在數據挖掘領域有如此的地位。

 

這便是生態圈的力量,不以個人的意志為轉移。

 

對於想入門數據分析、數據挖掘、機器學習的朋友來說,Python是你值得花時間的選擇。因為,除了上面的工具鏈生態圈,還有書籍和知識傳播的生態圈。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM