大數據分析所需要的十大技術


大數據分析所需要的十大技術 【本文內容與本人所在的公司無關,完全是休閑聊天,敬請隨意轉發】

趙鍇 KaiZhao

如果你要成為大數據分析中的佼佼者,那么你怎么也得清楚地知道下面的大數據分析的十大技術。

1: 數據倉庫技術

全球數據倉庫的領導者是Teradata。

Teradata收購的Aster Data( Teradata Aster) 擁有強大的SQL/MR技術。

Greenplum和Aster Data都是基於PostgreSQL的MPP並行數據倉庫,不同的是Aster
Data是MR是基於PostgreSQL的,而Greenplum是基於商業Hadoop版本的。

開源的MPP系統也有一些,請google自查之。

2: 數據庫技術

數據庫除了老牌的Oracle, SqlServer,還有開源的MySQL和PostgreSQL。Inside SQL Server這本老書可以多翻得的看看。

建議多多關注PostgreSQL,因為那是一個至今為止你還可以讀的懂內核的數據庫系統,代碼優美,值得信賴。

3: Hadoop等衍生系統技術

這個就不多說了,從Hadoop到Spark,不知道現在有多少家公司要頭痛的選擇到底是選用新的Spark還是已有的Hadoop。

頭痛的原因還有就是,公司好不容易培養好了Hadoop的人員,現在又要培養Spark。這個顯然給商業MPP公司帶來了銷售上的說辭。。。

4: 數據挖掘技術

分類,聚類, 平凡項集挖掘,協同過濾,回歸預測這些概念怎么也得弄懂了。

各種距離也得略知一二。

Weka,R, Mahout, Spark怎么也得會幾個。

5: 自然語言處理技術

英文的不說。

中文的你得知道 分詞,詞性標注POS,語法樹,指代消歧,關鍵詞抽取,實體抽取,情感分析。

6: 社交網路分析技術(圖分析)

圖的基本理論

圖上操作SSSP, PageRank等等請google之。

知道怎么找到社區和社區中的關鍵人物。

7: 信息檢索技術

知道Ngram, 停用詞,倒排索引,會用lucene。

8: 雲計算技術

知道如何管理和分配主機、存儲、網絡、操作系統。

熟悉OpenNebula , OpenStack, CloudStack, 至少一種。

9: No-SQL技術

眾多No-SQL技術。希望能至少了解一種技術。

10: 數據可視化技術

如果你看懂了Tableau是怎么做的,那么數據可視化你就是沒有問題了。

在這里插入圖片描述


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM