大數據分析所需要的十大技術 【本文內容與本人所在的公司無關,完全是休閑聊天,敬請隨意轉發】
趙鍇 KaiZhao
如果你要成為大數據分析中的佼佼者,那么你怎么也得清楚地知道下面的大數據分析的十大技術。
1: 數據倉庫技術
全球數據倉庫的領導者是Teradata。
Teradata收購的Aster Data( Teradata Aster) 擁有強大的SQL/MR技術。
Greenplum和Aster Data都是基於PostgreSQL的MPP並行數據倉庫,不同的是Aster
Data是MR是基於PostgreSQL的,而Greenplum是基於商業Hadoop版本的。
開源的MPP系統也有一些,請google自查之。
2: 數據庫技術
數據庫除了老牌的Oracle, SqlServer,還有開源的MySQL和PostgreSQL。Inside SQL Server這本老書可以多翻得的看看。
建議多多關注PostgreSQL,因為那是一個至今為止你還可以讀的懂內核的數據庫系統,代碼優美,值得信賴。
3: Hadoop等衍生系統技術
這個就不多說了,從Hadoop到Spark,不知道現在有多少家公司要頭痛的選擇到底是選用新的Spark還是已有的Hadoop。
頭痛的原因還有就是,公司好不容易培養好了Hadoop的人員,現在又要培養Spark。這個顯然給商業MPP公司帶來了銷售上的說辭。。。
4: 數據挖掘技術
分類,聚類, 平凡項集挖掘,協同過濾,回歸預測這些概念怎么也得弄懂了。
各種距離也得略知一二。
Weka,R, Mahout, Spark怎么也得會幾個。
5: 自然語言處理技術
英文的不說。
中文的你得知道 分詞,詞性標注POS,語法樹,指代消歧,關鍵詞抽取,實體抽取,情感分析。
6: 社交網路分析技術(圖分析)
圖的基本理論
圖上操作SSSP, PageRank等等請google之。
知道怎么找到社區和社區中的關鍵人物。
7: 信息檢索技術
知道Ngram, 停用詞,倒排索引,會用lucene。
8: 雲計算技術
知道如何管理和分配主機、存儲、網絡、操作系統。
熟悉OpenNebula , OpenStack, CloudStack, 至少一種。
9: No-SQL技術
眾多No-SQL技術。希望能至少了解一種技術。
10: 數據可視化技術
如果你看懂了Tableau是怎么做的,那么數據可視化你就是沒有問題了。