面試現在這家公司的時候,領導說有意讓我接觸大數據這塊的項目,當時可把我高興的。雖然來這快兩年了也沒接觸大數據,詞倒是聽了幾個。hadoop念着挺順口,到底是個什么東西呢。搜索了一波,總結如下。
hadoop是什么?
Hadoop就是一個分布式計算的解決方案.
能看懂嗎。看不懂的繼續往下看看
hadoop能做什么?
如果是1G , 1T 甚至 1PB 的數據需要找出相同的關鍵詞,通常的方式需要耗時幾天,有了hadoop以后可以縮短為幾個小時。原理看起來很簡單,利用分布式計算。Hadoop 要做的事, 首先把 1PB的數據文件導入到 HDFS中, 然后編程人員定義好 map和reduce, 也就是把文件的行定義為key,每行的內容定義為value , 然后進行正則匹配,匹配成功則把結果 通過reduce聚合起來返回.Hadoop 就會把這個程序分布到N 個結點去並行的操作。
這就是雲計算。如果不懂還有更簡單的例子
比如 1億個 1 相加 得出計算結果, 我們很輕易知道結果是 1億.但是計算機不知道,那么單台計算機處理的方式做一億次的循環,每次結果+1。
那么分布式的處理方式則變成 我用 1萬台 計算機,每個計算機只需要計算 1萬個 1 相加 ,然后再有一台計算機把 1萬台計算機得到的結果再相加
從而得到最后的結果.
理論上講, 計算速度就提高了 1萬倍. 當然上面可能是一個不恰當的例子.但所謂分布式,大數據,雲計算 大抵也就是這么回事了.
hadoop擅長日志分析,facebook、淘寶搜索中的 自定義篩選都使用的Hive。不僅如此,Twitter、Yahoo也是用到Pig技術。
PS:
Hive是Hadoop生態圈中及其重要的一個組件。Hadoop生態的數據是存儲在HDFS中,而Hive能對其中的數據進行分析和管理。用戶通過命令行或JDBC可使用Hive進行增刪改查等數據庫操作。
想更加了解hadoop的朋友可以多了解Hive、Pig、Hbase,這篇文章可以看下,相信會有很大幫助 Hadoop的Hive、Pig、Hbase
此文摘自: