什么是hadoop，hadoop可以做什么

本文轉載自查看原文 2019-01-18 15:43 1274

面試現在這家公司的時候，領導說有意讓我接觸大數據這塊的項目，當時可把我高興的。雖然來這快兩年了也沒接觸大數據，詞倒是聽了幾個。hadoop念着挺順口，到底是個什么東西呢。搜索了一波，總結如下。

hadoop是什么？

Hadoop就是一個分布式計算的解決方案.

能看懂嗎。看不懂的繼續往下看看

hadoop能做什么？

如果是1G , 1T 甚至 1PB 的數據需要找出相同的關鍵詞，通常的方式需要耗時幾天，有了hadoop以后可以縮短為幾個小時。原理看起來很簡單，利用分布式計算。Hadoop 要做的事，首先把 1PB的數據文件導入到 HDFS中, 然后編程人員定義好 map和reduce, 也就是把文件的行定義為key,每行的內容定義為value , 然后進行正則匹配,匹配成功則把結果通過reduce聚合起來返回.Hadoop 就會把這個程序分布到N 個結點去並行的操作。

這就是雲計算。如果不懂還有更簡單的例子

比如 1億個 1 相加得出計算結果, 我們很輕易知道結果是 1億.但是計算機不知道，那么單台計算機處理的方式做一億次的循環，每次結果+1。
那么分布式的處理方式則變成我用 1萬台計算機,每個計算機只需要計算 1萬個 1 相加，然后再有一台計算機把 1萬台計算機得到的結果再相加
從而得到最后的結果.
理論上講, 計算速度就提高了 1萬倍. 當然上面可能是一個不恰當的例子.但所謂分布式,大數據,雲計算大抵也就是這么回事了.

hadoop擅長日志分析，facebook、淘寶搜索中的自定義篩選都使用的Hive。不僅如此，Twitter、Yahoo也是用到Pig技術。

PS:

Hive是Hadoop生態圈中及其重要的一個組件。Hadoop生態的數據是存儲在HDFS中，而Hive能對其中的數據進行分析和管理。用戶通過命令行或JDBC可使用Hive進行增刪改查等數據庫操作。

想更加了解hadoop的朋友可以多了解Hive、Pig、Hbase，這篇文章可以看下，相信會有很大幫助 Hadoop的Hive、Pig、Hbase

此文摘自：

通俗易懂的了解Hadoop

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hadoop到底能做什么？怎么用hadoop？ redis可以做什么？ websocket可以做什么 python可以做什么 Quartz可以用來做什么爬蟲是什么？爬蟲可以做什么？ HTTP是用來做什么的什么是端口？到底是做什么的呢？如果不從事編程，我可以做什么？什么是熱點？它為我做什么？