本書系統介紹了大數據的相關知識,分為大數據基礎篇、大數據存儲與管理篇、大數據處理與分析篇、大數據應用篇。全書共15章,內容包含大數據的基本概念、大數據處理架構Hadoop、分布式文件系統HDFS、分布式數據庫HBase、NoSQL數據庫、雲數據庫、MapReduce、Spark、流計算、圖計算、數據可視化以及大數據在互聯網、生物醫學領域和其他行業的應用。本書在Hadoop、HDFS、HBase、MapReduce和Spark等重要章節安排了入門級的實踐操作,以便讀者更好地學習和掌握大數據關鍵技術。
前言
距離第一版過去1年里,大數據技術發展迅猛,諸如Spark等新技術迅速崛起,開始改變Hadoop一枝獨秀的市場格局。因此,我們及時對第1版內容進行了補充和修訂,以適應大數據技術的快速發展,保持本書的先進性和實用性。
本書依然沿用第1版的篇章設計,共分四大部分,包括大數據基礎篇、大數據存儲與管理篇、大數據處理與分析篇和大數據應用篇。在大數據基礎篇中,第1章介紹大數據的基本概念和應用領域,並闡述大數據、雲計算和物聯網的相互關系;第2章介紹大數據處理架構Hadoop,並補充介紹了Hadoop版本演化。在大數據存儲與管理篇中,第3章介紹了分布式文件系統HDFS,在編程實踐部分根據最新版本的API進行了修訂;第4章介紹了分布式數據庫HBase,在編程實踐部分根據最新版本的API進行了修訂;第5章介紹了NoSQL數據庫;第6章介紹了雲數據庫。在大數據處理與分析篇中,首先在第7章介紹了分布式並行編程模型MapReduce,然后在新增的第8章中對Hadoop進行了再探討,介紹了Hadoop的發展演化和一些新特性,並在新增的第9章中介紹了當前比較熱門的、基於內存的分布式計算框架Spark,在第10章和第11章分別介紹了兩種典型的大數據分析技術——流計算和圖計算,最后在第12章簡單介紹了可視化技術。在大數據應用篇中,用3章(第13章~第15章)內容介紹了大數據在互聯網、生物醫學領域和其他行業的典型應用。
自第1版出版后,廈門大學數據庫實驗室建設了與本書配套的”中國高校大數據課程公共服務平台“(http://dblab.xmu.edu.cn/post/bigdata-teaching-platform/)為教師教學和學生學習大數據課程提供PPT講義、學習指南、備課指南、上機習題、實驗指南、技術資料、授課視頻等全方位、一站式免費服務,並提供面向全國高校的大數據實驗平台建設方案和大數據課程師資培訓服務。
本書官方網站是http://dblab.xmu.edu.cn/post/bigdata,提供教學PPT和相關資料的下載,並接受錯誤反饋和發布教材勘誤信息。