大數據處理的一些總結和應用(有關輿情監控)


    說到大數據處理可能大家都不會陌生,這是近年來非常火熱的話題,各行各業都想借助大數據為自己助力,有了這個工具,就好像在飛機上看農田一般清晰,一目了然,也也就是業內人士常說的大數據提供了一個------上帝視角

大數據的概念:


1、指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理的時間內達到擷取、管理、處理並整理成為幫助企業經營決策更積極目的的咨詢。

2、維克托·邁爾-舍恩伯格以及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。

3、海量異構的數據(包括文本、圖像、聲音等)。

大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)



大數據處理的應用場景有很多:

1.阿里巴巴平台----淘寶雙十一

2.證券交易系統

3.智慧城市

4.情報分析,輿情監控



大數據處理的的發展歷史和架構演進,可以看成:

是從傳統手工作坊(分布式批處理)到流水線工廠(hadoop)再到沒有中間商 的O2O平台(spark)

開源工具簡介---批處理

Hadoop Common:Hadoop體系最底層的一個模塊,為Hadoop各子項目提供各種工具,如:配置文件和日志操作等。

HDFS:是Hadoop的分布式存儲系統,同Google的GFS性質是一樣的。

MapReduce:是一種編程模型,用於大規模數據集的並行運算。

Hive是基於Hadoop的一個數據倉庫工具,提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行,十分適合數據倉庫的統計分析。

 

Pig:Pig最大的作用就是對MapReduce算法(框架)實現了一套shell腳本 ,類似我們通常熟悉的SQL語句,在Pig中稱之為Pig Latin。

Hbase:一個分布式、可擴展的大數據存儲。它提供了大數據集上隨機和實時的讀/寫訪問,並針對了商用服務器集群上的大型表格做出優化——上百億行,上千萬列。它是Google bigtable的一個開源的實現。

Zookeeper:它是一個針對大型分布式系統的可靠協調系統,功能包括:配置維護、名字服務、 分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。它是 Google的Chubby一個開源的實現。

 




輿情監控系統的系統流程:



最近去一個文科院校講了一節課:基於大數據處理的輿情監控系統及其應用簡介,ppt分享出來希望大家批評指正:

http://download.csdn.net/detail/wangyaninglm/9504994


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM