大數據的五大關鍵技術
----------------------------------------------------------------------------------------
大數據技術,就是從各種類型的數據中快速獲得有價值信息的技術。大數據領域已經涌現出了大量新的技術,它們成為大數據采集、存儲、處理和展現的有力武器。
一、大數據接入
1、大數據接入
已有數據接入、實時數據接入、文件數據接入、消息記錄數據接入、文字數據接入、圖片數據接入、視屏數據接入
2、大數據接入技術
Kafka、ActiveMQ、ZeroMQ、Flume、Sqoop、Socket(Mina、Netty)、ftp/sftp
二、大數據存儲
1、大數據存儲
結構化數據存儲、半結構化數據存儲、非結構化數據存儲
2、大數據存儲技術
Hdfs、Hbase、Hive、S3、Kudu、MongoDB、Neo4J 、Redis、Alluxio(Tachyon)、Lucene、Solr、ElasticSearch
三、數據分析挖掘
1、大數據分析與挖掘
離線分析、准實時分析、實時分析、圖片識別、語音識別、機器學習
2、大數據分析與挖掘技術
MapReduce、Hive、Pig、Spark、Flink、Impala、Kylin、Tez、Akka、Storm、S4、Mahout、MLlib
四、大數據共享交換
1、大數據共享交換
數據接入、數據清洗、轉換、脫敏、脫密、數據資產管理、數據導出
2、大數據共享交換技術
Kafka、ActiveMQ、ZeroMQ、Dubbo、Socket(Mina、Netty)、ftp/sftp、RestFul、Web Service
五、大數據展現
1、大數據展現
圖化展示(散點圖、折線圖、柱狀圖、地圖、餅圖、雷達圖、K線圖、箱線圖、熱力圖、關系圖、矩形樹圖、平行坐標、桑基圖、漏斗圖、儀表盤),文字展示;
2、大數據展現技術
Echarts、Tableau
國家規划大數據產業發展戰略,各行各業需要大數據技術支撐指數級的數據增量服務,越來越多的企業逐漸轉型於大數據,大數據方面市場需求呈爆發式增長。
----------------------------------------------------------------------------------------
大數據技術包括數據收集、數據存取bai、基礎架構、數據處理、統計分析、數據挖掘、模型預測、結果呈現。
1、數據收集:在大數據的生命周期中,數據采集處於第一個環節。根據MapReduce產生數據的應用系統分類,大數據的采集主要有4種來源:管理信息系統、Web信息系統、物理信息系統、科學實驗系統。
2、數據存取:大數據的存去采用不同的技術路線,大致可以分為3類。第1類主要面對的是大規模的結構化數據。第2類主要面對的是半結構化和非結構化數據。第3類面對的是結構化和非結構化混合的大數據,
3、基礎架構:雲存儲、分布式文件存儲等。
4、數據處理:對於采集到的不同的數據集,可能存在不同的結構和模式,如文件、XML 樹、關系表等,表現為數據的異構性。對多個異構的數據集,需要做進一步集成處理或整合處理,將來自不同數據集的數據收集、整理、清洗、轉換后,生成到一個新的數據集,為后續查詢和分析處理提供統一的數據視圖。
5、統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
6、數據挖掘:目前,還需要改進已有數據挖掘和機器學習技術;開發數據網絡挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基於對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網絡行為分析、情感語義分析等面向領域的大數據挖掘技術。
7、模型預測:預測模型、機器學習、建模仿真。
8、結果呈現:雲計算、標簽雲、關系圖等。