hadoop筆記本


海量數據

    那些年Google公開的大數據領域論文

    大數據量,海量數據 處理方法總結

    布隆過濾器應用

    Google Dremel 原理 – 如何能3秒分析1PB

     Google Spanner原理- 全球級的分布式數據庫

 

 

    悉數那些“巨型”數據倉庫

    Hadoop在業界的使用情況

    淘寶Hadoop集群的概況

    淘寶數據魔方技術架構解析

 

    Facebook的實時Hadoop系統

    Apache Hadoop Goes Realtime at Facebook(譯) 

數據統計

  網站統計中的數據收集原理及實現

數據挖掘

  一個電商數據分析師的經驗總結

 

  五個免費開源的數據挖掘軟件

  Google推出Prediction API

 

  K Nearest Neighbor 算法(歸類)

  K-Means 算法(聚類)

  kmeans算法java版本

  

hadoop2

  hadoop2升級的那點事情(詳解)

 

hadoop

  介紹

    Hadoop分布式文件系統:架構和設計要點

    mapreduce作業流程概論

    Hadoop使用場景

  管理

    hadoop集群部署

    hadoop部署注意項

    hadoop配置文件說明

    hadoop集群默認配置和常用配置

      hadoop集群測量

    Hadoop管理員的十個最佳實踐

    Hadoop 權限管理

 

    Hadoop FS Shell

    Hadoop Shell 講解

    hadoop fs -count的結果含義

 

    Hadoop添加節點datanode

    Hadoop刪除節點

    hadoop SecondaryNameNode和NameNode

    hadoop 根據SecondaryNameNode恢復Namenode

    hadoop機架感知

 

    HDFS 安全模式

    hadoop的dfs.replication

    Hadoop回收站trash

    hadoop升級

 

    Hadoop計算能力調度器算法解析

    Hadoop計算能力調度器應用和配置

    hadoop mapred-queue-acls 配置

 

    hadoop和kerberos的整合總結

    hadoop的dfs.umask

 

    NFS服務對Hadoop(hdfs)集群影響測試

    Facebook團隊關於Hadoop/HBase在SSD上的實驗和討論

 

    HADOOP動態加載配置

    基於計算機資源分析hadoop的默認counter

  調優

    hadoop作業調優參數整理及原理

  原理實現

    

    HDFS的基本概念

    HDFS 讀寫流程

    HDFS namenode源碼分析 

    HDFS datanode源碼分析

      HDFS dfsclient讀文件過程 源碼分析

      HDFS dfsclient寫文件過程 源碼分析

    How MapReduce Works 

    MapReduce源碼分析總結

 

      eclipse下編譯hadoop源代碼

    基於hadoop的crc校驗談hadoop的離線設計思想

    Hadoop在MapReduce中使用壓縮詳解

    HDFS數據的Checksum

    Hadoop開發常用的InputFormat和OutputFormat

    Hadoop之failed task和killed task

    Hadoop的調度器總結

hive

  Hive體系架構

  應用

    Hadoop和Hive的數據處理流程

  管理

    hive部署手冊

    hive元數據中utf8的修改

      hive並發調用的運行方式-個人經驗篇

     

    hive Cli常用操作(翻譯自Hive wiki)

    hive數據類型(翻譯自Hive Wiki)

 

    hive 創建/刪除/截斷 表(翻譯自Hive wiki)

    hive數據操作(翻譯自Hive wiki+實例講解)

    hive原生和復合類型的數據加載和使用

      hive修改 表/分區語句

 

    hive select操作(翻譯自Hive wiki)

    hive GroupBy操作(翻譯自Hive wiki)

      hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

     Hive Join(翻譯自Hive wiki)

     hive lateral view語句(翻譯自Hive wiki)

     Hive Union(翻譯自Hive wiki)

     Hive子查詢(翻譯自Hive wiki)

     hive實例講解實現in和not in子句

     Hive Explain(翻譯自Hive wiki)

     Hive虛擬列(翻譯自Hive wiki)

     hive 鎖定(翻譯自Hive wiki)

 

      hive函數(Hive wiki)

    hive udf開發流程(Hive wiki)

    hive udaf開發入門和運行過程詳解

    hive中UDTF編寫和使用

    hive屬性(Hive wiki)

 

    hive中分組取前N個值的實現

 

    hive sql遇到的問題

  優化

    hive大數據傾斜總結

    hive join詳解

     

    hive文件存儲格式

 

    hive怎樣決定reducer個數

    hive的hive.exec.parallel參數說明

    hive local hadoop特性    

pig

  介紹入門

    Apache Pig入門 –介紹/基本架構/與Hive對比

  管理

    pig部署手冊

  教程

    Apache Pig中文教程集合

zookeeper

  ZooKeeper概述

  部署與管理ZooKeeper

  ZooKeeper典型應用場景

  ZooKeeper程序員指南

  Zookeeper Api(java)入門與應用

  zookeeper java例子(官網)

  zookeeper 生產者與消費者(官網)

  zookeeper 應用場景與方案(官網)

 

  ZooKeeper 會話超時

  Watcher使用的注意事項

  zookeeper 權限控制

 

  Paxos在大型系統中常見的應用場景

  Zookeeper全解析——Paxos作為靈魂

  Zookeeper全解析——Client端

  zookeeper系列之通信模型

 

hbase

  HBase體系結構

  hbase數據模型

    HBase使用場景和成功案例

 

  Hbase配置手冊

  hbase shell(官方)

  hbase shell基礎和常用命令詳解

  Hive HBase集成(官網)

 

  HBase Java API類介紹 

  通過Java Api與HBase交互

  HBase二級索引與Join

  HBase配置性能調優

  HBase設計與開發性能優化

  

  HBase 在淘寶的應用和優化

 

  (H2與HBase)面向行or面向列的存儲模型

  HBase查詢一條數據的過程

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM