課程目標(biāo):
通過(guò)本次Hadoop培訓(xùn),會(huì)對(duì)大數(shù)據(jù)離線計(jì)算、實(shí)時(shí)計(jì)算的企業(yè)級(jí)構(gòu)架有清晰的理解以及對(duì)常用的成熟的大數(shù)據(jù)開(kāi)源項(xiàng)目從原理到使用有深入的理解。
實(shí)時(shí)計(jì)算的項(xiàng)目常用組合為Flume(數(shù)據(jù)采集) + Kafka(高可用高并發(fā)分布式消息隊(duì)列) + spark streaming(流式計(jì)算) + hbase(分布式列式存儲(chǔ)數(shù)據(jù)庫(kù),億級(jí)行百萬(wàn)列毫秒級(jí)查詢)
離線計(jì)算項(xiàng)目常用組合為分布式文件存儲(chǔ)HDFS,資源調(diào)度器、分布式計(jì)算框架MapReduce、數(shù)據(jù)倉(cāng)庫(kù)Hive。
課程大綱:
第一 部份
【1】
離線計(jì)算:
Hadoop大數(shù)據(jù)生態(tài)圈、分布式存儲(chǔ)HDFS、資源管理
大數(shù)據(jù)生態(tài)圈介紹
開(kāi)源相關(guān)項(xiàng)目說(shuō)明以及每個(gè)項(xiàng)目的用途
實(shí)時(shí)計(jì)算整體構(gòu)架詳解
離線計(jì)算整體構(gòu)架詳解
分布式文件系統(tǒng)HDFS是什么
HDFS的體系結(jié)構(gòu)
HDFS高可用集群原理詳解
HDFS如何使用
資源管理器介紹以及構(gòu)架
資源管理器核心組件詳解
資源調(diào)度器詳解
【2】
離線計(jì)算:
Hadoop MapReduce&Hive
分布式計(jì)算MapReduce介紹
MapReduce整體流程
MapReduce實(shí)例
數(shù)據(jù)倉(cāng)庫(kù)工具Hive介紹
Hive模型介紹:數(shù)據(jù)庫(kù)、表、分區(qū)、高級(jí)函數(shù)
Hive元數(shù)據(jù)介紹
第二部份
【1】
實(shí)時(shí)計(jì)算:
數(shù)據(jù)采集Flume、分布式消息隊(duì)列Kafka
實(shí)時(shí)計(jì)算整體構(gòu)架設(shè)計(jì)
Flume是什么以及體系結(jié)構(gòu)介紹
Flume組件介紹:agent、source、channel、sink
Flume高可用拓?fù)浣榻B
Kafka體系結(jié)構(gòu)詳解
Kafka核心概念
Kafka高可用高并發(fā)原理
Kafka生產(chǎn)者消費(fèi)者
Flume寫(xiě)入kafka
【2】
實(shí)時(shí)計(jì)算:
spark streaming流式計(jì)算、HBase分布式列存儲(chǔ)
spark是什么以及體系結(jié)構(gòu)
彈性分布式數(shù)據(jù)集RDD
spark streaming流式計(jì)算體系結(jié)構(gòu)
spark steaming讀取kafka
spark算子詳解
HBase存儲(chǔ)數(shù)據(jù)庫(kù)體系結(jié)構(gòu)
Hbase的高可用
HBase數(shù)據(jù)模型詳解
HBase毫秒級(jí)查詢