班級規(guī)模及環(huán)境--熱線:4008699035 手機(jī):15921673576( 微信同號) |
每個班級的人數(shù)限3到5人,互動授課, 保障效果,小班授課。 |
上間和地點(diǎn) |
上部份地點(diǎn):【上?!客瑵?jì)大學(xué)(滬西)/新城金郡商務(wù)樓(11號線白銀路站)【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學(xué)成教院【北京分部】:北京中山學(xué)院/福鑫大樓【南京分部】:金港大廈(和燕路)【武漢分部】:佳源大廈(高新二路)【成都分部】:領(lǐng)館區(qū)1號(中和大道)【沈陽分部】:沈陽理工大學(xué)/六宅臻品【鄭州分部】:鄭州大學(xué)/錦華大廈【石家莊分部】:河北科技大學(xué)/瑞景大廈 最近開間(周末班/連續(xù)班/晚班):2019年1月26日 |
實(shí)驗(yàn)設(shè)備 |
◆小班教學(xué),教學(xué)效果好 ☆注重質(zhì)量☆邊講邊練 ☆合格學(xué)員免費(fèi)推薦工作 ★實(shí)驗(yàn)設(shè)備請點(diǎn)擊這兒查看★ |
質(zhì)量保障 |
1、培訓(xùn)過程中,如有部分內(nèi)容理解不透或消化不好,可免費(fèi)在以后培訓(xùn)班中重聽; 2、培訓(xùn)結(jié)束后,授課老師留給學(xué)員聯(lián)系方式,保障培訓(xùn)效果,免費(fèi)提供課后技術(shù)支持。 3、培訓(xùn)合格學(xué)員可享受免費(fèi)推薦就業(yè)機(jī)會?!詈细駥W(xué)員免費(fèi)頒發(fā)相關(guān)工程師等資格證書,提升職業(yè)資質(zhì)。專注高端技術(shù)培訓(xùn)15年,端海學(xué)員的能力得到大家的認(rèn)同,受到用人單位的廣泛贊譽(yù),端海的證書受到廣泛認(rèn)可。 |
部份程大綱 |
|
- 01 大數(shù)據(jù)概論 & Hadoop生態(tài)
大數(shù)據(jù)概念
大數(shù)據(jù)的特點(diǎn)(4V)
大數(shù)據(jù)應(yīng)用場景
大數(shù)據(jù)發(fā)展前景
大數(shù)據(jù)部門業(yè)務(wù)流程分析
大數(shù)據(jù)部門組織結(jié)構(gòu)(重點(diǎn))
Hadoop是什么
Hadoop發(fā)展歷史
Hadoop三大發(fā)行版本
Hadoop的優(yōu)勢(4高)
02 Hadoop入門
Hadoop組成
HDFS架構(gòu)概述
YARN架構(gòu)概述
MapReduce架構(gòu)概述
大數(shù)據(jù)技術(shù)生態(tài)體系
推薦系統(tǒng)框架圖
Hadoop運(yùn)行環(huán)境搭建
虛擬機(jī)環(huán)境準(zhǔn)備
安裝JDK、安裝Hadoop
Hadoop目錄結(jié)構(gòu)
03 Hadoop運(yùn)行模式
本地運(yùn)行模式
官方Grep案例
官方WordCount案例
偽分布式運(yùn)行模式
啟動HDFS并運(yùn)行MapReduce程序
啟動YARN并運(yùn)行MapReduce程序
配置歷史服務(wù)器
配置日志的聚集
配置文件說明
完全分布式運(yùn)行模式
04 完全分布式模式&源碼編譯
虛擬機(jī)準(zhǔn)備
編寫集群分發(fā)腳本xsync
集群配置
集群單點(diǎn)啟動
SSH無密登錄配置
群起集群
集群啟動/停止方式總結(jié)
集群時間同步
Hadoop編譯源碼
常見錯誤及解決方案
05 HDFS入門
HDFS概述
HDFS產(chǎn)出背景及定義
HDFS優(yōu)缺點(diǎn)
HDFS組成架構(gòu)
HDFS文件塊大小
HDFS的Shell操作
HDFS客戶端操作
HDFS客戶端環(huán)境準(zhǔn)備
HDFS的API操作
HDFS文件上傳
06 HDFS的API操作
HDFS文件下載
HDFS文件夾刪除
HDFS文件名更改
HDFS文件詳情查看
HDFS文件和文件夾判斷
HDFS的I/O流操作
HDFS文件上傳
HDFS文件下載
07 HDFS的框架原理
定位文件讀取
HDFS的數(shù)據(jù)流
HDFS寫數(shù)據(jù)流程
剖析文件寫入
網(wǎng)絡(luò)拓?fù)?節(jié)點(diǎn)距離計(jì)算
機(jī)架感知
副本存儲節(jié)點(diǎn)選擇
HDFS讀數(shù)據(jù)流程
08 NN & DN工作機(jī)制
NameNode&2NN工作機(jī)制
Fsimage和Edits解析
CheckPoint時間設(shè)置
NameNode故障處理
集群安全模式
NameNode多目錄配置
DataNode工作機(jī)制
數(shù)據(jù)完整性
09 DN工作機(jī)制&新特性
掉線時限參數(shù)設(shè)置
服役新數(shù)據(jù)節(jié)點(diǎn)
退役舊數(shù)據(jù)節(jié)點(diǎn)
添加白名單
黑名單退役
Datanode多目錄配置
HDFS 2.X新特性
集群間數(shù)據(jù)拷貝
10 新特性& HA框架原理
小文件存檔
回收站
快照管理
HA概述
HDFS-HA工作機(jī)制
HDFS-HA工作要點(diǎn)
HDFS-HA自動故障轉(zhuǎn)移工作機(jī)制
HDFS-HA集群配置
第三階段
大數(shù)據(jù)Hadoop生態(tài)體系
11 HDFS-HA集群配置
環(huán)境準(zhǔn)備
規(guī)劃集群
配置Zookeeper集群
配置HDFS-HA集群
啟動HDFS-HA集群
配置HDFS-HA自動故障轉(zhuǎn)移
YARN-HA配置
YARN-HA工作機(jī)制
配置YARN-HA集群
HDFS Federation架構(gòu)設(shè)計(jì)
12 MapReduce框架原理
MapReduce核心思想
MapReduce進(jìn)程
MapReduce編程規(guī)范(八股文)
MapReduce程序運(yùn)行流程分析
MapReduce工作流程
常用數(shù)據(jù)序列化類型
自定義bean對象實(shí)現(xiàn)序列化接口
FileInputFormat切片機(jī)制
CombineTextInputFormat切片機(jī)制
自定義InputFormat
13 Shuffle機(jī)制
MapTask工作機(jī)制
并行度決定機(jī)制
Shuffle機(jī)制
Partition分區(qū)
WritableComparable排序
GroupingComparator分組(輔助排序)
Combiner合并
數(shù)據(jù)傾斜&Distributedcache
ReduceTask工作機(jī)制
自定義OutputFormat
14 數(shù)據(jù)壓縮 & Yarn
MapReduce支持的壓縮編碼
采用壓縮的位置
壓縮配置參數(shù)
計(jì)數(shù)器應(yīng)用、數(shù)據(jù)清洗
Yarn基本架構(gòu)、工作機(jī)制
Yarn資源調(diào)度器、任務(wù)推測執(zhí)行
MapReduce作業(yè)提交全過程
MapReduce開發(fā)總結(jié)
MapReduce參數(shù)優(yōu)化
企業(yè)高頻真題講解20道
15 MapReduce案例(一)
案例一:統(tǒng)計(jì)一堆文件中單詞出現(xiàn)的個數(shù)
案例二:把單詞按照ASCII碼奇偶分區(qū)
案例三:對每一個maptask的輸出局部匯總
案例四:大量小文件的切片優(yōu)化
案例五:統(tǒng)計(jì)手機(jī)號耗費(fèi)的流量
案例六:按照手機(jī)歸屬地不同省份輸出到不同文件中
案例七:按照總流量倒序排序
案例八:不同省份輸出文件內(nèi)部排序
案例九:求每個訂單中最貴的商品
案例十:Reduce端表合并(數(shù)據(jù)傾斜)
16 MapReduce案例(二)
案例十一:Map端表合并(Distributedcache)
案例十二:小文件處理(自定義InputFormat)
案例十三:自定義日志輸出路徑(自定義OutputFormat)
案例十四:日志清洗(數(shù)據(jù)清洗)
案例十五:倒排索引(多job串聯(lián))
案例十六:找博客共同好友分析
案例十七:對數(shù)據(jù)流的壓縮和解壓縮
案例十八:在Map輸出端采用壓縮
案例十九:在Reduce輸出端采用壓縮
案例二十:TopN案例
17 Zookeeper原理
Zookeeper概述、特點(diǎn)
Zookeeper數(shù)據(jù)結(jié)構(gòu)
Zookeeper應(yīng)用場景
Zookeeper下載地址
Zookeeper本地模式安裝
配置參數(shù)解讀
Zookeeper內(nèi)部原理
Zookeeper選舉機(jī)制
Zookeeper節(jié)點(diǎn)類型
Stat結(jié)構(gòu)體
18 Zookeeper原理&實(shí)戰(zhàn)
監(jiān)聽器原理、寫數(shù)據(jù)流程
分布式安裝部署
客戶端命令行操作
API應(yīng)用環(huán)境搭建
創(chuàng)建ZooKeeper客戶端案例
創(chuàng)建子節(jié)點(diǎn)案例
獲取子節(jié)點(diǎn)并監(jiān)聽節(jié)點(diǎn)變化案例
判斷Znode是否存在案例
監(jiān)聽服務(wù)器節(jié)點(diǎn)動態(tài)上下線案例
企業(yè)高頻真題講解3道
19 Hive入門&安裝
什么是Hive
Hive的優(yōu)缺點(diǎn)
Hive架構(gòu)原理
Hive和數(shù)據(jù)庫比較
Hive安裝地址
Hive安裝部署
將本地文件導(dǎo)入Hive案例
MySql安裝
安裝MySql服務(wù)器
安裝MySql客戶端
20 Hive遠(yuǎn)程連接
MySql中user表中主機(jī)配置
Hive元數(shù)據(jù)配置到MySql
驅(qū)動拷貝
配置Metastore到MySql
多窗口啟動Hive測試
HiveJDBC訪問
啟動hiveserver2服務(wù)
啟動beeline
連接hiveserver2
Hive常用交互命令
第三階段
大數(shù)據(jù)Hadoop生態(tài)體系
21 Hive命令 & 數(shù)據(jù)類型
Hive其他命令操作
Hive常見屬性配置
Hive數(shù)據(jù)倉庫位置配置
Hive查詢后信息顯示配置
Hive運(yùn)行日志信息配置
參數(shù)配置方式
Hive數(shù)據(jù)類型
Hive基本數(shù)據(jù)類型
Hive集合數(shù)據(jù)類型
類型轉(zhuǎn)化
22 Hive DDL數(shù)據(jù)定義
創(chuàng)建數(shù)據(jù)庫
查詢數(shù)據(jù)庫
修改數(shù)據(jù)庫
刪除數(shù)據(jù)庫
創(chuàng)建管理表
創(chuàng)建外部表
管理表與外部表的互相轉(zhuǎn)換
分區(qū)表基本操作
分區(qū)表注意事項(xiàng)
修改表、刪除表
23 Hive DML數(shù)據(jù)操作
向表中裝載數(shù)據(jù)(Load)
通過查詢語句向表中插入數(shù)據(jù)(Insert)
查詢語句中創(chuàng)建表并加載數(shù)據(jù)(as select)
創(chuàng)建表時通過location指定加載數(shù)據(jù)路徑
Import數(shù)據(jù)到指定hive表中
Insert導(dǎo)出
Hadoop命令導(dǎo)出到本地
Hive Shell 命令導(dǎo)出
Export導(dǎo)出到HDFS上
清除表中數(shù)據(jù)(Truncate)
24 Hive查詢
全表和特定列查詢
列別名
算術(shù)運(yùn)算符、常用函數(shù)
LIMIT語句
WHERE語句
比較運(yùn)算符(BETWEEN/IN/ IS NULL)
LIKE和RLIKE
邏輯運(yùn)算符(AND/OR/NOT)
分組、GROUP BY語句
HAVING語句
25 Hive JOIN & 排序
等值JOIN & 表的別名
內(nèi)連接
左外連接、右外連接
滿外連接、多表連接
笛卡爾積 JOIN
全局排序(Order By)
按照別名排序、多個列排序
每個MapReduce內(nèi)部排序(Sort By)
分區(qū)排序(Distribute By)
CLUSTER BY
26 Hive分桶 & 函數(shù)
分桶表數(shù)據(jù)存儲
分桶抽樣查詢
常用查詢函數(shù)
空字段賦值
CASE WHEN
行轉(zhuǎn)列
列轉(zhuǎn)行
窗口函數(shù)
Rank
系統(tǒng)內(nèi)置函數(shù)
27 Hive函數(shù) & 壓縮 & 存儲
自定義UDF、UDAF、UDTF函數(shù)
壓縮和存儲
源碼編譯支持Snappy壓縮
開啟Map輸出階段壓縮
開啟Reduce輸出階段壓縮
列式存儲和行式存儲
TextFile格式、Orc格式
Parquet格式
主流文件存儲格式對比實(shí)驗(yàn)
存儲和壓縮結(jié)合案例
28 企業(yè)級調(diào)優(yōu)
Fetch抓取
本地模式
表的優(yōu)化
小表、大表Join
大表Join大表
MapJoin
Group By
Count(Distinct) 去重統(tǒng)計(jì)
笛卡爾積
行列過濾
29 Hive企業(yè)級調(diào)優(yōu)(二)
動態(tài)分區(qū)調(diào)整
分桶、分區(qū)
Map數(shù)
小文件進(jìn)行合并
復(fù)雜文件增加Map數(shù)
Reduce數(shù)
并行執(zhí)行、嚴(yán)格模式
JVM重用、推測執(zhí)行
壓縮
EXPLAIN(執(zhí)行計(jì)劃)
30 企業(yè)級調(diào)優(yōu) & 項(xiàng)目實(shí)戰(zhàn)
項(xiàng)目視頻表
項(xiàng)目用戶表
項(xiàng)目技術(shù)選型
數(shù)據(jù)清洗
數(shù)據(jù)分析
ETL之ETLUtil
ETL之Mapper
ETL之Runner
執(zhí)行ETL
項(xiàng)目數(shù)據(jù)準(zhǔn)備
第三階段
大數(shù)據(jù)Hadoop生態(tài)體系
31 Hive項(xiàng)目實(shí)戰(zhàn)&企業(yè)真題
統(tǒng)計(jì)視頻觀看數(shù)Top10
統(tǒng)計(jì)視頻類別熱度Top10
統(tǒng)計(jì)出視頻觀看數(shù)最高的20個視頻的所屬類別以及類別包含Top20視頻的個數(shù)
統(tǒng)計(jì)視頻觀看數(shù)Top50所關(guān)聯(lián)視頻的所屬類別Rank
統(tǒng)計(jì)每個類別中的視頻熱度Top10,以Music為例
統(tǒng)計(jì)每個類別中視頻流量Top10,以Music為例
統(tǒng)計(jì)上傳視頻最多的用戶Top10以及他們上傳的觀看次數(shù)在前20的視頻
統(tǒng)計(jì)每個類別視頻觀看數(shù)Top10
項(xiàng)目總結(jié)
企業(yè)高頻真題講解2道
32 Cloudera Manager & Impala
CM概念
CM功能
CM環(huán)境準(zhǔn)備
CM安裝部署
CM案例實(shí)操
Impala入門
什么是Impala
Impala優(yōu)缺點(diǎn)
Impala架構(gòu)
Impala下載地址
33 Impala安裝
Impala安裝方式
Impala監(jiān)護(hù)管理
Impala初體驗(yàn)
Impala的操作命令
Impala的外部shell
Impala的內(nèi)部shell
Impala的數(shù)據(jù)類型
DDL數(shù)據(jù)定義
創(chuàng)建數(shù)據(jù)庫
查詢數(shù)據(jù)庫
34 Impala操作
創(chuàng)建管理表、外部表
創(chuàng)建分區(qū)表
向表中導(dǎo)入數(shù)據(jù)
查詢分區(qū)表中的數(shù)據(jù)
增加多個分區(qū)
刪除分區(qū)、查看分區(qū)
數(shù)據(jù)導(dǎo)入、導(dǎo)出
自定義函數(shù)
存儲和壓縮
優(yōu)化
35 IDEA
IDEA介紹
Windows下安裝過程
啟動應(yīng)用后簡單配置
創(chuàng)建工程
設(shè)置顯示常見的視圖
工程界面展示
創(chuàng)建package和class
設(shè)置常用配置20項(xiàng)
設(shè)置快捷鍵、自定義模板
關(guān)聯(lián)Tomcat、Web項(xiàng)目案例實(shí)操
36 數(shù)據(jù)采集框架Flume
Flume定義
Flume組成架構(gòu)
Flume拓?fù)浣Y(jié)構(gòu)
Flume Agent內(nèi)部原理
Flume事務(wù)
Flume快速入門
Flume下載地址、安裝部署
案例一:監(jiān)控端口數(shù)據(jù)官方案例
案例二:實(shí)時讀取本地文件到HDFS案例
案例三:實(shí)時讀取目錄文件到HDFS案例
37 Flume高級
案例四:單數(shù)據(jù)源多出口案例(選擇器)
案例五:單數(shù)據(jù)源多出口案例(Sink組)
案例六:多數(shù)據(jù)源匯總案例
自定義組件
案例七:自定義Source案例
案例八:自定義Sink案例
Flume監(jiān)控之Ganglia
Ganglia的安裝與部署
操作Flume測試監(jiān)控
企業(yè)高頻真題講解6道
38 Kafka入門
消息隊(duì)列
為什么需要消息隊(duì)列
什么是Kafka
Kafka架構(gòu)
環(huán)境準(zhǔn)備
Kafka集群部署
Kafka命令行操作
Kafka工作流程分析
數(shù)據(jù)寫入方式
數(shù)據(jù)分區(qū)(Partition)
39 Kafka原理
數(shù)據(jù)副本(Replication)
數(shù)據(jù)寫入流程
數(shù)據(jù)保存
存儲方式
存儲策略
Zookeeper存儲
本地存儲
數(shù)據(jù)消費(fèi)
高級API
低級API
40 Kafka高級
消費(fèi)者組
消費(fèi)方式
消費(fèi)者組案例
Kafka生產(chǎn)者Java API
創(chuàng)建生產(chǎn)者(新API)
創(chuàng)建生產(chǎn)者帶回調(diào)函數(shù)(新API)
自定義分區(qū)生產(chǎn)者
Kafka消費(fèi)者高級API
Kafka消費(fèi)者低級API
Kafka攔截器原理及案例
第三階段
大數(shù)據(jù)Hadoop生態(tài)體系
41 Kafka高級
Kafka監(jiān)控
KafkaManager
KafkaMonitor
Kafka進(jìn)階
分區(qū)分配策略
Range Strategy
RoundRobin Strategy
高可靠性存儲
Kafka文件存儲機(jī)制
復(fù)制原理和同步方式
42 Kafka高級 & 面試題
ISR
數(shù)據(jù)可靠性和持久性保證
框架整合
Kafka與Flume比較
Flume與Kafka集成
Kafka Streams簡介
Kafka Streams特點(diǎn)
為什么要有Kafka Stream
Kafka Stream數(shù)據(jù)清洗案例
企業(yè)高頻真題10道
43 HBase原理及安裝
HBase的角色
HBase的架構(gòu)
HBase部署與使用
HBase基本操作
HBase表的操作
HBase讀數(shù)據(jù)流程
HBase寫數(shù)據(jù)流程
HBase JavaAPI
安裝Maven并配置環(huán)境變量
新建Maven Project
編寫HBaseAPI程序
44 HBase集成及運(yùn)維
官方HBase-MapReduce
自定義HBase-MapReduce1
自定義HBase-MapReduce2
HBase與Hive的對比
HBase與Hive集成使用
與Sqoop的集成
常用的Shell操作
數(shù)據(jù)的備份與恢復(fù)
節(jié)點(diǎn)的服役
節(jié)點(diǎn)的退役
版本的確界
45 HBase企業(yè)級優(yōu)化
HBase高可用
Hadoop的通用性優(yōu)化
Linux優(yōu)化
Zookeeper優(yōu)化
HBase優(yōu)化
HBase預(yù)分區(qū)優(yōu)化
RowKey設(shè)計(jì)
內(nèi)存優(yōu)化
基礎(chǔ)優(yōu)化
HBase在商業(yè)項(xiàng)目中的能力
HBase2.0新特性
46 HBase微博項(xiàng)目
微博系統(tǒng)需求分析
微博系統(tǒng)代碼設(shè)計(jì)
創(chuàng)建命名空間以及表名的定義
創(chuàng)建微博內(nèi)容表
創(chuàng)建用戶關(guān)系表
發(fā)布微博內(nèi)容
添加關(guān)注用戶
移除(取關(guān))用戶
獲取關(guān)注的人的微博內(nèi)容
測試
47 Sqoop
Sqoop原理、安裝
導(dǎo)入數(shù)據(jù)
RDBMS到HDFS
RDBMS到Hive
導(dǎo)出數(shù)據(jù)
HIVE/HDFS到RDBMS
腳本打包、常用命令列舉
命令&參數(shù)詳解
Sqoop的案例實(shí)操
48 Azkaban
各種調(diào)度工具特性對比
Azkaban與Oozie對比
Azkaban特點(diǎn)
Azkaban下載地址
Azkaban安裝部署
案例一:Command類型之單一job
案例二:Command類型之多job工作流
案例三:HDFS操作任務(wù)調(diào)度
案例四:MapReduce任務(wù)調(diào)度
案例五:Hive腳本任務(wù)調(diào)度
49 Oozie
Oozie框架原理
Oozie的功能模塊
Oozie的常用節(jié)點(diǎn)
Oozie的安裝部署
案例一:Oozie調(diào)度shell腳本
案例二:Oozie邏輯調(diào)度執(zhí)行多個Job
案例三:Oozie調(diào)度MapReduce任務(wù)
案例四:Oozie定時任務(wù)/循環(huán)任務(wù)
50 HUE
HUE簡介
HUE安裝
案例一:HUE與HDFS集成案例
案例二:HUE與YARN集成案例
案例三:HUE與Hive集成案例
案例四:HUE與Mysql集成案例
案例五:HUE與Oozie集成案例
案例六:HUE與HBase集成案例
案例七:HUE與Zookeeper集成案例
案例八:HUE與Sqoop2集成案例
第三階段
大數(shù)據(jù)Hadoop生態(tài)體系
51 Git&Git Hub
Git安裝配置
Git本地庫搭建
Git常用操作命令
Github注冊與配置
Github與Git協(xié)同辦公
TortoiseGit安裝配置
Egit操作push/pull,
Git工作流
集中式&GitFlow&Forking
52 ETL數(shù)據(jù)清洗工具Kettle
Kettle入門
Kettle安裝
Kettle使用
案例一:日志文件導(dǎo)數(shù)據(jù)到Hive
案例二:MySQL導(dǎo)數(shù)據(jù)到Hive
案例三:Hive導(dǎo)數(shù)據(jù)到Hive
案例四:Hive導(dǎo)數(shù)據(jù)到HBase
案例五:Hive導(dǎo)數(shù)據(jù)到ES
53 Kylin
Kylin應(yīng)用場景
Kylin工作原理
Kylin體系架構(gòu)
Kylin集群環(huán)境
為Kylin集群搭建負(fù)載均衡器
Sample Cube案例
Cube創(chuàng)建案例
查詢Cube
Kylin的元數(shù)據(jù)、垃圾清理
54 Storm原理
Storm應(yīng)用場景及行業(yè)案例
Storm特點(diǎn)、編程模型
元組(Tuple)、流(Stream)
水龍頭(Spout)、轉(zhuǎn)接頭(Bolt)
拓?fù)洌═opology)
主控節(jié)點(diǎn)與工作節(jié)點(diǎn)
流分組(Stream grouping)
工作進(jìn)程(Worker)
spout的tail特性
55 Storm案例
執(zhí)行器(Executor)、任務(wù)(Task)
實(shí)時流計(jì)算常見架構(gòu)圖
Storm集群規(guī)劃、集群搭建
Storm命令行操作
分組策略和并發(fā)度
網(wǎng)站日志處理案例
實(shí)時單詞統(tǒng)計(jì)案例
實(shí)時計(jì)算網(wǎng)站PV案例
實(shí)時計(jì)算網(wǎng)站UV去重案例
|