
第一部分:大數(shù)據(jù)的基礎(chǔ)介紹
1.什么是大數(shù)據(jù)?
2.大數(shù)據(jù)時(shí)代的背景
3.學(xué)術(shù)上怎么定義大數(shù)據(jù)?
4.大數(shù)據(jù)的構(gòu)成
5.大數(shù)據(jù)的演進(jìn)過程
第二部分:大數(shù)據(jù)帶來的影響
1.大數(shù)據(jù)的關(guān)鍵技術(shù)?
2.大數(shù)據(jù)分布式系統(tǒng)的構(gòu)成
3.計(jì)算模式?
4.大數(shù)據(jù)產(chǎn)業(yè)?
5.大數(shù)據(jù)與云計(jì)算的關(guān)系
6.大數(shù)據(jù)和物聯(lián)網(wǎng)的關(guān)系
第三部分:CentOS系統(tǒng)和Cloudera Manager安裝配置
1.VMware虛擬機(jī)安裝和配置
2.CentOS6.5且64位系統(tǒng)安裝
3.簡(jiǎn)單的配置和遇到的問題
4.動(dòng)手和實(shí)操
5.Cloudera Manager的離線安裝
第四部分:Cloudera CDH的安裝和配置及環(huán)境的測(cè)試
1.Cloudera CDH的離線安裝的環(huán)境準(zhǔn)備 和配置,注意事項(xiàng)
2.單機(jī)版、偽分布式、真分布式介紹和區(qū)別
3.詳細(xì)介紹了CDH的部署配置,遇到的問題,怎么解決
4.HDFS分布式文件系統(tǒng)的安裝配置和測(cè)試
5.hdfs的權(quán)限配置,目錄創(chuàng)建,目錄查看等命令的使用
第五部分:開源Hadoop生態(tài)圈的介紹
1.Hadoop生態(tài)圈?
2.組件功能概要
3.Cloudera Manager的介紹
4.CM的硬件監(jiān)控
5.內(nèi)存監(jiān)控
6.硬盤監(jiān)控
7.預(yù)警監(jiān)控
8.集群監(jiān)控
第六部分:HDFS分布式文件系統(tǒng)詳解
1.什么是分布式文件系統(tǒng)HDFS
2.HDFS基本架構(gòu)
3.基本概念
4.主要涉及理念
5.hdfs常用命令
6.hdfs的上傳文件?
7.hdfs的下載文件
8.hdfs的查看數(shù)據(jù)
9.hdfs優(yōu)點(diǎn)和缺點(diǎn)
10.例子講解
第七部分:Sqoop大數(shù)據(jù)同步工具介紹
1.Sqoop基本介紹
2.基本原理
3.應(yīng)用場(chǎng)景
4.Sqoop和mysql的連接
5.mysql數(shù)據(jù)到HDFS?
6.HDFS數(shù)據(jù)到mysql
7.關(guān)系型數(shù)據(jù)庫(kù)到hive
8.hive到關(guān)系型數(shù)據(jù)庫(kù)
9.Sqoop優(yōu)點(diǎn)和缺點(diǎn)
10.例子講解
第八部分:Eclipse入門使用
1.安裝和配置JDK?
2.Eclipse基本介紹
3.Eclipse開發(fā)
4.開發(fā)helloworld的java程序
5.Eclipse的配置
第九部分:MapReduce分布式計(jì)算框架詳解
1.MapReduce基本介紹
2.為什么要用MR
3.MR是什么
4.工作原理
5.Map的原理
5.Reduce的原理?
6.MR例子-單詞計(jì)數(shù)
7.MR的優(yōu)點(diǎn)和不足
8.例子講解
9.適用場(chǎng)景
第十部分:Hive 數(shù)據(jù)倉(cāng)庫(kù)及案例
1.Hive 基本介紹
?
1)Hive 是什么
?
2)Hive 不是什么
?
3)Hive 結(jié)構(gòu)圖
?
4)Hive 元數(shù)據(jù)
?
5)Hive 和普通關(guān)系數(shù)據(jù)的異同
?
6)Hive 和 SQL 比較
2.Hive 命令
?
1)建表
?
2)顯示表
?
3)修改表
?
4)load 數(shù)據(jù)
3.Hive 優(yōu)化
?
1)分區(qū)概念
?
2)分區(qū)適用場(chǎng)景
?
3)分區(qū)例子
?
4)優(yōu)化例子
?
5)優(yōu)化建議方案
4.Hive 的用戶自定義函數(shù)
?
1)UDF 函數(shù)
?
2)UDAF 函數(shù)
?
3)UDTF 函數(shù)
5.Hive 練習(xí)和案例
?
1)練習(xí)
?
2)案例講解
第十一部分:Impala準(zhǔn)實(shí)時(shí)分析
1.Impala基本介紹
2.技術(shù)架構(gòu)
3.Impala與HIVE的關(guān)系
4.基本原理
5.優(yōu)點(diǎn)和缺點(diǎn)
6.建表
7.加載數(shù)據(jù)
8.批量處理
9.常用腳本
10.和hive的性能比較
11.和oracle的對(duì)比2億數(shù)據(jù)性能?
12.和oracle的對(duì)比12億數(shù)據(jù)性能
第十二部分:Hue頁(yè)面工具詳解
1.命令腳本存在的問題?
2.為什么需要HUE?
3.Hue基本功能
2.Home頁(yè)面
3.Job Browser頁(yè)面
4.File Browser頁(yè)面
5.元數(shù)據(jù)頁(yè)面
6.Hive查詢頁(yè)面
7.Impala查詢頁(yè)面
8.創(chuàng)建外部表
9.加載數(shù)據(jù)
10.查詢結(jié)果
第十三部分:Hbase列數(shù)據(jù)庫(kù)及應(yīng)用案例
1.Hbase感性認(rèn)識(shí)
?
1)Hbase簡(jiǎn)介
?
2)Hbase特點(diǎn)
?
3)HBase與RDBMS對(duì)比
?
4)HBase體系結(jié)構(gòu)
?
5)Hbase常見概念
2.Hbase主要組成
?
1)HBase基本命令介紹
?
2)Zookeeper、Hmaster
?
3)HRegionServer、Region
?
4)HStore存儲(chǔ)、Hfile
?
5)Hbase內(nèi)部掃描RowKey的原理
?
6)Hbase內(nèi)部讀寫原理
?
7)HBase設(shè)計(jì)原理、架構(gòu)分析
?
8)Hadoop+HBase伸縮性(自動(dòng)擴(kuò)容、熱部署)
?
9)HBase相關(guān)表結(jié)構(gòu)設(shè)計(jì)(列族、列詳細(xì)分析)
?
10)HBase主HMaster與備用HMaster間的切換原理
3.Hbase性能測(cè)試
?
1)測(cè)試數(shù)據(jù)
?
2)測(cè)試過程
?
3)測(cè)試結(jié)論
?
4)和Oracle Rac等進(jìn)行對(duì)比
4.Hbase設(shè)計(jì)原則和優(yōu)化
?
1)Hbase的RowKey設(shè)計(jì)原則
?
2)性能參數(shù)的設(shè)置
?
3)性能參數(shù)的調(diào)整
?
4)模型和性能優(yōu)化
5.例子講解
6.項(xiàng)目案例
?
1)HBase在小米業(yè)務(wù)的應(yīng)用
第十四部分:運(yùn)營(yíng)商全國(guó)用戶上網(wǎng)記錄案例介紹
1.業(yè)務(wù)背景?
2.難點(diǎn)分析?
3.用戶需求?
4.系統(tǒng)部署
5.技術(shù)架構(gòu)
第十五部分:大數(shù)據(jù)平臺(tái)部署及案例
1.hadoop有哪幾個(gè)版本?
2.Hadoop版本介紹?
3.CDH和Apache版本主要區(qū)別?
4.集群硬件應(yīng)該如何選配?
?
1)網(wǎng)絡(luò)拓?fù)?br>
?
2)內(nèi)存
?
3)硬盤
?
4)CPU
?
5)價(jià)格
5.集群硬件應(yīng)該如何選配
6.英特爾Hadoop發(fā)行版的介紹?
7.英特爾功能增強(qiáng)?
8.某省級(jí)通信運(yùn)營(yíng)商清帳單查詢系統(tǒng)
9.為什么采用Hadoop解決方案
10.新清賬單中心的部署方案
第十六部分:Kafka詳解及應(yīng)用案例
1.Kafka的基本介紹
?
1)什么是消息系統(tǒng)?
?
2)消息隊(duì)列的分類
?
3)kafka的基本架構(gòu)和概念
?
4)ZooKeeper簡(jiǎn)介和安裝
2.Kafka的原理解析
?
1)Kafka在ZK上的存儲(chǔ)結(jié)構(gòu)
?
2)Producer的處理邏輯
?
3)Consumer的處理邏輯
?
4)Broker的處理邏輯
3.Kafka安裝和部署
?
1)關(guān)閉服務(wù)
?
2)下載軟件
?
3)拷貝文件
?
4)重啟服務(wù)
?
5)測(cè)試功能是否能用
4.Kafka的Java應(yīng)用開發(fā)
?
1)Producer端的實(shí)現(xiàn)
?
2)Consumer端的實(shí)現(xiàn)
?
3)程序執(zhí)行演示
5.Kafka與Hadoop集成
?
1)Hadoop簡(jiǎn)介和配置
?
2)集成Kafka和Hadoop
?
3)例子演示
6.案例講解
第十七部分:hadoop衍生數(shù)據(jù)處理詳解例
1.ETL 數(shù)據(jù)處理介紹
?
1)ETL 導(dǎo)論
?
2)ETL 概念
?
3)ETL 邏輯架構(gòu)
?
4)exact 方式
?
5)增量數(shù)據(jù)捕獲方法
?
6)數(shù)據(jù)處理方式
?
7)數(shù)據(jù)轉(zhuǎn)換
?
8)緩慢變化維處理
?
9)數(shù)據(jù)倉(cāng)庫(kù) Update 處理
?
10)ETL 優(yōu)點(diǎn)
2.Kettle 介紹
?
1)簡(jiǎn)介 kettle
?
2)安裝和部署
?
3)運(yùn)行
3.Kettle 適用
?
1)菜單介紹
?
2)轉(zhuǎn)換
?
3)作業(yè)
?
4)新建 Ktr
?
5)新建 Kjb
?
6)Transformation 菜單介紹
?
7)Transformation
?
8)Job 菜單介紹
?
9)Job 組件介紹
4.Kettle 案例
?
1)案例準(zhǔn)備
?
2)表準(zhǔn)備和說明
?
3)作業(yè)建立過程
?
4)測(cè)試結(jié)果檢驗(yàn)
?
5)表到文本文件
?
6)文本文件到表
5.JAVASCRIPT 的基本應(yīng)用
6.文件 FTP 下載、上傳。
7.作業(yè)調(diào)用作業(yè)、轉(zhuǎn)換。
8.啟動(dòng)腳本說明。
9.JAVA 調(diào)用作業(yè)、轉(zhuǎn)換
10.kettle 使用原則
11.kettle 練習(xí)和案例