
基于分布式架構(gòu)大數(shù)據(jù)hadoop生態(tài)組件及數(shù)據(jù)分析可視化培訓
1 、分布式處理框架 MapReduce
2、資源調(diào)度框架 Yarn
1、分布式大數(shù)據(jù)框架Hadoop
主要講解Hadoop MR、Yarn
2、式大數(shù)據(jù)框架Hadoop
Hadoop Shell操作及MR入門案例
03 :Hadoop Shell基本操作
本任務(wù)介紹常用的Hadoop Shell命令。
04 :Mapreduce實例——WordCount
本任務(wù)練習使用電商數(shù)據(jù)進行詞頻統(tǒng)計。
章節(jié)內(nèi)容:數(shù)據(jù)倉庫 Hive + 數(shù)據(jù)遷移工具 Sqoop
1、數(shù)據(jù)倉庫 Hive 介紹 2、Hive 安裝部署
3、Hive Shell 基本操作 4、Sqoop 安裝部署
5、Sqoop 數(shù)據(jù)遷移 6、Sqoop 增量數(shù)據(jù)遷移
1、 數(shù)據(jù)倉庫Hive+數(shù)據(jù)遷移工具Sqoop(理論)
本節(jié)主要講解數(shù)據(jù)倉庫Hive及遷移工具Sqoop
2、 數(shù)據(jù)倉庫Hive+數(shù)據(jù)遷移工具Sqoop()
本演練練習Hive基本操作及Sqoop應用
05 :Hive安裝部署
本任務(wù)介紹如何安裝部署數(shù)據(jù)倉庫Hive。
06 :Hive基本操作
本任務(wù)詳細介紹Hive的基本操作以及Hive的外部表與內(nèi)部表的區(qū)別。
07 :Sqoop安裝
本任務(wù)主要介紹Sqoop的工作原理,然后詳細說明Sqoop的安裝部署過程。
08 :綜合案例—基本流程圖
本任務(wù)介紹Sqoop在Hive與Mysql之間進行數(shù)據(jù)傳遞以及Hive數(shù)據(jù)分析
章節(jié)內(nèi)容:分布式日志采集工具 Flume
1、Flume 介紹 2、Flume Agent 詳解
1、 分布式日志采集工具Flume(理論)
本節(jié)主要講解Flume工作原理、架構(gòu)、Agent概念
2、 分布式日志采集工具Flume()
本演練練習Flume安裝部署及Agent配置詳解
09 :Flume安裝部署
本任務(wù)介紹Flume的工作原理和Flume安裝流程。
10 :Flume配置:Source、Channel、Sink
本任務(wù)介紹配置多種source,channel,sink組合,實現(xiàn)多種需求。
11 :Flume多source,多sink組合框架搭建
本任務(wù)介紹Flume多source,多sink組合框架搭建。
章節(jié)內(nèi)容:分布式消息系統(tǒng) Kafka
1、Kafka 結(jié)構(gòu)分析 2、Flume 與 Kafka 聯(lián)用
1、 分布式消息體統(tǒng)Kafka(理論)
本節(jié)主要講解Kafka工作原理、架構(gòu)及名詞概念
2、 分布式消息體統(tǒng)Kafka()
本演練練習Kafka安裝部署、與Flume連用
12 :Kafka安裝及測試
本任務(wù)介紹安裝scala與zookeeper,然后在已安裝好的scala和zookeeper環(huán)境基礎(chǔ)上,安裝部署Kafka。
13 :Flume傳輸數(shù)據(jù)給Kafka
本任務(wù)介紹Flume傳數(shù)據(jù)到Kafka的執(zhí)行原理和具體操作。
章節(jié)內(nèi)容:分布式大數(shù)據(jù)框架Spark
1、Spark 框架介紹 2、Spark RDD 介紹
3、Spark SQL 數(shù)據(jù)處理 4、Spark Shell 數(shù)據(jù)處理
1、 分布式大數(shù)據(jù)框架Spark(理論)
本節(jié)主要講解Spark工作原理、架構(gòu)及RDD概念
2、分布式大數(shù)據(jù)框架Spark()
本演練練習Spark安裝部署及Shell操作
14 :Spark Standalone偽分布模式安裝
本任務(wù)介紹在已經(jīng)安裝好Hadoop下,如何安裝Spark Standalone模式。
15 :Spark Shell操作
本任務(wù)介紹Spark Shell操作,在Spark Shell命令行下對算子進行實例講解,包括去重、排序、Join、求平均值
章節(jié)內(nèi)容:電商項目 (上)
1、爬蟲框架介紹 2、電商數(shù)據(jù)清洗
3、電商離線數(shù)據(jù)分析 4、數(shù)據(jù)遷移
1、電子商務(wù)數(shù)據(jù)分析項目(爬蟲、清洗)
本演練練習電商案例之數(shù)據(jù)采集、清洗
2、電子商務(wù)數(shù)據(jù)分析項目(離線數(shù)據(jù)分析)
本演練練習電商案例之離線分析、數(shù)據(jù)遷移
16 :一、采集電商網(wǎng)站交易及評論數(shù)據(jù)(局域網(wǎng)or互聯(lián)網(wǎng))
本次任務(wù)對爬蟲進行了介紹,并分析網(wǎng)頁的源碼結(jié)構(gòu)和如何爬取數(shù)據(jù)。
17 :二、開發(fā)MR程序清洗電商評論數(shù)據(jù)
本次任務(wù)對數(shù)據(jù)清洗進行概述,包括Json解析,搭建解析框架和編寫MapReduce代碼。
18 :三、利用HiveSQL離線分析評論數(shù)據(jù)
本次任務(wù)介紹使用HiveSQL根據(jù)多種需求對數(shù)據(jù)進行統(tǒng)計并演示。
19 :四、利用Sqoop進行數(shù)據(jù)遷移至Mysql數(shù)據(jù)庫
本次任務(wù)介紹了如何將Hive表中數(shù)據(jù)導入到MySQL以和如何將HDFS中數(shù)據(jù)導入到MySQL。
章節(jié)內(nèi)容:電商項目 (下)
1、離線數(shù)據(jù)可視化 2、SparkStreaming 實時流數(shù)據(jù)處理
1、電子商務(wù)數(shù)據(jù)分析項目(數(shù)據(jù)可視化)
本演練練習電商案例之數(shù)據(jù)可視化
2、電子商務(wù)數(shù)據(jù)分析項目(實時數(shù)據(jù)分析)
本演練練習電商案例之實時數(shù)據(jù)分析
20 :五、利用JavaWeb+Echarts完成數(shù)據(jù)圖表展示過程
本次任務(wù)介紹通過搭建JavaWeb框架,將數(shù)據(jù)進行可視化圖表展示。
21 :六、利用Spark進行實時數(shù)據(jù)分析(上)(局域網(wǎng)or互聯(lián)網(wǎng))
本次任務(wù)以京東商品評論為目標網(wǎng)站,架構(gòu)采用Java爬蟲框架+Flume+Kafka+Spark Streaming+Mysql等多種技術(shù),動態(tài)實時的采集、分析、展示數(shù)據(jù)。
22 :七、利用Spark進行實時數(shù)據(jù)分析(下)(局域網(wǎng)or互聯(lián)網(wǎng))
本次任務(wù)以京東商品評論為目標網(wǎng)站,架構(gòu)采用Java爬蟲框架+Flume+Kafka+Spark Streaming+Mysql等多種技術(shù),動態(tài)實時的采集、分析、展示數(shù)據(jù)。