1、培訓(xùn)過程中,如有部分內(nèi)容理解不透或消化不好,可免費(fèi)在以后培訓(xùn)班中重聽;
2、培訓(xùn)結(jié)束后,授課老師留給學(xué)員聯(lián)系方式,保障培訓(xùn)效果,免費(fèi)提供課后技術(shù)支持。
3、培訓(xùn)合格學(xué)員可享受免費(fèi)推薦就業(yè)機(jī)會。 |
Linux大綱 這章是基礎(chǔ)課程,幫大家進(jìn)入大數(shù)據(jù)領(lǐng)域打好Linux基礎(chǔ),以便更好地學(xué)習(xí)Hadoop,hbase,NoSQL,Spark,Storm,docker,kvm,openstack等眾多課程。因為企業(yè)中無一例外的是使用Linux來搭建或部署項目。
1) Linux的介紹,Linux的安裝:VMware Workstation虛擬軟件安裝過程、CentOS虛擬機(jī)安裝過程
2) 了解機(jī)架服務(wù)器,采用真實(shí)機(jī)架服務(wù)器部署linux
3) Linux的常用命令:常用命令的介紹、常用命令的使用和練習(xí)
4) Linux系統(tǒng)進(jìn)程管理基本原理及相關(guān)管理工具如ps、pkill、top、htop等的使用;
5) Linux啟動流程,運(yùn)行級別詳解,chkconfig詳解
6) VI、VIM編輯器:VI、VIM編輯器的介紹、VI、VIM扥使用和常用快捷鍵
7) Linux用戶和組賬戶管理:用戶的管理、組管理
8) Linux磁盤管理,lvm邏輯卷,nfs詳解
9) Linux系統(tǒng)文件權(quán)限管理:文件權(quán)限介紹、文件權(quán)限的操作
10) Linux的RPM軟件包管理:RPM包的介紹、RPM安裝、卸載等操作
11) yum命令,yum源搭建
12) Linux網(wǎng)絡(luò):Linux網(wǎng)絡(luò)的介紹、Linux網(wǎng)絡(luò)的配置和維護(hù)
13) Shell編程:Shell的介紹、Shell腳本的編寫
14) Linux上常見軟件的安裝:安裝JDK、安裝Tomcat、安裝mysql,web項目部署
大型網(wǎng)站
高并發(fā)處理 通過本章的學(xué)習(xí)大家將會了解大數(shù)據(jù)的源頭,數(shù)據(jù)從何而來,繼而更好的了解大數(shù)據(jù)。并且通過學(xué)習(xí)何果處理大型網(wǎng)站高并發(fā)問題反向更深入的學(xué)習(xí)了Linux,同時站在了更高的角度去觸探了架構(gòu)。
1) 第四層負(fù)載均衡
a) Lvs負(fù)載均衡
i. 負(fù)載算法,NAT模式,直接路由模式(DR),隧道模式(TUN)
b) F5負(fù)載均衡器介紹
2) 第七層負(fù)載均衡
a) Nginx b) Apache
3) Tomcat、jvm優(yōu)化提高并發(fā)量
4) 緩存優(yōu)化
a) Java緩存框架
i. Oscache,ehcache
b) 緩存數(shù)據(jù)庫
i. Redis,Memcached
5) Lvs+nginx+tomcat+redis|memcache構(gòu)建二層負(fù)載均衡千萬并發(fā)處理
6) Haproxy
7) Fastdfs小文件獨(dú)立存儲管理
8) Redis緩存系統(tǒng)
a) Redis基本使用 b) Redis sentinel高可用 c) Redis好友推薦算法
Lucene課程 在大數(shù)據(jù)里面文本數(shù)據(jù)的搜索是很重要的一塊,特別是里面的分詞技術(shù),是后面機(jī)器學(xué)習(xí)里面文本挖掘的基石,我們需要深入學(xué)習(xí)java領(lǐng)域里面的搜索核心技術(shù)lucene,同時也可以了解到百度 google這樣的搜索系統(tǒng)是怎么架構(gòu)實(shí)現(xiàn)的。
1) Lucene介紹2) Lucene 倒排索引原理 > 3) 建索引 IndexWriter 4) 搜索 IndexSearcher 5) Query 6) Sort和 過濾 (filter) 7) 索引優(yōu)化和高亮
Solr課程 接著前面lucene技術(shù)搜索,如果把lucene技術(shù)比如為發(fā)動機(jī),那solr就是一輛成型的汽車了。學(xué)習(xí)完solr可以幫助你在企業(yè)里面快速的架構(gòu)搜索系統(tǒng)。首先Solr是基于Lucene做的,Lucene是一套信息檢索工具包,但并不包含搜索引擎系統(tǒng),它包含了索引結(jié)構(gòu)、讀寫索引工具、相關(guān)性工具、排序等功能,因此在使用Lucene時你仍需要關(guān)注搜索引擎系統(tǒng),例如數(shù)據(jù)獲取、解析、分詞等方面的東西。而Solr的目標(biāo)是打造一款企業(yè)級的搜索引擎系統(tǒng),因此它更接近于我們認(rèn)識到的搜索引擎系統(tǒng),它是一個搜索引擎服務(wù),通過各種API可以讓你的應(yīng)用使用搜索服務(wù),而不需要將搜索邏輯耦合在應(yīng)用中。而且Solr可以根據(jù)配置文件定義數(shù)據(jù)解析的方式,更像是一個搜索框架,它也支持主從、熱換庫等操作。還添加了飄紅、facet等搜索引擎常見功能的支持。
1) 什么是solr2) 為什么工程中要使用solr3) Solr的原理4) 如何在tomcat中運(yùn)行solr5) 如何利用solr進(jìn)行索引與搜索6) solr的各種查詢7) solr的Filter8) solr的排序9) solr的高亮10) solr的某個域統(tǒng)計11) solr的范圍統(tǒng)計12) solrcloud集群搭建
Hadoop
離線計算大綱
一、初識hadoop
聽過大數(shù)據(jù),必聽過hadoop,此部分帶領(lǐng)大家了解hadoop的用途,在大數(shù)據(jù)中的用途,以及快速搭建一個hadoop的實(shí)驗環(huán)境,在本過程中不僅將用到前面的Linux知識,而且會對hadoop的架構(gòu)有深入的理解,并為你以后架構(gòu)大數(shù)據(jù)項目打下堅實(shí)基礎(chǔ)。
1) Hadoop生態(tài)環(huán)境介紹2) Hadoop云計算中的位置和關(guān)系3) 國內(nèi)外Hadoop應(yīng)用案例介紹4) Hadoop 概念、版本、歷史5) Hadoop 核心組成介紹及hdfs、mapreduce 體系結(jié)構(gòu)6) Hadoop 的集群結(jié)構(gòu)7) Hadoop 偽分布的詳細(xì)安裝步驟8) 通過命令行和瀏覽器觀察hadoop
二、 HDFS體系結(jié)構(gòu)和shell以及java操作
詳細(xì)剖析HDFS,從知曉原理到開發(fā)網(wǎng)盤的項目讓大家打好學(xué)習(xí)大數(shù)據(jù)的基礎(chǔ),大數(shù)據(jù)之于分布式,分布式學(xué)習(xí)從學(xué)習(xí)分布式文件系統(tǒng)(HDFS)開始。
1) HDFS底層工作原理2) HDFS datanode,namenode詳解3) Hdfs shell4) Hdfs java api
三、 詳細(xì)講解Mapreduce
Mapreduce可以說是任何一家大數(shù)據(jù)公司都會用到的計算框架,也是每個大數(shù)據(jù)工程師應(yīng)該熟練掌握的,此處的學(xué)習(xí)除了老師詳細(xì)的講解理論外,會通過大量的案例讓大家徹底掌握。
1) Mapreduce四個階段介紹2) Writable3) InputSplit和OutputSplit4) Maptask5) Shuffle:Sort,Partitioner,Group,Combiner6) Reducer
四、 Mapreduce案例案例
1) 二次排序2) 倒排序索引3) 路徑
4) 電信數(shù)據(jù)挖掘之-----移動軌跡預(yù)測分析(中國棱鏡計劃)
5) 社交好友推薦算法6) 互聯(lián)網(wǎng)精準(zhǔn)廣告推送 算法7) 阿里巴巴天池大數(shù)據(jù)競賽 《天貓推薦算法》案例8) Mapreduce實(shí)戰(zhàn)pagerank算法
五、 Hadoop2.x集群搭建
前面帶領(lǐng)大家開發(fā)了大量的MapReduce程序,此部分將帶來大家讓開發(fā)的程序運(yùn)行在分布式集群中,并且運(yùn)行在健壯高可用的集群中。
1) Hadoop2.x集群結(jié)構(gòu)體系介紹2) Hadoop2.x集群搭建3) NameNode的高可用性(HA)4) HDFS Federation5) ResourceManager 的高可用性(HA)6) Hadoop集群常見問題和解決方法 7) Hadoop集群管理
分布式數(shù)據(jù)庫
Hbase 大數(shù)據(jù)中使用Hbase的案例多的舉不勝舉,也可凸顯大家學(xué)習(xí)的必要性。即使工作多年的大數(shù)據(jù)工程師Hbase的優(yōu)化也是需要好好學(xué)習(xí)的重點(diǎn)。
1) HBase定義2) HBase與RDBMS的對比3) 數(shù)據(jù)模型4) 系統(tǒng)架構(gòu)5) HBase上的MapReduce6) 表的設(shè)計7) 集群的搭建過程講解8) 集群的監(jiān)控9) 集群的管理10) HBase Shell以及演示11) Hbase 樹形表設(shè)計12) Hbase 一對多 和 多對多 表設(shè)計13) Hbase 微博 案例14) Hbase 訂單案例15) Hbase表級優(yōu)化16) Hbase 寫數(shù)據(jù)優(yōu)化17) Hbase 讀數(shù)據(jù)優(yōu)化
數(shù)據(jù)倉庫Hive Hive是使用sql進(jìn)行計算的hadoop框架,工作中常用到的部分,也是面試的重點(diǎn),此部分大家將從方方面面來學(xué)習(xí)Hive的應(yīng)用,任何細(xì)節(jié)都將給大家涉及到。
1) 數(shù)據(jù)倉庫基礎(chǔ)知識2) Hive定義3) Hive體系結(jié)構(gòu)簡介4) Hive集群5) 客戶端簡介6) HiveQL定義7) HiveQL與SQL的比較8) 數(shù)據(jù)類型9) 外部表和分區(qū)表10) ddl與CLI客戶端演示11) dml與CLI客戶端演示12) select與CLI客戶端演示13) Operators 和 functions與CLI客戶端演示14) Hive server2 與jdbc15) 用戶自定義函數(shù)(UDF 和 UDAF)的開發(fā)與演示16) Hive 優(yōu)化
數(shù)據(jù)遷移工具Sqoop sqoop適用于關(guān)系型數(shù)據(jù)庫和HDFS分布式數(shù)據(jù)系統(tǒng)之間進(jìn)行數(shù)據(jù)轉(zhuǎn)換,在企業(yè)中,是構(gòu)建數(shù)據(jù)倉庫的一大工具。
1) 介紹 和 配置Sqoop
2) Sqoop shell使用
3) Sqoop-import
a) DBMS-hdfs b) DBMS-hive c) DBMS-hbase
4) Sqoop-export
Flume分布式
日志框架 Flume是Cloudera提供的日志收集系統(tǒng),目前是Apache下的一個孵化項目,F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。大家學(xué)習(xí)完此節(jié)后不但可以掌握Flume的使用,而且可以進(jìn)行對于Flume的開發(fā)。
1) flume簡介-基礎(chǔ)知識2) flume安裝與測試3) flume部署方式4) flume source相關(guān)配置及測試5) flume sink相關(guān)配置及測試6) flume selector 相關(guān)配置與案例分析7) flume Sink Processors相關(guān)配置和案例分析8) flume Interceptors相關(guān)配置和案例分析9) flume AVRO Client開發(fā)10) flume 和kafka 的整合
Zookeeper
開發(fā) Zookeeper在分布式集群(Hadoop生態(tài)圈)中的地位越來越突出,對分布式應(yīng)用的開發(fā)也提供了極大便利,這也是這里我們帶領(lǐng)大家深入學(xué)習(xí) Zookeeper的原因。本課程主要內(nèi)容包括Zookeeper深入、客戶端開發(fā)(Java編程,案例開發(fā))、日常運(yùn)維、Web界面監(jiān)控。大家這里學(xué)好Zookeeper,對后面學(xué)習(xí)其他技術(shù)至關(guān)重要。
1) Zookeeper java api開發(fā)2) Zookeeper rmi高可用分布式集群開發(fā)3) Zookeeper redis高可用監(jiān)控實(shí)現(xiàn)4) Netty 異步io通信框架 5) Zookeeper實(shí)現(xiàn)netty分布式架構(gòu)的高可用
項目實(shí)戰(zhàn)
某大型電商日志分析和訂單管理
在實(shí)戰(zhàn)中學(xué)習(xí),技術(shù)點(diǎn)非常多,怎么樣實(shí)際運(yùn)用這些點(diǎn)是我們在自學(xué)過程中體驗不到的。電商日志分析包括:pv、uv,跳出率,二跳率、廣告轉(zhuǎn)化率、搜索引擎優(yōu)化等,訂單模塊有:產(chǎn)品推薦,商家排名,歷史訂單查詢,訂單報表統(tǒng)計等。
項目技術(shù)架構(gòu)體系:
a) Web項目和云計算項目的整合 b) Flume通過avro實(shí)時收集web項目中的日志 c) 數(shù)據(jù)的ETL d) Hive 批量 sql執(zhí)行 e) Hive 自定義函數(shù) f) Hive和hbase整合。 g) Hbase 數(shù)據(jù)支持 sql查詢分析 h) Mapreduce數(shù)據(jù)挖掘 i) Hbase dao處理 j) Sqoop 在項目中的使用。 k) Mapreduce 定時調(diào)用和監(jiān)控
|