Spark 基礎(chǔ)
【理論部分】Java Lambda語法簡介 、Spark基礎(chǔ)原理與運(yùn)行架構(gòu)、Spark部署方式
【實(shí)戰(zhàn)部分】Spark開發(fā)環(huán)境搭建、使用Spark Web UI、如何將Spark程序運(yùn)行到Y(jié)ARN上
【課程目標(biāo)】掌握Spark基本原理,能夠搭建Spark開發(fā)和運(yùn)行環(huán)境。
Spark 程序設(shè)計(jì)
【理論部分】Spark編程模型、內(nèi)存彈性分布式數(shù)據(jù)集的工作原理和機(jī)制、Spark RDD transform、持久化、checkpoint、容錯(cuò)與性能優(yōu)化
【實(shí)戰(zhàn)部分】如何利用intellij idea開發(fā)一個(gè)spark程序并運(yùn)行到集群中、如何利用spark設(shè)計(jì)電影受眾分析程序
【課程目標(biāo)】掌握常見的Spark API,熟練使用Spark開發(fā)大數(shù)據(jù)分析程序。
Spark SQL
【理論部分】流式計(jì)算基礎(chǔ)、spark streaming基礎(chǔ)原理 、基礎(chǔ)API介紹(包括map,filter,flatMap、foreachRDD,saveAsTextFile等)和高級(jí)API介紹(window, transform和mapWithState),Redis介紹
【實(shí)戰(zhàn)部分】利用Spark Streaming讀取HDFS中的數(shù)據(jù),經(jīng)統(tǒng)計(jì)(按照window統(tǒng)計(jì))后寫入HDFS:利用Spark Streaming讀取HDFS中的數(shù)據(jù),經(jīng)統(tǒng)計(jì)后寫入Redis和HBase:利用mapWithState實(shí)現(xiàn)wordcount
【課程目標(biāo)】掌握Spark Streaming工作原理及常見的API,能夠使用Spark Streaming編寫流式實(shí)時(shí)計(jì)算程序。
Spark Streaming進(jìn)階
【理論部分】保存kafka offset并恢復(fù)、spark streaming容錯(cuò)機(jī)制、spark streaming調(diào)優(yōu)方法、structured streaming原理及關(guān)鍵API
【實(shí)戰(zhàn)部分】利用Spark Streaming+kafka+redis實(shí)現(xiàn)“用戶手機(jī)app行為分析系統(tǒng)”、實(shí)現(xiàn)streuctured streaming版本的wordcount
【課程目標(biāo)】掌握Spark Streaming調(diào)優(yōu)方法和高級(jí)編程技巧,能夠使用高級(jí)API編寫更加魯棒的分布式流式計(jì)算程序。
Spark MLlib數(shù)據(jù)分析挖掘程序
【理論部分】數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí),以及機(jī)器學(xué)習(xí)案例、Spark MLib分類、聚類、推薦等算法,用戶畫像系統(tǒng)設(shè)計(jì)。
【實(shí)戰(zhàn)部分】回歸預(yù)測(cè)和局部加權(quán)線性回歸預(yù)測(cè)算法、最近鄰KNN預(yù)測(cè)分析的算法、協(xié)同過濾算法的Spark實(shí)現(xiàn)技術(shù)應(yīng)用、決策樹分類分析挖掘算法、邏輯回歸分類分析挖掘算法、貝葉斯分類分析挖掘算法等,互聯(lián)網(wǎng)用戶性別預(yù)測(cè)。
【課程目標(biāo)】掌握常見的機(jī)器學(xué)習(xí)算法,能夠使用Spark MLLib工具包解決機(jī)器學(xué)習(xí)問題。 |