當(dāng)下是大數(shù)據(jù)時(shí)代,為構(gòu)建大數(shù)據(jù)平臺(tái),技術(shù)人員需要對(duì)分布式計(jì)算平臺(tái)有一定深入的理解和應(yīng)用。Apache Spark 作為MapReduce的新一代繼承者。 是對(duì)map reduce從性能,易用性和復(fù)雜分析優(yōu)化的強(qiáng)大的開(kāi)源數(shù)據(jù)處理引擎。Spark框架支持流式數(shù)據(jù)處理, 復(fù)雜迭代算法,比傳統(tǒng)Hadoop?MapReduce 程序快100倍。
Python語(yǔ)言時(shí)當(dāng)下數(shù)據(jù)領(lǐng)域的瑞士軍刀,但是作為一門腳本語(yǔ)言python先天只能在一臺(tái)機(jī)器上發(fā)展,不適合分析大數(shù)據(jù),因此需要其他大數(shù)據(jù)軟件來(lái)處理,Spark雖然是由Scala編寫,但也提供了Pyspark,讓熟悉Python者能夠輕易熟悉操作大數(shù)據(jù)。
第一部份.spark介紹
hadoop、spark集群環(huán)境搭建
pyspark開(kāi)發(fā)環(huán)境搭建
spark 1.x和2.x的對(duì)比
第二部份.pySpark核心編程模型
RDD、transformation、action
第三部份.pySpark核心編程實(shí)戰(zhàn)
lineage、容錯(cuò)處理、寬依賴與窄依賴
第四部份.Spark內(nèi)核詳解剖析
Spark術(shù)語(yǔ)解釋、集群概覽、核心組件、數(shù)據(jù)本地性
第五部份.spark任務(wù)調(diào)度詳解
RDD任務(wù)調(diào)度(DAGScheduler ,TaskScheduler)、Task細(xì)節(jié)、廣播變量、累加器
第六部份.spark工程經(jīng)驗(yàn)和性能調(diào)優(yōu)
第七部份.spark SQL 詳解
DataFrame、外部數(shù)據(jù)源API、與Spark其他組件的交互、
第八部份.spark sql編程實(shí)戰(zhàn)
Catalyst查詢優(yōu)化器 、Tungsten 優(yōu)化
第九部份.spark streaming 開(kāi)發(fā)
Dstream、數(shù)據(jù)源、 容錯(cuò)
第十部份.spark運(yùn)維技能
|