有人統(tǒng)計過,在整個數(shù)據分析過程里,收集、整理數(shù)據的工作大致占全部工作量的90%,建模過程不足10%,可見ETL是數(shù)據處理流程中一個非常重要的環(huán)節(jié)。ETL工程師,在數(shù)據倉庫類職位中占有很大比例,而且薪水都不差。IT人一下子轉型數(shù)據分析師可能跳躍度比較大難度高,先轉型數(shù)據倉庫/ETL工程師再擇機往更高處走是合理選擇之一。在ETL軟件中,使用最多的是開源的Kettle,完全免費,功能和性能不弱于datastage這類商業(yè)ETL軟件,使用Kettle和其它開源數(shù)據平臺軟件,例如Mysql集群,Hadoop集群等組合在一起,是性價比極高的架構選擇。本課程系統(tǒng)講解Kettle及其秘密。
? ???
ETL (Extract,Transformation,Load)工具是構建數(shù)據倉庫、進行數(shù)據整合工作所必須使用的工具。目前市面有多種商業(yè) ETL 工具,如Informatica,Datastage等。目前市場上開源且實用的 ETL 工具比較少,Kettle 就是這不多的開源 ETL 工具之一。
第一節(jié):ETL 的概念,Kettle 的概念、功能、操作
第二節(jié):Kettle 資源庫、日志、運行方式
第三節(jié):輸入步驟(表輸入、文本文件輸入、XML 文件輸入...)
第四節(jié):輸出步驟(表輸出、更新、刪除、文本文件輸出、XML文件輸出...)
第五節(jié):轉換步驟(過濾、字符串處理、拆分字段、計算器...)
第六節(jié):轉換步驟(字段選擇、排序、增加校驗列、去除重復記錄...)
第七節(jié):應用步驟、流程步驟(處理文件、執(zhí)行程序、發(fā)送郵件、空操作、阻塞步驟、中止等...)
第八節(jié):查詢步驟、連接步驟(數(shù)據庫查詢、流查詢、合并記錄、記錄集連接、笛卡爾...)
第九節(jié):腳本步驟(Javascript,Java Class、正則表達式...)
第十節(jié):作業(yè)項(拷貝、移動、ftp、sftp…)
第十一節(jié):Kettle 的參數(shù)和變量、Kettle 集群
第十二節(jié):Kettle 代碼編譯、代碼結構、應用集成、各種配置文件
第十三節(jié):插件開發(fā) - 步驟、作業(yè)項
第十四節(jié):作業(yè)設計技巧、錯誤處理、調試轉換、循環(huán)和分支
第十五節(jié):大數(shù)據插件(Hadoop 文件輸入/輸出,HBase輸入/輸出,MapReduce輸入/輸出,MongoDB輸入/輸出)
|