
社交網(wǎng)絡數(shù)據(jù)及文本挖掘方面的專業(yè)技術培訓
大數(shù)據(jù)概述
1.大數(shù)據(jù)基本概念、技術梗概、技術沿革,以及大數(shù)據(jù)技術是如何改變?nèi)斯ぶ悄芗夹g、語音識別技術、圖像識別/視頻理解、自然語言處理技術等,
以及大數(shù)據(jù)技術在政府、金融、石油、教育、交通、醫(yī)療衛(wèi)生等行業(yè)的成功案例;
2.大數(shù)據(jù)的結構化數(shù)據(jù)模型、半結構化模型和非結構化數(shù)據(jù)的存儲模型,邏輯模型,以及分析建模工具的常用方法。
數(shù)據(jù)挖掘及Mahout
1.十大常用的并行數(shù)據(jù)挖掘算法、原理、應用場景,以及技術實戰(zhàn);
2.并行數(shù)據(jù)挖掘平臺Mahout的技術架構、核心組件的工作原理以及技術;
3.Mahout應用開發(fā)技術;4.Mahout項目實戰(zhàn)。
R語言精要 本著循序漸進而又覆蓋R語言重要而有用的基本內(nèi)容原則,
本講從R語言入門開始,以前期的數(shù)據(jù)處理為核心,以實際案例為載體,
內(nèi)容包括R語言的向量、數(shù)據(jù)框、矩陣運算、缺失值和零值的處理、
特別注重用R語言構造函數(shù)編程解決實際問題,詳細介紹強大的數(shù)據(jù)清洗整理plyr、
zoo、car等常用包和強大的作圖ggplot2包,為使用R語言進行數(shù)據(jù)挖掘打下扎實的工具基礎。
主要案例:案例1:如何用R語言plyr等包合并、排序、分析數(shù)據(jù)并編制香農(nóng)-威納指數(shù);
案例2:如何用R語言編程同時實現(xiàn)幾十個高難度數(shù)據(jù)分析可視化圖片的jpeg格式輸出;
案例3:如何使用R語言進行分層或者整群抽樣構建訓練集與測試集;案例4:使用ggplot2畫出各種復雜的圖形。
神經(jīng)網(wǎng)絡和R語言的實現(xiàn)
神經(jīng)網(wǎng)絡由大量的節(jié)點和輸出函數(shù)構成邏輯策略,本講介紹其原理,主要通過案例的方式講解R語言實現(xiàn)神經(jīng)網(wǎng)絡算法的過程和注意的事項。
主要案例:案例1:酒的品質(zhì)和種類的神經(jīng)網(wǎng)絡的分析和預測;案例2:公司財務預警建模。企業(yè)基于社交網(wǎng)絡數(shù)據(jù)的收獲
1.潛在商機的發(fā)現(xiàn),通過數(shù)據(jù)挖掘與分析能夠得到什么?
2.危機預警 ,通過數(shù)據(jù)挖掘與分析,可以對一些網(wǎng)絡中突然發(fā)布的一條可能對企業(yè)產(chǎn)生危機的信息即時的監(jiān)控;
3.效果預測, 通過數(shù)據(jù)挖掘與分析讓企業(yè)能花少的錢得到大的產(chǎn)出。
交叉驗證比較各個模型:對于同一個數(shù)據(jù),可能有很多模型來擬合,如何衡量和比較模型的精度呢?
本講將介紹交叉驗證訓練集和測試集的方法來幫助大家在實際中選取佳模型進行擬合和預測。
決策樹(回歸樹)分析和R語言實現(xiàn)
決策樹是數(shù)據(jù)挖掘的經(jīng)典方法,其原理容易被理解。本講主要講授兩種為普遍的決策樹算法:CART和C4.5算法,使用rpart和J48函數(shù)進行R語言分析。
主要案例:案例1:對汽車耗油量進行決策樹分析并完成相關目標變量的預測;
案例2:使用決策樹幫助電信局判斷和預測客戶辦理寬帶業(yè)務。使用R語言結合KNN算法進行文本挖掘
文本挖掘,特別是對中文的文本挖掘日趨重要。
本講介紹文本挖掘的原理和方法,幫助大家使用R語言在大量的非結構化的數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,
抽取潛在有用的數(shù)據(jù),發(fā)現(xiàn)適合模式,實現(xiàn)可視化結果展示。
主要案例:案例:使用R語言結合KNN算法對網(wǎng)頁(Web)進行文本挖掘(含分詞、分類、可視化等)。