自然語言數(shù)據(jù)是大數(shù)據(jù)的主要形態(tài)之一,每個企業(yè)幾乎都積存有大量的文字,語音數(shù)據(jù),互聯(lián)網(wǎng)公司有網(wǎng)站上的評論留言論壇帖子,移動運(yùn)營商有文字短信息,電子商務(wù)平臺有客服錄音,證券公司需要處理大量的上市公司年報(bào)資料,IT企業(yè)積累了大量的技術(shù)文檔等等。自然語言處理(NLP)是機(jī)器學(xué)習(xí)當(dāng)前最神秘,最紅火,最具難度,也最讓引人關(guān)注的分支。在搜索引擎,語音識別,情感分析,大批量文檔處理,機(jī)器翻譯,自動應(yīng)答等各個領(lǐng)域有著前程無可限量的應(yīng)用。NLP能發(fā)揮威力的場景不勝枚舉。過去受限于企業(yè)的處理能力,面對寶山空手而歸,現(xiàn)在隨著深度學(xué)習(xí)技術(shù)在NLP中的應(yīng)用,一大批成熟度高的算法模型應(yīng)運(yùn)而生,在NLP幾乎所有的子領(lǐng)域都取得巨大突破,現(xiàn)在從深度學(xué)習(xí)的角度去學(xué)習(xí)NLP,可謂正逢其時。
第1部份 深度學(xué)習(xí)知識要覽,兩小時入門深度學(xué)習(xí)。
第2部份 自然語言數(shù)據(jù)是大數(shù)據(jù)的主要形態(tài),任何企業(yè)都需要自然語言處理技術(shù)。自然語言處理(NLP)場景概述,兩小時入門NLP。深度學(xué)習(xí)初試牛刀,在推薦系統(tǒng)中結(jié)合自然語言處理的應(yīng)用,一舉解決新商品上架時的冷啟動問題
第3部份 基于深度學(xué)習(xí)的語言模型,詞向量與embedding。google神器word2vec詳解與內(nèi)幕揭秘,部署和訓(xùn)練word2vec從此一劍走天下,用word2vec輕松實(shí)現(xiàn)文本分類,文本相似性判斷,文本自動摘要,新聞自動配圖
第4部份 集外詞怎樣求embedding?多種解決方案,中文集外詞解決方案,段向量與基于深度學(xué)習(xí)的情感分析,實(shí)際分析長篇大論的影評是好評還是差評?
第5部份 更加復(fù)雜的情感分析問題:新浪微博情感傾向性分析,集體情感趨勢分析:輿情監(jiān)控,大企業(yè)公關(guān)部門和政府管理部門的管控利器
第6部份 LSTM詳解,用LSTM解決集外詞編碼問題,準(zhǔn)確率驚人的基于LSTM的命名實(shí)體識別解決方案,橫掃一切可轉(zhuǎn)化為標(biāo)注問題的場景
第7部份 Encoder-Decoder-Attention機(jī)制,橫掃一切“從序列到序列”場景的終極模型,機(jī)器翻譯,文本自動摘要,聊天機(jī)器人等都可歸結(jié)為此類場景下的問題。谷歌機(jī)器翻譯技術(shù)解讀,BBC新聞結(jié)合計(jì)算機(jī)視覺的語音識別(唇語識別)
第8部份 “春天麗日照晴川,十里桃花映滿山。燕子呢喃尋舊夢,清風(fēng)拂面柳如煙”,誰敢相信這是機(jī)器寫的詩?庖丁解牛剖析“機(jī)器濕人”。把生成式對抗網(wǎng)絡(luò)的思路遷移到自然語言處理(序列處理)場景:SeqGAN,利用SeqGAN創(chuàng)作詩歌,假冒奧巴馬演講詞,寫貝多芬式的音樂
第9部份 下一個人工智能熱點(diǎn)(自然語言處理,爬蟲技術(shù),圖論算法,圖數(shù)據(jù)庫等多項(xiàng)技術(shù)的綜合應(yīng)用):知識圖譜簡介,深度學(xué)習(xí)用于知識圖譜,在文本中用卷積網(wǎng)絡(luò)和LSTM析取實(shí)體之間的語義關(guān)系,怎樣用知識圖譜構(gòu)建QA系統(tǒng)(聊天機(jī)器人)? |