自然語(yǔ)言處理是機(jī)器學(xué)習(xí)當(dāng)前最神秘,最紅火,最具難度,也最讓引人關(guān)注的分支。在搜索引擎,語(yǔ)音識(shí)別,情感分析,大批量文檔處理,機(jī)器翻譯,自動(dòng)應(yīng)答等各個(gè)領(lǐng)域有著前程無(wú)可限量的應(yīng)用??梢栽囅胍慌_(tái)能理解自然語(yǔ)言,并且和人類能用語(yǔ)言純熟交流的機(jī)器,那還能叫機(jī)器么?文本挖掘(Text Mining)是數(shù)據(jù)挖掘以及自然語(yǔ)言處理技術(shù)衍生的一個(gè)分支,挖掘?qū)ο笸ǔJ欠墙Y(jié)構(gòu)化的文本數(shù)據(jù),常見(jiàn)的文本挖掘?qū)ο蟀ňW(wǎng)頁(yè)所產(chǎn)生的BBS留言、博客、微博、新聞跟貼與轉(zhuǎn)貼等。此外,擁有大型呼叫中心或郵件系統(tǒng)的企業(yè),call center或mail積攢下來(lái)的大量語(yǔ)言記錄也可以通過(guò)文本挖掘獲得眾多具有商業(yè)價(jià)值的知識(shí)。我們用計(jì)算機(jī)去處理文字,語(yǔ)音,理解語(yǔ)言,這些本來(lái)是高等生物人類才能做的事情,使到系統(tǒng)能產(chǎn)生“機(jī)器也具有人類同樣的智慧”的震驚效果,無(wú)需置疑肯定會(huì)給顧客和觀眾留下極其深刻的印象。
第1節(jié) 自然語(yǔ)言處理與文本挖掘概述。強(qiáng)大的系統(tǒng)后面都有一個(gè)強(qiáng)大的語(yǔ)料庫(kù)。形式語(yǔ)言,機(jī)器詩(shī)人是怎樣煉成的?
第2節(jié) 自動(dòng)機(jī)及其應(yīng)用,文稿自動(dòng)校正,歧義消除
第3節(jié) 語(yǔ)言模型,平滑方法。應(yīng)用案例:語(yǔ)音識(shí)別,分詞消岐
第4節(jié) 概率圖模型,生成式模型與判別式模型,貝葉斯網(wǎng),馬爾科夫鏈,隱馬爾科夫模型HMM,應(yīng)用案例:語(yǔ)音識(shí)別與分詞
第5節(jié) 馬爾科夫網(wǎng),最大熵模型,條件隨機(jī)場(chǎng)CRF,實(shí)現(xiàn)HMM和CRF的軟件。應(yīng)用案例:使用最大熵消除歧義,使用CRF進(jìn)行標(biāo)注
第6節(jié) 漢語(yǔ)分詞專題。世界上最難的語(yǔ)言名不虛傳
第7節(jié) 命名實(shí)體識(shí)別,詞性標(biāo)注,從文本里挖出最重要的內(nèi)容
第8節(jié) 句法分析,找出句子的重點(diǎn)
第9節(jié) 語(yǔ)義分析與篇章分析,讓機(jī)器象語(yǔ)言學(xué)家那樣思考
第10節(jié) 文本分類,情感分析。應(yīng)用案例:互聯(lián)網(wǎng)自動(dòng)門戶,評(píng)論傾向性分析
第11節(jié) 信息檢索系統(tǒng),搜索引擎原理,問(wèn)答系統(tǒng),應(yīng)用案例:客服機(jī)器人是怎么造出來(lái)的?
第12節(jié) 文本深度挖掘:自動(dòng)文摘與信息抽取
第13節(jié) 機(jī)器翻譯與語(yǔ)音識(shí)別技術(shù)介紹。IBM Watson系統(tǒng)的認(rèn)知智慧。 |