自然語(yǔ)言處理是機(jī)器學(xué)習(xí)當(dāng)前最神秘,最紅火,最具難度,也最讓引人關(guān)注的分支。在搜索引擎,語(yǔ)音識(shí)別,情感分析,大批量文檔處理,機(jī)器翻譯,自動(dòng)應(yīng)答等各個(gè)領(lǐng)域有著前程無(wú)可限量的應(yīng)用??梢栽囅胍慌_(tái)能理解自然語(yǔ)言,并且和人類能用語(yǔ)言純熟交流的機(jī)器,那還能叫機(jī)器么?文本挖掘(Text Mining)是數(shù)據(jù)挖掘以及自然語(yǔ)言處理技術(shù)衍生的一個(gè)分支,挖掘?qū)ο笸ǔJ欠墙Y(jié)構(gòu)化的文本數(shù)據(jù),常見的文本挖掘?qū)ο蟀ňW(wǎng)頁(yè)所產(chǎn)生的BBS留言、博客、微博、新聞跟貼與轉(zhuǎn)貼等。此外,擁有大型呼叫中心或郵件系統(tǒng)的企業(yè),call center或mail積攢下來(lái)的大量語(yǔ)言記錄也可以通過(guò)文本挖掘獲得眾多具有商業(yè)價(jià)值的知識(shí)。我們用計(jì)算機(jī)去處理文字,語(yǔ)音,理解語(yǔ)言,這些本來(lái)是高等生物人類才能做的事情,使到系統(tǒng)能產(chǎn)生“機(jī)器也具有人類同樣的智慧”的震驚效果,無(wú)需置疑肯定會(huì)給顧客和觀眾留下極其深刻的印象。
Python作為一門主流的編程語(yǔ)言,在自然語(yǔ)言的處理中也是有非常多的應(yīng)用。那么就讓我們一起來(lái)學(xué)習(xí)怎么使用Python進(jìn)行自然語(yǔ)言處理吧!? ???
第一部份:自然語(yǔ)言分析利器——Python入門
第二部份:自然語(yǔ)言分析工具包——NLTK入門。編程實(shí)戰(zhàn):NLTK包的安裝與常用方法介紹
第三部份:語(yǔ)料庫(kù)的獲取與詞頻分析。編程實(shí)戰(zhàn):詞條頻率分布圖的繪制
第四部份:原始文本資料的讀取與處理。編程實(shí)戰(zhàn):使用正則表達(dá)式實(shí)現(xiàn)英文分詞
第五部份:中文分詞的算法與實(shí)現(xiàn)。編程實(shí)戰(zhàn):結(jié)巴分詞器的使用
第六部份:詞條分類與詞條屬性。編程實(shí)戰(zhàn):中英文詞性標(biāo)注
第七部份:文本挖掘之文本分類器。編程實(shí)戰(zhàn):新聞?lì)悇e分類
第八部份:文本挖掘之文本聚類。編程實(shí)戰(zhàn):百度詞條聚類分析
第九部份:文本信息提取。編程實(shí)戰(zhàn):結(jié)構(gòu)化數(shù)據(jù)提取系統(tǒng)
第十部份:句子語(yǔ)法分析。編程實(shí)戰(zhàn):自動(dòng)語(yǔ)法樹構(gòu)建系統(tǒng)
第十一部份:讓計(jì)算機(jī)讀懂我們——文本語(yǔ)義分析實(shí)現(xiàn)。編程實(shí)現(xiàn):智能問答系統(tǒng)
第十二部份:語(yǔ)言數(shù)據(jù)管理。編程實(shí)踐:語(yǔ)料庫(kù)的設(shè)計(jì)與創(chuàng)建 |