文本挖掘(TM),又稱自然語言處理(NLP),是AI時代炙手可熱的數(shù)據(jù)分析挖掘前沿領(lǐng)域,其所涉及的人機對話系統(tǒng),推薦算法,文本分類等技術(shù)在BAT等企業(yè)中都得到廣泛應用。
本課程將使用經(jīng)典武俠小說、大眾點評抓取結(jié)果、微博語料數(shù)據(jù)等多個實際案例進行教學。
本次課程將會從最基礎的分詞、詞袋模型、分布式表示等概念開始,全面介紹文本挖掘技術(shù)的各個方面,特別會針對目前最熱的word2vec,gensim 等結(jié)合實際案例進行學習,幫助學員從零基礎直接升級至業(yè)界的最新技術(shù)前沿。
學習完本課程后,學員將能夠獨立使用Python環(huán)境完成中文文本挖掘的各種工作。
【學員基礎】
學員需要懂得Python語言的基本編程知識。
【課程大綱】
第1章:文本挖掘概述
第2章:磨刀不誤砍柴工
第3章:分詞
第4章:詞云展示
第5章:文檔信息的向量化
第6章:關(guān)鍵詞提取
第7章:抽取文本主題
第8章:文本相似度
第9章:文檔分類
第10章:情感分析
第10章:自動摘要
第11章:自動寫作