亚洲国产天堂久久综合226114,亚洲va中文字幕无码毛片,亚洲av无码片vr一区二区三区,亚洲av无码乱码在线观看,午夜爽爽爽男女免费观看影院

課程目錄:Python爬蟲及文本分析學(xué)術(shù)應(yīng)用培訓(xùn)
4401 人關(guān)注
(78637/99817)
課程大綱:

          Python爬蟲及文本分析學(xué)術(shù)應(yīng)用培訓(xùn)

 

 

 

 

Python爬蟲及文本分析學(xué)術(shù)應(yīng)用
爬蟲與文本分析概述
結(jié)構(gòu)化數(shù)據(jù)/文本數(shù)據(jù)的獲取方法概述

高效的編程語(yǔ)言實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)處理與文本分析的價(jià)值,文本分析簡(jiǎn)介

python編程基礎(chǔ)
標(biāo)準(zhǔn)數(shù)據(jù)類型

控制流

自定義函數(shù)

os文件處理模塊

python重要數(shù)據(jù)科學(xué)計(jì)算庫(kù)
Numpy

Pandas

Matplotlib

Pyecherts

wordcloud

爬蟲基礎(chǔ)
網(wǎng)絡(luò)爬蟲簡(jiǎn)介

爬蟲的基本原理

HTML 簡(jiǎn)介

數(shù)據(jù)存儲(chǔ)

網(wǎng)頁(yè)抓取
使用Urllib網(wǎng)頁(yè)抓取

requests實(shí)戰(zhàn)

BeautifulSoup4
BeautifulSoup 簡(jiǎn)介

BeautifulSoup 的安裝

BS 對(duì)象的種類

遍歷文檔樹

搜索文檔樹

Xpath
什么是Xpath

Xpath開發(fā)工具

Xpath常用規(guī)則

動(dòng)態(tài)渲染頁(yè)面抓取
Selenium 的安裝

基本使用

聲明瀏覽器對(duì)象

訪問(wèn)頁(yè)面

定位元素

節(jié)點(diǎn)交互

動(dòng)作鏈

執(zhí)行 JavaScript

獲取節(jié)點(diǎn)信息

延時(shí)等待

前進(jìn)后退

Cookies

選項(xiàng)卡管理

異常處理

爬蟲實(shí)戰(zhàn)
網(wǎng)站的爬取

電商評(píng)價(jià)文本爬取

可供讀取數(shù)據(jù)類型介紹
excel、pdf、txt、html、mysql數(shù)據(jù)庫(kù)文件介紹

數(shù)據(jù)的存儲(chǔ)
將數(shù)據(jù)存儲(chǔ)到excel表

將數(shù)據(jù)存儲(chǔ)到txt文本

將數(shù)據(jù)存儲(chǔ)到csv

數(shù)據(jù)的讀取
python批量讀取多個(gè)多子表excel

python讀取txt文件

python讀取csv

正則表達(dá)式
什么是正則表達(dá)式

正則表達(dá)式匹配規(guī)則

re模塊的使用

文本處理常用字符串方法精講
字符串的不變性

排序行

段落格式化

二進(jìn)制轉(zhuǎn)化為ASCII

重復(fù)字詞過(guò)濾

提取郵件地址

提取URL地址

大寫轉(zhuǎn)換

符號(hào)化

刪除停用詞

同義詞與反義詞處理

文本翻譯

單詞替換

拼寫檢查

WordNet接口

語(yǔ)料訪問(wèn)

標(biāo)記單詞

塊和裂口

塊分類

文本分類

雙字母組

文字改寫

文字換行

頻率分布

文字摘要

詞干算法

約束搜索

numpy數(shù)值計(jì)算要點(diǎn)串講

Pandas數(shù)據(jù)處理串講

python統(tǒng)計(jì)圖表展示

重要的庫(kù)
jieba庫(kù)簡(jiǎn)介

關(guān)鍵詞提取
關(guān)鍵詞任務(wù)概述

TF-IDF算法原理

相似文章推薦原理介紹

實(shí)例:紅樓夢(mèng)文本分析的實(shí)現(xiàn)

文件與詞庫(kù)的讀取

完成分詞與詞云圖的繪制

文本分類
新聞素材介紹

新聞內(nèi)容的關(guān)鍵詞提取

詞向量轉(zhuǎn)化與ngram模型

樸素貝葉斯算法完成新聞分類

文本聚類
語(yǔ)料的加載,文本特征的提取,利用聚類算法對(duì)文本進(jìn)行聚類

主題模型,情感分析