
語音識別培訓
第一節(jié)
內(nèi)容:前世今生——語音識別的發(fā)展過程簡介;
這一節(jié)將介紹語音識別技術(shù)自二十世紀五十年代誕生以來的簡要發(fā)展歷史,按照核心技術(shù)的發(fā)展層次劃分為幾個時期,
簡要介紹語音識別過程的主要組成部分,比如:語音信號預處理,聲學模型,語音模型,建模與評價方法等。
第二節(jié)
內(nèi)容:糧草先行——語音信號預處理;
這一節(jié)將介紹作為語音識別系統(tǒng)前端的信號預處理技術(shù),按照不同場景的分類,講述傳統(tǒng)的單通道、
多通道信號處理技術(shù),同時結(jié)合實例,說明語音信號預處理在語音識別系統(tǒng)中的常用實現(xiàn)方法和重要作用。
這里的實例包括:語音識別云服務,會議室麥克風定位,智能手機和平板電腦上的麥克風設(shè)置。
第三節(jié)
內(nèi)容:刀光劍影——聲學模型的建模與評價方法;
這一節(jié)將介紹語音識別系統(tǒng)中為核心的部分,即聲學模型的建模過程,簡要介紹聲學模型建模方法的發(fā)展歷史,
重點分析目前主流的建模方法,適當講解前沿的研究內(nèi)容。
目前工業(yè)界主要采用的建模方法是GMM+HMM,其正在向DNN+HMM演進,
因此這里將以GMM+HMM的框架為主進行講解,同時適當介紹DNN+HMM的框架??梢园才殴I(yè)界的實例,但是不安排講解具體的開源工具代碼。
第四節(jié)
內(nèi)容:處變不驚——語言模型的建模與評價方法;
這一節(jié)介紹主流的語音模型的建模過程,不同于聲學模型的發(fā)展,語音模型相對固定,
這里只需要講解常用的語言模型工具即可,同時完整回顧從語音信號預處理到終識別結(jié)果的系統(tǒng)框架,語音識別系統(tǒng)性的介紹完成。
第五節(jié)
內(nèi)容:初放新英——語音識別前沿簡介;