中文字幕另类精品,亚洲欧美一区二区蜜桃,日本在线精品视频免费,孩交精品乱子片免费

<sub id="3hn2b"><ol id="3hn2b"></ol></sub>

<xmp id="3hn2b"></xmp>

<td id="97las"><input id="97las"></input></td>

新聞中心

EEPW首頁 > 消費電子 > 設(shè)計應(yīng)用 > GMM-HMM語音識別原理詳解

GMM-HMM語音識別原理詳解

作者：時間：2017-10-25 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

　　本文簡明講述GMM-HMM在語音識別上的原理，建模和測試過程。

本文引用地址：http://www.antipu.com.cn/article/201710/368485.htm

　　1. 什么是Hidden Markov Model？

　　HMM要解決的三個問題：

　　1） Likelihood

　　2） Decoding

　　3） Training

　　2. GMM是什么？怎樣用GMM求某一音素（phoneme）的概率？

　　3. GMM+HMM大法解決語音識別

　　3.1 識別

　　3.2 訓(xùn)練

　　3.2.1 Training the params of GMM

　　3.2.2 Training the params of HMM

　　====================================================================

　　1. 什么是Hidden Markov Model？

　　

　　ANS：一個有隱節(jié)點（unobservable）和可見節(jié)點（visible）的馬爾科夫過程（見詳解）。

　　隱節(jié)點表示狀態(tài)，可見節(jié)點表示我們聽到的語音或者看到的時序信號。

　　最開始時，我們指定這個HMM的結(jié)構(gòu)，訓(xùn)練HMM模型時：給定n個時序信號y1...yT（訓(xùn)練樣本），用MLE（typically implemented in EM）估計參數(shù)：

　　1. N個狀態(tài)的初始概率

　　2. 狀態(tài)轉(zhuǎn)移概率a

　　3. 輸出概率b

　　--------------

　　在語音處理中，一個word由若干phoneme（音素）組成；

　　每個HMM對應(yīng)于一個word或者音素（phoneme）

　　一個word表示成若干states，每個state表示為一個音素

　　用HMM需要解決3個問題：

　　1） Likelihood：一個HMM生成一串observation序列x的概率 the Forward algorithm>

　　

　　其中，αt（sj）表示HMM在時刻t處于狀態(tài)j，且observation = {x1，。。.，xt}的概率

，

　　aij是狀態(tài)i到狀態(tài)j的轉(zhuǎn)移概率，

　　bj（xt）表示在狀態(tài)j的時候生成xt的概率，

　　2）Decoding：給定一串observation序列x，找出最可能從屬的HMM狀態(tài)序列 the Viterbi algorithm>

　　在實際計算中會做剪枝，不是計算每個可能state序列的probability，而是用Viterbi approximation：

　　從時刻1：t，只記錄轉(zhuǎn)移概率最大的state和概率。

　　記Vt（si）為從時刻t-1的所有狀態(tài)轉(zhuǎn)移到時刻t時狀態(tài)為j的最大概率：

　　記為：從時刻t-1的哪個狀態(tài)轉(zhuǎn)移到時刻t時狀態(tài)為j的概率最大；

　　進行Viterbi approximation過程如下：

　　

　　然后根據(jù)記錄的最可能轉(zhuǎn)移狀態(tài)序列進行回溯：

　　

　　3）Training：給定一個observation序列x，訓(xùn)練出HMM參數(shù)λ = {aij， bij} the EM （Forward-Backward） algorithm

　　這部分我們放到“3. GMM+HMM大法解決語音識別”中和GMM的training一起講

　　---------------------------------------------------------------------
GMM是什么？#e#

　　2. GMM是什么？怎樣用GMM求某一音素（phoneme）的概率？

　　2.1 簡單理解混合高斯模型就是幾個高斯的疊加...e.g. k=3

　　

　　

　　fig2. GMM illustration and the probability of x

　　2.2 GMM for state sequence

　　每個state有一個GMM，包含k個高斯模型參數(shù)。如”hi“（k=3）：

　　PS：sil表示silence（靜音）

　　

　　fig3. use GMM to estimate the probability of a state sequence given observation {o1， o2， o3}

　　其中，每個GMM有一些參數(shù)，就是我們要train的輸出概率參數(shù)

　　

　　fig4. parameters of a GMM

　　怎么求呢？和KMeans類似，如果已知每個點x^n屬于某每類 j 的概率p（j|x^n），則可以估計其參數(shù)：

　　

　　其中

　　只要已知了這些參數(shù)，我們就可以在predict（識別）時在給定input sequence的情況下，計算出一串狀態(tài)轉(zhuǎn)移的概率。如上圖要計算的state sequence 1->2->2概率：

　　

　　fig5. probability of S1->S2->S3 given o1->o2->o3

　　---------------------------------------------------------------------
GMM+HMM大法解決語音識別#e#

　　3. GMM+HMM大法解決語音識別

　　我們獲得observation是語音waveform，以下是一個詞識別全過程：

　　1）將waveform切成等長frames，對每個frame提取特征（e.g. MFCC），

　　2）對每個frame的特征跑GMM，得到每個frame（o_i）屬于每個狀態(tài)的概率b_state（o_i）

　　

　　fig6. complete process from speech frames to a state sequence

　　3）根據(jù)每個單詞的HMM狀態(tài)轉(zhuǎn)移概率a計算每個狀態(tài)sequence生成該frame的概率; 哪個詞的HMM 序列跑出來概率最大，就判斷這段語音屬于該詞

　　宏觀圖：

　　

　　fig7. Speech recognition， a big framework

　　好了，上面說了怎么做識別。那么我們怎樣訓(xùn)練這個模型以得到每個GMM的參數(shù)和HMM的轉(zhuǎn)移概率什么的呢？

　?、賂raining the params of GMM

　　GMM參數(shù)：高斯分布參數(shù)：

　　從上面fig4下面的公式我們已經(jīng)可以看出來想求參數(shù)必須要知道P（j|x），即，x屬于第j個高斯的概率。怎么求捏？

　　

　　fig8. bayesian formula of P（ j | x ）

　　根據(jù)上圖 P（j | x），我們需要求P（x|j）和P（j）去估計P（j|x）。

　　這里由于P（x|j）和P（j）都不知道，需要用EM算法迭代估計以最大化P（x） = P（x1）*p（x2）*.。.*P（xn）：

　　A. 初始化（可以用kmeans）得到P（j）

　　B. 迭代

　　E（estimate）-step：根據(jù)當(dāng)前參數(shù) （means， variances， mixing parameters）估計P（j|x）

　　M（maximization）-step：根據(jù)當(dāng)前P（j|x）計算GMM參數(shù)（根據(jù)fig4 下面的公式：）

　　
其中

　　②Training the params of HMM

　　前面已經(jīng)有了GMM的training過程。在這一步，我們的目標(biāo)是：從observation序列中估計HMM參數(shù)λ；

　　假設(shè)狀態(tài)->observation服從單核高斯概率分布：

　　則λ由兩部分組成：

　　

　　HMM訓(xùn)練過程：迭代

　　E（estimate）-step：給定observation序列，估計時刻t處于狀態(tài)sj的概率

　　M（maximization）-step：根據(jù)重新估計HMM參數(shù)aij.

　　其中，

　　E-step：給定observation序列，估計時刻t處于狀態(tài)sj的概率

　　為了估計，定義： t時刻處于狀態(tài)sj的話，t時刻未來observation的概率。即

　　這個可以遞歸計算：β_t（si）=從狀態(tài) si 轉(zhuǎn)移到其他狀態(tài) sj 的概率aij * 狀態(tài) i 下觀測到x_{t+1}的概率bi（x_{t+1}） * t時刻處于狀態(tài)sj的話{t+1}后observation概率β_{t+1}（sj）

　　即：

　　

　　定義剛才的為state occupation probability，表示給定observation序列，時刻t處于狀態(tài)sj的概率P（S（t）=sj | X，λ）。根據(jù)貝葉斯公式p（A|B，C） = P（A，B|C）/P（B|C），有：

　　

　　由于分子p（A，B|C）為

　　

　　其中，αt（sj）表示HMM在時刻t處于狀態(tài)j，且observation = {x1，。。.，xt}的概率；

　　： t時刻處于狀態(tài)sj的話，t時刻未來observation的概率；

　　且

　　finally，帶入的定義式有：

　　

　　好，終于搞定！對應(yīng)上面的E-step目標(biāo)，只要給定了observation和當(dāng)前HMM參數(shù) λ，我們就可以估計了對吧（*^__^*）

　　M-step：根據(jù)重新估計HMM參數(shù)λ：

　　對于λ中高斯參數(shù)部分，和GMM的M-step是一樣一樣的（只不過這里寫成向量形式）：

　　

　　對于λ中的狀態(tài)轉(zhuǎn)移概率aij，定義C（Si->Sj）為從狀態(tài)Si轉(zhuǎn)到Sj的次數(shù)，有

　　

　　實際計算時，定義每一時刻的轉(zhuǎn)移概率為時刻t從si->sj的概率：

　　

　　那么就有：

　　

　　把HMM的EM迭代過程和要求的參數(shù)寫專業(yè)點，就是這樣的：

　　

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 語音識別 生物識別

評論

相關(guān)推薦

JavaScript語音識別庫-Julius

視頻 JavaScript 語音識別 Julius | 2015-07-07

生物識別迎百億市場規(guī)模 “身體密碼”或為安全鑰匙

崔建巧 | 2016-10-27

基于Infineon SoC藍牙CYW20835之智能遙控器方案

物聯(lián)網(wǎng)與傳感器英飛凌藍牙 BT 遙控器紅外信號傳感器語音識別 2.4g 語音遙控 cyw20835 | 2023-08-02

PB與CanvasBio合作針對筆記本電腦的生物識別方案

物聯(lián)網(wǎng)與傳感器 PB CanvasBio 筆記本電腦生物識別 | 2022-12-22

語音識別及其定點DSP實現(xiàn)

設(shè)計方案語音識別 DSP C語言 | 2015-03-28

微軟197億美元完成對Nuance的收購目標(biāo)不止在于語音識別市場

微軟 Nuance 收購語音識別 | 2022-03-10

生物識別技術(shù)原理解析

dolphin | 2014-06-12

指紋芯片F(xiàn)CD4A14的原理及應(yīng)用

資源下載愛特梅爾公司指紋芯片 FCD4A14 生物識別指紋傳感器 | 2007-02-16

電視機智能聲控選合系統(tǒng)設(shè)計與實現(xiàn)

資源下載語音識別彩電遙控智能聲控選臺 | 2007-02-16

孤立詞語音識別系統(tǒng)的DSP實現(xiàn)

設(shè)計方案孤立詞 DSP 語音識別 | 2015-03-28

賽昉科技重磅發(fā)布全球首款基于RISC-V人工智能視覺處理平臺 ——驚鴻7100

驚鴻7100 RISC-V指令集深度學(xué)習(xí) 圖像處理語音識別機器視覺 | 2020-10-10

新一代語音識別：可徹底改變車內(nèi)體驗的技術(shù)

汽車電子語音識別生物識別人工智能 | 2024-07-18

基于DTW模型的語音識別

資源下載 DTW模型語音識別 MATLAB | 2007-04-19

大聯(lián)大品佳集團推出基于MediaTek產(chǎn)品的亞馬遜智能物聯(lián)網(wǎng)語音識別方案

物聯(lián)網(wǎng)與傳感器大聯(lián)大品佳 MediaTek 亞馬遜語音識別 | 2022-09-08

生物簽名認證為生物識別市場帶來新機遇

liujt_ic | 2003-04-09

談?wù)劗?dāng)前：離線語音識別與在線語音識別的優(yōu)缺點

白嶺 | 2020-02-18

語音識別在遙控系統(tǒng)中的應(yīng)用設(shè)計

資源下載語音識別 DTW FED FRED 學(xué)習(xí)型遙控器 | 2007-04-19

基于STM32智能家居系統(tǒng)的設(shè)計與實現(xiàn)

設(shè)計方案 STM32 語音識別服務(wù)器智能家居 | 2015-03-21

便攜設(shè)備中集成“一直聽”的語音觸發(fā)方案

nakey | 2016-03-09

本科畢業(yè)設(shè)計：一種基于發(fā)育思想的語音識別系統(tǒng)實現(xiàn)

資源下載語音識別人工智能自主式機器發(fā)育思想自組織映射網(wǎng)絡(luò) 簡單反饋神經(jīng)網(wǎng)絡(luò) | 2007-04-19

語音模組重啟及聲音輸出異常淺析

消費電子 202106 智能家居語音識別可靠性 | 2021-07-12

4 調(diào)用 Google 語音識別

視頻 Android Wear 圖靈機器人 Google 語音識別 | 2015-07-07

電容、光學(xué)、超聲波、手機指紋識別技術(shù)你了解嗎

消費電子生物識別指紋智能手機 | 2023-04-20

多模融合、加速集成,生物識別智能門禁市場發(fā)展擴容

物聯(lián)網(wǎng)與傳感器生物識別智能門禁 | 2023-08-07

利用MEMS麥克風(fēng)陣列定位并識別音頻或語音信源的技術(shù)方案

設(shè)計方案 ARM處理器 MEMS STM32F4 語音識別 | 2015-03-23

美光高性能內(nèi)存與存儲，推動 AI 豐富殘障人士生活體驗

網(wǎng)絡(luò)與存儲語音識別生成式AI 機器學(xué)習(xí) 內(nèi)存 | 2023-12-07

Nuance語音識別技術(shù)

設(shè)計方案語音識別 Nuance 消費電子 | 2015-02-03

焦點

推薦視頻

技術(shù)專區(qū)

<pre id="hkbg6"><s id="hkbg6"></s></pre>

<th id="hkbg6"></th>