語音識別技術(shù)及應(yīng)用

期刊名字：溫州職業(yè)技術(shù)學(xué)院學(xué)報
文件大?。?04kb
論文作者：劉向華
作者單位：溫州職業(yè)技術(shù)學(xué)院
更新時間：2020-06-12
下載次數(shù)：次

論文簡介

第6卷第3期溫州職業(yè)技術(shù)學(xué)院學(xué)報Vol 6 No. 32006年9月Journal of wenzhou vocational Technical college語音識別技術(shù)及應(yīng)用劉向華(溫州職業(yè)技術(shù)學(xué)院計算機系,浙江溫州325035)[摘要]語音識別技術(shù)近年來得到了飛速的發(fā)展并且在越來越多的領(lǐng)域得到了廣泛的應(yīng)用。隱馬爾可夫模型(HM語音識別技術(shù)是一種基于訓(xùn)練數(shù)據(jù)提供的概率自動構(gòu)造識別系統(tǒng)的技術(shù),主要用于大量詞匯的語音識別,而且具有良好的識別性能和抗噪性能。因此,一般的語音識別系統(tǒng)都采用基于HM旳識別方法作為其基本算法。本文列舉了語音識別在教學(xué)中的應(yīng)用示例來分析其基本算法。[關(guān)鍵詞]語音識別技術(shù);隱馬爾可夫模型(HM;語音模型[中圖分類號]TN12.34[文獻標識碼]A[文章編號]1671-4326(2006)03-0033-03Speech Recognition Technology and its applicationLIU Xiang-huaComputer Science Department, Wenzhou Vocational Technical College, Wenzhou, 325035, China)Abstract: The speech recognition technology has boomed in recent years and is widely used in more andmore fields. The speech recognition technology of HMM is the technology that is based on the recognition systerof the auto-construction probability provided by the practical digit. It is mainly used in speech recognition of a largenumber of vocabularies with the fine property of recognition and anti-noise. Therefore, the common speech recog-nition system usually adopts the recognition approach based on HMM as its basic algorithm. This paper, demonKey words: Speech recognition technology; HMM; Language modey ysis on its basic algorithmstrating the application of the speech recognition in teaching, makes an ana0引言語音輸入識別結(jié)果特征提取語音識別技術(shù)是2000~2010年間信息技術(shù)領(lǐng)域重要的十大科技發(fā)展技術(shù)之一。語音識別是一門交叉學(xué)科,正逐步成為信息技術(shù)中人機接口的關(guān)鍵技術(shù)。語圖1語音識別系統(tǒng)的實現(xiàn)過程1音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵隱馬爾可夫模型( Hi dden mar kov Model s,簡稱盤,通過語音命令進行相應(yīng)的操作。語音技術(shù)的應(yīng)用HMM語音識別技術(shù)是一種統(tǒng)計技術(shù),它提供了一種基已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè)。于訓(xùn)練數(shù)據(jù)提供的概率自動構(gòu)造識別系統(tǒng)的技術(shù)。這語音識別技術(shù)是 Rabi ner等人在20世紀80年代引入語音識別領(lǐng)域與機器進行語音交流,讓機器明白你說什么,這的一種語音識別算法。該算法通過對大量語音數(shù)據(jù)進是人們長期以來夢寐以求的事情。近20年來,語音識行數(shù)據(jù)統(tǒng)計,建立識別條的統(tǒng)計模型,然后從待識別別技術(shù)取得顯著進步,開始從實驗室走向市場。預(yù)計語音中提取特征,與這些模型匹配,通過比較匹配分在未來10年內(nèi),語音識別技術(shù)將進入工業(yè)、家電、通數(shù)以獲得識別結(jié)果。通過大量的語音,就能夠荻得信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個穩(wěn)健的統(tǒng)計模型,能夠適應(yīng)實際語音中的各種突發(fā)個領(lǐng)域。一個完整的語音識別系統(tǒng)可大致分為三部情況?；贖M的算法23,主要用于大量詞匯的語音分,如圖1所示。識別系統(tǒng),而且其算法具有良好的識別性能和抗噪性1.1隱馬爾可夫語音識別技術(shù)能,故現(xiàn)在[收稿日期]2006-01-15TH中國煤化工HMM的識CNMHG[作者簡介劉向華(1977一),女,湖南隆回人,溫州職業(yè)技術(shù)學(xué)院計算機系助教溫州職業(yè)技術(shù)學(xué)院學(xué)報2006年9月別方法作為基本算法。一個典型的HMM語音識別過程=argnax[ B()≤i≤T包括以下幾個方面返回結(jié)果(1)利用前向、后向算法計算模型的形成觀察概S=B.(s-)t=T-1,T-2T-3,…,0率集p(X/中)。其計算方法如下:s=(S。51S2…,S)是最佳序列。初始狀態(tài):a(i)=丌1≤i≤N(4)根據(jù)最佳狀態(tài)序列對應(yīng)的值,給出候選音節(jié)%(9.1)ab(x)1t≤1可≤N聲韻母。(5)通過語言模型形成詞和句子1.2隱馬爾可夫語音識別技術(shù)的改進隊x4)=a(i)隨著語音識別研究工作的深入開展,HMM語音識那么p(x/中)=a(S)(S是最后的狀態(tài))別方法愈來愈受到人們的重視,基于HMM技術(shù)的識別(2)利用 Baum Wel ch算法求出最優(yōu)解 ar gax{p系統(tǒng)的缺點就在于統(tǒng)計模型的建立需要依賴一個較大(X/φ)}。其方法描述如下:的語音庫。這在實際工作中占有很大的工作量。且模5(i,j)表示t時狀態(tài)為i以及t+1時狀態(tài)為j的型所需要的存儲量和匹配計算(包括特征矢量的輸出概率,即i,j)=p(q=,q,,)概率計算)的運算量相對較大,通常需要具有一定容5(1,/D(q=,q,Wλ)量SRAM的DSP才能完成。另外,它的一個最主要的缺p( A)點是根據(jù)詞模型推出的狀態(tài)段長分布是指數(shù)分布,這q()a1b(0)(j)不符合語音的本質(zhì)屬性,因此,現(xiàn)在推出了一種非齊p(dλ)次的HM晤音識別模型( Dur at i on d stri but i on BasedHi dden№ br kov model,簡稱DDBH№M。在此模型中用q(1)ab(0-)9.(j)狀態(tài)的段長分布函數(shù)替代了齊次HMM中的狀態(tài)轉(zhuǎn)移矩點q()a(0,),)陣,徹底拋棄了“平穩(wěn)的假設(shè)”,而從非平穩(wěn)的角度考慮問題,使模型成為一種基于狀態(tài)段長分布的隱含Y()+i,)表示t時狀態(tài)為的概率,元= Mar kov模型。段長分布函數(shù)的引入澄清了經(jīng)典HM語(i)表示時刻1經(jīng)過狀態(tài)ⅰ次數(shù),a表示在時刻T內(nèi),音識別模型的許多矛盾, DB BHM比國際上流行的HMM狀態(tài)ⅰ轉(zhuǎn)移到狀態(tài)j的總次數(shù),除以在時刻T內(nèi),狀語音識別模型有更好的識別性能和更低的計算復(fù)雜度態(tài)i被經(jīng)過的總次數(shù),其公式如下(訓(xùn)練算法比流行的Baum算法復(fù)雜度低兩個數(shù)量級)由于該模型解除了對語音信號狀態(tài)的齊次性和對語音白(1,j)a, i特征的非相關(guān)性的限制,因此,為語音識別研究的深入發(fā)展提供了一個和諧的框架。1.3語音識別在教學(xué)中的應(yīng)用示例5(k)表示在時刻T內(nèi),經(jīng)過狀態(tài)j,并且狀態(tài)j對假設(shè)要為學(xué)校課件資源庫設(shè)立一個門衛(wèi),對要進應(yīng)的觀測事件為vx的總數(shù)除以時刻T內(nèi),經(jīng)過狀態(tài)入課件資源庫者進行口令驗證,當學(xué)生對麥克風(fēng)發(fā)出的總數(shù),其公式如下:“主人,請開門吧!”聲音時,打開課件資源庫,為用戶提供可利用的課件資源,否則在屏幕上顯示“口令不正確,請重輸?！钡木嫣崾?。而當連續(xù)3次發(fā)出錯(誤口令時,則提示“您已3次輸入錯誤口令,謝絕訪問!”,關(guān)閉系統(tǒng)結(jié)束運行。利用ⅤB開發(fā)的門衛(wèi)模塊(3)利用 Vi ter bi算法解出最佳狀態(tài)轉(zhuǎn)移序列。其如下:界面為課件資源庫背景;主要對象為 Direct方法描述如下Speech Recogni ti on,其№ne屬性設(shè)為 Direct sr;V(i)=n≤i≤ N Comand1按鈕,其 Pi ctur e屬性設(shè)為人耳圖片,用于B(0激活口令監(jiān)聽; Text boⅹ,其Text屬性設(shè)為空,用于V, (j)=xlv.1(i)a,b, (X )顯示語音命令短語。(1≤t≤;1≤j≤N其語音識別程序如下B()=ar gnax[,(i)a, b, (Y)mret vallo凵中國煤化工(1≤t≤T;1≤j≤NPri vate sCNMHG最佳記錄=ax[v,(i)]1≤i≤TDirect SR ur anar UI IIDL 1 I ng i Gr ammar第6卷第3期劉向華:語音識別技術(shù)及應(yīng)用35+vbNewli ne查統(tǒng)計表明,多達85%以上的人對語音識別的信息查+"type=cgf"vb№ WLi ne+"[< star t丬]"+vb№ elI ne詢服務(wù)系統(tǒng)的性能表示滿意?？梢灶A(yù)測,在近5~10+"< star t>=主人,請開門吧!"+ vbNewli ne年內(nèi),語音識別系統(tǒng)的應(yīng)用將更加廣泛,各種各樣的End Sub語音識別系統(tǒng)產(chǎn)品將不斷出現(xiàn)在市場上。語音識別技Conmand1. Cl i cko術(shù)在人工郵件分揀中的作用也日益顯現(xiàn),發(fā)展前景誘I=I+1人。一些發(fā)達國家的郵政部門已經(jīng)使用了這一系統(tǒng),D rect sR Acti vat e語音識別技術(shù)逐漸成為郵件分揀的新技術(shù)。它可以克End sub服手工分揀單純依靠分揀員記憶力的不足,解決人員Pri vate Sub di rect sr phr asefi ni sh( Byval科lags成本過高的問題,提高郵件處理的效率和效益。就教As Long, Byval begi nhi As Long, Byval begi nl o As育領(lǐng)域來講,語音識別技術(shù)的最直接的應(yīng)用就是幫助ong, Byval enshi As Long, Byval endl o As Long,用戶更好地練習(xí)語言技巧。如一家美國公司開發(fā)了一Byval Phrase As String, Byval parsed As String, Byal套《Ta|ktoM》,當用戶跟著計算機說完一句話后resul ts As Long計算機會同時顯示標準發(fā)音和用戶發(fā)音的波形比照Txt Command. t ext=phr ase圖,并給出分數(shù)。用戶可以反復(fù)對比傾聽來體會這種Sel ect Case phr ase差異。不難想象,將語音技術(shù)應(yīng)用于教育方面的空間Case i主人,請開門吧!是極其巨大的。就娛樂方面來講,也可以激發(fā)出許多Ret val Shel I ("C: \sour ce\ sour ce. exe", 1)的新應(yīng)用。如通過電話進行電視MV點播時,可以直Case El se接說出哪個歌手的哪首歌,電視臺就接受語音輸入而IfI>=3 Then txt command.text="您已3次輸入播放相應(yīng)的曲目。隨著網(wǎng)絡(luò)技術(shù)的進一步發(fā)展,電子錯誤口令,謝絕訪問!":End商務(wù)也正在日漸流行。語音識別技術(shù)和電子商務(wù)的結(jié)Txt Corand.text="口令不正確,請重輸。合,將創(chuàng)造一種全新的交易方式,我們可以做到足不End Sel ect出戶就能夠“逛”商場,購買到我們所需要的東西。而End Sub且,這種語音交流的方式比起網(wǎng)上購物更具有親和2語音識別技術(shù)的應(yīng)用前景力,同時也為人類的工作和生活帶來極大的便利語音識別技術(shù)發(fā)展到今天,特別是中小詞匯量非3結(jié)束語特定人語音識別系統(tǒng)識別精度已經(jīng)大于98%,對特定語音識別技術(shù)在現(xiàn)代社會中已經(jīng)得到了廣泛的應(yīng)人語音識別系統(tǒng)的識別精度就更高。這些技術(shù)已經(jīng)能用,幾乎可以延伸到各個領(lǐng)域。隨著研究的深入,會夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的有更多的服務(wù)、設(shè)備等與此項技術(shù)相結(jié)合,人們將不發(fā)展,這些復(fù)雜的語音識別系統(tǒng)也已經(jīng)完全可以制成必再通過按鍵來輸入,也不必使用鼠標和鍵盤,只需專用芯片,大量生產(chǎn)。在西方經(jīng)濟發(fā)達國家,大量的要我們開口說話。與人類進步過程中其他任何一種技語音識別產(chǎn)品已經(jīng)進入市場和服務(wù)領(lǐng)域。一些用戶交術(shù)的發(fā)展歷程一樣,語音和語言處理技術(shù)在不同的成換機、電話機、手機已經(jīng)包含了語音識別撥號功能、語熟階段都有一個不同的應(yīng)用形式和不同的市場定位音記事本、語音智能玩具等產(chǎn)品,同時也包括語音識在經(jīng)歷從技術(shù)到市場、再從市場到技術(shù)的螺旋式上升別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識的過程中,這種技術(shù)將變得越來越成熟,市場也將越別口語對話系統(tǒng)查詢有關(guān)的機票、旅游、銀行信息。調(diào)來越廣。[參考文獻[1]D G St or k and ME. Hennecke, edi t or s, Speeng by Hunans and Machi nes[ M. BerI i n: Comput er and Syst erms Sci ences, 1996. 331-3502] Zhan Puni ng, Wang Zuoyi ng. I mpr ovement ofMarkow nodel for speech recogni ti on[J] Act a El ectroni ca Si ni ca, 1994, (1):9-15.[3]P. L. Si l sbee and A. C. Bovi k, Comput er I i pr eadi ng for i mpr oved accur acy i n aut omat ic speech recogni ti on[J]. I EEE Trans acti ons on Speech and Audi o Pr ocessi ng, 1996, 4(5): 337-3514]何好義,計算機語音識別技術(shù)及其應(yīng)用[].大眾科技,2005,(6)5]譚保華,熊健民,劉么和,湖北工學(xué)院招生語音應(yīng)答系統(tǒng)[J].湖北工學(xué)院學(xué)報,2003,(5)6]朱民雄,聞新,黃健群,等,計箅機語音技術(shù)[M.北京:北京航空航天大學(xué)出版社,2002YH化號

論文截圖