中文久久久字幕|亚洲精品成人 在线|视频精品5区|韩国国产一区

歡迎來到優(yōu)發(fā)表網(wǎng),期刊支持:400-888-9411 訂閱咨詢:400-888-1571股權(quán)代碼(211862)

購物車(0)

期刊大全 雜志訂閱 SCI期刊 期刊投稿 出版社 公文范文 精品范文

語音識(shí)別系統(tǒng)范文

時(shí)間:2022-09-09 00:00:09

序論:在您撰寫語音識(shí)別系統(tǒng)時(shí),參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。

語音識(shí)別系統(tǒng)

第1篇

【關(guān)鍵詞】語音識(shí)別 模式識(shí)別 過程 統(tǒng)功能

1、語音識(shí)別技術(shù)原理簡(jiǎn)介

1.1語音識(shí)別技術(shù)的概念

語音識(shí)別技術(shù)(Auto Speech Recognize,簡(jiǎn)稱ASR)所要解決的問題是讓計(jì)算機(jī)能夠“聽懂”人類的語音,將語音中包含的文字信息“提取”出來。ASR技術(shù)在“能聽會(huì)說”的智能計(jì)算機(jī)系統(tǒng)中扮演著重要角色,相當(dāng)于給計(jì)算機(jī)系統(tǒng)安裝上“耳朵”,使其具備“能聽”的功能,進(jìn)而實(shí)現(xiàn)信息時(shí)代利用“語音”這一最自然、最便捷的手段進(jìn)行人機(jī)通信和交互。

1.2語音識(shí)別的系統(tǒng)組成

語音識(shí)別系統(tǒng)構(gòu)建過程整體上包括兩大部分:訓(xùn)練和識(shí)別。

1.2.1訓(xùn)練

訓(xùn)練通常是離線完成的,對(duì)預(yù)先收集好的海量語音、語言數(shù)據(jù)庫進(jìn)行信號(hào)處理和知識(shí)挖掘,獲取語音識(shí)別系統(tǒng)所需要的“聲學(xué)模型”和“語言模型”。

1.2.2識(shí)別

識(shí)別過程通常是在線完成的,對(duì)用戶實(shí)時(shí)的語音進(jìn)行自動(dòng)識(shí)別,可以分為“前端”和“后端”兩大模塊:“前端”模塊主要的作用是進(jìn)行端點(diǎn)檢測(cè)(去除多余的靜音和非說話聲)、降噪、特征提取等;“后端”模塊的作用是利用訓(xùn)練好的“聲學(xué)模型”和“語言模型”對(duì)用戶說話的特征向量進(jìn)行統(tǒng)計(jì)模式識(shí)別(又稱“解碼”),得到其包含的文字信息,此外,后端模塊還存在一個(gè)“自適應(yīng)”的反饋模塊,可以對(duì)用戶的語音進(jìn)行自學(xué)習(xí),從而對(duì)“聲學(xué)模型”和“語音模型”進(jìn)行必要的“校正”,進(jìn)一步提高識(shí)別的準(zhǔn)確率。

語音識(shí)別技術(shù)所面臨的問題是非常艱巨和困難的。盡管早在二十世紀(jì)五十年代,世界各國就開始了對(duì)這項(xiàng)技術(shù)孜孜不倦的研究,特別是最近二十年,國內(nèi)外非常多的研究機(jī)構(gòu)和企業(yè)都加入到語音識(shí)別技術(shù)的研究領(lǐng)域,投入了極大的努力,也取得了豐碩的成果,但是直到今天,距離該技術(shù)得到完美解決還存在著巨大的差距,不過這并不妨礙不斷進(jìn)步的語音識(shí)別系統(tǒng)在許多相對(duì)受限的場(chǎng)合下獲得成功的應(yīng)用。

如今,語音識(shí)別技術(shù)已經(jīng)發(fā)展成為涉及聲學(xué)、語言學(xué)、數(shù)字信號(hào)處理、統(tǒng)計(jì)模式識(shí)別等多學(xué)科技術(shù)的一項(xiàng)綜合性技術(shù)?;谡Z音識(shí)別技術(shù)研發(fā)的現(xiàn)代語音識(shí)別系統(tǒng)在很多場(chǎng)景下獲得了成功的應(yīng)用,不同任務(wù)條件下所采用的技術(shù)又會(huì)有所不同。

2、語音識(shí)別系統(tǒng)技術(shù)實(shí)現(xiàn)

語音識(shí)別系統(tǒng)選擇識(shí)別基元的要求是:有準(zhǔn)確的定義,能得到足夠數(shù)據(jù)進(jìn)行訓(xùn)練,具有一般性。系統(tǒng)所需的訓(xùn)練數(shù)據(jù)大小與模型復(fù)雜度有關(guān),模型設(shè)計(jì)得過于復(fù)雜以至于超出了所提供的訓(xùn)練數(shù)據(jù)的能力,會(huì)造成系統(tǒng)性能的急劇下降。

2.1聽寫機(jī)

2.1.1概念

大詞匯量、非特定人、連續(xù)語音識(shí)別系統(tǒng)通常稱為聽寫機(jī)。

2.1.2基本架構(gòu)

聽寫機(jī)是建立在前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu),訓(xùn)練時(shí)對(duì)每個(gè)基元用前向后向算法獲得模型參數(shù),識(shí)別時(shí)將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。針對(duì)漢語易于分割的特點(diǎn),先進(jìn)行分割再對(duì)每一段進(jìn)行解碼,是用以提高效率的一個(gè)簡(jiǎn)化方法。

2.1.3對(duì)話系統(tǒng)

用于實(shí)現(xiàn)人機(jī)口語對(duì)話的系統(tǒng)稱為對(duì)話系統(tǒng)。目前,受技術(shù)所限,對(duì)話系統(tǒng)往往是面向一個(gè)狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等等。它的前端是一個(gè)語音識(shí)別器,識(shí)別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語法分析器進(jìn)行分析獲取語義信息,再由對(duì)話管理器確定應(yīng)答信息,由語音合成器輸出?;谀壳暗南到y(tǒng)往往詞匯量有限的情況,也可以用提取關(guān)鍵詞的方法來獲取語義信息。

3、語音識(shí)別系統(tǒng)特性

語音識(shí)別系統(tǒng)的性能受許多因素的影響,包括不同的說話人、說話方式、環(huán)境噪音、傳輸信道等等。具有自適應(yīng)性與魯棒性。解決辦法可大致分為兩類:針對(duì)語音特征的方法(以下稱特征方法)和模型調(diào)整的方法(以下稱模型方法)。前者需要尋找更好的、高魯棒性的特征參數(shù),或是在現(xiàn)有的特征參數(shù)基礎(chǔ)上,加入一些特定的處理方法。后者是利用少量的自適應(yīng)語料來修正或變換原有的說話人無關(guān)(SI)模型,從而使其成為說話人自適應(yīng)(SA)模型。

4、語音識(shí)別的應(yīng)用

語音識(shí)別專用芯片的應(yīng)用領(lǐng)域,主要包括以下幾個(gè)方面:

4.1電話通信的語音撥號(hào)。特別是在中、高檔移動(dòng)電話上,現(xiàn)已普遍的具有語音撥號(hào)的功能。隨著語音識(shí)別芯片的價(jià)格降低,普通電話上也將具備語音撥號(hào)的功能。

4.2汽車的語音控制。由于在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號(hào)功能的免提電話通信方式。此外,對(duì)汽車的衛(wèi)星導(dǎo)航定位系統(tǒng)(GPS)的操作,汽車空調(diào)、照明以及音響等設(shè)備的操作,同樣也可以由語音來方便的控制。

4.3工業(yè)控制及醫(yī)療領(lǐng)域。當(dāng)操作人員的眼或手已經(jīng)被占用的情況下,在增加控制操作時(shí),最好的辦法就是增加人與機(jī)器的語音交互界面。由語音對(duì)機(jī)器發(fā)出命令,機(jī)器用語音做出應(yīng)答。

4.4個(gè)人數(shù)字助理(Personal Digital Assistant,PDA)的語音交互界面。PDA的體積很小,人機(jī)界面一直是其應(yīng)用和技術(shù)的瓶頸之一。由于在PDA上使用鍵盤非常不便,因此,現(xiàn)多采用手寫體識(shí)別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便?,F(xiàn)在業(yè)界一致認(rèn)為,PDA的最佳人機(jī)交互界面是以語音作為傳輸介質(zhì)的交互方法,并且已有少量應(yīng)用。隨著語音識(shí)別技術(shù)的提高,可以預(yù)見,在不久的將來,語音將成為PDA主要的人機(jī)交互界面。

4.5智能玩具。通過語音識(shí)別技術(shù),我們可以與智能娃娃對(duì)話,可以用語音對(duì)玩具發(fā)出命令,讓其完成一些簡(jiǎn)單的任務(wù),甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場(chǎng)潛力,而其關(guān)鍵在于降低語音芯片的價(jià)格。

4.6家電遙控。用語音可以控制電視機(jī)、VCD、空調(diào)、電扇、窗簾的操作,而且一個(gè)遙控器就可以把家中的電器皆用語音控起來,這樣,可以讓令人頭疼的各種電器的操作變得簡(jiǎn)單易行。

參考文獻(xiàn):

第2篇

1語音識(shí)別系統(tǒng)設(shè)計(jì)的技術(shù)依據(jù)

近年來國內(nèi)教育信息化趨勢(shì)更加明顯,英語教學(xué)活動(dòng)建立信息化平臺(tái)是師生所需,改變了早期英語課堂模式的不足之處。語音識(shí)別是計(jì)算機(jī)翻譯軟件不可缺少的一部分,如圖1,主要針對(duì)不同語言進(jìn)行識(shí)別處理,幫助學(xué)生快速地理解英語知識(shí)內(nèi)涵。語音識(shí)別技術(shù)主要包括:特征提取技術(shù)、模式匹配技術(shù)、模型訓(xùn)練技術(shù)等三大技術(shù),也是系統(tǒng)設(shè)計(jì)需考慮的重點(diǎn)。

1)特征提取技術(shù)。一般來說,語音識(shí)別系統(tǒng)輔助功能涉及到收錄、處理、傳遞等三個(gè)環(huán)節(jié),這也是語音識(shí)別系統(tǒng)設(shè)計(jì)的關(guān)鍵所在。計(jì)算機(jī)語言與自然語言之間存在極大的差異性,如何準(zhǔn)確識(shí)別兩種語言的差異性,這是翻譯軟件識(shí)別時(shí)必須解決的問題。特征提取技術(shù)是語音識(shí)別系統(tǒng)的基本構(gòu)成,主要負(fù)責(zé)對(duì)英語語言特征進(jìn)行提取,向翻譯器及時(shí)提供準(zhǔn)確的語言信號(hào),提高計(jì)算機(jī)翻譯工作的準(zhǔn)確系數(shù)。

2)模式匹配技術(shù)。語音識(shí)別系統(tǒng)要匹配對(duì)應(yīng)的功能模塊,以輔助師生在短時(shí)間內(nèi)翻譯出語言含義,避免人工翻譯語言失誤帶來的不便。模式匹配技術(shù)采用智能識(shí)別器,由翻譯器錄入語音之后自主化識(shí)別、分析,減小了人工翻譯語句的難度。例如,計(jì)算機(jī)軟件建立匹配模型,按照英語字、詞、句等結(jié)構(gòu)形式,自動(dòng)選擇相配套的翻譯模式,執(zhí)行程序命令即可獲得最終的語言結(jié)果,給予學(xué)生語音識(shí)別方面的幫助。

3)模型訓(xùn)練技術(shù)。設(shè)計(jì)語音識(shí)別系統(tǒng)是為了實(shí)現(xiàn)教育信息化,幫助教師解決英語課堂教學(xué)中遇到的翻譯難題,加深學(xué)生們對(duì)英語知識(shí)的理解能力。語音識(shí)別結(jié)束之后,翻譯器會(huì)自動(dòng)執(zhí)行模擬訓(xùn)練操作,為學(xué)生創(chuàng)建虛擬化的語音訓(xùn)練平臺(tái),這也是軟件識(shí)別系統(tǒng)比較實(shí)用的功能。模擬訓(xùn)練技術(shù)采用人機(jī)一體化設(shè)計(jì)思想,把翻譯器、語音識(shí)別器等組合起來執(zhí)行訓(xùn)練方式,快速地識(shí)別、判斷英語發(fā)聲水平,指導(dǎo)學(xué)生調(diào)整語音方式。

2英語翻譯器語音識(shí)別系統(tǒng)設(shè)計(jì)及應(yīng)用

英語翻譯器是現(xiàn)代化教學(xué)必備的操作工具,教師與學(xué)生借助翻譯器功能可準(zhǔn)確地理解英語含義,這對(duì)語音識(shí)別系統(tǒng)設(shè)計(jì)提出了更多要求。筆者認(rèn)為,設(shè)計(jì)語音識(shí)別系統(tǒng)要考慮翻譯器具體的工作流程,事先編排一套符合翻譯軟件工作的方案,如圖2,從而提高人機(jī)語言轉(zhuǎn)換速率。語音識(shí)別系統(tǒng)設(shè)計(jì)及應(yīng)用情況:

1)識(shí)別模塊。語音識(shí)別方法主要是模式匹配法,根據(jù)不同翻譯要求進(jìn)行匹配處理,實(shí)現(xiàn)英語翻譯的精準(zhǔn)性。一是在訓(xùn)練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫;二是在識(shí)別階段,將輸入語音的特征矢量依次與模板庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。

2)前端模塊。前端處理是指在特征提取之前,先對(duì)原始語音進(jìn)行處理,這是預(yù)處理操作的主要作用。語音識(shí)別系統(tǒng)常受到外界干擾而降低了翻譯的準(zhǔn)確性,設(shè)計(jì)前段處理模塊可消除部分噪聲和不同說話人帶來的影響,使處理后的信號(hào)更能反映語音的本質(zhì)特征。例如,比較常用的前端處理有端點(diǎn)檢測(cè)和語音增強(qiáng)。

3)聲學(xué)模塊。語音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語言模型兩部分組成,分別對(duì)應(yīng)于語音到音節(jié)概率的計(jì)算和音節(jié)到字概率的計(jì)算。聲學(xué)特征的提取與選擇是語音識(shí)別的一個(gè)重要環(huán)節(jié),這一步驟直接關(guān)系到翻譯器的工作效能,對(duì)英語語音識(shí)別與學(xué)習(xí)有很大的影響。因此,聲學(xué)模塊要注重人性化設(shè)計(jì),語音設(shè)定盡可能符合自然語言特點(diǎn)。

4)搜索模塊。英語語音識(shí)別中的搜索,就是尋找一個(gè)詞模型序列以描述輸入語音信號(hào),從而得到詞解碼序列。本次所設(shè)計(jì)的搜索模塊中,其前端是一個(gè)語音識(shí)別器,識(shí)別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語法分析器進(jìn)行分析獲取語義信息,再由對(duì)話管理器確定應(yīng)答信息,由語音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關(guān)鍵詞的方法來獲取語義信息。

5)執(zhí)行模塊。實(shí)際應(yīng)用中,語言識(shí)別系統(tǒng)憑借執(zhí)行模塊完成操作,對(duì)英語語言識(shí)別方式進(jìn)行優(yōu)化擇取,以最佳狀態(tài)完成英語翻譯工作。目前,就英語教學(xué)中使用情況,聽寫及、對(duì)話系統(tǒng)等是語音識(shí)別執(zhí)行的兩種方式,充分展現(xiàn)了翻譯器在語言轉(zhuǎn)換方面的應(yīng)用功能。(1)聽寫機(jī)。大詞匯量、非特定人、連續(xù)語音識(shí)別系統(tǒng)通常稱為聽寫機(jī)。其架構(gòu)就是建立在前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時(shí)對(duì)每個(gè)基元用前向后向算法獲得模型參數(shù),識(shí)別時(shí),將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。(2)對(duì)話系統(tǒng)。用于實(shí)現(xiàn)人機(jī)口語對(duì)話的系統(tǒng)稱為對(duì)話系統(tǒng),英語翻譯器中完成了人機(jī)對(duì)話、語言轉(zhuǎn)換等工作,全面提升了翻譯器操控的性能系數(shù)。受目前技術(shù)所限,對(duì)話系統(tǒng)往往是面向一個(gè)狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等,隨著語音數(shù)據(jù)庫資源的優(yōu)化配置,對(duì)話系統(tǒng)功能將全面升級(jí)。

3翻譯器使用注意事項(xiàng)

語音識(shí)別系統(tǒng)就是讓機(jī)器通過識(shí)別和理解過程,把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高科技。隨著高校教學(xué)信息化建設(shè)時(shí)期到來,計(jì)算機(jī)軟件輔助教學(xué)活動(dòng)是一種先進(jìn)的模式,徹底改變了傳統(tǒng)人工教學(xué)模式的不足。翻譯軟件采用數(shù)字化元器件為硬件平臺(tái),配合遠(yuǎn)程互聯(lián)網(wǎng)建立多元化傳輸路徑,滿足了英語翻譯數(shù)據(jù)處理與傳輸?shù)膽?yīng)用要求。但是,未來英語教學(xué)內(nèi)容越來越復(fù)雜,翻譯器語音識(shí)別系統(tǒng)承載的數(shù)據(jù)范圍更廣,學(xué)校必須實(shí)施更新翻譯軟件產(chǎn)品,才能進(jìn)一步提升英語智能化翻譯水平。

4結(jié)論

第3篇

【關(guān)鍵詞】語音識(shí)別信號(hào)處理DTW

一、引言

根據(jù)語音識(shí)別系統(tǒng)所使用的環(huán)境和平臺(tái)不同,語音識(shí)別技術(shù)朝著兩個(gè)方向發(fā)展:一個(gè)方向是大詞匯量的連續(xù)語音識(shí)別,該方向所處理的語音較為復(fù)雜;另一個(gè)方向就是向著中小詞匯量的孤立詞匯語音識(shí)別,該方向所處理的語音相對(duì)較為簡(jiǎn)單,應(yīng)用范圍也有一定的限制,如玩具、語音導(dǎo)航等。雖然簡(jiǎn)單語音識(shí)別系統(tǒng)對(duì)于能識(shí)別的詞匯量沒有太高的要求,但是目前的一些簡(jiǎn)單語音識(shí)別系統(tǒng)的識(shí)別速度慢、識(shí)別率較低,導(dǎo)致用戶體驗(yàn)較差。

二、語音識(shí)別系統(tǒng)原理

語音識(shí)別在本質(zhì)上屬于模式識(shí)別的范疇,其系統(tǒng)結(jié)構(gòu)與模式識(shí)別具有相似之處:根據(jù)相關(guān)的識(shí)別算法對(duì)語音信號(hào)進(jìn)行特征參數(shù)的提取,然后先進(jìn)行學(xué)習(xí)后再對(duì)語音信號(hào)進(jìn)行識(shí)別。在學(xué)習(xí)階段,通過給出的訓(xùn)練數(shù)據(jù)建立起參考模板庫;在識(shí)別階段,將待識(shí)別語音信號(hào)的特征參數(shù)與參考模板庫中的參數(shù)進(jìn)行對(duì)比,得到與待識(shí)別語音信號(hào)最接近的模板,輸出該模板作為語音識(shí)別的結(jié)果。

三、簡(jiǎn)單語音識(shí)別系統(tǒng)的改進(jìn)與實(shí)現(xiàn)

DTW在簡(jiǎn)單語音識(shí)別中已經(jīng)可以達(dá)到較高的識(shí)別率,因此本文選擇DTW作為語音識(shí)別的模式匹配算法,并對(duì)端點(diǎn)檢測(cè)進(jìn)行一定的改進(jìn)來實(shí)現(xiàn)語音識(shí)別系統(tǒng)的設(shè)計(jì)。

3.1端點(diǎn)檢測(cè)的改進(jìn)

在進(jìn)行端點(diǎn)檢測(cè)前,為短時(shí)平均能量和短時(shí)過零率設(shè)定兩個(gè)門限值。在靜音段,當(dāng)短時(shí)平均能量或短時(shí)過零率大于低門限值,則開始準(zhǔn)備標(biāo)記語音起點(diǎn),由此進(jìn)入過渡段。但是在過渡段中并不能確定是否真正進(jìn)入語音段,當(dāng)短時(shí)平均能量和短時(shí)過零率都小于低門限值時(shí)認(rèn)為是噪音,并不記錄語音起點(diǎn),恢復(fù)為靜音段;當(dāng)短時(shí)平均能量或短時(shí)過零率大于高門限值,則認(rèn)為是真正的語音片段,將狀態(tài)進(jìn)入語音段。進(jìn)入語音段后還要記錄語音段持續(xù)時(shí)間,若該段時(shí)間較短則認(rèn)為是噪聲,繼續(xù)檢測(cè)后面的語音,如果滿足一定的時(shí)間長度則標(biāo)記語音起點(diǎn)并將其記錄為一段語音。

3.2DTW的改進(jìn)

DTW的核心思想是進(jìn)行動(dòng)態(tài)規(guī)劃,從而解決了語音識(shí)別中的發(fā)音長度不一致的匹配問題。在進(jìn)行DTW時(shí),通過動(dòng)態(tài)匹配找到一個(gè)最佳路徑,把語音信號(hào)的特征參數(shù)通過這條最佳路徑映射到參考模板庫中,這條最佳路徑要求語音信號(hào)和參考模板之間的累積距離最小。

經(jīng)典的DTW算法規(guī)定待識(shí)別語音信號(hào)和模板中信號(hào)的首尾必須完全一致,但是端點(diǎn)檢測(cè)確定的首尾與實(shí)際存在一定的誤差,造成識(shí)別率有所下降。為此,可以對(duì)DTW的端點(diǎn)的限制適當(dāng)放寬。即允許起點(diǎn)在(0,0)、(0,m)或者(n,0)上,終點(diǎn)在(N,M)、(N,J)或者(I,M)上。端點(diǎn)要求放寬后對(duì)端點(diǎn)檢測(cè)精度的要求就降低了,提高了識(shí)別的速度和精度。

雖然語音的速度不同,但是語序是確定不變的,因此路徑中每一點(diǎn)的斜率必然大于0。而為了防止過度搜素浪費(fèi)資源,可以對(duì)搜索路徑的斜率加以限制,由于語音信號(hào)的擴(kuò)壓是有限的,因此可以舍去那些向X軸或者Y軸過度傾斜的路徑。具體做法是:將搜索路徑中每個(gè)點(diǎn)的最大斜率設(shè)為2,最小斜率設(shè)為0.5,這樣就可以大大降低搜索范圍,減少了計(jì)算量,提高了識(shí)別速度。

另外,還可以在進(jìn)行相似度匹配時(shí)設(shè)定一個(gè)合理的閾值,如果計(jì)算出的某一部分的相似度與該閾值相差太遠(yuǎn),則立即認(rèn)為待識(shí)別語音與當(dāng)前模板不匹配,轉(zhuǎn)而進(jìn)入與下一個(gè)模板的相似度計(jì)算,這樣就可以減少大量的計(jì)算量,從而提高簡(jiǎn)單語音識(shí)別的速度。

3.3實(shí)驗(yàn)及數(shù)據(jù)

在實(shí)驗(yàn)室較安靜的環(huán)境下對(duì)男女聲識(shí)別進(jìn)行了測(cè)試。發(fā)音內(nèi)容為0~9的數(shù)字,采樣率為24KHz,幀長20ms,幀移10ms,識(shí)別正確率達(dá)到了95%以上,原DTW算法的孤立字識(shí)別時(shí)間是6~7s,而采用本文改進(jìn)算法的識(shí)別時(shí)間減少到2~5s。因此,本文方法可以實(shí)現(xiàn)快速準(zhǔn)確的簡(jiǎn)單語音識(shí)別。

四、結(jié)束語

采用本文方法可以有效提高端點(diǎn)檢測(cè)的精度、語音識(shí)別的正確率和識(shí)別速度,該方法完全滿足簡(jiǎn)單語音識(shí)別系統(tǒng)的應(yīng)用。

參考文獻(xiàn)

[1]張振鋒.基于小詞匯量孤立詞語音識(shí)別系統(tǒng)的研究與設(shè)計(jì)[D].長安大學(xué),2007.

第4篇

【關(guān)鍵詞】隱馬爾可夫;語音識(shí)別;單片機(jī)

在這個(gè)高科技的信息時(shí)代,計(jì)算機(jī)占著極為重要的地位,人機(jī)通信是人與機(jī)器之間進(jìn)行信息通訊,使機(jī)器按照人的意愿工作,傳統(tǒng)的人機(jī)通信是通過鍵盤、按鈕以及顯示器等機(jī)器設(shè)備實(shí)現(xiàn)的,在許多場(chǎng)合都不是很方便,其最理想的通信方式就是通過語音進(jìn)行識(shí)別。實(shí)現(xiàn)人與機(jī)器通過自然語音的方式進(jìn)行信息通訊,不僅可以簡(jiǎn)化日常工作,更可以提高工作效率,帶給人們極大的方便。而實(shí)現(xiàn)這個(gè)理想最關(guān)鍵的部分就是語音識(shí)別技術(shù)。

1語音識(shí)別概述

1.1語音信號(hào)的產(chǎn)生

物體的振動(dòng)產(chǎn)生聲音,正在發(fā)聲的物體叫做聲源,聲音在介質(zhì)中以聲波的形式傳播。語音是指人的發(fā)聲器官振動(dòng)所發(fā)出的負(fù)載一定語言意義的聲音,發(fā)音器官主要有肺部、氣管、喉部、咽、鼻腔、口腔和上下唇,每個(gè)人的聲道各不相同,從而各自發(fā)出的聲音也不相同。

語音信號(hào)主要有模擬信號(hào)和數(shù)字信號(hào)兩種表現(xiàn)形式。模擬信號(hào)是人直接通過耳朵聽到的信號(hào),是時(shí)間和幅值均連續(xù)的物理量,由于其數(shù)據(jù)量過大、有較多的隨機(jī)因素等原因不能直接被作為計(jì)算機(jī)的識(shí)別信號(hào)。數(shù)字信號(hào)是時(shí)間和數(shù)值均離散的二進(jìn)制數(shù)字量化的模擬信號(hào),是計(jì)算機(jī)語音識(shí)別技術(shù)的基礎(chǔ)。數(shù)字信號(hào)相比模擬信號(hào)有以下優(yōu)點(diǎn):可以實(shí)現(xiàn)很多復(fù)雜的信號(hào)處理工作;具有可靠性高、價(jià)格低廉、反應(yīng)迅速等特點(diǎn);有利于區(qū)分出干擾信號(hào)等。所以要想使計(jì)算機(jī)按照人類的自然語言要求工作,關(guān)鍵的就是將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)。

1.2語音信號(hào)的處理

根據(jù)討論,若要對(duì)語音信號(hào)進(jìn)行處理必須先對(duì)此信號(hào)進(jìn)行預(yù)處理,即將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),再整理、分析、理解轉(zhuǎn)換后的數(shù)字信號(hào),并過濾掉多余的信息。主要包括數(shù)字化、預(yù)加重和加窗分幀三部分。

數(shù)字化就是把語音模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的采樣與量化過程,采樣是在相同間隔的時(shí)間內(nèi)抽取信號(hào)而得到離散的序列,并將其轉(zhuǎn)換為數(shù)字。量化則是在有限的區(qū)域內(nèi)分布采樣后的信號(hào)。預(yù)加重是通過一個(gè)高通濾波器使頻譜變得平坦,防止衰減作用,不受有限字長效應(yīng)的影響。以“幀”為單位對(duì)語音信號(hào)進(jìn)行截取,使信號(hào)有短時(shí)平穩(wěn)的特征,加窗則可以讓截取的信號(hào)波形更加平滑。

1.3語音信號(hào)的模塊處理

在語音識(shí)別中,常使用的基本算法有:動(dòng)態(tài)時(shí)間規(guī)整技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)。

1)隱馬爾可夫模型

隱馬爾可夫模型(HMM)在當(dāng)前語音識(shí)別系統(tǒng)中占據(jù)主流地位。它是一種隨機(jī)概率模型,其使用大大降低了模型的復(fù)雜度。早在20世紀(jì)六七十年代就開始研究的統(tǒng)計(jì)信號(hào)模型。HMM是在Markov鏈的基礎(chǔ)上發(fā)展起來的,但實(shí)際問題要更為復(fù)雜,所觀察到的事件與一組概率分布相關(guān)。它是一個(gè)雙重隨機(jī)過程,一個(gè)是Markov鏈,這是基本隨機(jī)過程,它描述狀態(tài)的轉(zhuǎn)移;一個(gè)是隨機(jī)過程描述狀態(tài)和觀測(cè)值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系,觀察者不能直接看到狀態(tài),而是由感覺感知到的,因此稱之為“隱”Markov模型,即HMM。

2)人工神經(jīng)網(wǎng)絡(luò)法

ANN現(xiàn)在已經(jīng)成為了另一個(gè)熱點(diǎn),是非線性系統(tǒng),具有DTW和HMM沒有的對(duì)比、概括、推理能力。

3)動(dòng)態(tài)時(shí)間規(guī)整技術(shù)

DTW是模板訓(xùn)練和模式匹配中出現(xiàn)最早的技術(shù),使用動(dòng)態(tài)規(guī)劃技術(shù)在孤立詞語音識(shí)別中具有良好的成果,但是其計(jì)算量較大,很難被使用到現(xiàn)實(shí)中的語音識(shí)別。目前已經(jīng)被其他的算法所替代。

2語音識(shí)別系統(tǒng)設(shè)計(jì)思路

語音識(shí)別技術(shù)正在不斷的發(fā)展中,在硬件平臺(tái)上實(shí)現(xiàn)語音識(shí)別以取代繁瑣的工作成為其發(fā)展的必然趨勢(shì)。本文就是對(duì)基于單片機(jī)的語音識(shí)別系統(tǒng)的研究。由于單片機(jī)本身存在著處理速度慢、存儲(chǔ)能力不強(qiáng)大的缺陷,所以此次設(shè)計(jì)是基于孤立詞的語音識(shí)別系統(tǒng)。

語音識(shí)別系統(tǒng)的模型庫訓(xùn)練工作原理是:特定人的語音信號(hào)進(jìn)入系統(tǒng),系統(tǒng)對(duì)進(jìn)入的語音信號(hào)濾波,目的是為了消除需要的語音頻率之外的其他雜音,進(jìn)而數(shù)模轉(zhuǎn)換,將輸入的語音模擬信號(hào)數(shù)字化,有利于計(jì)算機(jī)進(jìn)行識(shí)別。數(shù)字化后的語音信號(hào)再通過預(yù)處理、加窗分幀。對(duì)于剩下的語音信號(hào)送入HMM模板與模板庫進(jìn)行訓(xùn)練和匹配,再將最佳的結(jié)果傳輸給用戶。

3系統(tǒng)模塊設(shè)計(jì)及系統(tǒng)測(cè)試

此次設(shè)計(jì)是基于單片機(jī)的語音識(shí)別系統(tǒng)研究,有以下幾點(diǎn)要求:該系統(tǒng)必須使完整的語音識(shí)別系統(tǒng),有簡(jiǎn)單的顯示功能,提高系統(tǒng)的識(shí)別性能,體積盡量減小。

工作原理首先采集語音信號(hào),輸入完成后通過濾波采集需要的語音信號(hào),再通過數(shù)模轉(zhuǎn)換器進(jìn)入控制器,再與標(biāo)準(zhǔn)語音庫中的語音信號(hào)進(jìn)行對(duì)比,找出最接近該段信號(hào)的語音,再將識(shí)別出的語音通過LCD顯示模塊顯示給用戶。

系統(tǒng)檢測(cè)首先確認(rèn)是否有按鍵按下,當(dāng)檢測(cè)到有按鍵按下時(shí),表示系統(tǒng)開始運(yùn)行,如果沒有按下,則表示系統(tǒng)處于非工作狀態(tài),只有當(dāng)有按鍵時(shí),才可以工作。進(jìn)而開始接收語音信號(hào),首先對(duì)語音信號(hào)進(jìn)行濾波消除雜音,然后通過數(shù)模轉(zhuǎn)換電路,將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),預(yù)處理、端點(diǎn)檢測(cè)后,與事先存儲(chǔ)好的信號(hào)進(jìn)行比對(duì),得到最后的識(shí)別結(jié)果,將識(shí)別出來的結(jié)果,送往LCD液晶顯示器上顯示出來,展現(xiàn)給用戶。

此次設(shè)計(jì)通過MATLAB軟件實(shí)現(xiàn)對(duì)語音信號(hào)的調(diào)試。在接收語音信號(hào)時(shí),有可能產(chǎn)生外界的干擾噪聲,這就需要我們通過一系列復(fù)雜的公式計(jì)算,對(duì)該信號(hào)進(jìn)行處理,進(jìn)而在送由單片機(jī)進(jìn)行下一步的工作。

4結(jié)束語

語音識(shí)別技術(shù)是實(shí)現(xiàn)人與計(jì)算機(jī)進(jìn)行直接對(duì)話,讓計(jì)算機(jī)自動(dòng)對(duì)人所說的話進(jìn)行識(shí)別、理解并執(zhí)行的技術(shù)手段。語音識(shí)別技術(shù)的應(yīng)用已經(jīng)成為一個(gè)被受關(guān)注的新型技術(shù)產(chǎn)業(yè),它的實(shí)現(xiàn)能夠簡(jiǎn)化人們?cè)谝酝ぷ髦械姆爆崳磥碚Z音識(shí)別還要向低成本、高性能方向不斷發(fā)展。

【參考文獻(xiàn)】

第5篇

[關(guān)鍵詞]語音識(shí)別系統(tǒng);差異性;指標(biāo)需求

一、引言

語音作為語言的聲學(xué)體現(xiàn),也是人類進(jìn)行信息交流最自然、和諧的手段。與機(jī)械設(shè)各進(jìn)行語音的溝通,讓機(jī)器可以明白人類在說什么,并理解這是人類長期的夢(mèng)想。語音識(shí)別技術(shù),也被稱為自動(dòng)語音識(shí)別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。語音識(shí)別技術(shù)的應(yīng)用包括語音撥號(hào)、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡(jiǎn)單的聽寫數(shù)據(jù)錄入等。語音識(shí)別技術(shù)與其他自然語言處理技術(shù)如機(jī)器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,語音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。

二、語音信號(hào)分析與特征提取

1.基于發(fā)音模型的語音特征。(1)發(fā)音系統(tǒng)及其模型表征。其發(fā)聲過程就是由肺部進(jìn)行收縮,并進(jìn)行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發(fā)生的。氣流通過聲門時(shí)使得聲帶的張力剛好使聲帶發(fā)生比較低的頻率的振蕩,從而形成準(zhǔn)周期性的空氣脈沖,空氣脈沖激勵(lì)聲道便會(huì)產(chǎn)生一些濁音;聲道的某處面積比較小,氣流沖過時(shí)便會(huì)產(chǎn)生湍流,會(huì)得到一種相似噪聲的激勵(lì),對(duì)應(yīng)的則是摩擦音;聲道完全閉合并建立起相應(yīng)的氣壓,突然進(jìn)行釋放就是爆破音。(2)語音信號(hào)線性預(yù)測(cè)倒譜系數(shù)。被廣泛應(yīng)用的特征參數(shù)提取技術(shù)的就是線性預(yù)測(cè)分析技術(shù),很多成功的應(yīng)用系統(tǒng)都是選用基于線性預(yù)測(cè)技術(shù)進(jìn)而提取的LPC倒譜系數(shù)作為應(yīng)用系統(tǒng)的特征。LPC倒譜就是復(fù)倒譜。復(fù)倒譜就是信號(hào)通過z進(jìn)行變換以后再取其對(duì)數(shù),求反z變換所得到的譜。線性預(yù)測(cè)分析方法其實(shí)就是一種譜的估計(jì)方法,所以其聲道模型系統(tǒng)函數(shù)H(z)反映的就是聲道頻率激勵(lì)和信號(hào)的譜包絡(luò),對(duì)IHg(z)作反z變換就可以得出其復(fù)倒譜系數(shù)。改復(fù)倒譜系數(shù)是依據(jù)線性預(yù)測(cè)模型直接獲得的,而又被稱為LPC倒譜系數(shù)(LPCC)。

2.基于聽覺模型的語音特征。(1)聽覺系統(tǒng)模型。一是人類的聽覺系統(tǒng)對(duì)于聲音頻率高低和聲波實(shí)際的頻率高低不是線性的關(guān)系,它對(duì)不同聲音頻率信號(hào)的敏感度是不一樣的,也可看成是對(duì)數(shù)關(guān)系。二是關(guān)于掩蔽效應(yīng)指的就是聲音A感知的閉值因?yàn)榱硗獾纳碛暗某霈F(xiàn)出現(xiàn)增大的現(xiàn)象。其生理依據(jù)主要是頻率群,對(duì)頻率群進(jìn)行劃分會(huì)出現(xiàn)許多的很小的部分,每一個(gè)部分都會(huì)對(duì)應(yīng)一個(gè)頻率群,掩蔽效應(yīng)就發(fā)生在這些部分過程中。所以在進(jìn)行相應(yīng)的聲學(xué)測(cè)量時(shí),頻率刻度一般取非線性刻度。語音識(shí)別方面,主要的非線性頻率刻度有Mel刻度、對(duì)數(shù)刻度和Kon~nig刻度。其中Mel刻度被廣泛的應(yīng)用,其是最合理的頻率刻度。(2)語音信號(hào)Mcl頻率倒譜系數(shù)。Mel頻率倒譜系數(shù)利用人們耳朵的聽覺特性,在頻域?qū)㈩l率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數(shù)。MFCC參數(shù)的計(jì)算過程:

一是對(duì)語音信號(hào)進(jìn)行相應(yīng)的預(yù)加重,從而確定了每一幀的語音采樣的長度,語音信號(hào)通過離散FFT變換得到其頻譜。二是求頻譜幅度的平方,得到能量譜,并選用一組三角濾波器在頻譜域?qū)δ芰窟M(jìn)行帶通濾波。帶通濾波器中心頻率一般是按照Mcl頻率刻度排列的(間隔為150Mel,帶寬為300Mel),其每個(gè)三角形濾波器的兩個(gè)底點(diǎn)頻率和相鄰的兩個(gè)濾波器的中心頻率相等,頻率響應(yīng)之和為l。濾波器的個(gè)數(shù)一般和臨界帶數(shù)比較相近,設(shè)濾波器數(shù)是M,濾波后得到的輸出為:X(k),k=1,2,…,M。

第6篇

關(guān)鍵詞:語音識(shí)別;動(dòng)態(tài)時(shí)間規(guī)整(DTW);數(shù)字信號(hào)處理器(DSP)

1 引言

語音識(shí)別按不同的角度有以下幾種分類方法:從所要識(shí)別的單位,有孤立詞識(shí)別、音素識(shí)別、音節(jié)識(shí)別、孤立句識(shí)別、連續(xù)語音識(shí)別和理解。目前已進(jìn)入識(shí)別的語音識(shí)別系統(tǒng)是單詞識(shí)別。以幾百個(gè)單詞為限定識(shí)別對(duì)象。從識(shí)別的詞匯量來分。有小詞匯(10-50個(gè))、中詞匯(50-200個(gè))、大詞匯(200以上)等。從講話人的范圍來分。有單個(gè)特定講話人、多講話人和與講話者者無關(guān)。特定講話人比較簡(jiǎn)單,能夠得到較高的識(shí)別率。后兩者難度較大,不容易得到高的識(shí)別率。 從識(shí)別的方法分。有模塊匹配法、隨機(jī)模型法和概率語法分析法。這三種都屬于統(tǒng)計(jì)模式識(shí)別方法。

2 系統(tǒng)硬件及組成

2.1 系統(tǒng)概述

語音識(shí)別系統(tǒng)的典型實(shí)現(xiàn)方案如圖1所示。輸入的模擬語音信號(hào)首先要進(jìn)行預(yù)處理,語音信號(hào)經(jīng)過預(yù)處理后,接下來重要的一環(huán)就是特征參數(shù)提取,其目的是從語音波形中提取出隨時(shí)間變化的語音特征序列。然后建立聲學(xué)模型,在識(shí)別的時(shí)候?qū)⑤斎氲恼Z音特征同聲學(xué)模型進(jìn)行比較,得到最佳的識(shí)別結(jié)果。

2.2 硬件構(gòu)成

本文采用DSP芯片為核心(圖2所示),系統(tǒng)包括直接雙訪問快速SRAM、一路ADC/一路DAC及相應(yīng)的模擬信號(hào)放大器和抗混疊濾波器。外部只需擴(kuò)展FLASH存儲(chǔ)器、電源模塊等少量電路即可構(gòu)成完整系統(tǒng)應(yīng)用。

2.3 系統(tǒng)主要功能模塊構(gòu)成

語音處理模塊采用TI TMS320VC5402, TMS320VC5402含4 KB的片內(nèi)ROM和16 KB的雙存取RAM,一個(gè)HPI(HostPortInterface)接口,二個(gè)多通道緩沖單口MCBSP(Multi-Channel Buffered SerialPort),單周期指令執(zhí)行時(shí)間10 ns,帶有符合IEEE1149.1標(biāo)準(zhǔn)的JTAG邊界掃描仿真邏輯。語音輸入、輸出的模擬前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一體的模擬接口電路,并且與DSP接口簡(jiǎn)單,性能高、功耗低,已成為當(dāng)前語音處理的主流產(chǎn)品。16位數(shù)據(jù)結(jié)構(gòu),音頻采樣頻率為2~22.05 kHz,內(nèi)含抗混疊濾波器和重構(gòu)濾波器的模擬接口芯片,還有一個(gè)能與許多DSP芯片相連的同步串行通信接口。TLC320AD50C片內(nèi)還包括一個(gè)定時(shí)器(調(diào)整采樣率和幀同步延時(shí))和控制器(調(diào)整編程放大增益、鎖相環(huán)PLL、主從模式)。TLC320AD50C與TMS320VC5402的硬件連接,如圖3所示。

3 結(jié)論

本文以TMS320VC5402芯片為核心的系統(tǒng)硬件設(shè)計(jì)迸行了研究,通過TLC320AD50C對(duì)語音信號(hào)進(jìn)行A/D轉(zhuǎn)換,通過TMS320VC5402對(duì)語音信號(hào)“0”、“1”、“2”進(jìn)行訓(xùn)練和識(shí)別,并由對(duì)于燈LED0、LED1、LED2亮來顯示結(jié)果是否正確;該系統(tǒng)核心識(shí)別算法采用動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法,主要流程包括預(yù)處理、端點(diǎn)檢測(cè)、提取特征值、模式匹配和模板訓(xùn)練,取得了很好的識(shí)別效果。

參考文獻(xiàn)

[1] 朱銘鋯, 趙勇, 甘泉. DSP應(yīng)用系統(tǒng)設(shè)計(jì) [M].北京:電子工業(yè)出版社,2002.

[2] 郭華. 自適應(yīng)濾波算法及應(yīng)用研究[D].蘭州:西北師范大學(xué),2007.

[3] 張雄偉..DSP芯片的原理與開發(fā)應(yīng)用[M].北京:電子工業(yè)出版社,2009.

[4] 張德豐. 數(shù)字圖象處理(MATLAB版)[M].北京:人民郵電出版社,2009.

作者簡(jiǎn)介

王宇,邵陽學(xué)院魏源國際學(xué)院電子科學(xué)與技術(shù)專業(yè)學(xué)生。

第7篇

關(guān)鍵詞: 語音識(shí)別;DHMM;Viterbi;嵌入式系統(tǒng);ARM

中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-4311(2012)04-0126-020引言

隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,各種各樣的應(yīng)用層出不窮,其中使用語音與計(jì)算機(jī)程序進(jìn)行交互成為了最近熱門的研究方向。語音作為人類與計(jì)算機(jī)之間無形的連接方式,可以使人們方便、快捷地控制和使用計(jì)算機(jī)。語音識(shí)別技術(shù)是能夠讓原來非智能的計(jì)算設(shè)備理解人類思想的高科技技術(shù),融合了信號(hào)處理、人工智能以及自動(dòng)化等多學(xué)科、多領(lǐng)域的研究成果,是目前實(shí)現(xiàn)人工智慧的主要途徑之一。

根據(jù)不同的分類標(biāo)準(zhǔn),語音識(shí)別可分為不同的種類,例如依據(jù)識(shí)別對(duì)象的不同,可分為特定人語音識(shí)別及非特定人語音識(shí)別;又根據(jù)人類的講話方式可分為孤立詞識(shí)別、連接詞識(shí)別以及連續(xù)語音識(shí)別。不同的識(shí)別系統(tǒng)雖然在語音識(shí)別過程中步驟相似,但根據(jù)不同系統(tǒng)的需求及特點(diǎn)其實(shí)現(xiàn)方式及具體細(xì)節(jié)是不同的[1]。

嵌入式技術(shù)的迅猛進(jìn)步,使得語音識(shí)別技術(shù)的應(yīng)用更加廣泛,不再局限于實(shí)驗(yàn)室以及大型場(chǎng)合;其已經(jīng)被嵌入各種移動(dòng)設(shè)備,為人們對(duì)移動(dòng)設(shè)備的操作方式提供了一種嶄新途徑和使用體驗(yàn)。本文就針對(duì)移動(dòng)設(shè)備的特點(diǎn),設(shè)計(jì)了一種面向非特定人的孤立詞語音識(shí)別系統(tǒng)。

1語音識(shí)別的工作原理

原始的自然語音信號(hào)中不僅含有人體自身的聲音信號(hào),同樣也包含了大量的雜音、噪聲等混雜在一起的隨機(jī)干擾信號(hào),尤其作為移動(dòng)、嵌入式設(shè)備被使用者隨身攜帶使用,會(huì)有更多的環(huán)境噪聲信號(hào)。針對(duì)大量噪聲的數(shù)據(jù)計(jì)算以及嵌入式設(shè)備有限的計(jì)算資源,為保證系統(tǒng)的對(duì)自然語言的正確識(shí)別率,并且有效減少處理原始語音信號(hào)的大量數(shù)據(jù)密集計(jì)算,有必要研究語音信號(hào)的預(yù)處理技術(shù),以期高效提取語音特征參數(shù),并選取合適的壓縮算法進(jìn)行語音數(shù)據(jù)壓縮,之后再進(jìn)行語音的模式匹配[2]。

如圖1所示,人本身的語音信號(hào)從語音錄入設(shè)備進(jìn)入后,將進(jìn)行預(yù)處理、端點(diǎn)檢測(cè)、特征提取,轉(zhuǎn)換為可以對(duì)比的信號(hào)參數(shù),然后將特征參數(shù)通過選取的特征匹配方法與參考樣例庫中的模板樣例進(jìn)行語言匹配,選擇符合度最大的語言樣例進(jìn)行相應(yīng)處理,得出識(shí)別結(jié)果。

2系統(tǒng)硬件設(shè)計(jì)

系統(tǒng)的硬件結(jié)構(gòu)示意圖如圖2所示。

系統(tǒng)的處理核心采用了韓國三星公司的一款基于ARM 920T內(nèi)核的S3C2440微處理器;此款處理器中的CMOS宏單元和存儲(chǔ)單元采用了0.18um電子工藝,內(nèi)部總線采用Advanced Microcontroller Bus Architecture(AMBA)新型總線結(jié)構(gòu),具備出色的全靜態(tài)設(shè)計(jì),利用了多項(xiàng)低功耗技術(shù),系統(tǒng)架構(gòu)精簡(jiǎn),特別為價(jià)格和功耗敏感的應(yīng)用而精心打造。除此之外,它特別為各種外設(shè)準(zhǔn)備了豐富的中斷處理資源,包括總計(jì)共有60個(gè)中斷源(其中包括5個(gè)定時(shí)器硬中斷,9個(gè)串口中斷,24個(gè)外部中斷,1個(gè)看門狗定時(shí)器,4個(gè)DMA,2個(gè)ADC,1個(gè)LCD,1個(gè)電池故障,1個(gè)IIC,2個(gè)SPI,1個(gè)SDI,2個(gè)USB,1個(gè)NAND FLASH口,2個(gè)視頻口和1個(gè)AC97音頻口),這些中斷既可以使用電平/邊沿觸發(fā)模式進(jìn)行外部中斷的觸發(fā),也可以使用軟件編程的方式改變邊沿/電平觸發(fā)極性,能夠?yàn)榫o急中斷請(qǐng)求提供快速中斷(FIQ)服務(wù)[3]。

系統(tǒng)工作時(shí),人的語音信號(hào)經(jīng)過MIC輸入,并通過濾波、去噪等操作后,在S3C2440上執(zhí)行語音特征提取、語音模式匹配算法,最終輸出結(jié)果;系統(tǒng)中的USB接口可以方便系統(tǒng)外擴(kuò)各種標(biāo)準(zhǔn)USB外設(shè),以便使用語音識(shí)別結(jié)果進(jìn)行各種設(shè)備控制。

3系統(tǒng)軟件設(shè)計(jì)

3.1 Linux內(nèi)核移植移植Linux內(nèi)核一般分為幾個(gè)固定的步驟,目前較為流行快速開發(fā)方法通常先在內(nèi)核的處理器架構(gòu)目錄下,選擇與目標(biāo)開發(fā)板硬件結(jié)構(gòu)最接近的并且各種配置較為完善的開發(fā)板目錄作為移植模板。接著針對(duì)本開發(fā)板與目標(biāo)開發(fā)板的硬件具體差別,進(jìn)行對(duì)應(yīng)的修改或使用前人的移植補(bǔ)丁進(jìn)行升級(jí)。針對(duì)本開發(fā)板,我們使用了穩(wěn)定的Linux-2.6.15內(nèi)核進(jìn)行移植,考慮到本系統(tǒng)的具體硬件配置,最后選擇了SMDK2440開發(fā)板模板作為移植的目標(biāo)開發(fā)板模板。在編譯和配置內(nèi)核前,建議使用menuconfig或其它配置工具對(duì)內(nèi)核進(jìn)行適當(dāng)?shù)牟眉?,還可以進(jìn)一步編寫配置腳本。嵌入式Linux內(nèi)核的裁減類似于PC上Linux內(nèi)核的裁減,主要的工作是根據(jù)硬件和系統(tǒng)需求增添需要支持的模塊,并除去無用的功能模塊,以使Linux內(nèi)核與目標(biāo)硬件系統(tǒng)緊密相依,但要注意嵌入式Linux內(nèi)核的特征是小、精、有效。內(nèi)核的編譯則通常是通過修改根目錄以及其它子目錄下的Makefile,以及在預(yù)編譯前設(shè)置編譯參數(shù)值時(shí)進(jìn)行選定,或是使用編譯工具[4]。

最后,使用make工具生成U-boot可以識(shí)別的uImage引導(dǎo)程序鏡像文件。uImage鏡像文件通過U-Boot引導(dǎo)程序從FLASH中取出并解壓縮,裝入內(nèi)存后,Linux內(nèi)核便取得系統(tǒng)控制權(quán)。

Linux內(nèi)核移植的整個(gè)過程如圖3所示。

3.2 系統(tǒng)軟件設(shè)計(jì)整個(gè)系統(tǒng)軟件結(jié)構(gòu)如圖4所示。面向終端用戶的軟件形勢(shì)分為兩種:web插件和普通的軟件界面;web插件可以使用在瀏覽器中,方面用戶控制網(wǎng)頁瀏覽。下面是命令解析層Command layer,負(fù)責(zé)解釋兩種界面發(fā)送的命令,調(diào)用相應(yīng)的程序接口并返回執(zhí)行后的結(jié)果。功能模塊Function modules主要封裝軟件API,負(fù)責(zé)提供各種常用的功能服務(wù)??刂颇KControl modules負(fù)責(zé)管理和控制語音識(shí)別引擎,建立語音樣例庫以及調(diào)整語音設(shè)備引擎的內(nèi)部參數(shù),將來還可以加入新的語音模式匹配算法。再下面一層是統(tǒng)一APIs層,主要對(duì)核心語音識(shí)別引擎進(jìn)行簡(jiǎn)單的API封裝,同時(shí)預(yù)留了將來要擴(kuò)展的功能接口,以便后續(xù)的功能升級(jí)和代碼維護(hù);最下面的就是核心語音識(shí)別引擎,主要提供模式匹配算法以及對(duì)底層系統(tǒng)級(jí)的控制功能。

3.3 語音識(shí)別算法本語音識(shí)別系統(tǒng)的識(shí)別任務(wù)主要為針對(duì)設(shè)備持有者的小詞匯量孤立詞的語音識(shí)別,功能較為簡(jiǎn)單,需要使用者進(jìn)行一定量的訓(xùn)練后,系統(tǒng)對(duì)應(yīng)建立語音樣例庫,然后針對(duì)每次的聲音進(jìn)行模式匹配即可,所以算法的重點(diǎn)在于模式匹配算法。綜合計(jì)算性能需要、存儲(chǔ)資源消耗以及價(jià)格成本考慮,目前流行的DHMM語言識(shí)別模型對(duì)本系統(tǒng)較為合適。DHMM模型是一種隨機(jī)統(tǒng)計(jì)過程,通過大量的模板訓(xùn)練過程提取語音特征,可滿足語音實(shí)時(shí)變化且識(shí)別實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)合。

本系統(tǒng)采用了當(dāng)前性價(jià)比較高的Viterbi算法實(shí)現(xiàn)DHMM模型。Viterbi算法可以由如下公式描述[5]:

?啄t(i)=■p(s1,s2,…,st=si,O1,O2,…,Ot|?姿)

其中,?啄t(i)為被識(shí)別語音序列t時(shí)刻的最大概率密度;其中t時(shí)刻前經(jīng)過的語音狀態(tài)序列為s1,s2,...st,且t時(shí)刻狀態(tài)為si,對(duì)應(yīng)輸出觀察符序列為O1,O2,...Ot。

4結(jié)束語

人類與計(jì)算機(jī)之間的交流的方式經(jīng)過了按鍵輸入、鍵盤輸入、手寫輸入以及觸摸輸入的階段,但這已經(jīng)不能滿足人們對(duì)于便捷、快速輸入的更高需求,而語音識(shí)別技術(shù)的發(fā)展和應(yīng)用,使得人們看到了計(jì)算機(jī)輸入的未來趨勢(shì)。相信隨著電子技術(shù)和信號(hào)處理技術(shù)的進(jìn)一步提高,語音輸入將會(huì)廣泛應(yīng)用于各種計(jì)算機(jī)以及嵌入式設(shè)備中。

參考文獻(xiàn):

[1]馬莉,黨幼云.特定人孤立詞語音識(shí)別系統(tǒng)的仿真與分析[J].西安工程科技學(xué)院學(xué)報(bào),2007,(03).

[2]邢銘生,朱浩,王宏斌.語音識(shí)別技術(shù)綜述[J].科協(xié)論壇(下半月),2010,(03).

[3]涂剛,陽富民等.嵌入式操作系統(tǒng)綜述[J].計(jì)算機(jī)應(yīng)用研究,2000,17(11):4-6.