語音識別技術(shù)在智能語音機(jī)器人中的應(yīng)用

2022-05-12 分類：網(wǎng)站建設(shè)

信息時代，科學(xué)技術(shù)的飛速發(fā)展帶動人工智能化技術(shù)的更新進(jìn)步。機(jī)器人的應(yīng)用領(lǐng)域和范圍也越來越廣泛，在生產(chǎn)、建筑、旅游等各個行業(yè)都能夠看到人工智能機(jī)器人的身影。旅游產(chǎn)業(yè)與互聯(lián)網(wǎng)的結(jié)合，要隨著信息技術(shù)的發(fā)展與時俱進(jìn)。物聯(lián)網(wǎng)、人工智能、虛擬現(xiàn)實等新興的互聯(lián)網(wǎng)技術(shù)讓旅游產(chǎn)業(yè)的未來充滿了挑戰(zhàn)與機(jī)遇，導(dǎo)游等依賴大數(shù)據(jù)的職業(yè)完全可能被人工智能機(jī)器人取代。

本文主要介紹語音識別技術(shù)在智能語音機(jī)器人中的應(yīng)用，一般語音機(jī)器人的設(shè)計開發(fā)主要著眼于“能聽會說”，力圖利用語音識別和語音合成等技術(shù)，將模擬的聽說能力賦予機(jī)器人并生動地展示給觀眾，主要應(yīng)用于展廳博物館等場景，需考慮到機(jī)器人所處環(huán)境非常嘈雜，因此對系統(tǒng)的穩(wěn)定性和抗噪性能都提出了較高的要求。此外，由于參與的觀眾來自全國各地，涉及不同性別、年齡、地域口音，所以系統(tǒng)聲學(xué)模型的分類設(shè)計、調(diào)練和自動切換也是一個重要的設(shè)計要素。

智能語音機(jī)器人的總體設(shè)計

智能機(jī)器人與觀眾采用相互問答的小型對話形式進(jìn)行交流。為實現(xiàn)上方便，可把問答對話的領(lǐng)域進(jìn)行合理的限制。除迎賓和問候語外，可以設(shè)計4個問題域：有關(guān)時間、日期和星期的問答，有關(guān)全世界各大城市所在時區(qū)和當(dāng)?shù)貢r間的問答，100以內(nèi)的數(shù)學(xué)四則運(yùn)算題目的問答，沒有關(guān)系機(jī)器人的身世、本領(lǐng)等自身情況的問答。對于每個限定的問題域，相應(yīng)詞匯表的大小是有限的。在限定領(lǐng)域、有限詞匯的條件下，機(jī)器人基本可以與觀眾進(jìn)行自由問答，并可以在不同的問題與之間相互切換。系統(tǒng)工作流程圖如下。

系統(tǒng)啟動并初始化后處于等待狀態(tài)，如果沒有觀眾靠近，機(jī)器人就定時反復(fù)播放自我介紹。如果有觀眾參觀（由紅外探測配合），系統(tǒng)檢測到語音信號，便會從等待狀態(tài)進(jìn)入問答狀態(tài)。在觀眾預(yù)先選定的問題域內(nèi)，機(jī)器人將和觀眾進(jìn)行“自由”問答，在回答觀眾提問的同時，機(jī)器人會有協(xié)調(diào)的動作加以配合：針對不同觀眾對機(jī)器人所提問題的不同回答，機(jī)器人會有不同的相應(yīng)，并以此決定下一步的動作。在某些問題域內(nèi)，機(jī)器人在對文檔話過程中還會向觀眾提出一些問題，并等待觀眾回答。如果觀眾回答正確，機(jī)器人將表示祝賀，否則機(jī)器人將給出合理的提示(如噪聲太大，講話聲音要大點，沒有聽清楚或者你的答案不正確等)。多次回答不正確時，機(jī)器人將給出正確答案，機(jī)器人與觀眾對話結(jié)束后，向觀眾道別，再次轉(zhuǎn)入等待狀態(tài)。

核心語音模塊及關(guān)鍵技術(shù)

語音模塊是智能機(jī)器人的核心構(gòu)件，它完成的功能包括:機(jī)器人從外界接收觀眾的語街，送入語音識別器進(jìn)行識別，再從識別結(jié)果中提取若干關(guān)鍵詞，而后通過對這些關(guān)詞的分析，將其映射為某個問題:機(jī)器人再針對此問題生成回答，最后將文本形式的答案合成為語音，輸出給觀眾。如果觀眾的問題超出限定的對話范圍或者識別結(jié)果可信度不高，則在答案生成階段給出錯誤提示，并由語音合成器輸出。如果機(jī)器人想向觀眾提出問題，也要由語音合成器合成后輸出，模塊的整體框架如下圖所示。

1.問題域相關(guān)的數(shù)據(jù)組織

機(jī)器人與觀眾的問答將限定在某個問題域內(nèi)進(jìn)行，針對每個問題域，我們確定了有限大小的“詞匯表”，并通過大量的語料訓(xùn)練出相應(yīng)的基于詞類的統(tǒng)計“語言模型”“關(guān)鍵詞表”可以從“詞匯表”中提煉得到，它記錄的是對于理解問題有實質(zhì)作用的詞匯及其相關(guān)信息，此外還要在“關(guān)鍵詞表”的基礎(chǔ)上形成“關(guān)鍵詞類型組合模板庫”，其中每個模板代表問題域內(nèi)的一類具體問題。

2.識別結(jié)果的可信度度量及拒識

從以上框圖可以看到，語音識別器的識別結(jié)果作為“關(guān)鍵詞提取”和“問題理解等后續(xù)各個步驟的原始輸入，它的正確與否直接影響到整個系的性能。

在限定領(lǐng)域限定詞匯量的條件下，如果觀眾的提問或回答不超出限定的詞匯，識別結(jié)果的正確率可以達(dá)到95%以上。但是，一旦問題超出限定的領(lǐng)域或者出現(xiàn)了集外詞，識別器的性能就會嚴(yán)重下降。因此對識別器識別結(jié)果的可信度進(jìn)行度量就顯得非常重要，它可以降低集外詞(OOV)帶來的不利影響。

我們采取的方法是利用統(tǒng)計語言模型衡量識別所得到的整個句子的可信度。如果一個句子的詞誤識率比較低，構(gòu)成這個句子的眾多三元短語(w1w2，w3)，會比較多的出現(xiàn)在統(tǒng)計語言模型Trigram中;反之如果出現(xiàn)較多的識別錯誤，那么句子中大部分的詞w1和元短語(wl，w2)將出現(xiàn)在Unigram或Bigram中，很少有三元短語命中Trigram對于一個由若干詞W，W2，，Wi，…Wn構(gòu)成的句子，我們根據(jù)各個詞及它所構(gòu)成的知語在統(tǒng)計語言模型中出現(xiàn)的情況對其中每個詞打分。出現(xiàn)在Trigram中的可信度高，因而得分較高，出現(xiàn)在Bigram或Unigram中的可信度低，因而得分較低。再在各個詞得分的基礎(chǔ)上得到整個句子的可信度得分。若得分低于某個門限，則認(rèn)為句子中包含較多的識別錯誤或者集外詞，可信度較低，應(yīng)當(dāng)被拒識。

3.關(guān)鍵詞檢測

從識別器得到的識別結(jié)果，是由一個個詞構(gòu)成的詞序列，其中某些詞對于理解整個句子有著非常重要的作用，這就是我們所說的關(guān)鍵詞。在這步要做的就是提取出這些關(guān)鍵詞，形成一個關(guān)鍵詞串，作為下一步問題理解”的輸入，這種處理同時也是為了降低“問題理解”時的難度。針對上面提到的四個問題域，我們分別設(shè)計了關(guān)鍵詞表，預(yù)先規(guī)定了在這一問題域內(nèi)的關(guān)鍵詞。這個關(guān)鍵表是語音識別系統(tǒng)中相應(yīng)問題域下的詞匯表的子集，記錄了每個關(guān)鍵詞的漢字串，類標(biāo)識和詞序號等信息。在提取關(guān)鍵詞時，只需要在句子中進(jìn)行搜索，檢測到出現(xiàn)在關(guān)鍵間表的關(guān)鍵詞，記錄它們出現(xiàn)的位置和次序。比如一個句子“請問現(xiàn)在紐約的當(dāng)?shù)貢r間是幾點鐘?”我們可以提取出關(guān)鍵漢字串“現(xiàn)在紐約當(dāng)?shù)貢r間幾點鐘”以及對應(yīng)的關(guān)鍵詞類型串NOWCITY+LOCALTIME+CCLOCK”。對于不包含關(guān)鍵詞的句子我們把它視作無效或者錯誤的輸入，給出相應(yīng)的提示。

4.問題理解和答案生成

“關(guān)鍵詞提取”得到的關(guān)鍵詞漢字串以及類型串將用于問題理解和答案生成。

在“問題理解”時，主要用到關(guān)鍵詞類型串，通過與模板組合庫中的模板對照，可以把它映射到某一類具體問題上。比如上面例子中的“NOW+CITY+LOCALTIME+OCLOCK”，就可以映射為“詢問某城市的當(dāng)?shù)貢r間這類問題。在系統(tǒng)中針對每個不同的問題域，設(shè)計了許多關(guān)鍵字類型組合的模板，每個模板對應(yīng)一類問題。如果關(guān)鍵字類型串成功映射為某類問題，即可轉(zhuǎn)入“答案生成”，否則我們認(rèn)為問題無效和錯誤在“答案生成”時，已經(jīng)明確了問題的類型，相應(yīng)回答的基本句式就已經(jīng)確定，所需要的就是給句式賦予具體的內(nèi)容。利用“關(guān)鍵詞提取”得到的關(guān)鍵字漢字串和詞序號等信息，可以唯一地確定問題的具體內(nèi)容，并由此得到問題的最終答案。

以上介紹的是系統(tǒng)的總體結(jié)構(gòu)和流程設(shè)計，針對機(jī)器人將要長期展出的要求，以及其展出環(huán)境比較嘈雜觀眾類型復(fù)雜、年齡跨度大等特點，還有許多實際問題需要解決。比如，針對現(xiàn)場環(huán)境噪聲和不同的觀眾類型需要現(xiàn)場采集數(shù)據(jù)，進(jìn)行聲學(xué)模型訓(xùn)練;根據(jù)說話人的不同聲學(xué)特性，要對說話人進(jìn)行聚類，設(shè)計分類的聲學(xué)模型，并在線選擇、切換;另外還要設(shè)計不同的問題域，并組織數(shù)據(jù)和訓(xùn)練相應(yīng)的語言模型。

本文題目：語音識別技術(shù)在智能語音機(jī)器人中的應(yīng)用
瀏覽路徑：http://jinyejixie.com/news13/152613.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站維護(hù)、動態(tài)網(wǎng)站、網(wǎng)站收錄、用戶體驗、網(wǎng)站排名、網(wǎng)站策劃

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

SEO優(yōu)化的四種新思路 2022-05-12
怎樣精細(xì)化管理和運(yùn)營小型的B2B網(wǎng)站 2022-05-12
分享網(wǎng)站設(shè)計過程中使版面更精致耐看的設(shè)計技巧！ 2022-05-12
網(wǎng)站建設(shè)完成后為何百度關(guān)鍵詞排名會突然消失 2022-05-12
微信小程序怎么做營銷推廣才正確？ 2022-05-12
您的網(wǎng)站中看不中用嗎? 2022-05-12
濟(jì)南seo公司-怎樣避免網(wǎng)站的過度優(yōu)化 2022-05-12

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

語音識別技術(shù)在智能語音機(jī)器人中的應(yīng)用