語音識別技術(shù),也被稱為自動語音識別,其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。
成都創(chuàng)新互聯(lián)專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于網(wǎng)站建設(shè)、網(wǎng)站制作、龍馬潭網(wǎng)絡(luò)推廣、成都微信小程序、龍馬潭網(wǎng)絡(luò)營銷、龍馬潭企業(yè)策劃、龍馬潭品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運(yùn)營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們大的嘉獎;成都創(chuàng)新互聯(lián)為所有大學(xué)生創(chuàng)業(yè)者提供龍馬潭建站搭建服務(wù),24小時服務(wù)熱線:13518219792,官方網(wǎng)址:jinyejixie.com語音識別技術(shù)作為輸入方式,比按鍵輸入和手勢輸入更為快捷,學(xué)習(xí)成本很低,對于非特定人連續(xù)語音識別系統(tǒng)的識別率達(dá)到98.73%,已經(jīng)達(dá)到實(shí)用要求,具有廣闊的應(yīng)用前景,在手機(jī)端的應(yīng)用有語音撥號、語音輸入、語音命令、語音搜索和語音翻譯等。
語音的技術(shù)原理比較復(fù),可以從語音交互的過程來理解:
1.開啟語音識別功能。一般由用戶手動點(diǎn)擊按鈕啟動,手機(jī)端暫時無法自動啟動,如由語音命令啟動或者根據(jù)音量高低判斷開始識別。
2.進(jìn)入說話界面。程序界面會通過視覺體現(xiàn)音量的變化。
3.說話完畢,系統(tǒng)開始分析。結(jié)束輸入有兩種方式:一是自動關(guān)閉,通常時輸入單詞完畢之后自己的關(guān)閉,另一種是用戶手機(jī)手動關(guān)閉。系統(tǒng)處理過程可以分為以下幾個步驟:
a)前端處理。該模塊的主要任務(wù)是從輸入信號中去除噪音等影響結(jié)果的因素,提取特征,供聲學(xué)模型處理。信號處理之前會先進(jìn)行斷點(diǎn)檢測,端點(diǎn)檢測是指在語音信號中將語音和非語音信號時段區(qū)分開來,準(zhǔn)確地確定出語音信號的起始點(diǎn)。經(jīng)過端點(diǎn)檢測后,后續(xù)處理就可以只對語音信號進(jìn)行,這對提高模型的精確度和識別正確率有重要作用。語音增強(qiáng)的主要任務(wù)就是消除環(huán)境噪聲對語音的影響。目前通用的方法是采用維納濾波,該方法在噪聲較大的情況下效果好于其它濾波器。
b)聲學(xué)特征提取。聲學(xué)特征的提取既是一個信息大幅度壓縮的過程,也是一個信號解卷過程,目的是使模式劃分器能更好地劃分。如上傳音頻會利用到語音編碼解碼技術(shù),可以減少音頻的文件大小、存儲空間或者傳輸比特率。
c)統(tǒng)計(jì)聲學(xué)模型。計(jì)算各個幀的聲學(xué)特征,如上下文建模。根據(jù)發(fā)聲機(jī)理,音之間只能漸變,前一音會影響后一音,從而使得后一個音的頻譜與其他條件下的頻譜產(chǎn)生差異,從而使模型能更準(zhǔn)確地描述語音。
d)發(fā)音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音,類似于拼音輸入法的詞庫。如輸入法,詞典更新熱詞和詞庫有組于提高匹配的準(zhǔn)確率。
e)語言模型。語言模型對系統(tǒng)所針對的語言進(jìn)行建模,如分析語音上下文。
由于音頻文件大小的限制,本地只能存儲少量的詞典,這也就要求復(fù)雜的語音需要連接服務(wù)器分析。谷歌語音搜索在用戶輸入完成之后才提示無法聯(lián)網(wǎng),在啟動輸入之前就應(yīng)該檢查網(wǎng)絡(luò)連接狀
4.系統(tǒng)分析完畢輸出結(jié)果。一種是根據(jù)結(jié)果自動顯示結(jié)果,如bing搜索,另外一種是提供選項(xiàng)供用戶選擇,這和輸出結(jié)果的概率高低有一定關(guān)系。用戶選擇的結(jié)果對于詞典的排序產(chǎn)生影響,增強(qiáng)語音的自適應(yīng)和強(qiáng)健性,幫助形成個性化輸入。
根據(jù)產(chǎn)品可識別的詞匯量區(qū)分產(chǎn)品,對于特定語音命令,用戶只能輸入符合命令的詞匯,比如說出聯(lián)系人名字搜索。輸入法的詞匯更多,而語句搜索不但需要龐大的詞匯庫,處理連續(xù)的語音輸入需要區(qū)分連音和變音,還要求能根據(jù)上下文和熱詞輸出更為合理的結(jié)果。條件限制越少,語音識別的難度越大。因?yàn)橐欢ǔ潭壬媳苊饽:?,詞典數(shù)據(jù)越少,輸入特定詞匯的準(zhǔn)確率越高。
中文的語音輸入與英文不同,英文匹配不到詞典配置的詞就無法識別,中文詞匯由單字組成,中文可以根據(jù)單字識別。
io 5的輸入法已經(jīng)加入語音功能,會逐步變?yōu)槭謾C(jī)輸入的常規(guī)功能,最終輸出結(jié)果的準(zhǔn)確率和操作流暢度是衡量其交互優(yōu)劣的重要標(biāo)準(zhǔn)。
網(wǎng)站名稱:淺析手機(jī)語音交互設(shè)計(jì)
本文路徑:http://jinyejixie.com/article24/checce.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信公眾號、移動網(wǎng)站建設(shè)、面包屑導(dǎo)航、營銷型網(wǎng)站建設(shè)、品牌網(wǎng)站設(shè)計(jì)、搜索引擎優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)