2021-03-03 分類: 網(wǎng)站建設(shè)
相信在人們的印象里,AI都是一個(gè)屬于“大多數(shù)”的技術(shù)門類。
所謂大多數(shù),第一意味著相關(guān)數(shù)據(jù)量大、便于累積,適用于AI對海量數(shù)據(jù)極度依賴的特性;第二意味著應(yīng)用場景廣泛、便于變現(xiàn)回收成本,適用于AI研發(fā)的高門檻投入。
目前我們身邊常常出現(xiàn)的人臉識(shí)別、語音交互等等,其實(shí)都符合以上這些特征。不過這并不意味著,屬于“少數(shù)派”的AI是一片空白。
昨天是“全球無障礙宣傳日”,我們把目光投向于那些能夠消弭“少數(shù)與多數(shù)”區(qū)別的技術(shù)發(fā)展,例如服務(wù)于聽障人群的手語識(shí)別,就是一個(gè)典型的例子。
你我不懂的手語,為什么AI也很難讀懂?
手語是用手勢比量動(dòng)作,根據(jù)手勢的變化模擬形象或者音節(jié)以構(gòu)成的一定意思或詞語,是聽障人群獨(dú)有的一種溝通方式。但這種溝通方式雖然能讓聽障人士之間彼此溝通,或讓理解手語的普通人與之溝通,但仍然不能滿足聽障人士與普羅大眾之間的交流需求。
這便意味在一些社會(huì)公共空間之中,例如政務(wù)場景或服務(wù)業(yè)場景,聽障人士可能都會(huì)遇到一些不便。
而AI,恰好成為了一種解決方案。
我們在一些軟件中,已經(jīng)開始應(yīng)用到了AI的手勢識(shí)別能力,像是拍照時(shí)“比心”來觸發(fā)一些AR特效。將這種對于手勢的捕捉,和手勢語義對應(yīng)起來,不就能實(shí)現(xiàn)對于手語的翻譯和生成了嗎?
這一邏輯是正確的,可從邏輯正確到應(yīng)用可行,卻還隔著一段不短的路程。
首先,手語的表達(dá)有一定的特殊性,想進(jìn)行捕捉并不容易。
我們知道在“比劃手勢”這種行為上,本來就不存在絕對的精準(zhǔn)度,加之一些手語詞匯的表達(dá)非常接近,而且手語表達(dá)通常是以句子為單位,詞與詞之前不會(huì)有明顯的間隙。以往手勢識(shí)別中利用前置攝像頭捕捉的方式,基本是不可行的。
于是很多科技和團(tuán)隊(duì)給出的解決方案是加以外設(shè),例如中科大和微軟推出了基于Kinect的手語翻譯系統(tǒng),加州大學(xué)曾經(jīng)推出過的手語識(shí)別手套等等就是這樣??蛇@些外設(shè)要么便攜程度低,要么造價(jià)昂貴,推廣起來有很大的困難。
同時(shí),手語表達(dá)同樣也有國別性和地域性,在模型通用性上存在著困難。
手語中有“文法手語”和“自然手語”兩個(gè)概念,文法手語既是通用的普通話,至于自然手語則如同方言一般,在國別、地方甚至城市之間都有著不小的差異。這也造成了手語數(shù)據(jù)收集、標(biāo)注會(huì)是一項(xiàng)成本高、工作量大的事情。
例如亞馬遜曾經(jīng)提出過,對智能音箱Alex進(jìn)行改造可以使其翻譯出一些簡單的信號(hào)。可是因?yàn)槿狈Υ笠?guī)模的訓(xùn)練數(shù)據(jù)集,目前這一功能只能識(shí)別出一些簡單的美國手語,停留在實(shí)驗(yàn)室階段。
手語破題沒有秘法,AI產(chǎn)業(yè)本該平權(quán)
雖然探索艱難,但科技企業(yè)們和學(xué)界還是不斷在手語AI上取得成果。例如騰訊優(yōu)圖實(shí)驗(yàn)室推出的 “優(yōu)圖AI手語翻譯機(jī)”、愛奇藝推出的AI手語主播等等,都在手語AI的應(yīng)用上取得了不小的進(jìn)展。
手語AI的突破可以分為兩條路線,一方面是手語AI本身技術(shù)的進(jìn)展,另一方面是應(yīng)用場景的突破。
在手語AI技術(shù)本身上,可以分為識(shí)別模型和數(shù)據(jù)集兩個(gè)解決路徑。在數(shù)據(jù)集上,可以像優(yōu)圖一樣,通過和社會(huì)相關(guān)機(jī)構(gòu)以及聽障人士的接觸自建手語識(shí)別數(shù)據(jù)集,并且針對手語表達(dá)的地方性差異,做出表達(dá)習(xí)慣和速度上的多樣性拓展。
至于識(shí)別模型上,業(yè)內(nèi)也有全新的算法搭建概念,例如通過2D卷積神經(jīng)網(wǎng)絡(luò)和3D卷積神經(jīng)網(wǎng)絡(luò)分別提取手勢中靜態(tài)和動(dòng)態(tài)的信息,經(jīng)由綜合處理來提升視頻識(shí)別效果,徹底擺脫其他傳感器的桎梏。同時(shí)針對手語表達(dá)的整句化的現(xiàn)象,在視頻幀的最后加入了詞級(jí)信息挖掘,對特征提取器提出的信息進(jìn)行核驗(yàn),進(jìn)一步去確定手勢對詞語表達(dá)邊界,除了提升識(shí)別精準(zhǔn)度以外,還能提升對自然手語中地域表達(dá)的總結(jié)能力。在此基礎(chǔ)上,還可以算法模型中引入了上下文理解能力,以便于面對更加復(fù)雜的手語識(shí)別翻譯需求。
不過技術(shù)雖然得以提升,應(yīng)用場景端仍然會(huì)受到一些限制。例如手語識(shí)別可能會(huì)依賴較強(qiáng)大的算力,短時(shí)間內(nèi)很難便攜化、消費(fèi)化。但完全可以通過和政府的合作,讓手語識(shí)別進(jìn)入一些公共服務(wù)場景?;蛘呦駩燮嫠囈粯?,從手語生成方面入手,同樣也能幫助到聽障人士。
其實(shí)我們不難發(fā)現(xiàn),可如果將技術(shù)拆分來看就能發(fā)現(xiàn),手語AI取得的進(jìn)步,并不是因?yàn)樵谀稠?xiàng)基礎(chǔ)科學(xué)上突然取得了什么驚人的突破,而是有越來越多的企業(yè)和學(xué)者在研發(fā)和數(shù)據(jù)累積上一貫長期的投入,才能解脫于以往手語語料庫匱乏的困境,在算法上不斷迭代。
換句話說,企業(yè)和學(xué)者們在“少數(shù)派”的AI技術(shù)中投入了幾乎與“大多數(shù)”AI技術(shù)相匹配的精力與財(cái)力。對于AI產(chǎn)業(yè)來說,這無疑是一種平權(quán)精神。
從以人為本到科技向善:我們?yōu)楹我獙夹g(shù)洋流的引導(dǎo)更加主動(dòng)?
騰訊優(yōu)圖在手語AI方面的投入,其實(shí)也是AI產(chǎn)業(yè)中一種隱隱冒出勢頭的洋流方向。
幾天以前,在福州的數(shù)字中國峰會(huì)上,馬化騰首次提到了“科技向善”這一概念,提出“我們相信,科技能夠造福人類;人類應(yīng)該善用科技,避免濫用,杜絕惡用;科技應(yīng)該努力去解決自身發(fā)展帶來的社會(huì)問題?!?/p>
無獨(dú)有偶,李飛飛在回歸斯坦福后,就著手創(chuàng)辦了HAI研究所(以人為本斯坦福人工智能研究所),并在今年開始擔(dān)任所長。HAI的研究目標(biāo),就是推動(dòng)AI技術(shù)向造福人類的方向發(fā)展,預(yù)測AI對人類生活的切實(shí)影響。
科技巨頭和學(xué)界旗幟都將目光投向了同一方向,是因?yàn)槿藗円呀?jīng)開始逐漸發(fā)現(xiàn)AI、5G、產(chǎn)業(yè)數(shù)字化等等技術(shù)力量的勢頭之強(qiáng),已經(jīng)到了不得不對其加以引導(dǎo)甚至約束的地步。
如同上文所說,科技企業(yè)在這一波技術(shù)發(fā)展的過程中,起到了很大的促進(jìn)作用,而逐利自然是企業(yè)的本能和天性,因此企業(yè)會(huì)率先投身于那些滿足大多數(shù)人、應(yīng)用場景廣泛、研發(fā)成本相對低的技術(shù)。
這種行為本身無可厚非,但AI等等新技術(shù)帶來的效率提升實(shí)在過于顯著,是否會(huì)會(huì)對那些暫時(shí)無法接入新技術(shù)的領(lǐng)域和群體進(jìn)行擠壓甚至邊緣化,是很多人都在思考的一個(gè)問題。
例如隨著英漢日法俄等等主流語種的機(jī)器翻譯能力不斷增強(qiáng),那些語料庫不充足、應(yīng)用人數(shù)更少的小語種是否會(huì)因?yàn)榈貌坏郊夹g(shù)賦能,而被進(jìn)一步的邊緣化?
同樣的,當(dāng)公共事務(wù)辦理越來越多的被語音交互、圖像識(shí)別等等AI技術(shù)替代,聽障、視障群體在獲取服務(wù)時(shí)會(huì)不會(huì)遇到更多麻煩?
類似的情況其實(shí)已經(jīng)發(fā)生:2018年年底,聯(lián)合國發(fā)布了對英國政府?dāng)?shù)字化成果的報(bào)告,結(jié)果是數(shù)據(jù)顯示在英格蘭,自2010年以來無家可歸者增加了60%,保障住房的等待名單上有120萬人,用來救濟(jì)窮人的食品銀行需求量增長了近四倍——因?yàn)楹芏嘭毨巳翰⒉恢廊绾卧诨ヂ?lián)網(wǎng)上申請貧困補(bǔ)助,甚至家里都沒辦法連接互聯(lián)網(wǎng),最終只能在貧困中越陷越深。
很多時(shí)候,即使是無惡意的技術(shù),也可能會(huì)出現(xiàn)無法預(yù)測走向。我們對于科技向善的引導(dǎo),或許應(yīng)該更主動(dòng)一些。
結(jié)束語
最后,我們不如來看看這樣一組數(shù)字:
據(jù)2017年北京聽力協(xié)會(huì)預(yù)估數(shù)據(jù),我國聽障人群數(shù)量約達(dá)到7200萬。在全球范圍內(nèi),世界衛(wèi)生組織發(fā)布的最新數(shù)據(jù)顯示,全世界有共計(jì)約4.66億人患有殘疾性聽力損失。
——你看,這世界上所謂“大多數(shù)”和“少數(shù)派”本來就是一個(gè)相對性的概念,并不存在黑白鮮明的區(qū)隔。尤其對于AI這種善于模仿人類能力的技術(shù)來說,它的存在本可以推倒阻礙各個(gè)群體溝通交流的空氣壁,而不是讓這種趨勢愈演愈烈。我們關(guān)于利用技術(shù)搭建美好世界的目標(biāo),既然可以不拋下任何一個(gè)人,就不該拋下任何一個(gè)人。
好在從服務(wù)于聽障人群的手語識(shí)別翻譯上,我們已經(jīng)能看到這種趨勢走向——精于計(jì)算的大腦不是AI唯一的模擬對象,還有人類的熾熱心臟。我們相信,在學(xué)界和巨頭的引導(dǎo)之下,未來會(huì)有越來越多的企業(yè)關(guān)注到無障礙AI技術(shù)的發(fā)展,不斷的打破各種隔膜阻礙。
愛雖沉默,也有回響。
AI雖沉默,也有回響。
新聞名稱:AI進(jìn)入無障礙時(shí)代:手語識(shí)別翻譯的應(yīng)用,究竟意味著什么?
本文URL:http://jinyejixie.com/news7/103907.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計(jì)公司、關(guān)鍵詞優(yōu)化、微信公眾號(hào)、網(wǎng)站改版、域名注冊、品牌網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容