人們很少只用一種感覺來理解世界,但機(jī)器人通常只依靠視覺,并且越來越多地依靠觸覺。近年來,研究人員開發(fā)了越來越多的計算技術(shù),使機(jī)器人具有類似人類的能力。然而,到目前為止發(fā)展起來的大多數(shù)技術(shù)僅僅注重于人為地再現(xiàn)視覺和觸覺,而忽略了其它的感覺,如聽覺。
創(chuàng)新互聯(lián)服務(wù)項目包括芒康網(wǎng)站建設(shè)、芒康網(wǎng)站制作、芒康網(wǎng)頁制作以及芒康網(wǎng)絡(luò)營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢、行業(yè)經(jīng)驗、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,芒康網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到芒康省份的部分城市,未來相信會繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!現(xiàn)在,卡耐基梅隆大學(xué)的研究人員發(fā)現(xiàn),機(jī)器人的感知能力可以通過增加另一種感官來顯著提高:聽覺。
卡內(nèi)基梅隆大學(xué) ( CMU ) 的一個研究小組最近進(jìn)行了一項研究,探索利用聲音開發(fā)具有更先進(jìn)傳感能力的機(jī)器人的可能性。他們的論文發(fā)表在《機(jī)器人技術(shù) : 科學(xué)與系統(tǒng)》上,介紹了迄今為止大的聲音 - 動作 - 視覺數(shù)據(jù)集,該數(shù)據(jù)集是作為一個名為 Tilt-Bot 的機(jī)器人平臺收集的,并與各種各樣的物體進(jìn)行交互。
在機(jī)器人學(xué)習(xí)中,我們通常只使用視覺輸入來進(jìn)行感知,但人類有更多的感官模式,而不僅僅是視覺。 開展這項研究的研究人員之一 Lerrel Pinto 說。 聲音是學(xué)習(xí)和理解我們的物理環(huán)境的關(guān)鍵組成部分。所以,我們問了這個問題 : 聲音能給機(jī)器人帶來什么 ? 為了回答這個問題,我們創(chuàng)造了 Tilt-Bot,一個機(jī)器人可以與物體互動,并收集大規(guī)模的視聽數(shù)據(jù)集的互動。
研究人員收集了 15000 多個 Tilt-Bot 與 60 個不同物體互動的視覺和音頻數(shù)據(jù)。這使得他們能夠匯編一個新的圖像和音頻數(shù)據(jù)集,可以幫助訓(xùn)練機(jī)器人在動作、圖像和聲音之間建立聯(lián)系。
在論文中,Pinto 和他的同事們使用這個數(shù)據(jù)集來探索機(jī)器人應(yīng)用中聲音和動作之間的關(guān)系,收集了許多有趣的發(fā)現(xiàn)。首先,他們發(fā)現(xiàn)分析物體移動和撞擊表面的聲音記錄可以讓機(jī)器區(qū)分不同的物體,例如區(qū)分金屬螺絲刀和金屬扳手。
Pinto 解釋說 : 我們研究的一個令人興奮的初步結(jié)果是,僅憑聲音就可以識別出物體的類型,準(zhǔn)確率接近 80%。 我們還證明,機(jī)器可以學(xué)習(xí)基于聲音的物體表示,這可以幫助機(jī)器人解決以后的任務(wù)。例如,當(dāng)識別空酒杯的聲音時,機(jī)器人會明白操作空酒杯和操作滿酒杯需要不同的動作。
有趣的是,Pinto 和他的同事們發(fā)現(xiàn),在解決機(jī)器人任務(wù)時,聲音記錄有時能比視覺表現(xiàn)提供更有價值的信息,因為它們也可以用來有效地預(yù)測一個物體的未來運動。在一系列使用機(jī)器人在訓(xùn)練中沒有遇到過的物體的實驗中,他們發(fā)現(xiàn)機(jī)器人與這些物體交互時收集到的嵌入音頻可以預(yù)測正向模型 ( 也就是前向模型 ) 。 ( 例如,如何在未來最好地操縱一個物體 ) 比被動的視覺嵌入好 24%。
其它領(lǐng)域的大量初步工作表明,聲音可能有用,但它在機(jī)器人技術(shù)上有多大用處尚不清楚。Pinto 補(bǔ)充說,研究結(jié)果令人鼓舞,這可能會為未來的機(jī)器人裝備工具手杖,使它們能夠敲擊想要識別的物體。
研究人員在上個月的虛擬機(jī)器人科學(xué)與系統(tǒng)會議上展示了他們的發(fā)現(xiàn)。其他團(tuán)隊成員包括機(jī)器人學(xué)副教授 Abhinav Gupta,以及現(xiàn)任 Facebook 人工智能研究中心匹茲堡實驗室科學(xué)家的 Dhiraj Gandhi。
研究人員創(chuàng)建的這個大型數(shù)據(jù)集,同時記錄 60 種常見物品的視頻和音頻,比如玩具積木、手工工具、鞋子、蘋果和網(wǎng)球,當(dāng)這些物品在托盤上滑動或滾動并撞到托盤側(cè)面時。此后,他們發(fā)布了這個數(shù)據(jù)集,對 15000 個互動進(jìn)行了分類,供其他研究人員使用。
研究小組采用 Tilt-Bot 的實驗設(shè)備來捕捉這些互動。Tilt-Bot 是一個附在 Sawyer 機(jī)器人手臂上的方形托盤。這是建立大型數(shù)據(jù)集的有效方法 ; 他們可以在托盤中放置一個物體,讓 Sawyer 花上幾個小時在不同傾斜程度的隨機(jī)方向移動托盤,同時攝像頭和麥克風(fēng)記錄下每個動作。
他們還收集了托盤之外的一些數(shù)據(jù),使用 Sawyer 推動表面上的物體。
盡管這個數(shù)據(jù)集的規(guī)模是前所未有的,其他研究人員也研究了智能代理如何從聲音中收集信息。例如,機(jī)器人學(xué)助理教授奧利弗克羅默 ( Oliver Kroemer ) 領(lǐng)導(dǎo)了一項研究,通過搖動一個容器,利用聲音來估計大米或意大利面等顆粒狀物質(zhì)的數(shù)量,或者估計這些物質(zhì)從勺子中流出的量。
Pinto 說,聲音對機(jī)器人的有用性并不令人驚訝,盡管他和其他人對聲音被證明如此有用感到驚訝。例如,他們發(fā)現(xiàn),機(jī)器人可以利用它所學(xué)到的一組物體的聲音來預(yù)測之前未見過的物體的物理特性。
他說 : 我認(rèn)為真正令人興奮的是,當(dāng)它失敗的時候,它是在你預(yù)期會失敗的事情上失敗。 例如,機(jī)器人不能用聲音分辨紅色積木和綠色積木。但如果是不同的物體,比如一塊積木和一個杯子,它就能搞清楚。
這個研究小組收集的數(shù)據(jù)集可以最終幫助開發(fā)機(jī)器人,這些機(jī)器人可以根據(jù)在周圍環(huán)境中收集的音頻和圖像來選擇自己的動作和對象操作策略。Pinto 和他的同事們現(xiàn)在正計劃進(jìn)一步研究聲音分析的潛力,以創(chuàng)造出更先進(jìn)的能力的機(jī)器人。
Pinto 說 : 這項工作只是將聲音整合到機(jī)器人中的第一步。 在我們未來的工作中,我們將著眼于聲音和行動的更多實際應(yīng)用。
編譯 / 前瞻經(jīng)濟(jì)學(xué)人 APP 資訊組
原文來源:
https://techxplore.com/news/2020-08-action-ears-eyes-robot-perception.html
https://techxplore.com/news/2020-08-exploring-interactions-action-vision-robotics.html
網(wǎng)頁名稱:聽聲辨物!不再只靠視覺和觸覺,機(jī)器人用“耳朵”聽來區(qū)分不同物體
鏈接URL:http://jinyejixie.com/article18/cjdgdp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供移動網(wǎng)站建設(shè)、網(wǎng)站設(shè)計、虛擬主機(jī)、網(wǎng)站內(nèi)鏈、網(wǎng)站導(dǎo)航、企業(yè)網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)