人工智能已經(jīng)突破了一項聲音障礙。麻省理工學(xué)院(MIT)的研究人員開發(fā)了一款人工智能系統(tǒng),可以“觀看”無聲的視頻并且生成一段聲音,效果十分逼真,以至于多數(shù)觀眾無法分辨出這些聲音是否是計算機生成的。40Kesmc
MIT計算機科學(xué)和人工智能實驗室(MIT Computer Science and Artificial Intelligence Laboratory)稱,其“深度學(xué)習(xí)算法”是頭一個通過“聲音圖靈測試”的,生成的聲音能夠以假亂真。
這款視覺指示聲音系統(tǒng)(Visually Indicated Sounds,簡稱Vis)受到訓(xùn)練,能夠?qū)髯訐舸颉⒐尾粱蛘咄币幌盗形矬w(從樹葉、水到土壤和鋼鐵)時發(fā)出的聲音進行分析。40Kesmc
研究人員稱,Vis的本領(lǐng)可以延伸至很多其他場景。例如,未來的版本可以為電影和電視生成比傳統(tǒng)方法(比如在鋁箔上撒鹽以模擬雨聲)更逼真的聲音效果。40Kesmc
該項目的負責(zé)人安德魯?歐文斯(Andrew Owens)稱,更重要的應(yīng)用或許是幫助機器人理解物體的物理屬性、更好地與它們所在的環(huán)境互動。該項目將于本月晚些時候在拉斯維加斯舉行的計算機視覺與模式識別大會(CVPR)上展出。40Kesmc
“機器人可以看著人行道、本能地知道水泥地是硬的而草地是軟的,因此知道如果它踩上兩種地面會發(fā)生什么,”他說,“能夠預(yù)測聲音,是預(yù)測與世界進行物理互動的后果的重要第一步。”40Kesmc
該MIT團隊“訓(xùn)練”Vis的方法是,向其輸入包含4.6萬種聲音的1000段視頻,這些聲音是鼓槌在不同堅實度的物體上敲打或劃過而產(chǎn)生的。之后,幫計算機在大量數(shù)據(jù)中找到模式的“深度學(xué)習(xí)”算法對這些聲音進行解構(gòu)。40Kesmc
為了從無聲視頻片斷中預(yù)測一種新聲音,Vis會查看最可能與每個視頻畫面相關(guān)的音頻屬性,并把這些音頻串在一起編輯成連貫的聲音。Vis可以模擬快節(jié)奏和舒緩的微妙聲音,無論是斷斷續(xù)續(xù)拍打巖石的聲音,還是穿過常春藤時發(fā)出的細小沙沙聲。它既可以模擬擊打墊子發(fā)出的低沉砰砰聲,又可以模擬敲擊欄桿時發(fā)出的刺耳聲音。40Kesmc
為了測試這些聲音在人耳聽起來的逼真性,研究人員對400名觀眾進行了調(diào)查。他們觀看了兩遍視頻,其中一遍聽的是真實聲音,另一遍聽的是Vis的模擬版。他們要說出哪一次是真實的聲音。40Kesmc
如果Vis生成的聲音與真實的聲音無法區(qū)分,Vis版被選擇的概率應(yīng)為50%。結(jié)果調(diào)查得出的概率為40%,這是一個相當(dāng)不錯的分數(shù)。40Kesmc
當(dāng)聲音清晰、尖銳時——比如敲木頭或金屬的聲音——該系統(tǒng)的表現(xiàn)最差,在生成由樹葉或泥土產(chǎn)生的較輕柔、持續(xù)時間較長的聲音時,Vis表現(xiàn)最好。有時,如果棍子剛好停在目標物之前,它還會“幻想出”假的敲擊聲。40Kesmc
歐文斯的夢想是在沒有明確視覺線索的情況下讓Vis模擬聲音。“從微風(fēng)輕撫、到筆記本電腦的嗡嗡作響,任何時候環(huán)境中都存在著許多與我們正盯著看的東西無關(guān)的聲音,”他說。(來源/FT中文網(wǎng))40Kesmc
40Kesmc