人機(jī)交互是人工智能技術(shù)的基本,交互模式有圖像識(shí)別、手勢(shì)識(shí)別和語(yǔ)音識(shí)別等。而在人類進(jìn)化過(guò)程中,語(yǔ)言不僅起著非常重要的作用,也承載著非常豐富的信息,這令智能語(yǔ)音在交互方式方面具備得天獨(dú)厚的優(yōu)勢(shì)。語(yǔ)音識(shí)別技術(shù)的迭代演進(jìn)讓智能語(yǔ)音市場(chǎng)前景無(wú)限。很多產(chǎn)品場(chǎng)景下,深度學(xué)習(xí)已與芯片緊密結(jié)合,如遠(yuǎn)場(chǎng)喚醒、打斷,包括離線識(shí)別,都已在芯片級(jí)技術(shù)層面實(shí)現(xiàn)。
zQhesmc
面對(duì)智能語(yǔ)音交互,兩大互聯(lián)網(wǎng)巨頭這回同時(shí)出手了
7月5日早10點(diǎn),百度AI開發(fā)者大會(huì)在北京國(guó)家會(huì)議中心開始。百度度秘事業(yè)部總經(jīng)理景鯤宣布百度DuerOS開放平臺(tái)發(fā)布,并介紹了語(yǔ)音交互在AI領(lǐng)域的戰(zhàn)略方向以及相關(guān)技術(shù)和解決方案等問(wèn)題。而僅僅相隔4小時(shí)后,阿里人工智能實(shí)驗(yàn)室也召開了2017夏季新品發(fā)布會(huì),發(fā)布與智能語(yǔ)音相關(guān)的消費(fèi)級(jí)產(chǎn)品天貓精靈。zQhesmc
在DuerOS開放平臺(tái)發(fā)布會(huì)上,景鯤從衣兜里接連掏出三款DuerOS開發(fā)套件和一款硬件參考設(shè)計(jì)(據(jù)說(shuō)他還想帶更多芯片,但是口袋實(shí)在放不下了)。zQhesmc
1、搭載樹莓派,利用科勝訊技術(shù)的個(gè)人版。即刻申請(qǐng)就可以搭載一個(gè)個(gè)人可以對(duì)話的語(yǔ)音設(shè)備;zQhesmc
2、輕量版。把一元錢大小的芯片放在任何一個(gè)設(shè)備里面,設(shè)備就可以對(duì)話;zQhesmc
3、標(biāo)準(zhǔn)版。兩麥、四麥、六麥、八麥的標(biāo)準(zhǔn)版都可以即可申請(qǐng);zQhesmc
4、完整一體化的參考設(shè)計(jì)。如開放電路板設(shè)計(jì)、開放結(jié)構(gòu)設(shè)計(jì)、開放麥克風(fēng)陣列等等。手機(jī)、電視、冰箱等任何設(shè)備,都可以搭載DuerOS,變成一個(gè)能”聽(tīng)懂”的設(shè)備。
景鯤說(shuō),開發(fā)者使用這些開發(fā)套件,只要接一個(gè)電源,接一個(gè)麥克風(fēng),就可以讓身邊的家電說(shuō)話。通過(guò)打造AI時(shí)代的安卓——DuerOS,讓每個(gè)人,無(wú)論你是大公司還是小公司,甚至普通開發(fā)者,都能夠以低門檻打造屬于自己的智能語(yǔ)音交互設(shè)備。zQhesmc
同樣是語(yǔ)音AI領(lǐng)域,不同于DuerOS開放設(shè)備平臺(tái),阿里巴巴選擇推出公司首款智能音箱產(chǎn)品—天貓精靈,看上去更類似于中國(guó)版的Echo。天貓精靈的負(fù)責(zé)人淺雪指出,這不只是具有語(yǔ)音識(shí)別和理解能力的智能音箱,其音箱中搭載的人工智能Ali Genie系統(tǒng)是產(chǎn)品的核心所在,代表著產(chǎn)品具備NLP支持的理解力、執(zhí)行力和基于數(shù)據(jù)的進(jìn)化能力。AliGenie使用了FPGA云端硬件定制化邏輯電路加速,算法上載入了混合神經(jīng)網(wǎng)絡(luò)。zQhesmc
與百度相仿,AliGenie也發(fā)布了開發(fā)者平臺(tái),面向不同類型的開發(fā)需求。在發(fā)布會(huì)中,功能演示與產(chǎn)品介紹交替進(jìn)行,演示內(nèi)容涉及聽(tīng)音樂(lè)、網(wǎng)購(gòu)、找手機(jī)、定時(shí)器、充話費(fèi)、連接智能家電等功能,能看出阿里以語(yǔ)音與金融結(jié)合想要達(dá)成產(chǎn)品捆綁與消費(fèi)方式變革的目標(biāo)。zQhesmc
語(yǔ)音交互核心三要素:聽(tīng)清、聽(tīng)懂、滿足
景鯤表示,DuerOS是人工智能時(shí)代的安卓系統(tǒng),DuerOS希望成為一個(gè)開放賦能的生態(tài)系統(tǒng)?!庇惺裁春诵牡囊匦枰獫M足,才能推動(dòng)時(shí)代變革?我們總結(jié)出核心三要素:聽(tīng)清、聽(tīng)懂、滿足。很多廠商可以做到聽(tīng)清,但是做不好聽(tīng)懂和滿足,只有把這三個(gè)都做好,才能滿足?!?br>
“聽(tīng)清”:百度的語(yǔ)音識(shí)別率做到了近場(chǎng)識(shí)別的準(zhǔn)確率97%以上,但這些在AI時(shí)代還不夠。在AI時(shí)代,技術(shù)要與場(chǎng)景相結(jié)合。百度希望把語(yǔ)音放到真正的場(chǎng)景里面去解決問(wèn)題,研發(fā)了麥克風(fēng)陣列、回聲消除、語(yǔ)音喚醒、人像識(shí)別等技術(shù)。zQhesmc
“聽(tīng)懂”:數(shù)據(jù)多、介入深是打造對(duì)話系統(tǒng)的必然條件,具備這兩點(diǎn)才能做好一個(gè)真正可以對(duì)話的”聽(tīng)懂”系統(tǒng)。百度是具備數(shù)據(jù)量最大的公司,擁有億級(jí)的多輪對(duì)話數(shù)據(jù)、十億級(jí)的知識(shí)圖譜數(shù)據(jù)。zQhesmc
“滿足”:滿足”聽(tīng)一首某某的歌”這樣的用戶需求還不夠,真正用戶想要的是更自然、更復(fù)雜的需求,比如”我要聽(tīng)我手一杯品嘗你的美這首歌”,比如”想聽(tīng)哥哥的歌”,只有把用戶在真實(shí)場(chǎng)景中表達(dá)的復(fù)雜請(qǐng)求做好,才能真正做出一個(gè)真正聽(tīng)懂用戶需求的產(chǎn)品。zQhesmc
他認(rèn)為在這個(gè)時(shí)代,只有百度在中國(guó)市場(chǎng)是唯一具備聽(tīng)清、聽(tīng)懂、滿足的實(shí)力。在現(xiàn)場(chǎng),景鯤還演示了百度語(yǔ)音系統(tǒng)多輪交互的能力,現(xiàn)場(chǎng)演示了一臺(tái)HTC手機(jī)利用DuerOS的多輪交互過(guò)程,這種交互只有百度的技術(shù)才能驅(qū)動(dòng)。通過(guò)連續(xù)發(fā)問(wèn):“找一找本地人氣最火爆的家常菜”、“雍和宮附近有嗎”、“第二家有什么推薦菜”、“有wifi嗎”、“好停車嗎”……多輪連續(xù)展開的對(duì)話。他說(shuō),“聽(tīng)懂”的目標(biāo),就是要FreeStyle,讓用戶最自然地跟設(shè)備進(jìn)行交互。zQhesmc
現(xiàn)場(chǎng),景鯤宣布百度將全資收購(gòu)人工智能公司Kitt.AI,把KITT.AI的語(yǔ)音能力和自然語(yǔ)言處理能力融入到百度平臺(tái)中,全面免費(fèi)向百度的合作伙伴賦能開放。KITT.AI聯(lián)合創(chuàng)始人、CTO陳果果先生現(xiàn)在演示了如何使用KITT.AI語(yǔ)音喚醒技術(shù)快速打造一個(gè)語(yǔ)音喚醒設(shè)備。根據(jù)陳果果先生演示,進(jìn)入Snowboy的喚起詞庫(kù)并新建喚起詞“你好景鯤”后,接著只需要說(shuō)三遍“你好景鯤”,即可完成喚起詞的訓(xùn)練。在測(cè)試環(huán)節(jié),設(shè)備只會(huì)對(duì)喚起詞“你好景鯤”進(jìn)行響應(yīng)。zQhesmc
來(lái)自度秘的百度工程師羅興演示了“如何將百度DuerOS的能力接入搭載Alexa的Anker音箱”。羅興通過(guò)十七行代碼,用1分鐘的時(shí)間,讓原本只會(huì)英文的音箱馬上變得能聽(tīng)懂中國(guó)話。zQhesmc
揭秘百度DuerOS背后的聲學(xué)設(shè)計(jì)英雄
科勝訊(Conexant)CX20924四麥克風(fēng)和CX20921雙麥克風(fēng)語(yǔ)音輸入處理解決方案,是百度DuerOS平臺(tái)開發(fā)套件和參考設(shè)計(jì)的幕后英雄??苿儆嵐究偛肧aleel Awsare在接受本刊采訪時(shí)表示,遠(yuǎn)距離語(yǔ)音識(shí)別和控制需要克服大量的聲學(xué)挑戰(zhàn),這涉及回聲消除、背景噪聲、混響, 麥克風(fēng)和揚(yáng)聲器的選擇和放置等許多因素,而AudioSmart語(yǔ)音輸入處理器、CODEC以及軟件實(shí)現(xiàn)智能設(shè)備的遠(yuǎn)距離語(yǔ)言識(shí)別和語(yǔ)音控制功能則是克服上述挑戰(zhàn)的利器。
百度DuerOS開發(fā)套件zQhesmc
科勝訊AudioSmart語(yǔ)音輸入處理器(用于四麥克風(fēng)應(yīng)用的CX20924,以及用于雙麥克風(fēng)應(yīng)用的CX20921)是百度所宣布的開發(fā)套件之中的核心組件,其關(guān)鍵優(yōu)勢(shì)在于:zQhesmc
? 只需兩個(gè)或四個(gè)麥克風(fēng)實(shí)現(xiàn)穩(wěn)定的遠(yuǎn)場(chǎng)聲音交互zQhesmc
? 獨(dú)家的智能音源定位Smart Source Locator技術(shù)可以用于音源定位(僅限四麥克風(fēng)配置)zQhesmc
? 加強(qiáng)版噪聲抑制Smart Source Pickup – 對(duì)環(huán)境噪音的處理性更好,針對(duì)非定頻音源,比如電視,以及非指令使用者的音源,可以智能地予以過(guò)濾,使得引擎識(shí)別率更高zQhesmc
? 通過(guò)全雙工回聲消除技術(shù)(AEC)實(shí)現(xiàn)語(yǔ)音打斷功能,即使設(shè)備在大聲播放音樂(lè)或者做語(yǔ)音播報(bào)的時(shí)候,也能夠準(zhǔn)確識(shí)別喚醒詞zQhesmc
遠(yuǎn)場(chǎng)(far-field)語(yǔ)音技術(shù)可為用戶帶來(lái)真正解放雙手的體驗(yàn)。AudioSmart語(yǔ)音打斷功能,用戶無(wú)需動(dòng)手則可自由控制設(shè)備。當(dāng)設(shè)備的音頻系統(tǒng)處于空閑狀態(tài)時(shí),只需要簡(jiǎn)單地說(shuō)出觸發(fā)詞即可控制設(shè)備,即便音頻系統(tǒng)處于播放狀態(tài),也能達(dá)到同樣的效果。據(jù)稱,該遠(yuǎn)場(chǎng)功能可實(shí)現(xiàn)對(duì)設(shè)備實(shí)現(xiàn)五米遠(yuǎn)的無(wú)縫語(yǔ)音控制,即使在嘈雜的真實(shí)世界中,也能將語(yǔ)音命令從背景噪音中過(guò)濾出來(lái)。此外,360度語(yǔ)音收音功能,能在大多數(shù)家庭和辦公環(huán)境下提供精準(zhǔn)的語(yǔ)音識(shí)別。
百度DuerOS智能音箱參考設(shè)計(jì)zQhesmc
作為語(yǔ)音識(shí)別技術(shù)的先鋒,科勝訊的AudioSmart技術(shù)在亞馬遜Echo及其Alexa語(yǔ)音服務(wù)(AVS)的推動(dòng)之下,已快速成為各類智能家庭與IoT裝置最令人驚艷的用戶交互接口。在與亞馬遜合作于去年十二月推出支持AVS的2-Mic開發(fā)套件之后,科勝訊成為亞馬遜AVS開發(fā)工具包的第一供貨商。不同于其他方案, AudioSmart只需要2個(gè)麥克風(fēng)就可以實(shí)現(xiàn)與現(xiàn)在使用5-8個(gè)麥克風(fēng)的其他產(chǎn)品有相同或更好的性能,更不用說(shuō)最新推出的全新4-mic AVS開發(fā)套件。zQhesmc
除了百度DuerOS和亞馬遜 Alexa外,其頂級(jí)客戶還包括微軟、騰訊、SK Telecom、韓國(guó)電信Korean Telecom、Naver等,從而為家電、機(jī)器人、家用影音設(shè)備(如機(jī)頂盒、喇叭、音響等)、家庭網(wǎng)絡(luò)裝置、安全設(shè)備、玩具、以及語(yǔ)音虛擬助理等提供語(yǔ)音交互功能。zQhesmc
科勝訊業(yè)務(wù)成長(zhǎng)的另一個(gè)重要增長(zhǎng)點(diǎn)來(lái)自耳機(jī)市場(chǎng)。目前,科勝訊正隨著耳機(jī)制造商向新一代的USB-C標(biāo)準(zhǔn)技術(shù)遷移,其最新的CODEC解決方案是專為協(xié)助耳機(jī)制造商在此新興領(lǐng)域取得競(jìng)爭(zhēng)優(yōu)勢(shì)而設(shè)計(jì),能讓耳機(jī)現(xiàn)在可自帶電源并能接受數(shù)字音頻信號(hào),還可通過(guò)電纜直接與源設(shè)備進(jìn)行數(shù)據(jù)交換,從而給繁榮的耳機(jī)市場(chǎng)進(jìn)行更偉大的創(chuàng)新提供了無(wú)限可能。zQhesmc
支持原創(chuàng),版權(quán)所有zQhesmc
zQhesmc