DSP Concepts執(zhí)行長與創(chuàng)辦人Paul Beckmann表示,在汽車和駕駛?cè)税l(fā)現(xiàn)救護車接近以前,就已經(jīng)聽到它的警報聲響起了。那么為什么汽車產(chǎn)業(yè)不會對音頻感興趣?m3kesmc
系統(tǒng)OEM廠商(不只是汽車制造商)目前正處于“使用更多麥克風(fēng)以便為人工智能(AI)產(chǎn)生另一種重要傳感器數(shù)據(jù)——音頻”的關(guān)鍵時刻,Beckmann解釋。m3kesmc
正如他所默認的,音頻正“從單純的在娛樂系統(tǒng)中播放,朝向在情境架構(gòu)中實現(xiàn)輸入、觸發(fā)與分析。”m3kesmc
由麥克風(fēng)所拾取的智能,也可能用于日常生活的各種系統(tǒng)中,從汽車、數(shù)字虛擬助理到便攜設(shè)備等。“視覺與聽覺應(yīng)該并駕齊驅(qū),”DSP Concepts業(yè)務(wù)與營銷執(zhí)行總裁Willard Tu表示。“狗吠聲、嬰兒哭鬧、玻璃碎裂、汽車喇叭、警報聲與槍聲等等……音頻有助于讓系統(tǒng)更有效地掌握環(huán)境和情境。”
圖1:音頻“輸入”算法發(fā)展藍圖 (來源:DSP Concepts)m3kesmc
如今,有兩個重要的發(fā)展趨勢推動電子產(chǎn)業(yè)突然在音頻領(lǐng)域迅速發(fā)展。m3kesmc
一是擁有多顆麥克風(fēng)的智能手機普及;其次則是數(shù)字虛擬助理的流行,如Amazon Echo與Google Home。根據(jù)SAR Insight & Consulting總監(jiān)與首席分析師Peter Cooney的觀察,“一般消費設(shè)備中整合虛擬數(shù)字助理的應(yīng)用越來越多,帶動感知與采用語音作為自然的用戶接口,應(yīng)用于許多日常任務(wù)中?!?span style="display:none">m3kesmc
但是,麥克風(fēng)能多快超越作為一種自然用戶接口的角色,開始變成真正的‘智能傳感器’?看來業(yè)界還得等待一些進展。m3kesmc
為了迎接挑戰(zhàn),音頻需要可以拾取更佳音質(zhì)的麥克風(fēng)、善于后處于音頻的處理器、預(yù)處理音頻的有效算法、易于使用的音頻處理工具、相當(dāng)于繪圖用Open GL的音頻標(biāo)準(zhǔn),以及能以最小功耗維持永不斷線的麥克風(fēng)。m3kesmc
總之,如同Cooney所指出的,市場需要“始終保持監(jiān)聽的技術(shù)、語音增強算法以及麥克風(fēng)?!?span style="display:none">m3kesmc
在ARM處理器上實現(xiàn)音頻處理
音頻處理以往是播放系統(tǒng)(如TV、DVD和Hi-Fi音響系統(tǒng)中的均衡器)才需要的專業(yè)領(lǐng)域。m3kesmc
而今在智能手機和其他家用設(shè)備的麥克風(fēng)普及帶動下,音頻處理任務(wù)已經(jīng)擴展到幾乎無處不在。專用音頻DSP也并不是系統(tǒng)中處理音頻的唯一芯片了。m3kesmc
隨著越來越多的音頻開始在ARM處理器上執(zhí)行,Beckmann指出,更多的OEM“熱切地將麥克風(fēng)視為”AI的輸入傳感器。DSP Concepts正處于觀察這一市場過渡的最佳位置。m3kesmc
Beckmann看好市場成長的態(tài)勢,特別是因為該公司一款稱為Audio Weaver在過去一年來的成果。如同Beckmann描述的,這是“唯一一款可跨平臺作業(yè)的繪圖音頻設(shè)計架構(gòu)?!?span style="display:none">m3kesmc
業(yè)界分析家認為,DSP Concepts正占據(jù)音頻市場上的獨特位置。TECHnalysis Research總裁兼首席分析師Bob O'Donnell認為:“我并未看到DSP Concepts或其Audio Weave工具面對哪幾家競爭對手。許多公司都針對音樂與錄音等目的進行專業(yè)的音頻剪輯與音頻處理,但這畢竟是不同的領(lǐng)域?!?span style="display:none">m3kesmc
庫尼表示同意?!拔也恢廊魏胃偁幃a(chǎn)品音頻織女的?!彼a充說,“DSP概念有其他的產(chǎn)品也是如此,如聲音增強算法(噪音抑制,回聲取消,波束賦形),基準(zhǔn)和參考設(shè)計?!?span style="display:none">m3kesmc
Cooney也同意這一看法?!拔疫€不知道Audio Weaver有任何競對手?!彼a充說,“DSP Concepts也有其他的產(chǎn)品,例如聲音增強算法(噪聲抑制、回音消除、波木成形等)、基準(zhǔn)與參考設(shè)計?!?br>
圖2:全球麥克風(fēng)與音頻處理器市場 (來源:SAR Insights & Consulting)m3kesmc
DSP Concepts并未設(shè)計或銷售DSP。然而,競爭對手一般都是其他的DSP業(yè)者。Audio Weaver的競爭產(chǎn)品來自德州儀器(TI)或Cirrus Logic等DSP供貨商自行打造的音頻工具。其差異之處在于那些內(nèi)部開發(fā)的工具僅用于DSP供貨商自家的芯片。而采用像Audio Weaver這樣的獨立平臺工具,Tu強調(diào),“OEM不必被限制于一種特定的DSP?!?span style="display:none">m3kesmc
Cooney說,DSP Concepts藉由與Cadence/Tensilica等許多公司合作,主要的業(yè)務(wù)在于為其客戶提供音頻設(shè)計解決方案。m3kesmc
除 了Audio Weaver工具,DSP Concepts也授權(quán)一些可形成麥克風(fēng)輸入的音頻算法,包括波束成形、回聲消除、噪聲消除與遠音場(far-field sound)等算法。Beckmann指出,在此業(yè)界缺乏深諳音頻處理的工程人才之際,市場亟需易于使用的音頻預(yù)處理算法,以便能從不需要的環(huán)境噪聲 中區(qū)隔出聲音來。m3kesmc
音頻:長期受冷落的領(lǐng)域
然而,目前使用音頻進行聲學(xué)事件檢測(和分析)仍然是一種相對較新的應(yīng)用。m3kesmc
O’Donnell指出,“理論上,可能會有更多專用音頻處理器在做AI,但坦白說,音頻就像是長期受到視頻的冷落一樣,而且時至今日也是如此?!?span style="display:none">m3kesmc
他補充說,聲音的另一項重大挑戰(zhàn)是語言與意義。他說,“一張樹的圖片以任何語言來說是樹,但要了解字、詞以及最重要的意義與意圖,就具有語言與文化的獨特性了。這使得語音識別與自然語言的處理變得十分困難?!盉eckmann坦承,音頻缺乏標(biāo)準(zhǔn),也造成了差距。m3kesmc
以O(shè)penGL來看,它是一種針對圖形渲染的跨語言、跨平臺API。對于想要編寫程序代碼的視訊游戲設(shè)計人員來說,這種API十分重要。像Nvidia等GPU供貨商在使用這種API后就能優(yōu)化其硬件。m3kesmc
音頻世界則可以使用硬件抽象層來實現(xiàn)跨平臺的硬件加速渲染,類似于OpenGL所扮演的角色一樣。如果缺乏標(biāo)準(zhǔn),每一家音頻芯片公司都必須優(yōu)化自家硬件以及自給自足。缺乏標(biāo)準(zhǔn)推遲了擴展跨平臺的音頻應(yīng)用所需的創(chuàng)新腳步。m3kesmc
實現(xiàn)永不斷電的續(xù)航力
Amazon Echo或Google Home等流行的數(shù)字虛擬助理下一步要實現(xiàn)的就是“長時傾聽”(always-listening)的能力。Amazon正透過其‘tap-then-speak’的語音啟動機制加速這方面的進展。但該設(shè)備還不能稱得上是‘a(chǎn)lways listening’。
圖3:全球語音接口與長時傾聽技術(shù)市場 (來源:SAR Insights & Consulting)m3kesmc
具有永不斷線/長時傾聽能力的設(shè)備一旦走出家門,將開始面臨各種挑戰(zhàn)。到了戶外,它的音頻處理能力必須從背景噪聲中區(qū)隔出需要聽到的聲音。此外,Beckmann強調(diào),更大的問題還在于電池壽命。m3kesmc
為此,他指出,“位于波士頓的新創(chuàng)公司Vesper開發(fā)的靜態(tài)感測MEMS組件就十分關(guān)鍵?!盫esper專門開發(fā)壓電MEMS麥克風(fēng),不久前還發(fā)布了一款新的聲學(xué)傳感器,可利用聲能喚醒完全待機中的系統(tǒng)。m3kesmc
Vesper 執(zhí)行長Matt Crowley表示,這款新的壓電MEMS麥克風(fēng)VM1010可在傾聽模式下汲取僅3μA電流,該組件預(yù)計在今年第四季出樣。Crowley并承 諾,VM1010的新版本將會配備‘鑒頻’(frequency discrimination)功能。這表示系統(tǒng)設(shè)計者可因應(yīng)槍聲、玻璃粉碎或人聲等特定的噪聲特性編程MEMS麥克風(fēng)。m3kesmc
汽車內(nèi)部
回過頭來看看汽車內(nèi)部的音頻應(yīng)用。語音為汽車內(nèi)部提供了自然的人機接口(HMI)。m3kesmc
為了提高駕駛?cè)耸褂妹獬致犕驳恼Z音質(zhì)量,一線廠商與汽車OEM嚴重地依賴音頻處理技術(shù)。Beckmann說,“配備多聲道(從8-32聲道)揚聲器的汽車,帶來了十分復(fù)雜的音頻系統(tǒng)。”m3kesmc
不僅如此,隨著電動車的出現(xiàn),汽車產(chǎn)業(yè)開始使用假引擎噪音——或“電子聲音”。從BMW到福斯(Volkswagen)等越來越多的汽車制造商開始玩各種共鳴放大器技巧。m3kesmc
事實上,不只是電動車,當(dāng)今更省油的引擎聲音更安靜,也較不那么有力了。汽車制造商擔(dān)心所有的平靜可能會讓潛在買家卻步。m3kesmc
對于汽車產(chǎn)業(yè)的許多人來說,音頻是熟悉的領(lǐng)域。汽車制造商們知道,音頻可以為其提供差異化。車內(nèi)的聲學(xué)傳感器不僅可以聽到外面發(fā)生的事情,未來車子自己的引擎也能夠針對診斷應(yīng)用偵測任何異常情況。
m3kesmc