人工智能(AI)可以在許多領域實現(xiàn),未來機器人將能夠為人類做很多事情。美國西雅圖華盛頓大學(UW, USA)電氣與計算機工程(ECE)教授、信息處理實驗室(IPL)主任黃仁能博士參與了漁業(yè)電子監(jiān)測等多個AI項目(美國NOAA)、自動駕駛(美國思科)、智能交通與智慧城市(韓國ETRI)、自動高爾夫揮桿分析(美國Sportsbox AI)、多攝像頭多人追蹤長護中心監(jiān)控( Quanta Computer, Taiwan),晶圓缺陷分類(Vanguard International Semiconductor, Taiwan)等。0Pqesmc
對于具有人類感知能力的機器人,開發(fā)者需要花費大量的時間來收集數(shù)據(jù)并迭代AI訓練過程。Hwang 說,他幾乎參與的項目之一與增強美國海關與邊境保護局 (CBP) 的能力有關。0Pqesmc
更具體地說,人工智能可用于檢測旅行者在面對面采訪中的謊言,例如使用測謊儀但無需在旅行者身上附加設備,希望人工智能可以通過攝像頭和麥克風掃描幫助 CBP 官員更有效地工作。然而,地面實況所需的數(shù)據(jù)很難分類和驗證。問題是:哪些數(shù)據(jù)點是真的,哪些是假的?0Pqesmc
Hwang 說,基于深度學習的人工智能很難培養(yǎng)人文常識。人類從他們的生活經(jīng)歷中學習,有些人可以感覺到環(huán)境、他人的肢體語言和態(tài)度的最細微變化,甚至有時,我們依靠直覺來做出決定。機器人,即使具有訓練有素的大輸入卷積神經(jīng)網(wǎng)絡,也不會像人類那樣“感知”,而它們只是能夠觀察訓練有素的邏輯思維過程。例如,Hwang 補充說,“人工智能贏得圍棋比賽比感知面前人的情緒或想法要容易得多。”0Pqesmc
開放式長尾識別 (OLTR)
現(xiàn)實生活中的視覺對象識別任務是計算機視覺中最基礎和實質性的研究之一,橫掃物種識別、醫(yī)學影像感知、人臉識別和自動駕駛場景分類等各個領域。然而,在在實際應用中,基于深度學習訓練的現(xiàn)成目標識別方法的性能大多偏向于訓練集中樣本豐富的多數(shù)類,而對樣本少的少數(shù)類的分類能力有限類,更不用說訓練數(shù)據(jù)中從未見過的新類對象,即實際對象樣本分布不均,對象類總是開放式的,即所謂的開放集長尾識別(OLTR)。0Pqesmc
Hwang 和他的團隊提出了一種單階段 LTR 方案:“盟友互補專家 (ACE)”,其中基于卷積神經(jīng)網(wǎng)絡 (CNN) 的專家接受了多樣化但重疊、不平衡的子集的訓練,以從主導部分的專業(yè)化中獲益并在所有基準數(shù)據(jù)集上實現(xiàn)最先進的 LTR 性能。他的團隊進一步提出了一種度量學習框架,稱為“在熟人附近定位不熟悉(LUNA)”,以定量衡量新穎性水平。LUNA 基于深度 CNN 特征的局部密度,是一種非常有效的開放集識別 (OSR) 解決方案。0Pqesmc
域和標簽轉換
他在美國政府國家海洋和大氣管理局 (NOAA) 工作了 10 多年的項目之一是幫助漁民使用部署在漁船上的單目攝像頭自動計數(shù)、測量尺寸,并識別出 100 多種直接在海中捕獲的魚類。Hwang 說,一旦漁船移到不同的水域,域和標簽就會發(fā)生變化,即捕獲的魚的外觀和分布發(fā)生變化。此外,可能存在在其他水域從未見過的魚類,并且由舊數(shù)據(jù)集訓練的 AI 模型將無法應用或發(fā)揮作用——這是一項現(xiàn)實世界的 OLTR 任務。0Pqesmc
Hwang 的團隊現(xiàn)在正在努力工作,以系統(tǒng)地調(diào)整訓練有素的 AI 模型,以識別具有域和標簽變化的新魚。0Pqesmc
人工智能項目要取得成功,除非采用一些不太有效的半監(jiān)督或自監(jiān)督學習技術,否則人工智能公司或實驗室將需要投入大量勞動力來收集訓練數(shù)據(jù)并為監(jiān)督學習生成注釋。Hwang 說,這很耗時,一開始需要高昂的人工成本,但“最終,一旦標記完成,經(jīng)過訓練的 AI 模型的效率將顯著提高。”0Pqesmc
零樣本學習
Hwang 表示,使用 transformer 神經(jīng)網(wǎng)絡——最初由 Google Brain 于 2017 年基于高度并行的自注意力機制引入自然語言處理——可以為一系列文本單詞(語言句子)生成非常有效和信息豐富的嵌入特征。這種額外的訓練并行化允許在更大的數(shù)據(jù)集上訓練 transformer,從而開發(fā)出預訓練的 transformer 系統(tǒng),這些系統(tǒng)可以用更小、更集中的訓練數(shù)據(jù)進一步微調(diào),以完成更具體的任務,最近 GPT 的成功證明了這一點。 3 用于在給定初始文本作為提示的情況下生成類人文本,而 ChatGPT 是有史以來發(fā)布的用于類人交互的最佳 AI 聊天機器人。0Pqesmc
隨著轉換器在圖像和視頻等視覺數(shù)據(jù)中的擴展應用,現(xiàn)在可以同時訓練兩個獨立的轉換器:一個用于圖像,一個用于相應的描述性文本,具有數(shù)億個訓練圖像-文本數(shù)據(jù)對,并允許基于所謂的對比學習策略,生成的圖像嵌入特征與相應的文本嵌入特征緊密對齊,由此產(chǎn)生的系統(tǒng)可以有效地從自然語言監(jiān)督中學習視覺概念,并且可以應用于任何視覺分類基準,而無需進一步微調(diào)新基準應用程序的訓練數(shù)據(jù),即零樣本學習。0Pqesmc
臺灣人工智能發(fā)展的挑戰(zhàn)
越來越多的傳感器被大規(guī)模部署在各種設備上——從智能手機、家用電器、工廠或實驗室設備、電動汽車,到所有物聯(lián)網(wǎng)電子產(chǎn)品和公共基礎設施——從世界幾乎每個角落收集了大量數(shù)據(jù)。0Pqesmc
Hwang 表示,數(shù)據(jù)采集、網(wǎng)絡連接和計算能力是人工智能項目成功的三大支柱,并指出人工智能在中國和美國取得了快速進展,他們認為這項技術對促進國民經(jīng)濟增長和提高競爭力至關重要。0Pqesmc
隨著世界從 4G 到 5G,再到 6G,發(fā)達國家的連通性不成問題,但低收入國家仍然缺乏網(wǎng)絡基礎設施。另一方面,AI 開發(fā)人員經(jīng)常發(fā)現(xiàn)自己無法獲得足夠的高性能計算能力。例如,盡管臺灣政府為研究目的和應用提供了 1,000 個 V100 GPU,但對高性能 GPU 的需求仍未得到滿足。0Pqesmc
此外,對于使用多個基于物聯(lián)網(wǎng)傳感器的解決方案的高級自動駕駛等復雜項目,數(shù)據(jù)收集和標記需要大量的勞動力、時間和投資,以保持模型訓練的有效性和持續(xù)性。0Pqesmc
臺灣是一個用戶基數(shù)小的小市場,幾十年來,該國一直非常重視和專注于制造硬件。半導體代工、電子制造以及其他硬件和物聯(lián)網(wǎng)傳感器組裝已經(jīng)相當成功——然而,這對軟件和人工智能行業(yè)的發(fā)展應該是一個好處而不是障礙。0Pqesmc
隨著制造能力的增強,Hwang 認為硬件和人工智能軟件的系統(tǒng)集成值得投入時間和金錢——從物聯(lián)網(wǎng)傳感器數(shù)據(jù)采集、5G/6G 移動邊緣數(shù)據(jù)網(wǎng)絡,到基于大規(guī)?;A設施的 CPU/GPU 支持。0Pqesmc
責編:EditorTiger
閱讀全文,請先