Zoom杰出科學家,曾任職于Facebook和百度硅谷的Awni Hannun最近寫了一篇論文預測未來十年語音識別技術(shù)的發(fā)展。在這篇論文中,作者首先回顧了過去十年(2010-2020)中,語音識別技術(shù)發(fā)展的時間線,接著給出了如何做預測的相關(guān)經(jīng)驗,最后預測了語音識別技術(shù)未來十年的研究熱點和應用熱點。回顧
從2010年到2020年的十年間,語音識別和相關(guān)技術(shù)取得了顯著進步。圖1展示了過去十年中語音識別研究、軟件和應用發(fā)展的時間線。這十年見證了基于手機的語音助手的推出和流行。亞馬遜Alexa和Google Home等遠場設備也已發(fā)布并大量涌現(xiàn)。圖1 語音識別技術(shù)在2010年到2020年之間的時間線由于深度學習的興起,自動語音識別的單詞錯誤率顯著降低,部分原因使得這些技術(shù)得以實現(xiàn)。深度學習在語音識別中取得成功的關(guān)鍵驅(qū)動因素是:1)海量轉(zhuǎn)錄數(shù)據(jù)集的管理;2)圖形處理單元的快速進步;以及3)學習算法和模型架構(gòu)的改進。由于這些因素,語音識別器的單詞錯誤率在整個十年中持續(xù)且顯著改善。在兩個最近的研究測試中,自動語音識別在單詞錯誤率指標上已經(jīng)擊敗了專業(yè)的轉(zhuǎn)錄員。這一顯著進展引發(fā)了一個問題:到2030年的未來十年還有什么可以做?下面,我嘗試回答這個問題。但是,在開始之前,我想首先分享一些關(guān)于預測未來這個一般問題的經(jīng)驗。這些靈感來自數(shù)學家(以及計算機科學家和電氣工程師)Richard Hamming,他特別擅長預測計算的未來。關(guān)于預測未來的相關(guān)知識
Richard Hamming在《The Art of Doing Science and Engineering》中做出了許多預測,其中許多已經(jīng)實現(xiàn)。這里有幾個例子他預測,“到2020年,由應用領(lǐng)域的專家來編寫程序而不是讓計算機專家將是相當普遍的做法?!?/span>
他預測神經(jīng)網(wǎng)絡“代表了編程問題的解決方案”,并且“它們可能會在計算機的未來發(fā)揮重要作用?!?/span>
他預測了通用而非專用硬件、模擬數(shù)字和高級編程語言的流行。
早在交換機實際發(fā)生之前,他就預計使用光纖電纜代替銅線進行通信。
關(guān)于技術(shù)預測的一個普遍說法是,短期預測往往過于樂觀,而長期預測往往過于悲觀。這通常歸因于技術(shù)進步呈指數(shù)級增長的事實。圖2顯示了如果我們從當前假設來看,進展與時間呈線性關(guān)系的樂觀推斷。過去十年(2010?2020年)語音識別的進步是由兩個關(guān)鍵軸上的指數(shù)增長推動的。分別是是計算(例如每秒浮點操作)和數(shù)據(jù)集大小。圖2是否適用于未來十年的語音識別還有待觀察。我相信下面的很多預測都會被證明是錯誤的。在某些方面,尤其是在涉及更具爭議性的預測時,這些確實更像是對未來的愿望清單。關(guān)于這一點,讓我用計算機科學家Alan Kay的名言結(jié)束本段:預測未來最好的方法就是去創(chuàng)造它。
研究方向的預測
預測:半監(jiān)督學習將繼續(xù)存在。特別是,自我監(jiān)督的預訓練模型將成為許多機器學習應用程序的一部分,包括語音識別。作為研究科學家,我的部分工作是招聘,這意味著要進行大量面試。我已經(jīng)面試了一百多名從事各種機器學習應用程序的候選人。很大一部分人,尤其是自然語言應用程序,依賴預訓練模型作為其支持機器學習的產(chǎn)品或功能的基礎(chǔ)。自監(jiān)督預訓練已經(jīng)在工業(yè)應用中普遍存在。我預測到2030年,自我監(jiān)督的預訓練將在語音識別中同樣普遍。過去三年的深度學習是半監(jiān)督和自我監(jiān)督的年份。該領(lǐng)域無疑已經(jīng)學會了如何使用未注釋的數(shù)據(jù)改進機器學習模型。自監(jiān)督學習已經(jīng)使許多最具挑戰(zhàn)性的機器學習任務受益。在語言任務中,最先進的轉(zhuǎn)錄已經(jīng)被自我監(jiān)督模型超越。自監(jiān)督和半監(jiān)督現(xiàn)在很常見,并在計算機視覺和機器翻譯中創(chuàng)下了記錄。語音識別也受益于半監(jiān)督學習。第一種方法是自監(jiān)督預訓練,其損失函數(shù)基于對比預測編碼。這個想法很簡單:訓練模型來預測給定過去音頻的未來幀。第二種方法是偽標記。同樣,這個想法很簡單:使用經(jīng)過訓練的模型來預測未標記數(shù)據(jù)的標簽,然后在預測的標簽上訓練一個新模型。偽標簽起作用的原因和機制是有趣的研究問題。自我監(jiān)督的主要挑戰(zhàn)是規(guī)模和泛化性能。目前只有最頂級的行業(yè)研究實驗室有資金大規(guī)模地進行監(jiān)督訓練。作為一個研究方向,監(jiān)督學習是大多數(shù)實驗室和業(yè)界不太容易接近的。研究意義:考慮到可以在更少數(shù)據(jù)上進行有效訓練的輕量級模型,自監(jiān)督學習將更容易實現(xiàn)。相關(guān)的研究方向包括輕量級模型的稀疏性、更快訓練的優(yōu)化以及結(jié)合先驗知識以提高樣本效率的有效方法。預測:大多數(shù)語音識別將在設備端或移動邊緣進行。這個預測有幾個原因。首先,將數(shù)據(jù)保存在設備上而不是將其發(fā)送到中央服務器更加私密。數(shù)據(jù)隱私的趨勢將帶來設備端的計算需求。如果模型需要從用戶的數(shù)據(jù)中學習,那么訓練應該在設備上進行。首選邊緣計算的第二個原因是延遲。從絕對值來看,10毫秒和100毫秒之間的差異并不大。但前者遠低于人類的感知延遲,后者則遠高于。谷歌已經(jīng)展示了一種在設備上進行的語音識別系統(tǒng),其準確度幾乎與良好的服務器端口系統(tǒng)一致。從實用的角度來看,設備上系統(tǒng)難以察覺的延遲使得與設備的交互感覺更加靈敏,因此更具吸引力。最后一個原因是100%的可用性。即使沒有互聯(lián)網(wǎng)連接或不穩(wěn)定的服務,識別器也能工作,這意味著它會一直工作。從用戶交互的角度來看,大部分時間都有效的產(chǎn)品和每次都有效的產(chǎn)品之間存在很大差異。研究意義:設備上識別需要計算量小、功耗低的模型。模型量化和知識蒸餾(訓練較小的模型以模擬更準確的較大模型)是兩種常用的技術(shù)。不太常用的稀疏性是另一種生成輕量級模型的方法。在稀疏模型中,大部分參數(shù)(即隱藏狀態(tài)之間的連接)為零,可以有效地忽略。在這三種技術(shù)中,我認為稀疏性是最有前途的研究方向。我相信我們已經(jīng)挖掘了量化的最大價值,即使在不太可能的情況下將量化從 8 位進一步減少到 1 位,我們只能獲得八倍的增益。對于蒸餾,我們還有很多東西要學。但是,我相信揭示蒸餾工作的機制將使我們能夠直接訓練小模型,而不是走迂回的路線,先訓練大模型,然后再訓練第二個小模型來模仿大模型。這使得稀疏性成為輕量級模型最有前途的研究方向。正如“彩票假設”之類的發(fā)現(xiàn)所證明的那樣,我們關(guān)于稀疏性在深度學習中的作用有很多需要了解。從理論上講,稀疏性帶來的計算收益可能是巨大的。實現(xiàn)這些收益將需要開發(fā)用于評估稀疏模型的軟件,可能還有硬件。預測:到30年,可能更早,研究人員將不再發(fā)表類似于“使用模型架構(gòu)Y提高基準X上的單詞錯誤率”的論文。正如您在圖3中看到的,兩個最常研究的語音識別基準的單詞錯誤率已經(jīng)飽和。部分問題是我們需要更嚴格的基準供研究人員研究。最近發(fā)布的兩個基準可能會刺激語音識別領(lǐng)域的進一步研究。但是,我預測這些基準會隨著模型和計算的擴展而迅速飽和。問題的另一部分是,我們已經(jīng)來到了一個境況,即學術(shù)基準上的單詞錯誤率改進不再與實用價值相關(guān)。幾年前,圖3中兩個基準的語音識別單詞錯誤率打敗了了人類的單詞錯誤率。然而,在大多數(shù)情況下,人類比機器更能理解語音。這意味著單詞錯誤率作為我們語音識別系統(tǒng)質(zhì)量的衡量標準與理解人類語音的能力沒有很好的相關(guān)性。最后一個問題是,隨著模型和數(shù)據(jù)集越來越大,以及計算成本的增加,最先進的語音識別研究變得越來越難以獲得。一些資金充足的工業(yè)實驗室正迅速成為唯一可以進行此類研究的地方。隨著進步變得越來越慢,離學術(shù)界也越來越遠,這部分領(lǐng)域?qū)⒗^續(xù)從研究實驗室轉(zhuǎn)向工程組織。預測:對于依賴語音識別器輸出的下游任務,轉(zhuǎn)錄將被更豐富的表達所取代。此類下游應用程序的示例包括對話代理、基于語音的搜索查詢和數(shù)字助理。下游應用程序通常不關(guān)心逐字轉(zhuǎn)錄;他們關(guān)心語義正確性。因此,提高語音識別器的單詞錯誤率通常不會提高下游任務的目標。一種可能性是開發(fā)一個語義錯誤率并用它來衡量語音識別器的質(zhì)量。這是一個具有挑戰(zhàn)性但有趣的研究問題。我認為更有可能的結(jié)果是通過語音識別器為下游應用程序提供更豐富的表達形式。例如,不是傳遞單個轉(zhuǎn)錄,而是傳遞捕獲每個可能性的不確定性的網(wǎng)格(如圖4所示)可能更有用。圖4 一個基于語音識別加權(quán)的編碼網(wǎng)格示例預測:到2030年,語音識別模型將針對個人用戶進行深度個性化。語音的自動識別與人類對語音的解釋之間的主要區(qū)別之一在于上下文的使用。人類在相互交談時會依賴很多上下文信息。此上下文包括對話主題、過去所說的內(nèi)容、噪音背景以及唇部運動和面部表情等視覺線索。對于斷章取義的簡短話語(即長度小于10秒),我們已經(jīng)或即將達到語音識別的最優(yōu)錯誤率。我們的模型正在盡其所能使用數(shù)據(jù)中可用的信息。為了繼續(xù)提高機器對人類語音的理解,需要將上下文作為識別過程的更深層次的一部分。做到這一點的一種方法是個性化。針對患有語言障礙的個人用戶的個性化模型將單詞錯誤率改善了64%。個性化可以對識別質(zhì)量產(chǎn)生巨大影響,特別是對于在訓練數(shù)據(jù)中代表性不足的群體或領(lǐng)域。我預測到2030年,我們將看到更加普遍的個性化。研究意義:設備上的個性化需要在本地進行的訓練,這本身就需要輕量級的模型和某種形式的弱監(jiān)督。個性化需要可以根據(jù)給定用戶或上下文輕松定制的模型。將此類上下文納入模型的最佳方法仍然是一個研究問題。
應用預測
預測:到2030年,99%的轉(zhuǎn)錄語音服務將通過自動語音識別來完成。人工轉(zhuǎn)錄員將執(zhí)行質(zhì)量控制并糾正或轉(zhuǎn)錄更困難的話語。轉(zhuǎn)錄服務包括例如為視頻添加字幕、轉(zhuǎn)錄采訪以及轉(zhuǎn)錄講座或演講。預測:語音助手會變得更好,但是需要一個過程。語音識別不再是更好的語音助手的瓶頸。瓶頸現(xiàn)在完全在語言理解領(lǐng)域,包括保持對話的能力、多重上下文響應以及更廣泛的領(lǐng)域問答。我們將繼續(xù)在這些所謂的AI?complete問題上取得進展,但我不認為它們會在2030年得到解決。我們是否會生活在智能家居中,始終傾聽并響應我們的每一個聲音?我們會佩戴增強現(xiàn)實眼鏡并用聲音控制它們?
結(jié)論
這些預測表明,未來十年對于語音識別和口語理解的發(fā)展可能與前十年一樣令人興奮和重要。在語音識別達到對每個人來說一直有效的狀態(tài)之前,我們還有許多研究問題需要解決。然而,這是一個值得努力的目標,因為語音識別技術(shù)是進行更流暢、更自然交互的關(guān)鍵組成部分。