轉(zhuǎn)帖|行業(yè)資訊|編輯:龔雪|2016-12-30 10:17:03.000|閱讀 1599 次
概述:2016年是語音識別高速發(fā)展的一年,得益于深度學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,語音識別取得了一系列突破性的進(jìn)展,在產(chǎn)品應(yīng)用上也越來越成熟。作為語音交互領(lǐng)域中極其重要的一環(huán),語音識別一直是科技巨頭研究的重點,國內(nèi)外也涌現(xiàn)出了一批優(yōu)秀的創(chuàng)業(yè)公司。長久以來,人與機器交談一直是人機交互領(lǐng)域內(nèi)的一個夢想。語音識別做為很基礎(chǔ)的技術(shù)在這一年中再次有了更大的發(fā)展。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
這其中幾個最具有代表性的例子是,百度、IBM 和微軟等公司在語音識別準(zhǔn)確率上取得的突破。在今年年初,百度 Deep Speech 2 的短語識別的詞錯率降到了 3.7%。到了5月,IBM Watson 團隊再次宣布在在非常流行的評測基準(zhǔn) Switchboard 數(shù)據(jù)庫中,他們的系統(tǒng)創(chuàng)造了 6.9% 的詞錯率新紀(jì)錄。而在今年10月,微軟人工智能與研究部門的團隊報告出他們的語音識別系統(tǒng)實現(xiàn)了和專業(yè)速錄員相當(dāng)甚至更低的詞錯率(WER),達(dá)到了 5.9%。5.9% 的詞錯率已經(jīng)等同于人速記同樣一段對話的水平,而且這是目前行業(yè)標(biāo)準(zhǔn) Switchboard 語音識別任務(wù)中的最低記錄。這個里程碑意味著,一臺計算機在識別對話中的詞上第一次能和人類做得一樣好。
就各項突破的技術(shù)提升基礎(chǔ),我們可以很明晰的梳理出一條線:
1. 之前 LSTM 這樣的模型開始成功應(yīng)用于語音識別,今年的后續(xù)研究不斷提升 LSTM 的模型效果。
2. 另外一個比較大的進(jìn)展是 Deep CNN。Deep CNN 比起雙向 LSTM(雙向效果比較好)有一個好處——時延。所以在實時系統(tǒng)里會更傾向于用 Deep CNN 而不是雙向 LSTM。
3. 端到端學(xué)習(xí),這也是百度首席科學(xué)家吳恩達(dá)在 NIPS 2016 上重點提到的。比如語音識別,輸入的是語音,輸出的是文本,這是比較純粹的端對端學(xué)習(xí)。但是它也有缺點——需要足夠大的訓(xùn)練集。
盤點了16年語音識別的發(fā)展,那么在未來幾年里,語音識別技術(shù)主要發(fā)展方向是什么呢?
方向一:進(jìn)一步提升在遠(yuǎn)場識別尤其是有人聲干擾情況下的識別率
目前一般遠(yuǎn)場識別的錯誤率是近場識別錯誤率的兩倍左右,所以在很多情況下語音識別系統(tǒng)還不盡如人意。遠(yuǎn)場識別至少目前還不能單靠后端的模型加強來解決。現(xiàn)在大家的研究集中在結(jié)合多通道信號處理(例如麥克風(fēng)陣列)和后端處理從拾音源頭到識別系統(tǒng)全程優(yōu)化來增強整個系統(tǒng)的表現(xiàn)。
方向二:更好的識別算法
這個「更好」有幾個方面:一個方面是能不能更簡單。現(xiàn)在的模型訓(xùn)練過程還是比較復(fù)雜的,需要經(jīng)過很多步驟。如果沒有 HTK 和 Kaldi 這樣的開源軟件和 recipe 的話,很多團隊都要用很長時間才能搭建一個還 OK 的系統(tǒng),即使 DNN 的使用已經(jīng)大幅降低了門檻。現(xiàn)在因為有了開源軟件和 recipe,包括像 CNTK 這樣的深度學(xué)習(xí)工具包,事情已經(jīng)容易多了,但還有繼續(xù)簡化的空間。這方面有很多的工作正在做,包括如何才能不需要 alignment 、或者不需要 dictionary。現(xiàn)在的研究主要還是基于 end-to-end 的方法,就是把中間的一些以前需要人工做的步驟或者需要預(yù)處理的部分去掉。雖然目前效果還不能超越傳統(tǒng)的 hybrid system,但是已經(jīng)接近 hybrid system 的 performance 了。
方向三:尋找特殊網(wǎng)絡(luò)結(jié)構(gòu)
最近的幾年里大家已經(jīng)從一開始使用簡單的 DNN 發(fā)展到了后來相對復(fù)雜的 LSTM 和 Deep CNN 這樣的模型。但在很多情況下這些模型表現(xiàn)得還不夠好。所以一個研究方向是尋找一些特殊的網(wǎng)絡(luò)結(jié)構(gòu)能夠把我們想要 model 的那些東西都放在里面。我們之前做過一些嘗試,比如說人在跟另外一個人對話的過程中,他會一直做 prediction,這個 prediction 包括很多東西,不單是包括你下一句想要說什么話,還包括根據(jù)你的口音來判斷你下面說的話會是怎樣等等。我們曾嘗試把這些現(xiàn)象建在模型里以期提升識別性能。很多的研究人員也在往這個方向走。
方向四:快速自適應(yīng)的方法
快速自適應(yīng)的方法就是快速的不需要人工干預(yù)的自適應(yīng)方法(unsupervised adaptation)。現(xiàn)在雖然已經(jīng)有一些自適應(yīng)的算法了,但是它們相對來說自適應(yīng)的速度比較慢,或者需要較多的數(shù)據(jù)。有沒有辦法做到更快的自適應(yīng)?就好像第一次跟一個口音很重的人說話的時候,你可能開始聽不懂,但兩三句話后你就可以聽懂了。大家也在尋找像這種非常快還能夠保證良好性能的自適應(yīng)方法。快速自適應(yīng)從實用的角度來講還是蠻重要的。因為自適應(yīng)確實在很多情況下能夠提升識別率。
如今,語音識別從算法到模型都有了質(zhì)的變化,在加上語音領(lǐng)域(語音合成等)的其他研究,語音技術(shù)陸續(xù)進(jìn)入工業(yè)、家庭機器人、通信、車載導(dǎo)航等各個領(lǐng)域中。當(dāng)有一天,機器能夠真正「理解」人類語言,并作出回應(yīng),那時我們必將迎來一個嶄新的時代。(本文部分摘自微信公眾號“機器之心”,作者李亞洲)
更多行業(yè)資訊,更新鮮的技術(shù)動態(tài),盡在。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn