人工智能(AI)技術(shù)在過去幾年發(fā)展迅速,為商業(yè)人士提供了一種深入學(xué)習(xí)模式。盡管離在音頻世界大展身手還需要一些時(shí)間,但人們已經(jīng)看到AI在視頻和圖像處理方面的悄然崛起。
作為AI的一部分,機(jī)器學(xué)習(xí)(ML)改變了人們使用配音技術(shù)的方式。人們熟悉的Cortana、Siri、Alexa許多語音助手都采用了配音技術(shù)。也正是由于AI技術(shù)的進(jìn)步,AI產(chǎn)出的聲音變得比以往任何時(shí)候都更加真實(shí),并且在自然語音處理方面做得更加出色。
本文將討論ML和AI已經(jīng)取得的進(jìn)展,以及它們?nèi)绾螌?duì)語音技術(shù)提升產(chǎn)生的影響。
1.ML如何改進(jìn)語音技術(shù)
(1)音頻更智能
隨著對(duì)語音技術(shù)的需求開始增長(zhǎng),自動(dòng)語音識(shí)別(ASR)方面的提供商正加大語音識(shí)別產(chǎn)品的創(chuàng)新,以滿足人們的更多需求。
語音識(shí)別技術(shù)的用戶在增加,市場(chǎng)規(guī)模也在擴(kuò)大。根據(jù)一項(xiàng)研究,到2026年,全球語音識(shí)別市場(chǎng)規(guī)模將增長(zhǎng)到220億美元。這種巨大的轉(zhuǎn)變將為自動(dòng)語音識(shí)別(ASR)帶來挑戰(zhàn),推動(dòng)其創(chuàng)新并成功應(yīng)對(duì)同種語言中的不同方言,比如以英語為母語的人在不同的國(guó)家和地區(qū)(例如澳大利亞、英格蘭、蘇格蘭、美國(guó)等)就會(huì)使用不同的方言。
只有在ML和AI功能的雙重驅(qū)動(dòng)下,自動(dòng)語音識(shí)別(ASR)才能做到將同種語言中不同方言的口語單詞轉(zhuǎn)換為文本。此外,它還能夠識(shí)別來自一種語言的更多方言和口音。換句話說,有一天,全世界使用的每一種語音技術(shù)都將使用一個(gè)逼真的AI語音生成器。
關(guān)于音頻技術(shù)中ML的一些真實(shí)示例包括:
iZotope&Neutron 2:貼心的音軌助手能利用AI和ML功能來檢測(cè)直接向用戶提供預(yù)設(shè)的儀器的跟蹤協(xié)助。它還具有一個(gè)實(shí)用程序,用于隔離音頻中的對(duì)話。
LANDR:一種自動(dòng)音頻母帶處理服務(wù),它完全依賴AI和ML來設(shè)置有關(guān)數(shù)字音頻處理的參數(shù)。
Google Wavenet:一種用于生成錄音的學(xué)習(xí)模型。
(2)數(shù)據(jù)就是推動(dòng)力
計(jì)算機(jī)的聲波部分處理是語音識(shí)別的初始步驟,即聲音將會(huì)轉(zhuǎn)換成數(shù)據(jù)。因此,要使語音識(shí)別社會(huì)工程獲得成功,這一過程應(yīng)包括以下內(nèi)容:
語音采集樣本完全可訪問或有可靠的語音數(shù)據(jù)庫(kù)。
由于表征數(shù)據(jù)集的功能數(shù)量較少,消除提高算法學(xué)習(xí)能力的實(shí)用功能。
ML算法用于創(chuàng)建可靠的分類器,并允許ML算法從訓(xùn)練樣本中學(xué)習(xí)以進(jìn)行新的觀察。
最后,深度學(xué)習(xí)適用于語音識(shí)別技術(shù),并且在任何環(huán)境中的日常使用中都保持精確,因此,語音識(shí)別系統(tǒng)可在給定的環(huán)境中平穩(wěn)運(yùn)行。
現(xiàn)實(shí)中,想要?jiǎng)?chuàng)建語音識(shí)別系統(tǒng)的開發(fā)人員需要有大量的訓(xùn)練數(shù)據(jù)。如果從經(jīng)濟(jì)角度上來說,這可能需要花費(fèi)數(shù)百萬美元來收集正確的轉(zhuǎn)錄數(shù)據(jù)。只有這樣,才能對(duì)轉(zhuǎn)錄數(shù)據(jù)正確地訓(xùn)練語音識(shí)別系統(tǒng)。
(3)AI和ML中的數(shù)字信號(hào)處理
盡管在音頻處理中應(yīng)用AI和ML還處于早期階段,但深度學(xué)習(xí)方法使人們能夠從不同的角度解決信號(hào)處理問題,而這一問題目前正被廣大音頻行業(yè)用戶忽視。一般來說,理解聲音和信號(hào)處理是復(fù)雜的,很難用語言來描述。
例如,聽到兩個(gè)或更多人說話,這兩個(gè)人互相交談的參數(shù)會(huì)如何描述呢?這當(dāng)中要考慮的因素很多,其中一些問題包括:
性格(年齡、性別、活力)如何影響這些聲音?
室內(nèi)聲學(xué)和距離對(duì)理解水平有多大影響?
談話過程中可能出現(xiàn)的其他噪音怎么辦?
正如人們所見,對(duì)配音的測(cè)量可以源自許多參數(shù),并且需要對(duì)它們給予重視。在這種情況下,AI可以為人們提供一種實(shí)用的方法,為學(xué)習(xí)創(chuàng)造所需條件。
深度神經(jīng)網(wǎng)絡(luò)音頻處理正日益發(fā)展,但仍有許多問題需要人們解決,包括:
高保真音頻重建:小型低質(zhì)量麥克風(fēng)。
空間模擬:用于雙耳處理和混響。
選擇性降噪:去除某些元素,例如汽車交通。
模擬音頻仿真:估計(jì)非線性模擬音頻組件之間的復(fù)雜交互。
(4)配音藝術(shù)家
使用深度學(xué)習(xí)(機(jī)器學(xué)習(xí))創(chuàng)建自然聲音的關(guān)鍵步驟是在這個(gè)過程中擁有原始音頻。相對(duì)而言,世界各地的許多企業(yè)都在與配音藝術(shù)家合作創(chuàng)作配音產(chǎn)品。大多數(shù)配音師在每次使用他們的AI語音時(shí)可以獲得版稅,從而獲得豐厚的報(bào)酬。
但是,配音師也會(huì)碰到被騙的問題。他們雖然錄制了配音,但沒有進(jìn)一步了解使用者是誰。例如,Siri的原聲配音人員蘇珊·本尼特(Susan Bennett)與ScanSoft公司簽訂了合同,但她從不知道自己的錄音實(shí)際上是為蘋果公司錄制的。她只獲得了錄制配音的一次性報(bào)酬,并沒有獲得持續(xù)收入。
此外,配音師遇到的其他一些問題是,在現(xiàn)有技術(shù)背景下,業(yè)內(nèi)的合同和費(fèi)用尚未得到很大提升。此外,還有人認(rèn)為配音可能被負(fù)面使用,甚至可能會(huì)毀掉配音師的聲譽(yù)。例如,它可被用于不想與之合作的公司以及用于粗俗的語言。
(5)用例的興起
由于AI和ML能讓人們以最自然的方式增加定制體驗(yàn)、找到解決方案、訪問服務(wù)、進(jìn)行產(chǎn)品退貨,語音技術(shù)在各個(gè)行業(yè)中不斷發(fā)展。以下是ML和AI如何改變自然語言處理案例的幾個(gè)例子:
消費(fèi)者下訂單:另一種在消費(fèi)行業(yè)中涉及語音識(shí)別和轉(zhuǎn)錄的應(yīng)用。消費(fèi)者有機(jī)會(huì)更快、更有效地訂購(gòu)。不用花時(shí)間瀏覽整個(gè)菜單,客戶只用語音請(qǐng)求就能在幾秒鐘內(nèi)下訂單。
虛擬助理:根據(jù)一項(xiàng)研究,到2024年,市場(chǎng)上的語音助手預(yù)計(jì)將超過84億臺(tái)。語音助手可以支持IT幫助臺(tái)團(tuán)隊(duì)等等。通過向虛擬助理提出更多要求,企業(yè)員工有更多時(shí)間完成日常任務(wù),并更有效地利用時(shí)間。
客戶親密度分析:零售企業(yè)開始使用音頻挖掘軟件來更好地分析呼叫中心的對(duì)話,并了解他們的客戶。由ML和AI提供支持的自動(dòng)語音識(shí)別(ASR)可以精準(zhǔn)了解客戶,并從其討論中提取有價(jià)值的見解。
(6)語音識(shí)別技術(shù)是未來嗎?
語音識(shí)別技術(shù)必定在未來大放異彩。隨著AI和ML技術(shù)不斷改進(jìn),人們將看到它們的使用場(chǎng)景不斷增加。此外,配音師也將獲得一席之地。由于可以通過他們協(xié)助語音識(shí)別技術(shù)改進(jìn),之后語音技術(shù)可能會(huì)發(fā)展到與人們交談時(shí)帶有各種情緒的程度。
2.結(jié)語
以上就是ML和AI在過去幾年為語音技術(shù)帶來的提升,以及這種提升不斷發(fā)展的原因。有朝一日,語音技術(shù)或?qū)l(fā)展至人們與語音助手交談就像與人交談一樣的程度。
企業(yè)則需要考慮如何將語音技術(shù)納入其業(yè)務(wù)戰(zhàn)略。畢竟,世界正在朝著新的起點(diǎn)和技術(shù)路徑轉(zhuǎn)變,如果他們把語音識(shí)別技術(shù)融入業(yè)務(wù),將有助于他們脫穎而出。