發(fā)布時(shí)間:2017/9/8 17:41:23 來(lái)源:鳳凰網(wǎng) 編輯:中國(guó)家裝家居網(wǎng)
作為一名媒體從業(yè)者,小編在工作中少不得要和錄音筆打交道,有時(shí)還要親自帶著錄音筆去采訪。雖說(shuō)有了錄音筆,讓采訪過(guò)程的記錄更為輕松,但回到公司,面對(duì)動(dòng)輒四五十分鐘的錄音,小編常常欲哭無(wú)淚。也正是因?yàn)檫@種體驗(yàn),所以小編一直對(duì)語(yǔ)音識(shí)別技術(shù)的發(fā)展較為關(guān)注。
語(yǔ)音識(shí)別的終極夢(mèng)想,是真正能夠理解人類語(yǔ)言甚至是方言環(huán)境的系統(tǒng)。但幾十年來(lái),人們并沒(méi)有一個(gè)有效的策略來(lái)創(chuàng)建這樣一個(gè)系統(tǒng),直到人工智能技術(shù)的爆發(fā)。
在過(guò)去幾年中,人們?cè)谌斯ぶ悄芎蜕疃葘W(xué)習(xí)領(lǐng)域的突破,讓語(yǔ)音識(shí)別的探索跨了一大步。

技術(shù)原理
所謂語(yǔ)音識(shí)別,就是將一段語(yǔ)音信號(hào)轉(zhuǎn)換成相對(duì)應(yīng)的文本信息,系統(tǒng)主要包含特征提取、聲學(xué)模型,語(yǔ)言模型以及字典與解碼四大部分,其中為了更有效地提取特征往往還需要對(duì)所采集到的聲音信號(hào)進(jìn)行濾波、分幀等預(yù)處理工作,把要分析的信號(hào)從原始信號(hào)中提取出來(lái);之后,特征提取工作將聲音信號(hào)從時(shí)域轉(zhuǎn)換到頻域,為聲學(xué)模型提供合適的特征向量;聲學(xué)模型中再根據(jù)聲學(xué)特性計(jì)算每一個(gè)特征向量在聲學(xué)特征上的得分;而語(yǔ)言模型則根據(jù)語(yǔ)言學(xué)相關(guān)的理論,計(jì)算該聲音信號(hào)對(duì)應(yīng)可能詞組序列的概率;最后根據(jù)已有的字典,對(duì)詞組序列進(jìn)行解碼,得到最后可能的文本表示。
作為語(yǔ)音識(shí)別的前提與基礎(chǔ),語(yǔ)音信號(hào)的預(yù)處理過(guò)程至關(guān)重要。在最終進(jìn)行模板匹配的時(shí)候,是將輸入語(yǔ)音信號(hào)的特征參數(shù)同模板庫(kù)中的特征參數(shù)進(jìn)行對(duì)比,因此,只有在預(yù)處理階段得到能夠表征語(yǔ)音信號(hào)本質(zhì)特征的特征參數(shù),才能夠?qū)⑦@些特征參數(shù)進(jìn)行匹配進(jìn)行識(shí)別率高的語(yǔ)音識(shí)別。若果讓小編用一句話來(lái)進(jìn)行總結(jié)就是:對(duì)語(yǔ)音識(shí)別來(lái)說(shuō),給它足夠的數(shù)據(jù)量進(jìn)行學(xué)習(xí)是關(guān)鍵。
應(yīng)用案例
近日,搜狗召開(kāi)發(fā)布會(huì),正式推出其自研的速記神器——搜狗聽(tīng)寫(xiě)。這是一款能夠?qū)⒄Z(yǔ)音實(shí)時(shí)轉(zhuǎn)變成文字的速記工具,擁有轉(zhuǎn)寫(xiě)和聽(tīng)寫(xiě)兩種模式,主要面向文字工作者。
搜狗語(yǔ)音交互技術(shù)中心總經(jīng)理王硯峰表示,搜狗聽(tīng)寫(xiě)中涉及到了大量前沿技術(shù),例如大規(guī)模的優(yōu)質(zhì)語(yǔ)音數(shù)據(jù)訓(xùn)練和深度學(xué)習(xí)的技術(shù)能力積累等,不僅可應(yīng)用于多個(gè)場(chǎng)景,其語(yǔ)音識(shí)別準(zhǔn)確率也高達(dá)97%以上。搜狗聽(tīng)寫(xiě)可提供兩種服務(wù),語(yǔ)音轉(zhuǎn)寫(xiě)和語(yǔ)音聽(tīng)寫(xiě)。此外,它還同時(shí)具備了邊聽(tīng)邊改、無(wú)線標(biāo)重點(diǎn)、多端同步、信息分享等多個(gè)功能。
微軟公司近日宣布,其對(duì)話式語(yǔ)音識(shí)別系統(tǒng)的出錯(cuò)率達(dá)到5.1%,創(chuàng)下目前為止的最低水平,超過(guò)了去年微軟人工智能及研究事業(yè)部一組研究人員所實(shí)現(xiàn)的5.9%出錯(cuò)率,達(dá)到了專業(yè)速錄員的同等水平。在此次研究中,專業(yè)速錄員具備重復(fù)收聽(tīng)錄音等優(yōu)勢(shì)。
與此同時(shí),市面上玲瑯滿目的產(chǎn)品也反映了這種飛躍式發(fā)展,例如亞馬遜Echo、蘋(píng)果Siri等等。
語(yǔ)音識(shí)別成關(guān)鍵
在智能 家居 ,不管是智能家電還是機(jī)器人,語(yǔ)音識(shí)別技術(shù)都是必備的基本功能之一。據(jù)知名市場(chǎng)調(diào)研公司MarketsAndMarkets發(fā)布的調(diào)查報(bào)告稱,全球智能 家居 市場(chǎng)規(guī)模將在2022年達(dá)到1220億美元,2016-2022年年均增長(zhǎng)率預(yù)測(cè)為14%。而在機(jī)器人方面,研究機(jī)構(gòu)IDC預(yù)測(cè),至2020年,全球機(jī)器人與相關(guān)服務(wù)市場(chǎng)規(guī)模將由2016年的915億美元增至1880億美元。從這兩點(diǎn)數(shù)據(jù)來(lái)看,可想而知未來(lái)智能 家居 的市場(chǎng)之大。
在控制方式上,除了部分智能家電之外,語(yǔ)音控制已經(jīng)成為了市場(chǎng)的主流,而這就是語(yǔ)音識(shí)別市場(chǎng)的商機(jī)。未來(lái),作為人機(jī)自然交互的前提之一,語(yǔ)音識(shí)別必然是智能 家居 的發(fā)展趨勢(shì),只有語(yǔ)音識(shí)別的準(zhǔn)確率接近完美,人機(jī)的自然交互才能繼續(xù)開(kāi)展。在智能 家居 市場(chǎng)的推動(dòng)下,語(yǔ)音識(shí)別技術(shù)必將成為重點(diǎn)發(fā)展對(duì)象。
三大挑戰(zhàn)
首先就是對(duì)象識(shí)別的準(zhǔn)確性。現(xiàn)在,在應(yīng)用上,我們看見(jiàn)語(yǔ)音識(shí)別多是在智能 家居 領(lǐng)域,包括智能家電和服務(wù)機(jī)器人。此時(shí),我們就要考慮一個(gè)問(wèn)題了,當(dāng)多個(gè)家庭成員同時(shí)講話時(shí),智能家電和服務(wù)機(jī)器人該執(zhí)行誰(shuí)的命令呢?它們又如何能在眾聲音中找出自己主人的命令?這些都是當(dāng)前語(yǔ)音識(shí)別所需要解決的問(wèn)題,畢竟我們通常所說(shuō)的語(yǔ)音識(shí)別不僅僅只是單純的對(duì)語(yǔ)音內(nèi)容進(jìn)行識(shí)別。
第二個(gè)必須解決的問(wèn)題是語(yǔ)言擴(kuò)展:世界上大約有7000種語(yǔ)言,絕大多數(shù)語(yǔ)音識(shí)別系統(tǒng)能夠支持的語(yǔ)言數(shù)量大約是八十種。擴(kuò)展系統(tǒng)帶來(lái)了巨大的挑戰(zhàn)。此外,我們?nèi)鄙僭S多語(yǔ)言的數(shù)據(jù),而且匱乏數(shù)據(jù)資源則難以創(chuàng)建語(yǔ)音識(shí)別系統(tǒng)。
還要降低周邊環(huán)境的干擾。對(duì)于人類來(lái)講,在嘈雜環(huán)境中聽(tīng)別人說(shuō)話或是從眾多聲音中找出自己想聽(tīng)的內(nèi)容還是一件較為簡(jiǎn)單的事,而與此相反,這件事在機(jī)器這里并沒(méi)有那么容易。
編者總結(jié)
隨著智能 家居 市場(chǎng)的擴(kuò)大,應(yīng)用語(yǔ)音識(shí)別的產(chǎn)品和場(chǎng)景越來(lái)越多,同時(shí)也是對(duì)它的一個(gè)挑戰(zhàn)。如果連準(zhǔn)確性都無(wú)法保證的話,那么人機(jī)交互也無(wú)從談起。語(yǔ)音識(shí)別技術(shù)在2017年前半年發(fā)展足夠迅速,至于未來(lái)會(huì)如何,讓我們拭目以待吧!