主頁 > 科技 > IT >

語音識別已不是難事 下一個挑戰是語音合成

2016-02-17 18:37 作者:小龍 來源:未知 瀏覽:

  我相信大多數人對語音助手已經不陌生了。很多人也已經和iOS中的語音助手Siri進行過對話,不論是逗它玩還是真的需要它的幫助。

  對Siri來說,要聽懂你說的是什么并不難,但真的要和它進行一場對話的話,你一定會感到怪怪的。拋開它是否能正確的回答你的問題不說,它回復你的聲音就會讓你明顯感覺到自己并不是在和一個人聊天。

  的確,在語音識別這件事上,國內外頂尖的公司都已經能做到95%左右的準確識別率。但在語音生成上,幾乎沒有公司能讓機器人說的話跟人說出來的話一樣,即便是一些簡單的詞組,你也一耳就能聽出是機器合成的還是真人播報。

  但隨著人們越來越多的使用語音交互,如何讓電腦的聲音聽起來更具人性化,已經成為了擺在很多軟件公司和程序員面前的大挑戰。

  據《紐約時報》報道,IBM曾在世紀之交花了18個月的時間讓機器人沃森(Watson)可以說話,但盡管沃森已經非常聰明,它說話的本領仍然很差。因為聽起來根本不像人聲。

語音識別已不是難事 下一個挑戰是語音合成Michael Picheny,IBM實驗室資深經理。圖片來自《紐約時報》

  現在電腦語音都是用機器合成的(除了部分天氣預報和導航提示是完全人工錄制),合成最終語音的真人語音數據庫通常非常龐大,數據庫里有某個單詞的真人發音,以及這個單詞不同語調的發音,甚至這個單詞的部分發音。一位配音者通常需要花至少10個小時才能完成一個語音數據庫的錄入。

  盡管語音數據庫已經非常龐大,但是在合成語音的時候,仍然無法做到接近真人發聲。其中最大的難點是讓合成音帶有人類的感情。卡內基梅隆大學語言技術研究院的計算機科學家 Alan Black 告訴《紐約時報》,他們并沒有辦法告訴語音合成器說,這段話要帶有感情的去朗讀。

  當然,設計者也經常強調他們并不希望用合成語音來騙人說這是真人語音。但他們仍然希望機器和人的語音交互能更加自然,更像人和人之間的交流。

  事實上,如果機器發音和真人發音過于接近,會讓人感到很不舒服。日本機器人科學家森政弘曾在1970年發表了一篇題為《恐怖谷》的文章,核心就是說,當機器人和人的相似程度過于接近的時候,機器人身上的一點點小瑕疵,都會讓人感到不安。

  

語音識別已不是難事 下一個挑戰是語音合成  根據森政弘的假設,隨著人類物體的擬人程度增加,人類對它的情感反應呈現增-減-增的曲線。恐怖谷就是隨著械器人到達“接近人類”的相似度時,人類好感度突然下降至反感的范圍。“活動的類人體”比“靜止的類人體”變動的幅度更大。圖片來自維基百科

  根據森政弘的假設,隨著人類物體的擬人程度增加,人類對它的情感反應呈現增-減-增的曲線。恐怖谷就是隨著械器人到達“接近人類”的相似度時,人類好感度突然下降至反感的范圍。“活動的類人體”比“靜止的類人體”變動的幅度更大。圖片來自維基百科

  ToyTalk 是一家為兒童玩具制作人聲的公司,其 CEO Brian Langner 就表示,當機器能做對一些事情的時候,人們會認為它能做對任何事。所以在他的產品里,他會讓機器故意犯一點錯。畢竟他做的是玩具,犯點錯讓人們一笑也沒什么不好的。

  現在的問題是,經過了那么多科學家的努力,在合成語音這件事上,我們還無需擔心“恐怖谷”的到來。

  為了讓沃森能“好好說話”,IBM 招募了25位配音演員,經過大量的實驗和調整,他們終于合成了一個聽起來讓人感到比較舒服的聲音——雖然人們還是很明顯能聽出這不是真人在說話。

  如果語音交互要有大發展的話,合成語音必須要讓人聽起來更舒服。不然的話,這種交互只能說是語音輸入,機器執行,人類和機器之間并沒有真正的交流。

(責任編輯:小龍)
迷失非洲走势图 北京pk10靠谱刷水方案 怎么用支付宝给花呗赚钱 皇家赌场娱乐城 合数单双中特期期准的网站 北京快三大小怎么猜测 体彩排列五走势图2013 挖铝矿怎么赚钱 北京赛车7码终极公式 j江苏11选5开奖结果 江苏时时彩走势 彩票软件开户 赚钱真的好难哦退戈小说 澳门两分彩是官方的吗 易发棋牌送6元救济金 用电脑打字赚钱的软件 广西快乐十分现场开奖