說說語音識別和蘋果的SIRI

本文轉載自查看原文 2012-07-11 17:19 4994 科大訊飛/ 自然語言/ 凱立德/ Siri/ NET/ 語音識別/ Nuance/ 語音輸入

隨着加入具有較多中國特色的IOS6即將發布，支持中文的SIRI再次成為引領技術潮流的熱點。我倒並不對SIRI感冒，因為我總把它當成了語音識別技術和雲計算技術的融合，它逃脫不了底層的語音識別技術，而SIRI底層也確實用了Nuance的語音識別技術，Nuance應該算是世界上最好的語音識別技術公司了。

最近公司新買了個iPhone 4S(它對IOS6的支持度最好)，我們在上面把玩了一下SIRI，不得不說，SIRI確實是很NB的一項技術，可以幫我找附近的咖啡店，可以給我通訊錄里的朋友打電話發短信，它對自然語言的識別達到了極高的層度，但還不能稱之為登峰造極，因為時常也會和我們講一些火星語，應該表示它識別不了了。我對如此出色的SIRI並不感到驚訝，因為在去年的時候我就見過類似的技術，那是在去年的Nuance開發者大會上。那次大會上Nuance給我們展示了幾項技術，最重點的是Dragon Go和Dragon Search，中文名為聲龍搜索和聲龍聽寫，這兩個產品在蘋果的appstore上可以找到。

nuance-appstore

聲龍搜索是通過語音識別將語音轉換成輸入文字，並進行自動搜索，搜索引擎可以隨意切換，省去了輸入文字和切換搜索引擎的煩惱。而聲龍聽寫則是一個將語音識別成文字並可以通過短信、微博等進行發送的軟件，用說的方式將你的文字輸出來，國內的語音技術老大哥科大訊飛也提供了類似的軟件，叫做訊飛口訊，功能都類似。不過我對這兩個軟件不是很有興趣，因為搜索我還是習慣手動輸入的，而想用說話代替手寫來完成短信，也是相當的不容易，因為識別率和糾錯等都是問題。

不過，我對他們在PC上演示的車載語音識別系統挺感興趣，據說是給車廠客戶做的DEMO，主要演示的是簡要的自然語言識別技術。比如能夠通過說“我想聽‘吻別’”，就能給你播放吻別這首歌曲，比如說“我有點冷”，就能給你調高車內的空調溫度。這多少有點SIRI的感覺了吧，至少是簡化版的SIRI吧。后來他們來我們公司解決問題的時候，我順便問他們要了一下DEMO，其實這個軟件基本能實現如下幾個功能：

其中自然語言理解又能實現如下功能：

看上面的命令，也能識別不少呢，只是規則性太強了一些。但這能算做是最簡單的自然語言識別嗎？完全可以。我相信所謂的自然語言識別也是有它自己的規則存在的，就像編寫的程序最終會轉換成0101來控制一樣，只是這個規則通過海量的常用詞語、短語、短句分析，建立了一套自有的基本可以識別絕大部分我們自然所說代表所想的技術，看起來就像是可以識別我們的自然交談中說出的話了。當然，這樣強大的自然語言識別技術離不開一套強大的識別庫，這個庫不是放在本地就能存下的，所以基本上要使用雲計算技術，將本地的語音發送到服務器進行識別，並進行自然語言分析，這也是為什么聲龍聽寫和訊飛口訓軟件很小的原因，因為他們都是將文件發送到雲端進行識別處理的。另外，像凱立德導航、高德導航、圖吧導航等手機版導航軟件，這些軟件都使用了科大訊飛的雲端語音識別技術，這得益於科大訊飛提供的訊飛語音雲(BTW：科大訊飛還提供了免費的SDK供大家整合語音識別功能，不過據說是一年的有效期，后續可能需要商務談判方可繼續使用)。除了雲端語音識別外，也有一些本地的語音識別，像Garmin以及任我游這些非在線PND導航自帶的語音識別，就是用了本地識別庫。關於語音識別的過程，我是這么想的，不一定完全准確，歡迎大家指正。

這個演示軟件給了我們兩點啟示：一是我們也可以建立一套自己的常用語音識別庫，加上成熟的語音識別技術，做出自己的SIRI，二是做出自己的SIRI難度極高，沒有點流行的雲計算技術很難達到效果，但也不代表不能做。現在，凱立德手機導航軟件中所謂堪比SIRI的聲控導航功能，就是使用了類似手法實現的。

語音識別和自然語言識別本身是就是很前沿的技術，是一項很有未來的技術。國外有Nuance，國內有科大訊飛，科大訊飛也憑借語音識別技術而被評為國內最具投資潛力的十大公司之一。但技術也還有差距，舉例來說，語音識別對語音輸入的要求很高，比如首先需要有一個好的麥克風(此點手機相比其他設備要好，而蘋果手機應該相比其他手機要好)，獲得一個較好的語音來源，然后需要對語音進行處理，分析其中的波形並剔除掉雜音，國外的技術似乎比國內的好一點。再說一句凱立德他們宣稱堪比SIRI的語音聲控技術，其實本身和Nuance的DEMO差不多，但用下來很不理想，一是識別率是個問題，二是搜索結果讓我很不滿意，最簡單的例子是我說我要去希爾頓大酒店，結果給我一堆外地的希爾頓，沒有一個上海的，而SIRI能夠幫你找到附近的咖啡店，這也是差距。

對語音識別和自然語言輸入，我是充滿了無比的期待，比如寫這篇文字，我只需從頭說到尾說一遍，而不需要任何的停頓和回退，說完后文字就已經輸出了，省去了我在電腦和手機上打字的痛苦，但事實上很難做到，常見的語句還行，不常見的就比較難以識別了，為此我還要手動移到錯字的地方進行刪除后再語音輸入，結果就大大降低了文字輸入的效率，這也是我不願意使用語音輸入的重要原因，不過這些難題語音識別的公司也在着力研究解決了，期望有更理想的語音輸入效果。

補充一句，最近在Google I/O大會上，Google演示的Android 4.1系統也搭載了語音識別技術，但和SIRI不同的是：它支持Offline。這一點，我也覺得挺納悶的，若離線狀態下使用語音識別，那么這個庫文件需要多大？Android 4.1的發布是否會變得很臃腫？識別率是否會比在線的差？雖然我搞不懂這些問題，但不得不說，離線語音識別，若識別率夠高，那我一定雙手雙腳支持，因為這樣確實可以省去用手指輸入文字的痛苦。另外，除了Google推離線語音輸入同Apple抗衡外，據說LG公司也發布了Qucic Voice來抗衡SIRI。看來，語音大戰不可避免，我們作為用戶，只希望能看到我們想要的好用的語音識別和輸入功能，真正的為我們的日常生活所服務，而不僅僅是一個噱頭:)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 語音識別概述 JavaScript的語音識別語音識別語音識別-TDNN Python 語音識別語音識別 -- 概述語音識別基礎基於android的語音識別語音識別: DeepSpeech2 樹莓派的語音識別