1. MRCPv2協議簡介
媒體資源控制協議(Media Resource Control Protocol, MRCP)是一種基於TCP/IP的通訊協議,用於客戶端向媒體資源服務器請求提供各種媒體資源服務。此協議是由Cisco、Nuance等公司聯合開發,由IETF作為Internet草案發布,經過不斷的更新,目前最新的版本為RFC6787,可以支持的媒體資源業務包括文語轉換(Text to Speech, TTS)、自動語音識別 (Automatic Speech Recognition, ASR)、錄音(Recording)、聲紋識別(Voiceprint Recognition, VPR)。
2. MRCPv2系統結構及協議控制
MRCP 協議本身不是獨立的,它不僅僅依賴於TCP/IP協議,還依賴於SIP、SDP、RTP、RTCP、RTSP等協議。
其系統結構如圖1所示:
(1) 控制面:它通過sip協議在客戶端(MRCP Client)和服務器(MRCP Server)之間建立和管理會話(注:MRCPv1就使用RTSP協議完成控制,MRCPv2改為sip協議)。
(2)它通過SDP交換媒體能力以及通過RTP協議完成媒體的承載交換。
(3)業務面:它通過MRCP協議來控制完成媒體資源服務的相關請求,響應和事件的傳遞,從而為客戶端提供所需要的媒體資源服務。
其協議控制機制如圖2所示:
(1)SIP協商過程中,MRCP Client在INVITE消息中攜帶自身用於傳遞MRCP協議以及RTP語音流的SDP(IP地址和端口號)。
(2)在協商成功返回200消息中會帶上MRCP Server側的SDP。
(3)MRCP Client發起TCP連接創建,並且通過TCP連接上發送MRCP協議控制MRCP Server分配的資源。
(4)MRCP Client/Server通過在RTP連接上傳輸語音數據從而實現媒體資源業務。
(5)當業務應用結束時,終止SIP會話的同時,還需要關閉TCP和RTP連接。
MRCPv2的使用規范可以總結如下:
(1)MRCP Client 通過SIP&SDP建立與MRCP Server的MRCP控制通道(使用MRCP 通道ID進行唯一標識,MRCP Server返回200消息時,通過a==channel屬性指定)
(2)可以使用SIP的Re-INVITE消息添加或者刪除一個會話中的MRCP控制通道,所以一個會話可以擁有多個MRCP控制通道(比如:一個會話可以同時擁有ASR&TTS 通道)
(3)多個MRCP控制通道可以共享同一個TCP鏈接。
(4)一個MRCP消息只能攜帶一個MRCP通道ID。
(5)MRCP控制消息不能更改SIP繪話的狀態。
(6)由於MRCP不保證傳輸的可靠性,所以必須使用TCP來保證其傳輸。
3 語音識別技術及其在電信智能語音識別業務中的應用
自動語音識別技術(Automatic Speech Recogition ASR)是一種將人的語音轉換為文本的技術,其廣泛應用於語音通訊系統,聲控電話交換、數據查詢、訂票系統、電信銀行客服、計算機控制、工業控制等領域。
通常,我們說的語音識別可以分為固定次識別以及自然語音識別,固定詞語音識別只能識別已經指明的固定短語或詞,而且用戶也只能說這些固定的詞,否則無法識別,而自然語音識別可以識別用戶隨意說的短語或者句子,很顯然自然語音識別更易用,其技術難度也更大。
近幾年來,自然語音識別相關的技術隨着移動互聯網的發展迎來了迅猛的發展,在Google引領下,互聯網、通信公司紛紛自然把自然語音識別作為重要的研究方向。
美國市場調查咨詢公司Gartner於2013年發布的新興技術成熟度曲線顯示,語音識別技術已經走向成熟,在未來2-5年之內將會有大幅度的利用,而自然語音問答目前技術期望過熱區,預計在5-10年會有大幅度的利用。自然語音問答技術中就使用到了自然語音識別。
在電信領域,語音識別技術應用多年來一直停留在固定詞識別上,基本限定在簡單的IVR領域,因為限制了用戶的語音輸入范圍、易用性和可靠性受限導致應用實際並不廣泛,從目前各大運營商的客服電話就很容易發現,采用按鍵式的IVR仍然是主流。
隨着近幾年語音識別技術的發展,自然語音識別技術逐漸完善,在移動互聯網等可靠性不是太高的領域得到廣泛的應用,iphone 的siri, QQ的語音輸入、Googe的語音翻譯、科大惡移動合作的靈犀扥智能語音識別業務都廣泛應用到此技術。
擁有海量一手語音數據的電信行業也因為自然語音識別技術的成熟,智能語音識別業務將會迎來新的發展機遇。