語音識別LD3320

本文轉載自查看原文 2019-07-22 23:35 2266

一、概述

1.芯片介紹

LD3320 是一顆基於非特定人語音識（SI-ASR：Speaker-Independent Automatic Speech Recognition）技術的語音識/聲控芯片。提供了真正的單芯片語音識解決方案。

LD3320 芯片上集成了高精度的 A/D 和 D/A 接口，不再需要外接輔助的 Flash 和 RAM，即可以實現語音識/聲控/人機對話功能。並且，識的關鍵詞語列表是可以動態編輯的。

基於 LD3320，可以在任何的電子產品中，甚至包括最簡單的 51 作為主控芯片的系統中，輕松實現語音識/聲控/人機對話功能。為所有的電子產品增加 VUI（Voice User Interface）語音用戶操作界面。

2.語音識別介紹

語音識 ASR 技術，是基於關鍵詞語列表識的技術。只需要設定好要識別的關鍵詞語列表，並把這些關鍵詞語以字符的形式傳送到 LD3320 內部，就可以對用戶說出的關鍵詞語進行識別。不需要用戶作任何地錄音訓練。

ASR 技術最重要的現實意義就在於提供了一種脫離按鍵，鍵盤，鼠標的基於語音的用戶界面 VUI：Voice User Interface

每次識的過程，就是把用戶說出的語音內容，通過頻譜轉換為語音特征，和這個關鍵詞語列表中的條目進行一一匹配，最優匹配的一條作為識結果。比如在手機的應用中，這個關鍵詞語列表的內容就是電話本中的人名/手機的菜單命令/T 卡中的歌曲名字。不論這個列表的條目內容是什么，只需要用戶設置相關的寄存器，就可以把相應的待識條目內容以字符形式傳遞給識引擎。
LD3320 可以識列表中的關鍵詞，用戶說的語音可以是這個列表中任意的關鍵詞語，而且不需要用戶在識前進行任何訓練。識引擎不關心關鍵詞語列表中的關鍵詞語的內容，可以是命令，人名，歌曲名字，操作指令等等任何的漢字字符串。每條關鍵詞語最大可以支持的字數，從算法角度是限制在 30 字以內。但是從實際情況來看，用戶一口氣說超過 8 個字以上的條目時，幾乎肯定會出現說錯字/說漏字/說多字/打嗝/停頓等情況，這些情況都會嚴重影響識並造成識錯誤。因而一般來說，如果要獲得理想的識效果，建議每條關鍵詞語的字數不要過長，避免影響效果。

3.技術參數