【AI模型測試】語音轉文字ASR的測試方法學習


最近這幾天有相關的語音轉文字的測試,主要是針對幾個供應商提供的接口,然后對識別結果進行校對和評估,來確認哪個供應商提供的品質和性價比等更好。

然后自學了下語音轉文字的一些測試方法,記錄下來,方便使用。

 

參考鏈接:軟件測試之語音識別(ASR)測試

一、語音識別(ASR)評估指標

    在測試語音識別的過程中,衡量識別內容的准確性,一般通過如下指標進行評估

  •     WER(Word Error Rate,詞錯率)

    定義:為了使識別出來的詞序列和標准的詞序列之間保持一致,需要進行替換、刪除或者插入某些詞,這些插入、替換或刪除的詞的總個數,除以標准的詞序列中詞的總個數的百分比,即為WER

    WER=(S+D+I)/N

    S:substitution,替換

    D:Deletion,刪除

    I:Insertion,插入

    N:標准詞序列中詞的總個數

   (S+D+I)=識別出來的詞序列與標准的詞序列之間的編輯距離

    注意:因為有插入詞(Insertion),所以可能會出現WER>1的情況,不過,WER>1時,表明識別出來的詞序列和標准的詞序列相差很大,識別效果特別差

  •   SER(Sentence Error Rate,句錯率)

    定義:句子中如果有一個詞識別錯誤,那么這個句子被認為識別錯誤,句子識別錯誤的個數,除以總的句子個數即為SER

    SER=SE/N

    SE:識別出來的序列中,識別錯誤的句子個數(即WER!=0的句子個數)

    N:標准序列中總句子個數

 

二、語音識別(ASR)思路

    (1)、語音識別的測試點主要包括如下幾點:

    i.輸入測試語音

    (中間過程:語音識別模塊接收到測試語音,執行語音轉文字操作,並將識別文字輸出)

   ii.驗證識別文字內容的准確性

   iii.語音識別耗時

   (2)、 測試語音的輸入,主要包括以下幾個方面:

    ①語音輸入離拾音設備的距離:近距離、遠距離

    ②拾音設備:移動端(安卓、IOS)原生麥克風、PC端原生麥克風、日常用耳機麥克風、專業設備麥克風(羅技等)

    ③語音輸入與拾音設備的相對位置:正對拾音口,背對拾音口

    ④語音輸入的環境:辦公環境、會議室環境

    ⑤語音輸入時的語速:正常語速、語速較快、語速較慢、時快時慢、斷斷續續

    ⑥語音輸入時的音量:正常音量、音量較大、音量較小,時大時小

    ⑦語音輸入時的音色:男聲、女聲

    ⑧語音輸入的音頻類型:自然人聲、錄音、廣播、變聲等

    (3)、測試識別內容,主要包括以下幾個方面:

    ①支持識別的語種:普通話、英文、方言等

    ②支持的應用場景:日常對話、盡職調查、娛樂訪談等

    ③支持的對話模式:單人對話,多人對話,同一時間只有一個人說話,同一時間多人一起說話

    ④覆蓋的詞庫內容:根據應用場景,是否包含了應用場景(比如金融、娛樂領域)對應的詞庫訓練

    (4)、驗證識別內容的准確性

    統計識別文字的WER、SER指標

    (5)、關注語音識別耗時

    ①短語音的識別耗時

    ②長語音的識別耗時

    

三、WER、SER指標的計算

    ①計算識別的詞序列與標准的詞序列之間的編輯距離

    ②計算WER

    ③計算SER


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM