基於.NET Core winform的錄音、字幕軟件HTWCore的技術總結


  HTWCore是一款基於.NET Core的winform客戶端程序,可以用來處理各種會議,記錄,講座,講課等等來源的音視頻,運用語音識別、視頻內容提取等技術整理成word文檔。項目中運用了以下技術:

  •   基於.NET Core,因此是一款跨平台程序,可用於windows平台各個版本,將來會適配linux、mac等平台。將程序打包成單個文件,免於安裝,性能比較高。
  •        使用了音頻切分,音量處理,音視頻解碼、轉碼,音視頻降噪,視頻幀提取等音視頻處理技術。
  •        運用了當前領先的語音識別技術,可識別會議,記錄,講座等等場景的音頻。
  •        利用聲紋識別技術區分錄音中人物角色,整理出自然、易讀的文檔。
  •        語音識別過程中記錄每個單詞的時間碼,可用於生成SRT文件,添加字幕文件。
  •        使用了文本分析、自然語言處理技術,處理詞類型,自然的添加標點符號。
  •        視頻內嵌字幕提取首先將視頻幀分離出包含成有效文本的圖片,然后用基於SSIM(結構相似性,是一種衡量兩幅圖像相似度的指標)的算法比較兩種圖片的相似度,去掉相似度高的圖片,提高性能。
  •       將視頻幀OCR,能處理各種自然場景的含有文本圖片,可以是中文、英文、日語、韓語等,也可以是雙語文本,雙語提取結果分行顯示。
  •       對內容文字運用文本相似度算法,有效去重。
  •       將處理結果導出為常用的文本處理軟件word,自動換行,縮進等,文檔內容易讀。

 

  HTWCore效果如下:

  1.  

     將音視頻文件拖入文本框。

  2. 可直接識別,或者可以對音視頻做處理。   

     

  3. 點擊"Word"按鈕,后進度提示。

     

  4. 處理的結果生成的word文檔在音視頻的同目錄下,1小時的音頻只需要不到10分鍾可出結果。

     

    語音質量好的識別正確率在95%以上。

  5.    內嵌字幕,先截圖框定范圍。

 

      左面的橢圓調整出現文本的幀,右邊的滑塊調整字幕范圍。

  其余功能可直接使用,不一一說明了。

 

 

  HTWCore下載:

  鏈接:https://pan.baidu.com/s/1k4zjpMBbUf-Okczd6xUogQ 提取碼:qs52 

  或者加QQ群:414750884

  

 

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM