HTWCore是一款基於.NET Core的winform客戶端程序,可以用來處理各種會議,記錄,講座,講課等等來源的音視頻,運用語音識別、視頻內容提取等技術整理成word文檔。項目中運用了以下技術:
- 基於.NET Core,因此是一款跨平台程序,可用於windows平台各個版本,將來會適配linux、mac等平台。將程序打包成單個文件,免於安裝,性能比較高。
- 使用了音頻切分,音量處理,音視頻解碼、轉碼,音視頻降噪,視頻幀提取等音視頻處理技術。
- 運用了當前領先的語音識別技術,可識別會議,記錄,講座等等場景的音頻。
- 利用聲紋識別技術區分錄音中人物角色,整理出自然、易讀的文檔。
- 語音識別過程中記錄每個單詞的時間碼,可用於生成SRT文件,添加字幕文件。
- 使用了文本分析、自然語言處理技術,處理詞類型,自然的添加標點符號。
- 視頻內嵌字幕提取首先將視頻幀分離出包含成有效文本的圖片,然后用基於SSIM(結構相似性,是一種衡量兩幅圖像相似度的指標)的算法比較兩種圖片的相似度,去掉相似度高的圖片,提高性能。
- 將視頻幀OCR,能處理各種自然場景的含有文本圖片,可以是中文、英文、日語、韓語等,也可以是雙語文本,雙語提取結果分行顯示。
- 對內容文字運用文本相似度算法,有效去重。
- 將處理結果導出為常用的文本處理軟件word,自動換行,縮進等,文檔內容易讀。
HTWCore效果如下:
將音視頻文件拖入文本框。
- 可直接識別,或者可以對音視頻做處理。
- 點擊"Word"按鈕,后進度提示。
- 處理的結果生成的word文檔在音視頻的同目錄下,1小時的音頻只需要不到10分鍾可出結果。
語音質量好的識別正確率在95%以上。
- 內嵌字幕,先截圖框定范圍。
左面的橢圓調整出現文本的幀,右邊的滑塊調整字幕范圍。
其余功能可直接使用,不一一說明了。
HTWCore下載:
鏈接:https://pan.baidu.com/s/1k4zjpMBbUf-Okczd6xUogQ 提取碼:qs52
或者加QQ群:414750884