基於語音識別、音文同步、圖像OCR的字幕解決方案HtwMedia介紹


 

  背景介紹

      俗話說,“好記性不如亂筆頭”,這充分說明了文字歸檔的重要性。如今隨着微信、抖音等移動端app的使用越來越廣,人們生產音、視頻內容也越來越便捷。而相比語音和視頻而言,文字具有易存檔、易檢索、易傳播等優點。提取音、視頻中的有效信息形成文字並持久化對很多行業都有很現實的意義。

    設想一下,一部有知識含量的課件或科普視頻往往需要播放多遍才能吃透,如果把它其中的知識提取出來是不是容易檢索、理解方便的多?參加講座或訪談等用錄音筆或者手機就可以錄下來,而把它整理出來是不是更容易形成知識?影視劇的生產者按照行業規定通常需要加字幕,而一部優秀的國外影視劇如果把它本地化形成雙語字幕對於不掌握國外語言的觀眾會更有用,等等。這些都是HtwMedia的使用場景。

    HtwMedia是一款windows系統下的專業字幕及音視頻應用解決方案。運用最新的自動語音識別、語音合成及機器翻譯、圖像OCR等技術可實現視頻字幕的提取,時間軸的自動生成,字幕文本的自動生成以及字幕文本和語音的自動對齊等功能。另外軟件還實現了基於精准音頻波形圖的時間碼及文本的生成及編輯校對功能,提供視頻字幕壓制、導出到Premiere、Edius、Final cut pro等非編軟件等實用功能。

    為什么說HtwMedia是一套解決方案而不僅僅是處理字幕的軟件產品呢?因為我們所有的功能都是建立在長時間積累用戶需求及使用習慣的基礎上,涵蓋了在字幕及音視頻處理的方方面面。

    比如:

  • 在用戶導入媒體文件時,我們會對媒體做音量調整及降噪處理,對時間過長的媒體文件做切割分段。這些預處理會很大程度上提高自動識別及音文同步的性能。讓識別及同步准確率提高哪怕一個百分點,讓用戶節省每一分鍾都是我們的追求。
  •  我們會對用戶的操作自動保存成工程文件,防止因為操作中斷而導致之前的處理結果丟掉。用戶再次打開工程的時候可以繼續處理。
  •  我們不僅提供基於語言識別的字幕生成,而且提供視頻中的字幕提取。經常有用戶提到:“如何把DVD的vob和sub文件轉成srt壓制到視頻里?如何把藍光sup文件轉成srt文件?如何提取avi/divx文件中的字幕?如何提取硬壓制的視頻文件中的字幕”等。我們對此運用了最新的圖像OCR技術,對視頻做解析后,生成關鍵幀的圖像,從圖像中提取特定位置的字幕。在提取過程中可以全自動,當自動識別的文本有稍許錯誤用戶可以隨時停止修正。提取視頻中的文本后可以繼續用我們的音文同步技術生成時間碼,可以導入Premire、Edius等非編軟件的樣式、顏色等模板。最后把生成的ass、srt等文件壓制到視頻里。
  •  我們提供批量識別媒體、批量音文同步、批量壓制字幕等功能,減少用戶多次操作,節省用戶時間。
  •  我們提供方便的字幕編輯功能。自動語音識別及音文同步目前不可能做到100%准確,尤其是語音環境不好的情況下,所以人工校對不可避免。我們提供了准確的基於音頻波形的時間碼調整及拍打時間軸功能。另外還有方便的文本編輯器,可以斷句,檢查字數、分句、合並等。並且播放器、時間軸及文本區互相同步定位。
  •  我們提供基於文本的配音功能。用戶只需導入要配音的文本,選擇喜歡的人聲,軟件就可以生成斷句好的mp3聲音文件。
  •  我們提供自動翻譯功能,可以有效的制作雙語字幕。
  •  我們提供字幕壓制及添加水印功能,可以保護用戶的視頻不被輕易盜用。
  •  提供視頻分離音頻功能,這樣可以有效的減少媒體文件體積,方便利用語言分析。

  主要技術參數:

  支持的視頻格式:

  .avi;.mkv;.wmv;.mpg;.mpeg;.divx;.mp4;.asf;.flv;.mov;.m4v;.vob;.ogv;.webm;.ts;.m2ts;.avs;.mxf

  支持的音頻格式:

  *.mp3;*.wav;*.wma;*.ogg;*.mpa;*.m4a;*.ape;*.aiff;*.flac;*.aac;*.ac3;*.mka

   媒體播放器:

  VLC播放器,可疊加字幕文本

   時間軸:

  基於ffmpeg解碼的音頻pcm數據,采樣率為16000,單聲道;時間上大格間隔1秒,小格0.1秒。縱向縮放每次調整單位為0.1 scale.

  自動語音識別:

  可識別中、英文及四川、粵語等方言。配合自動切軸、聲音預處理后准確率很高。

   音文同步:

  用戶導入音視頻文件及文本文件后可自動生成時間軸。

  文本翻譯:

  支持的語言有中、英文等20多種語言。

   導入文本文件:

  支持TXT,Word,SRT,Ass等文件的導入,編碼格式為UTF-8.

  導出文件:

  可以導出TXT,Word,SRT,Ass等文件格式,另外支持導出Premiere的.prtl字幕模板工程、Eduis的.etl模板工程、Avid的STL格式字幕文件、傻丫頭字幕模板、Final cut pro的fcpxml格式及fcpxml+image格式的工程。

   聯系方式

  官方QQ群:414750884

 

  下載地址

  鏈接: https://pan.baidu.com/s/1LvpAtZW7vjmGtpgcr191XQ 提取碼: x881

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2026 CODEPRJ.COM