Introduction
在國內,隨着網絡技術的越來越發達與普遍,越來越多的外國影視作品進入群眾的視野之中,特別是近些年來美劇與日本動漫在國內的蓬勃發展,限於語言障礙, 使得對這些作品的翻譯成了一個急切的需求。 因此,大量的字幕工作者由於興趣愛好,結成團體,共同完成影視作品的翻譯工作,成為一個字幕小組。
字幕組中有着明確的分工,有專門負責翻譯工作的翻譯人員,也有很少被人知道的是做字幕對軸工作的組員們。因為翻譯出來之后僅僅是文本的內容,並沒有跟視頻文件進行匹配,字幕組的成員們往往需要進行非常細致的比對調整,才能使得最終觀眾們欣賞到擁有高質量的翻譯內容,並且與原視頻內容配合得天衣無縫的字幕。然而對於字幕的對軸工作會占用字幕組成員非常多的時間,而且這件事情相比翻譯實在是沒有什么技術含量,對於字幕組這些無償造福人類的同學們來說花費正常的學習生活時間做軸是非常不值當的。我們小組覺得如果有這樣一個自動給字幕對軸的軟件會給字幕組帶來很大的方便。大大提高字幕組的生產效率,讓廣大美劇、動漫迷們更早的看到期待的作品。
The first vision of the Autosub
下面附上我們的測試軟件和測試的視頻片斷。
鏈接如下:
http://kuai.xunlei.com/d/SQTNAQQCFTYH
我們進行了第一版的軟件制作, 由於算法的不夠成熟,目前的版本只能比較好的適用於類似於lecture這樣噪聲干擾比較小的環境。
但是,我們堅信Autosub的提升空間是很大的,故幾套可靠的升級方案也都列入了工作計划,而且自動對軸軟件的市場需求潛力也會刺激我們從用戶需求出發不斷持續更新版本,希望您能一直關注並陪伴着我們和Autosub一起成長。
附件中是我們目前的軟件版本,由於UI與播放器模塊和頻譜模塊上還在進行修改與整合,所以目前僅僅是基於命令行的測試版本,但是下一版將會給您帶來完全不一樣的視覺體驗,下面列舉一兩個預期的亮點,還有更多驚喜讓我們共同期待
亮點一:整合的UI提供了可視化的界面,貼近用戶操作
亮點二:頻譜模塊打破了用戶聽覺與音頻本身波形的障礙,使得用戶能從頻譜出發手動便捷地微調字幕時間軸,實現人機交互
Usage introduction
[Part 1]
我們的重點在於對軸上,由於是采用的基於能量的算法,對於像lecture這樣的背景噪聲比較小的視頻文件,效果還算不錯,在后期加入頻譜界面用戶微調功能后,應該能夠滿足基本的需求,對於其他的背景噪聲較大的情況,我們的算法在后期有待於進一步的改進和提高。
對於語音識別和機器翻譯調用了外部的api,可以支持此功能,但是眾所周知,目前的這兩項技術還不夠完善,會有一些不盡如人意的地方。
命令行測試版本中使用的功能參數說明:
(1)命令格式:autosub [options] <input video>
例:autosub –r ja –t zh-cn test.mp4
(2)參數Option:
-r <language code> :
enable speech recognition and set source language to <language code>
支持語音識別功能, 並且設置原語言的各類為<language code> 所指示的種類。
-t<language code>:
enable translation and set target language to <language code>
在已經識別了語音的基礎上,可以進行簡單的機器翻譯成目標語言<language code>
-o <output>.srt:
Specify output subtitle file name(default: the same as the input name)
更改輸出的字幕文件名為<output>.srt, 在默認情況下為原輸入的視頻文件名
目標語言代號Language codes:
Chinese: zh-cn
English: en
Japanese:ja
[Part 2]
具體用法說明:
第一步:用命令行打開autosub所在的根目錄運行。(可以直接在根目錄路徑上輸入cmd,然后enter):
在根目錄輸入cmd
Enter后出現界面如下
第二步:執行應用程序划分時間軸。
因為Autosub在划分時間軸的基礎上提供了多種拓展功能供用戶選擇,依照功能不同用戶的操作也有差異:
(1) 只分割時間軸
輸入示例:autosub test.mp4
輸出界面如下:
輸出為划分的時間軸,它是由數段分割出的時間區間構成,以其中一個為例說明:
sub (29.025, 31.355)
7 7
其中29.025和31.355代表識別出這一段話的時間區間,單位為秒
數字7為編號,代表第7句話。
執行完程序后,就會自動生成原視頻中的時間段序號(代表了被划分的時間軸), 加載后播放原視頻,效果如下:
加載之前
加載之后
(2) 添加語音識別的功能
輸入示例:autosub –r en test.mp4
執行完程序后,在划分時間軸時,采用了語音識別的外部API,初步識別出視頻中的聲音,在dos界面下的每一段時間區間內都顯示了其語音識別的結果:
最后生成了原語言的字幕文件,加載后播放原視頻,效果如下:
加載之前
加載之后
(3) 添加語音識別,並進行機器翻譯
輸入示例:autosub –r en –t zh-cn test.mp4
執行完程序后,在划分時間軸時,采用了語音識別和機器翻譯的多重外部API,初步識別並翻譯出視頻中的聲音,在dos界面下的每一段時間區間內都顯示了其語
音識別翻譯的結果:
最后生成了翻譯好的字幕文件,加載后播放原視頻,效果如下:
加載之前
加載之后