前一段時間寫了一篇文章,投給了Journal of Vibration and Control。現在JVC已經對投稿的字數進行限制了,記得是不能超過5000字。我一直使用latex撰寫手稿,上傳到投稿系統后,系統會自動生成PDF文件,用於審稿。
投稿幾天后我收到了JVC文字處理編輯的郵件,告訴我字數達到了10000+,超出了雜志的字數上限,需要修改。但是我自己知道,我這篇文章的字數是不可能達到10000字的,所以唯一的解釋就是文字編輯把字數數錯了。。。
將近20頁的文稿文字編輯是不可能一個一個字去數的,所以他肯定是把生成的PDF文檔用word轉成了word文檔之后,通過word的字數統計給出的文字數。問題是word轉PDF是不完美的,比如本來不應該屬於文字的公式,轉PDF之后會生成亂碼,從而使word的字數統計虛高。我把本地生成的PDF轉成word文檔之后發現字數統計果然在10000+。
那么既然知道了原因,就要糾正文字編輯的字數統計方法——應該直接從.tex文件中統計文字數。但是.tex文件中不僅包含公式,還包含大量控制代碼,直接統計文件內單詞數肯定不合適;一個個去數英文單詞數又太繁瑣。那么到底該怎么辦呢?
- 登陸 TexCount
- 點擊Web interface
- 上傳.tex文檔,點擊submit。一段時間之后就會生成類似如下報告

可以看到,后台腳本已經對.tex文檔的內容進行了解析。這里統計的text,headers,captions的總和才是真正的文字數。latex的控制代碼已經被刨除了。網頁背后使用一個PHP腳本來對.tex文件進行解析。也可以在本地安裝PHP之后使用網站提供的腳本對文件進行字數統計,具體的做法可以參照網站上的指南。
經過這個網站的“專業”統計,我的文章字數自然是在5000以內。后來給JVC的文字編輯寫了一封長郵件,解釋了應該如何正確統計.tex文稿字數,文章也進入了后續審稿流程。