最近利用晚上的時間,對很久沒有新版本發布的深藍詞庫轉換進行了版本升級。本次升級主要包含的功能包括:
一.支持Win10自帶的微軟五筆輸入法用戶自定義短語的導入導出。
1.在轉換輸入法詞庫列表中選擇“Win10微軟五筆(自定義短語)”,程序會在同一個目錄生成.dat文件。
2.在微軟五筆的選項中,找到用戶自定義短語,點擊“添加或編輯自定義短語”。
3.點擊“導入”按鈕,選中我們剛才生成的.dat文件即可完成自定義短語的導入:
用同樣的操作,如果是點擊“導出”按鈕,可以導出現有的自定義短語,並在深藍詞庫轉換中轉換成其他詞庫。以上五筆編碼是基於五筆98的字根來的,沒有提供老版五筆86的字根編碼。
二.基於dotnet core 2.2,支持在Linux和macOS下命令行模式的詞庫轉換。
如果您使用的是Linux或者macOS,沒有Windows也沒有關系,現在深藍詞庫轉換能夠很好的支持在這兩種操作系統下的命令行操作。Linux和macOS下要運行深藍詞庫轉換需要先安裝dotnet core runtime.具體安裝步驟可參考微軟官方網站:https://dotnet.microsoft.com/download
選擇.NET Core 2.2的Runtime即可,如果想本地編譯深藍詞庫轉換的源碼的話才需要下載.NET Core SDK.
下載安裝完畢后,我們運行以下命令,可以看到幫助信息:
dotnet ImeWlConverterCmd.dll -?
三.命令行模式增強——支持過濾器和詞頻的生成。
本次發布的命令行模式,除了支持Linux和macOS外,還對其命令也進行了增強。主要是支持了詞頻的生成和過濾器的設置。這兩個都是在Windows下就有的功能,只是之前命令行一直不支持,現在加上了。
1. 對於導入詞庫不包含詞頻,而導出時需要指定詞頻,可以通過-r:命令指定詞頻的生成方式,
支持的有:
- -r:baidu 根據該詞語在百度搜索的結果數量決定詞頻
- -r:google 根據該詞語在Google搜索的結果數量決定詞頻(需翻牆)
- -r:數字 指定一個固定數字的詞頻
2.使用-ft:可以設置詞條的過濾條件,如果不設置則不過濾任何詞條。
-ft:后面可以設置的過濾條件包括:
- len:1-100 保留字數為1到100的詞條
- rank:2-9999 保留詞頻在2到9999的詞條
- rm:eng 移除包含英文字母的詞條
- rm:num 移除包含數字的詞條
- rm:space 移除包含空格的詞條
- rm:pun 移除包含標點符號的詞條
以上過濾條件可以組合,同時起作用,用豎線分開即可:
-ft:"len:1-100|rank:2-9999|rm:eng|rm:num|rm:space|rm:pun"
下面舉一個具體的例子。我們下載了一個細胞詞庫,細胞詞庫是沒有詞頻的,所以我們想通過百度搜索確定詞頻。然后我們只想保留2-3個字的詞條,太長的我們就不要了,另外也要過濾掉包含數字、英文、空格、標點等比較特殊的詞條,所以我們轉換的命令為:
dotnet ImeWlConverterCmd.dll -i:scel ./BlockChain.scel -o:qqpy ./qqpy.txt -r:baidu -ft:"len:2-3|rm:eng|rm:num|rm:space|rm:pun"
轉換完成后,我們打開qqpy.txt,可以看到轉換的結果滿足了我們的要求,詞頻變化了,詞條也只保留了2-3個字的。
最后,最新版下載地址是:https://github.com/studyzy/imewlconverter/releases/tag/v2.5
博客園下載鏈接:
https://files.cnblogs.com/files/studyzy/Release_V2.5_Windows.zip
https://files.cnblogs.com/files/studyzy/Release_V2.5_Linux_macOS.tar.gz