在工作中經常需要使用到SecureCRT登錄到linux環境去做一些文本處理的工作,因此就經常會遇到一些亂碼問題,尤其是編輯的內容包含較多中文的情形,下面就是遇到類似問題的解決辦法。
我遇到的所有亂碼問題基本上都可以通過以下幾種方式解決,寫出來希望對大家有幫助。
1、設置linux字符集,如果是英文就設置成LANG=en_US.UTF-8,如果是中文就設置成LANG=zh_CN.UTF-8。設置完成以后可以使用locale查看設置的字符集。如下圖所示:
2、設置SecureCRT的session的字符集問UTF-8,設置步驟如下:
首先點擊【選項】選擇【會話選項】如下圖:
進入【會話選項】以后點擊【外觀】將字符編碼設置成utf8,如下圖所示:
經過上面兩步能解決80%的亂碼問題了,還有一種亂碼問題是vim編輯含有中文的字符的時候的亂碼問題,這種情況下一般使用cat命令不會有亂碼。大家可以試一下,下面就來說說vim亂碼的解決辦法。
3、設置vim的字符集,為了確定是不是vim的字符集問題,可以vim 文件以后使用:set encoding=utf8看看能否正常顯示。vim亂碼的終極解決辦法是更改vim的環境變量,具體的如下:
vi ~/.vimrc 添加set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936 然后保存,再vim 帶中文的文件你就發現亂碼問題沒有了!哈哈!
總結:經過以上3步亂碼問題基本上能得到解決,如果還有問題就用搜搜找找看吧!
http://blog.chinaunix.net/uid-20639775-id-3475608.html
==============================================================================
http://blog.csdn.net/s1234567_89/article/details/7872961
問題源於SI中編輯的注釋,在虛擬機中,用記事本打開的可以顯示正常的中文注釋,在vi(vim)中編輯卻顯示亂碼:
解決vi中文亂碼問題
亂碼, 中文, 解決
由於在windows下默認是gb編碼,而我的vim默認是utf-8(gedit默認也是utf-8),所以打開會成亂碼。修改了一下配置文件,使vi支持gb編碼就好了。
$vi ~/.vimrc
let &termencoding=&encoding
set fileencodings=utf-8,gbk
$:wq
再次打開vi,顯示就正常了。如果不正常,重新開一個終端,再次打開vi。
更詳細的資料:
vim中編輯不同編碼的文件時需要注意的一些地方
此文講解的是vim編輯多字節編碼文檔(中文)所要了解的一些基礎知識,注意其沒有涉及gvim,純指字符終端下的vim。
vim編碼方面的基礎知識:
1,存在3個變量:
encoding—-該選項使用於緩沖的文本(你正在編輯的文件),寄存器,Vim 腳本文件等等。你可以把 ‘encoding’ 選項當作是對 Vim 內部運行機制的設定。
fileencoding—-該選項是vim寫入文件時采用的編碼類型。
termencoding—-該選項代表輸出到客戶終端(Term)采用的編碼類型。
2,此3個變量的默認值:
encoding—-與系統當前locale相同,所以編輯文件的時候要考慮當前locale,否則要設置的東西就比較多了。
fileencoding—-vim打開文件時自動辨認其編碼,fileencoding就為辨認的值。為空則保存文件時采用encoding的編碼,如果沒有修改encoding,那值就是系統當前locale了。
termencoding—-默認空值,也就是輸出到終端不進行編碼轉換。
由此可見,編輯不同編碼文件需要注意的地方不僅僅是這3個變量,還有系統當前locale和、文件本身編碼以及自動編碼識別、客戶運行vim的終端所使用的編碼類型3個關鍵點,這3個關鍵點影響着3個變量的設定。
如果有人問:為什么我用vim打開中文文檔的時候出現亂碼?
答案是不確定的,原因上面已經講了,不搞清楚這3個關鍵點和這3個變量的設定值,出現亂碼是正常的,倒是不出現亂碼那反倒是湊巧的。
再來看一下常見情況下這三個關鍵點的值以及在這種情況下這3個變量的值:
1,locale—-目前大部分Linux系統已經將utf-8作為默認locale了,不過也有可能不是,例如有些系統使用中文locale zh_CN.GB18030。在locale為utf-8的情況下,啟動vim后encoding將會設置為utf-8,這是兼容性最好的方式,因為內部處理使用utf-8的話,無論外部存儲編碼為何都可以進行無缺損轉換。locale決定了vim內部處理數據的編碼,也就是encoding。
2,文件的編碼以及自動編碼識別—-這方面牽扯到各種編碼的規則,就不一一細講了。但需要明白的是,文件編碼類型並不是保存在文件內的,也就是說沒有任何描述性的字段來記錄文檔是何種編碼類型的。因此我們在編輯文檔的時候,要么必須知道這文檔保存時是以什么編碼保存的,要么通過另外的一些手段來斷定編碼類型,這另外的手段,就是通過某些編碼的碼表特征來斷定,例如每個字符占用的字節數,每個字符的ascii值是否都大於某個字段來斷定這個文件屬於何種編碼。這種方式vim也使用了,這就是vim的自動編碼識別機制了。但這種機制由於編碼各式各樣,不可能每種編碼都有顯著的特征來辨別,所以是不可能 100%准確的。對於我們GB2312編碼,由於其中文是使用了2個acsii值高於127的字符組成漢字字符的,因此不可能把gb2312編碼的文件與 latin1編碼區分開來,因此自動識別編碼的機制對於gb2312是不成功的,它只會將文件辨識為latin1編碼。此問題同樣出現在gbk,big5 上等。因此我們在編輯此類文檔時,需要手工設定encoding和fileencoding。如果文檔編碼為utf-8時,一般vim都能自動識別正確的編碼。
3,客戶運行vim的終端所使用的編碼類型—-同第二條一樣,這也是一個比較難以斷定的關鍵點。第二個關鍵點決定着從文件讀取內容和寫入內容到文件時使用的編碼,而此關鍵點則決定vim輸出內容到終端時使用的編碼,如果此編碼類型和終端認為它收到的數據的編碼類型不同,則又會產生亂碼問題。在 linux本地X環境下,一般終端都認為其接收的數據的編碼類型和系統locale類型相符,因此不需關心此方面是否存在問題。但如果牽涉到遠程終端,例如ssh登錄服務器,則問題就有可能出現了。例如從1台locale為GB2310的系統(稱作客戶機)ssh到locale為utf-8的系統(稱作服務器)並開啟vim編輯文檔,在不加任何改動的情況下,服務器返回的數據為utf-8的,但客戶機認為服務器返回的數據是gb2312的,按照 gb2312來解釋數據,則肯定就是亂碼了,這時就需要設置termencoding為gb2312來解決這個問題。此問題更多出現在我們的 windows desktop機遠程ssh登錄服務器的情況下,這里牽扯到不同系統的編碼轉換問題。所以又與windows本身以及ssh客戶端有很大相關性。在 windows下存在兩種編碼類型的軟件,一種是本身就為unicode編碼方式編寫的軟件,一種是ansi軟件,也就是程序處理數據直接采用字節流,不關心編碼。前一種程序可以在任何語言的windows上正確顯示多國語言,而后一種則編寫在何種語言的系統上則只能在何種語言的系統上顯示正確的文字。對於這兩種類型的程序,我們需要區別對待。以ssh客戶端為例,我們使用的putty是unicode軟件,而secure CRT則是ansi 軟件。對於前者,我們要正確處理中文,只要保證vim輸出到終端的編碼為utf-8即可,就是termencoding=utf-8。但對於后者,一方面我們要確認我們的windows系統默認代碼頁為cp936(中文windows默認值),另一方面要確認vim設置的termencoding= cp936。
最后來看看處理中文文檔最典型的幾種情況和設置方式:
1,系統locale是utf-8(很多linux系統默認的locale形式),編輯的文檔是GB2312或GBK形式的(Windows記事本默認保存形式,大部分編輯器也默認保存為這個形式,所以最常見),終端類型utf-8(也就是假定客戶端是putty類的unicode軟件)
則vim打開文檔后,encoding=utf-8(locale決定的),fileencoding=latin1(自動編碼判斷機制不准導致的),termencoding=空(默認無需轉換term編碼),顯示文件為亂碼。
解決方案1:首先要修正fileencoding為cp936或者euc-cn(二者一樣的,只不過叫法不同),注意修正的方法不是:set fileencoding=cp936,這只是將文件保存為cp936,正確的方法是重新以cp936的編碼方式加載文件為:edit ++enc=cp936,可以簡寫為:e ++enc=cp936。
解決方案2:臨時改變vim運行的locale環境,方法是以LANG=zh_CN vim abc.txt的方式來啟動vim,則此時encoding=euc-cn(locale決定的),fileencoding=空(此locale下文件編碼自動判別功能不啟用,所以fileencoding為文件本身編碼方式不變,也就是euc-cn),termencoding=空(默認值,為空則等於encoding)此時還是亂碼的,因為我們的ssh終端認為接受的數據為utf-8,但vim發送數據為euc-cn,所以還是不對。此時再用命令: set termencoding=utf-8將終端數據輸出為utf-8,則顯示正常。
2,情況與1基本相同,只是使用的ssh軟件為secure CRT類ansi類軟件。
vim打開文檔后,encoding=utf-8(locale決定的),fileencoding=latin1(自動編碼判斷機制不准導致的),termencoding=空(默認無需轉換term編碼),顯示文件為亂碼。
解決方案1:首先要保證運行secure CRT的windows機器的默認代碼頁為CP936,這一點中文windows已經是默認設置了。其他的與上面方案1相同,只是要增加一步,:set termencoding=cp936
解決方案2:與上面方案2類似,不過最后一步修改termencoding省略即可,在此情況下需要的修改最少,只要以 locale為zh_CN開啟vim,則encoding=euc-cn,fileencoding和termencoding都為空即為encoding的值,是最理想的一種情況。
可見理解這3個關鍵點和3個參數的意義,對於編碼問題有很大助力,以后就可以隨心所欲的處理文檔了,同時不僅僅是應用於vim,在其他需要編碼轉換的環境里,都可以應用類似的思路來處理問題解決問題。
最后推薦一款功能強大的windows下的ssh客戶端—-xshell,它具有類似secure CRT一樣的多tab 的ssh窗口的能力,但最為方便的是這款工具還有改變Term編碼的功能,這樣我們就可以不用頻繁調整termencoding,只需在ssh軟件里切換編碼即可,這是我用過的最為方便的ssh工具。它是商業軟件,但非注冊用戶使用沒有任何限制,只是30天試用期超出后會每次啟動都提示注冊,對於功能沒有絲毫影響。
注:以下為我的~/.vimrc文件,在此配置下中文顯示及輸入均正常
set hlsearch
syntax on
set encoding=cp936
set langmenu=zh_CN
set imcmdline
source $VIMRUNTIME/delmenu.vim
source $VIMRUNTIME/menu.vim
set termencoding=utf8
set fileencodings=utf-8,gbk,ucs-bom,cp936