前言
vim 中有兩個與編碼有關的變量,如果理解了基本就不會再為編碼問題頭疼了。
- encoding :vim 內部編碼,例如 buffer、寄存器、文本等。這個值一般用戶不要設置,另外打開 vim 之后再設置這個值也是沒有意義的。大家可以將這個值看作是 vim 程序自己的變量,如果在工作中遇到文件的編碼問題,和 encoding 這個變量是萬萬沒有關系的。
- fileencoding :顧名思義了,就是文件的編碼。
此外還有一個值,叫 fileencodings 是個復數。一般我們將這個值在 vimrc 中設置,vim 打開一個文件的時候回根據 fileencodings 里面設置的順序來猜測文件的編碼。比如這樣設置:
1
|
set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1 |
那么有時候 vim 猜錯了,打開的文件顯示亂碼怎么辦呢?(ps:通常 vim 打開文件的時候亂碼是因為你的 fileencodings 里面沒有寫某個編碼,所以 vim 沒有猜對。例如從上面的設置中刪掉 gb18030 ,那么打開這種編碼的文件的時候你會發現 fileencoding 的值是 latin1 ,而文件的顯示是亂碼)
這時候你可能想到設置 fileencoding 的值,但是此時我們的文件已經打開了,你設置后會發現 vim buffer 的狀態變成了 edited 。而文件依然顯示亂碼,沒有變化。具體的原因后文會詳細解釋。
正確的做法是 以特定編碼重新打開文件 ,例如在 vim 中使用重新打開命令 :e ++enc=gb2312 ,其中 ++enc 是一個選項,可以指定使用的編碼。打開后你會發現 vim 按照你指定的形式打開了文件,但是文件變成了 readonly 狀態,如果要修改,設置 :set noreadonly 就好。
其實原理有點像 python 里面有人提出的 三明治模型 :
python 在從流(例如網絡, 文件 i/o 的時候),拿到的是 bytes ,通過 decode() 變成 str 而 vim 在讀入一個文件的時候,根據 fileencoding (用戶設置的或者通過 fileencodings 猜測,將其轉換成內部 encoding 的編碼方式。
python 在寫入文件的時候,用 encode() 變成 bytes 再寫。而 vim 從 buffer 寫到文件的時候,也是將數據從內部的 encoding 轉換成 fileencoding 再寫入。
這也就解釋了為什么亂碼的時候在 vim 中修改 fileencoding 沒什么卵用。
因為在打開文件之后設置 fileencoding 的值不會改變已經載入到 vim buffer 中的數據,此時的數據已經是轉換完成了的,這個設置只會改變寫入的時候使用目前的 fileencoding 來寫入,所以總結起來就是“打開文件使用了一個編碼,寫入文件的時候使用了另一個編碼”。
而對亂碼正確的需求應該是:我想要以特定的編碼形式打開這個文件。
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對服務器之家的支持。
參考:
- help :edit
- help fileencoding
- help ++enc
- vim 文件編碼識別與亂碼處理
原文鏈接:https://www.kawabangga.com/posts/2851