問題
你的程序獲取了一個(gè)目錄中的文件名列表,但是當(dāng)它試著去打印文件名的時(shí)候程序崩潰, 出現(xiàn)了 UnicodeEncodeError 異常和一條奇怪的消息—— surrogates not allowed 。
解決方案
當(dāng)打印未知的文件名時(shí),使用下面的方法可以避免這樣的錯(cuò)誤:
1
2
3
4
5
6
7
|
def bad_filename(filename): return repr (filename)[ 1 : - 1 ] try : print (filename) except UnicodeEncodeError: print (bad_filename(filename)) |
如果你有代碼需要操作文件名或者將文件名傳遞給 open() 這樣的函數(shù),一切都能正常工作。 只有當(dāng)你想要輸出文件名時(shí)才會碰到些麻煩(比如打印輸出到屏幕或日志文件等)。 特別的,當(dāng)你想打印上面的文件名列表時(shí),你的程序就會崩潰:
1
2
3
4
5
6
7
8
9
|
>>> for name in files: ... print (name) ... spam.py Traceback (most recent call last): File "<stdin>" , line 2 , in <module> UnicodeEncodeError: 'utf-8' codec can 't encode character ' \udce4' in position 1 : surrogates not allowed >>> |
1
2
3
4
5
6
7
8
9
10
|
>>> for name in files: ... try : ... print (name) ... except UnicodeEncodeError: ... print (bad_filename(name)) ... spam.py b\udce4d.txt foo.txt >>> |
在 bad_filename() 函數(shù)中怎樣處置取決于你自己。 另外一個(gè)選擇就是通過某種方式重新編碼,示例如下:
1
2
3
|
def bad_filename(filename): temp = filename.encode(sys.getfilesystemencoding(), errors = 'surrogateescape' ) return temp.decode( 'latin-1' ) |
譯者注:
surrogateescape:
這種是Python在絕大部分面向OS的API中所使用的錯(cuò)誤處理器,
它能以一種優(yōu)雅的方式處理由操作系統(tǒng)提供的數(shù)據(jù)的編碼問題。
在解碼出錯(cuò)時(shí)會將出錯(cuò)字節(jié)存儲到一個(gè)很少被使用到的Unicode編碼范圍內(nèi)。
在編碼時(shí)將那些隱藏值又還原回原先解碼失敗的字節(jié)序列。
它不僅對于OS API非常有用,也能很容易的處理其他情況下的編碼錯(cuò)誤。
使用這個(gè)版本產(chǎn)生的輸出如下:
1
2
3
4
5
6
7
8
9
10
|
>>> for name in files: ... try : ... print (name) ... except UnicodeEncodeError: ... print (bad_filename(name)) ... spam.py bäd.txt foo.txt >>> |
這一小節(jié)主題可能會被大部分讀者所忽略。但是如果你在編寫依賴文件名和文件系統(tǒng)的關(guān)鍵任務(wù)程序時(shí), 就必須得考慮到這個(gè)。否則你可能會在某個(gè)周末被叫到辦公室去調(diào)試一些令人費(fèi)解的錯(cuò)誤。
以上就是Python打印不合法的文件名的詳細(xì)內(nèi)容,更多關(guān)于Python 打印文件名的資料請關(guān)注服務(wù)器之家其它相關(guān)文章!
原文鏈接:https://python3-cookbook.readthedocs.io/zh_CN/latest/c05/p15_printing_bad_filenames.html