遇到這一方面的問題是因為我試圖把一個對象序列化之后存貯到xml文件中,然后從xml文件中讀取字符串,并反序列化對象(hadoop mapreduce程序中通過JobConf向tasktracker傳送對象)。
有關(guān)序列化:
當(dāng)我把序列化之后的數(shù)據(jù)直接存在xml中后,在解析xml時遇到解析錯誤,原因是有非法字符。在詳細閱讀xml的說明之后才發(fā)現(xiàn):< > ' " &是不允許作為xml的PCDATA的。要使用這幾個字符,必須要把他們替換為內(nèi)建實體:
實體引用 字符
< <
> >
& &
" "
' '
所以,最直接的方法就是自己控制,在寫入xml文件時把特殊字符轉(zhuǎn)為實體引用,在讀取的時候,再轉(zhuǎn)回來。當(dāng)然還有另外一個方法就是不把字符串當(dāng)PCDATA,而是當(dāng)成CDATA來使用(沒有測試)。
用實體引用的方法太麻煩,而我的應(yīng)用xml的格式不能自己規(guī)定,所以只好尋找另外的方法:BASE64編碼。這是一種常用在網(wǎng)絡(luò)傳輸數(shù)據(jù)的編碼方式。把存在這些非法字符的字符編碼成base64編碼,就不會有這些字符了。最重要的是java api中提供了這種編碼的編碼器和解碼器,位于sun.misc的BASE64Encoder和BASE64Decoder。這樣就可以把序列化之后得到的字節(jié)流轉(zhuǎn)化成字符串了。并且也可以存貯在xml文件中。
不過這兩個類并不是sun的開放api,編譯會有警告。