從python2.0開始,就有一種新的數(shù)據(jù)類型UnicodeStrings,但是在python3的到來,這個概念已經(jīng)被弱化了。python2.*的默認(rèn)編碼格式是ASCII碼,而python3.*的默認(rèn)編碼格式已經(jīng)換成了Unicode,所以2.*還是有必要提一下。在python2系列中,如果要操作非ASCII碼的字符,就可以用這個對象進(jìn)行操作。它可以跟strings進(jìn)行任意的轉(zhuǎn)換。比如,現(xiàn)在有一個字符串變量s,保存中文字符"測試",現(xiàn)在直接打印是會報錯的,因為存在一個非ASCII碼的字符,python2.*是無法進(jìn)行解析的,如果在上面加個u,就能正常顯示(在集成開發(fā)工具內(nèi),設(shè)置集成工具和工程的默認(rèn)編碼為utf-8)
#-*-coding:gbk-*-if__name__=="__main__":
s1='測試'
#s1=s1.decode('gbk')
s1=unicode(s1,'gbk')
prints1
如上代碼段在JetBrainsPyCharm2016.1.2內(nèi),使用2.7.11做解釋器,做了一個小測試~~
1.不設(shè)置源文件編碼格式,輸入中文,后直接打印,會提示存在‘non-ascii’,編譯不通過
2.設(shè)置源文件編碼格式為gbk,輸入中文后,打印亂碼
3.設(shè)置源文件編碼格式為gbk,輸入中文s1=u'測試'后,打印正常
4.設(shè)置源文件編碼格式為gbk,輸入中文后,先將字符串解碼decode或者unicode方法,后打印正常
5.設(shè)置源文件編碼格式為utf-8,輸入中文后直接輸出正常
6.設(shè)置工具和工程的默認(rèn)編碼為gbk,輸入中文后,打印正常。
然后有點明白了~~在python2系列的IDE中聲明一個非ASCII碼的字符串,不聲明源文件的編碼格式,編譯是不通過的,因為源文件python2的解析器嘗試使用默認(rèn)的ASCII碼去編譯,卻發(fā)現(xiàn)存在非ASCII碼的字符串;如果在此基礎(chǔ)上設(shè)置源文件的編碼格式為gbk,編譯是可以通過了,但是打印出來的字符串是亂碼的,為啥亂碼呢?因為IDE是采用utf-8的編碼格式,而源文件是采用gbk格式,所以會出現(xiàn)中文亂碼現(xiàn)象,單純的解決亂碼有3種可行方式,一個方法是:將源文件里需要打印的字符串解碼成utf-8(或者unicode)再打印;另一個方法是:修改源文件的編碼格式直接為utf-8,最后一種是:修改IDE編碼格式為gbk;顯然第二種方法是最佳方法。
以上內(nèi)容為大家介紹了python2中的UnicodeStrings,希望對大家有所幫助,如果想要了解更多Python相關(guān)知識,請關(guān)注IT培訓(xùn)機構(gòu):千鋒教育。