必赢亚洲手机app下载


类创制标准的控制台程序

并未水果机的也来体会下Visual苹果电脑

字符乱码

 

 每多少个程序员都不可防止的碰着字符编码的题材,越发是做Web开发的程序员,“乱码难点”一贯是令人发烧的标题,也许你已经很少蒙受“乱码”难点,可是,对缓解乱码的不二法门的内在规律,您是或不是理解?本身作为二个程序员,在字符编码方面同等遭受许多难点,而且直接对各个编码懵懵懂懂、不清不楚;在工作中也一度际遇二个很讨厌的编码难点。那二日在网上搜集了大气编码方面包车型地铁素材,对字符编码算是掌握的比较清楚了。上面把本人认为相比重庆大学的知识点记录下来,一方面有利于今后复习;另一方面也冀望给跟本人一样懵懵懂懂的人二个参考。不对或不妥之处,请批评指正。

 

在此此前,先精晓一些使得概念:“字符集”、“字符编码”和“内码”。

壹 、字符集与字符编码

字符是各个文字和符号的总称,包涵各种国家文字、标点符号、图形符号、数字等。字符集是七个字符的汇合,字符集种类较多,每种字符集包涵的字符个数差异,常见字符集有:ASCII字符集、ISO
8859字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。总括机要准确的处理各类字符集文字,需求举办字符编码,以便总结机可以分辨和仓库储存各个文字。 

 

编码(encoding)和字符集分化。字符集只是字符的见面,不自然适合营互连网传送、处理,有时须经编码(encode)后才能运用。如Unicode可依不相同要求以UTF-八 、UTF-1陆 、UTF-32等方法编码。

 

字符编码便是以二进制的数字来对应字符集的字符。

 

就此,对字符进行编码,是音讯交换的技术基础。

 

选用什么字符。也便是说哪些汉字,字母和标志会被收入标准中。所蕴藏“字符”的聚集就叫做“字符集”。

鲜明每一个“字符”分别用二个字节依然几个字节存款和储蓄,用哪些字节来存款和储蓄,那些鲜明就称为“编码”。

 

逐一国家和地区在制订编码标准的时候,“字符的集结”和“编码”一般都以同时制定的。由此,平日我们所说的“字符集”,比如:GB2312,
GBK, JIS 等,除了有“字符的成团”那层意思外,同时也包蕴了“编码”的意思。

 

注意:Unicode字符集有三种编码情势,如UTF-⑧ 、UTF-16等;ASCII唯有一种;大部分MBCS(包罗GB2312)也唯有一种。

贰 、什么是内码?

2.1 维基百科的表明

 

在微型总计机科学及连锁领域个中,内码指的是“将消息编码后,透过某种格局储存在特定纪念装置时,装置内部的编码情势”。在差别的系统中,会有差异的内码。

在既往的英文系统中,内码为ASCII。在繁体中文系统中,近期常用的内码为大五码(Big5)。在简体中国语言工学系统中,内码则为国标码(国标代码:未来强制须求运用GB18030标准;较旧计算机还是使用GB2312)。而统一码(Unicode)则为另一常见内码。

 

2.2 百度宏观的表达

 

内码是指整系列统中应用的二进制字符编码,是联系输入、输出与系统平台之间的调换码,通过内码能够达成通用和高功效传输文本的目标。比如MS
Word中所存款和储蓄和调用的正是内码而非图形文字。英文ASCII字符选拔1个字节的内码表示,中文字符如国家标准字符集中,GB231贰 、GB1234⑤ 、GB1两千皆用双字节内码,GB18030(27,533汉字)双字节内码汉字为20,903个,其余6,632个汉字用四字节内码。

叁 、字符编码分类总括

上面从电脑对多国语言协理的角度来总括字符编码。

 

3.1 ASCII编码

 

以下来自“维基百科”:

ASCII(American Standard Code for Information
Interchange,U.S.A.信息沟通标准代码)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代塞尔维亚共和国语,而其扩充版本EASCII则足以勉强展现其它西欧语言。它是现行反革命最通用的单字节编码系统(然则有被UniCode追上的迹象),并同样国际标准ISO/IEC
646。

ASCII第三回以正规化标准的型态宣布是在壹玖陆捌年,最终三回立异则是在一九八七年,现今停止共定义了1叁13个字符;在那之中三十个字符无法出示(那是以今日操作系统为依归,但在DOS方式下可展现出一些诸如笑脸、扑克牌花式等8-bit符号),且这三14个字符多数都已是陈废的控制字符。控制字符的用途首借使用来操控已经处理过的文字。在叁十七个字符之外的是9四个可呈现的字符,包罗用键盘敲下空白键所产生的空白字符也算二个可展现字符(展现为空白)。

ASCII表:见http://zh.wikipedia.org/zh-cn/ASCII

 

ASCII缺点:

ASCII的最大缺点是不得不展现2四个为主拉丁字母、阿拉伯数字和英式标点符号,因而只可以用于展现现代美利哥西班牙语(而且在处理爱尔兰语其中的外来词如naïve、café、élite等等时,全体重音符号都不得不去掉,尽管如此做会背离拼写规则)。而EASCII就算缓解了部份西欧语言的来得难点,但对更加多其余语言还是心慌意乱。因而未来的苹果电脑已经放任ASCII而转用Unicode。

 

最早的英文DOS操作系统的种类内码是:ASCII。总括机那时候只援助保加利亚共和国语,其余语言不可知在处理器存储和突显。

 

在该阶段,单字节字符串使用3个字节存放叁个字符(SBCS,Single Byte
Character System)。如:”鲍勃123″占5个字节。

 

3.2 ANSI编码

 

为使总计机扶助越来越多语言,日常使用0x800~xFF范围的1个字节来代表3个字符。比如:汉字
‘中’ 在国语操作系统中,使用 [0xD6,0xD0]那八个字节存储。

 

今非昔比的国家和地区制定了不一样的正规,因此产生了GB2312,BIG5,JIS等分头的编码标准。那一个使用一个字节来表示一个字符的各样汉字延伸编码方式,称为
ANSI 编码。在简体中国语言管历史学系统下,ANSI 编码代表 GB2312
编码,在日文操作系统下,ANSI 编码代表 JIS 编码。

 

不等 ANSI
编码之间互不包容,当音信在国际间沟通时,不大概将属于三种语言的文字,存款和储蓄在同一段
ANSI 编码的文书中。

 

中文DOS、粤语/日文Windows 95/98临时系统内码使用的是ANSI编码(本地化)

 

在利用ANSI编码援助多语言阶段,每种字符使用三个字节或多少个字节来代表(MBCS,Multi-Byte
Character
System),由此,那种办法存放的字符也被称作多字节字符。比如,”普通话123″
在国语 Windows 95
内部存储器中为几个字节,每一个汉字占3个字节,每一种英文和数字字符占一个字节。

 

在非 Unicode
环境下,由于差异国家和地区选取的字符集差别,很或者出现无法寻常展现全体字符的动静。微软公司运用了代码页(Codepage)转换表的技能来过渡性的一部分缓解这一题材,即透过点名的转换表将非
Unicode 的字符编码转换为同一字符对应的连串之中选用的 Unicode
编码。能够在“语言与区域安装”中精选三个代码页作为非 Unicode
编码所采取的暗许编码情势,如936为简体汉语GBK,950为行草中文Big5(皆指PC上选拔的)。在那种状态下,一些非日语的南美洲语言编写的软件和文书档案很大概出现乱码。而将代码页设置为对应语言普通话处理又会油但是生难题,这一情形不可能制止。从根本上说,完全选择统一编码才是化解之道,但方今尚不能够完毕那或多或少。

  代码页技术未来广大为种种平台所选取。UTF-7 的代码页是65000,UTF-8
的代码页是65001。

 

3.3 Unicode编码

 

为了使国际间新闻沟通越来越便于,国际公司制订了 UNICODE
字符集,为各个语言中的每3个字符设定了统一并且唯一的数字编号,以满足跨语言、跨平台举办文本转换、处理的渴求。

 

Unicode字符集能够简写为UCS(Unicode Character
Set)。早期的unicodeUnicode标准有UCS-② 、UCS-4的传道。UCS-2用八个字节编码,UCS-4用6个字节编码。

 

在 UNICODE 被利用之后,总结机存放字符串时,改为寄放种种字符在 UNICODE
字符集中的序号。近来计算机一般选取 2 个字节(1几人)来存放在一个序号(DBCS,Double Byte Character
System),由此,那种办法存放的字符也被称作宽字节字符。比如,字符串
“汉语123” 在 Windows 两千 下,内部存款和储蓄器中实际上存放的是 四个序号,一共1一个字节。

 

Unicode字符集包涵了各类语言中采用到的有所“字符”。用来给 UNICODE
字符集编码的正经有过各样,比如:UTF-8, UTF-7, UTF-16, UnicodeLittle,
UnicodeBig 等。

四 、常用编码规则

4.1 单字节字符编码

 

(1)编码标准:ISO-8859-1。

(2)表达:最简便易行的编码规则,每三个字节直接作为3个 UNICODE
字符。比如,[0xD6, 0xD0] 那多个字节,通过 iso-8859-1
转化为字符串时,将一贯拿走 [0x00D6, 0x00D0] 两个 UNICODE 字符,即
“ÖД。

 

反之,将 UNICODE 字符串通过 iso-8859-1 转化为字节串时,只可以符合规律转化
0~255 范围的字符。

 

4.2 ANSI编码

 

(1)GB2312, BIG5, Shift_JIS, ISO-8859-2。

(2)把 UNICODE 字符串通过 ANSI
编码转化为“字节串”时,依照各自编码的鲜明,三个 UNICODE
字符也许转化成一个字节或四个字节。

 

相反,将字节串转化成字符串时,也也许多个字节转化成2个字符。比如,[0xD6,
0xD0] 那多少个字节,通过 GB2312 转化为字符串时,将收获 [0x4E2D]
三个字符,即 ‘中’ 字。

 

“ANSI 编码”的特点:

(1)这个“ANSI 编码标准”都只好处理各自语言范围以内的 UNICODE 字符。

(2)“UNICODE 字符”与“转换出来的字节”之间的关系是人为规定的。

 

4.3 UNICODE编码

 

(1)编码标准:UTF-8, UTF-16, UnicodeBig。

(2)与“ANSI 编码”类似的,把字符串通过 UNICODE
编码转化成“字节串”时,叁个 UNICODE 字符恐怕转化成三个字节或多个字节。

 

与“ANSI 编码”区别的是:

(1)这一个“UNICODE 编码”能够处理全数的 UNICODE 字符。

(2)“UNICODE 字符”与“转换出来的字节”之间是能够透过计算获得的。

 

大家其实没有要求去探索每个编码具体把某二个字符编码成了哪多少个字节,大家只须求掌握“编码”的定义就是把“字符”转化成“字节”就足以了。对于“UNICODE
编码”,由于它们是能够通过总结获得的,由此,在奇特的场所,大家能够去询问某一种“UNICODE
编码”是怎么样的平整。

⑤ 、编码的分别

5.1 GB2312、GBK和GB18030

 

(1)GB2312 

 

在那之中中原人民共和国人们获得计算机时,已经远非得以行使的字节状态来代表汉字,况且有伍仟多少个常用汉字必要保留,于是想到把这么些ASCII码中127号过后的奇异符号们直接废除掉,
规定:贰个低于127的字符的意思与原本一样,但五个高于127的字符连在一齐时,就代表三个汉字,前边的1个字节(称之为高字节)从0xA1用到0xF7,后边3个字节(低字节)从0xA1到0xFE,那样我们就足以构成出大致八千多少个简体汉字了。在这么些编码里,大家还把数学符号、休斯敦希腊共和国(Ελληνική Δημοκρατία)的假名、日文的假名们都编进去了,连在
ASCII
里本来就部分数字、标点、字母都统统重新编了八个字节长的编码,那正是常说的”全角”字符,而原先在127号以下的那3个就叫”半角”字符了。那种汉字方案叫做
“GB2312″。GB2312 是对 ASCII 的华语扩大。包容ASCII。

 

(2)GBK 

 

而是中中原人民共和国的汉字太多了,我们急速就就意识有众五个人的真名没有章程在此间打出来,不得不一连把
GB2312
没有选用的码位找出来用上。后来依然不够用,于是干脆不再供给低字节一定是127号之后的内码,只要第多少个字节是超越127就稳定表示那是三在那之中夏族民共和国字的开端,不管后边跟的是或不是增加字符集里的始末。结果扩充之后的编码方案被称为
“GBK” 标准,GBK 包罗了 GB2312
的装有内容,同时又充实了近30000个新的方块字(包涵繁体字)和标志。

 

(3)GB18030 

 

后来少数民族也要用电脑了,于是我们再扩张,又加了几千个新的少数民族的字,GBK
扩成了 GB18030。从此今后,中华民族的知识就能够在电脑时期中继承了。 

 

中原的程序员们看看这一多重汉字编码的行业内部是好的,于是通称他们叫做
“DBCS”(Double Byte Charecter Set
双字节字符集)。在DBCS种类标准里,最大的特色是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里,由此他们写的先后为了帮衬中文处理,须要求留意字串里的每一个字节的值,若是那个值是凌驾127的,那么就认为一个双字节字符集里的字符出现了。在那种地方下,”贰个汉字算八个英文字符!”。可是,在Unicode环境下却毫无总是那样。 

 

5.1 Unicode和BigEndianUnicode

 

那八个指令存储顺序分化,如”A”的Unicode编码为6500,而BigEndianUnicode编码为0065。

 

5.2 UTF-7、UTF-8和UTF-16

 

在Unicode里,全体的字符被比量齐观。汉字不再采取“五个扩张ASCII”,而是选拔“二个Unicode”,注意,以后的方块字是“一个字符”了,于是,拆字、总括字数那一个标题也就顺其自然的缓解了。

 

然则,那个世界不是一流的,不容许在一夜之间全数的系统都采用Unicode来处理字符,所以Unicode在落地之日,就务须考虑多少个严酷的题材:和ASCII字符集之间的不兼容难题。 

 

大家领略,ASCII字符是单个字节的,比如“A”的ASCII是65。而Unicode是双字节的,比如“A”的Unicode是0065,那就招致了二个可怜大的难题:以前处理ASCII的这套机制不能被用来处理Unicode了。

 

另三个越发严重的标题是,C语言使用’\0’作为字符串结尾,而Unicode里恰恰有广大字符都有贰个字节为0,那样一来,C语言的字符串函数将不可能符合规律处理Unicode,除非把世界上独具用C写的次第以及他们所用的函数库全体换掉。

 

于是,比Unicode更伟大的东东出生了,之所以说它更宏大是因为它让Unicode不再存在于纸上,而是真正的留存于大家大家的微处理器中。那正是:UTF。

 

UTF= UCS Transformation Format,即UCS转换(传输)格式。

它是将Unicode编码规则和电脑的实在编码对应起来的一个条条框框。以往流行的UTF有2种:UTF-8和UTF-16。

 

那二种都以Unicode的编码完成。

 

5.2.1 UTF-8

 

UCS-2编码(16进制)   UTF-8 字节流(二进制)

0000 – 007F         0xxxxxxx

0080 – 07FF         110xxxxx 10xxxxxx

0800 – FFFF         1110xxxx 10xxxxxx 10xxxxxx 

 

诸如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx
10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001
001001,用那么些比特流依次代替模板中的x,获得:11100110 101一千1
一千1001,即E6 B1 89。

 

可知UTF-8是变长的,将Unicode编码为00000000-0000007F的字符,用单个字节来代表;
00000080-000007FF的字符用三个字节表示;00000800-0000FFFF的字符用3字节意味着。因为脚下甘休Unicode-16规范没有点名FFFF以上的字符,所以UTF-8最多是应用二个字节来代表一个字符。但理论上来说,UTF-8最多要求用6字节意味着1个字符。 

 

UTF-8兼容ASCII。

 

5.2.2 UTF-16(标准的Unicode成为UTF-16)

 

UTF-16和地方提到的Unicode本人的编码规范是相同的。

 

UTF-16以二十个人为单元对UCS举行编码。对于小于0x一千0的UCS码,UTF-16编码就等于UCS码对应的十三人无符号整数。对于十分的大于0x10000的UCS码,定义了1个算法。不过由于实在选择的UCS2,或许UCS4的BMP必然小于0x一千0,所以就当下而言,能够认为UTF-16和UCS-2基本相同。但UCS-二头是三个编码方案,UTF-16却要用以实际的传导,所以就只能考虑字节序的题材。

 

UTF-16不兼容ASCII。

 

5.2.3 UTF-7

 

UTF-7 (7-位元 Unicode 转换格式(Unicode Transformation Format,简写成
UTF)) 是一种可变长度字元编码方式,用以将 Unicode 字元以 ASCII
编码的字元串来显示,能够运用在电子邮件传输之类的运用。

 

UTF-7并非Unicode标准之一。想要详细询问的能够查阅有关材质。

6、Unicode与UTF

Unicode是内部存款和储蓄器编码表示方案(是明媒正娶),而UTF是哪些保存和传导Unicode的方案(是实现)。

 

6.1 UTF的字节序和BOM

 

6.1.1 字节序

 

UTF-8以字节为编码单元,没有字节序的标题。UTF-16以七个字节为编码单元,在诠释二个UTF-16文本前,首先要弄领悟种种编码单元的字节序。例如收到二个“奎”的Unicode编码是594E,“乙”的Unicode编码是4E59。要是大家接到UTF-16字节流“594E”,那么这是“奎”照旧“乙”?

 

Unicode规范中引进的标记字节顺序的法门是BOM。BOM不是“Bill Of
Material”的BOM表,而是Byte Order 马克。BOM是一个有点小智慧的想法:

 

在UCS编码中有贰个誉为”ZERO WIDTH NO-BREAK
SPACE”的字符,它的编码是FEFF。而FFFE在UCS中是不设有的字符,所以不该出现在实际上传输中。UCS规范建议我们在传输字节流前,先传输字符”ZERO
WIDTH NO-BREAK SPACE”。

 

这么一旦接收者收到FEFF,就注脚那一个字节流是Big-Endian的;假诺接到FFFE,就标志那几个字节流是Little-Endian的。由此字符”ZERO
WIDTH NO-BREAK SPACE”又被称作BOM。

 

UTF-8不要求BOM来表明字节顺序,但足以用BOM来注脚编码格局。字符”ZERO WIDTH
NO-BREAK SPACE”的UTF-8编码是EF BB
BF(读者能够用大家眼下介绍的编码方法验证一下)。所以如果接收者收到以EF
BB BF发轫的字节流,就掌握那是UTF-8编码了。

 

6.1.2 BOM

 

(1)BOM的来历 

 

为了鉴定分别 Unicode 文件,Microsoft 提出具有的 Unicode 文件应当以 ZERO
WIDTH NOBREAK
SPACE(U+FEFF)字符开头。那当做三个“特征符”或“字节顺序标记(byte-order
mark,BOM)”来识别文件中应用的编码和字节顺序。

 

(2)分裂的系统对BOM的支撑 

 

因为一些系统或程序不帮忙BOM,由此带有BOM的Unicode文件有时会带来一些难题。

 

①JDK1.5以及在此以前的Reader都不可能处理带有BOM的UTF-8编码的文本,解析那种格式的xml文件时,会抛出11分:Content
is not allowed in
prolog。“对于搞定方法,之后小编会写篇小说专门切磋该难点。”

 

②Linux/UNIX 并不曾运用 BOM,因为它会毁掉现有的 ASCII 文件的语法约定。

 

③两样的编写制定工具对BOM的拍卖也各不同。使用Windows自带的记事本将文件保留为UTF-8编码的时候,记事本会自动在文件开头插入BOM(即便BOM对UTF-8来说并不是必须的)。而其他众多编辑器用不用BOM是可以选拔的。UTF-捌 、UTF-16都以那般。

 

(3)BOM与XML 

 

XML解析读取XML文书档案时,W3C定义了3条规则:

 

①要是文书档案中有BOM,就定义了文本编码;

②假使文书档案中从不BOM,就翻开XML证明中的编码属性;

③固然上述二者都并未,就假定XML文书档案选用UTF-8编码。

 

6.2 决定文本的字符集与编码

 

软件平常有二种途径来支配文本的字符集和编码。

 

(1)对于Unicode文本最规范的门道是检查和测试文本最初阶的多少个字节。如:

 

发端字节        Charset/encoding

 EF BB BF    UTF-8

 FE FF     UTF-16/UCS-2, little endian(UTF-16LE)

 FF FE     UTF-16/UCS-2, big endian(UTF-16BE)

 FF FE 00 00  UTF-32/UCS-4, little endian.

 00 00 FE FF  UTF-32/UCS-4, big-endia

 

(2)选取一种比较安全的艺术来决定字符集及其编码,这正是弹出3个会话框来请示用户。

 

唯独MBCS文本(ANSI)没有那么些身处发轫的字符集标记,未来众多软件保存文本为Unicode时,能够挑选是不是保存这个身处开始的字符集标记。因而,软件不该依靠于那种路线。那时,软件能够行使一种相比较安全的不二法门来支配字符集及其编码,那正是弹出二个对话框来请示用户。

 

(3)选择自个儿“猜”的点子。

 

设若软件不想麻烦用户,只怕它不便宜向用户请示,那它只好采取协调“猜”的格局,软件可以根据整个文件的天性来可疑它也许属于哪个charset,那就很恐怕禁止了。使用记事本打开那么些“联通”文件就属于那种场所。(把原本属于ANSI编码的文本便是UTF-8处理,详细表达见:http://blog.csdn.net/omohe/archive/2007/05/29/1630186.aspx)

 

6.3 记事本的二种编码

 

(1)ANSI编码 

记事本暗中同意保存的编码格式是:ANSI,即当地操作系统默许的内码,简体粤语一般为GB2312。这些怎么验证呢?用记事本保存后,使用Em艾德itor、艾德itPlus和Ultra艾德it之类的文书编辑器打开。推荐应用Em艾德itor,打开后,在又下角会呈现编码:GB2312。

 

(2)Unicode编码 

用记事本另存为时,编码采纳“Unicode”,用Em艾德itor打开该文件,发现编码格式是:UTF-16LE+BOM(有签字)。用十六进制格局查看,发现开首两字节为:FF
FE。那正是BOM。

 

(3)Unicode big endian 

用记事本另存为时,编码选拔“Unicode”,用Em艾德itor打开该公文,发现编码格式是:UTF-16BE+BOM(有签订契约)。用十六进制格局查看,发现开首两字节为:FE
FF。那正是BOM。

 

(4)UTF-8 

用记事本另存为时,编码选择“UTF-8”,用Em艾德itor打开该文件,发现编码格式是:UTF-8(有签订契约)。用十六进制格局查看,发现伊始多个字节为:EF
BB BF。那正是BOM。

⑦ 、三种误解,以及乱码产生的由来和解决办法

7.1 误解一

 

在将“字节串”转化成“UNICODE
字符串”时,比如在读取文本文件时,可能经过网络传输文本时,不难将“字节串”不难地作为单字节字符串,接纳每“二个字节”便是“二个字符”的法门举办中间转播。

 

而其实,在非英文的环境中,应该将“字节串”作为 ANSI
字符串,采取适当的编码来获得 UNICODE
字符串,有只怕“多个字节”才能博得“一个字符”。

 

经常,平素在英文环境下做开发的程序员们,不难有那种误解。

 

7.2 误解二

 

在 DOS,Windows 98 等非 UNICODE 环境下,字符串都是以 ANSI
编码的字节格局存在的。那种以字节方式存在的字符串,必须清楚是哪一类编码才能被正确地动用。那使我们形成了二个惯性思维:“字符串的编码”。

 

当 UNICODE 被补助后,Java 中的 String
是以字符的“序号”来存款和储蓄的,不是以“某种编码的字节”来储存的,因此曾经不存在“字符串的编码”这么些概念了。唯有在“字符串”与“字节串”转化时,也许,将1个“字节串”当成多个ANSI 字符串时,才有编码的概念。

 

许多的人都有其一误会。

 

7.3 分析与缓解

 

率先种误解,往往是造成乱码爆发的来由。第壹种误解,往往造开销来简单改良的乱码难题变得更复杂。

 

在此地,我们能够阅览,当中所讲的“误解一”,即利用每“3个字节”正是“贰个字符”的转会方法,实际上也就一律采用iso-8859-1 实行转载。因而,大家日常使用 bytes =
string.getBytes(“iso-8859-1”)
来进展逆向操作,获得原始的“字节串”。然后再选取正确的 ANSI 编码,比如
string = new String(bytes, “GB2312”),来取得不错的“UNICODE 字符串”。

⑧ 、参考与尖锐阅读学习质地

8.1
《字符,字节和编码》http://www.regexlab.com/zh/encoding.htm(强烈推荐)

8.2 《关于编码: ascii(ansi), gb-2312, unicode,
utf8》http://blog.csdn.net/omohe/archive/2007/05/29/1630186.aspx

8.3
《Ansi,UTF8,Unicode,ASCII编码的差距》http://hi.baidu.com/%D6%F0%C4%BE/blog/item/772c5944d5e77e8bb3b7dcab.html

8.4
百度宏观《Unicode》http://baike.baidu.com/view/40801.htm

8.5
《Unicode与UTF-8/UTF-16之间有吗关系或界别?》http://zhidao.baidu.com/question/52532619.html?fr=ala0

 

点击链接,阅读最初的作品,请务必保留此出处http://polaris.blog.51cto.com/1146394/377468

 

 

相关文章

No Comments, Be The First!
近期评论
    功能
    网站地图xml地图