数据编码字符编码-信息技术爱好者

信息技术爱好者

您现在的位置是:首页> 信息学考> 基础知识

博客浏览

数据编码字符编码

申浩利2024年5月5日个人博客786
字符是人与计算机交互过程中不可或缺的重要内容,它是多种文字和符号的总称。由于计算机只识别0和1,因此在处理各种字符时,就需要将字符转换为计算机可以识别的二进制数据。我们需要了解常用的编码方案如ASCII、Unicode、GB 2312—1980、GB 18030—2005、Big5、GBK、UTF-8等。

ASCII

在计算机系统应用的早期,计算机只能处理英文字母、数字和常用的英文标点符号,这时期基础的编码标准是美国信息交换标准码(American Standard Code for Information Interchange,ASCII)。ASCII 编码后来被国际标准化组织(International Organization for Standardization,ISO)接受为国际标准ISO 646。

ASCII码于1961年提出,用于在不同计算机硬件和软件系统中实现数据传输标准化,在大多数的小型机和全部的个人计算机都使用此码。基本的ASCII字符集共有128个字符,其中有96个可打印字符,包括常用的字母、数字、标点符号等,另外还有32个控制字符。标准ASCII码使用7个二进位对字符进行编码,对应的 ISO 标准为 ISO646 标准。

要掌握所有ASCII编码并不容易也没有必要,但我们必须知道的是0-31是控制字符,32-127是打印字符,打印字符中0的ASCII码是48,A的ASCII码是65,a的ASCII码是97,其它字符再单独记一下就可以了。

Unicode

1991年,国际标准化组织和Unicode组织联合制定统一码,也就是unicode,也叫万国码、单一码,包括字符集、编码方案等。unicode致力于将世界上所有的文字和符号都纳入其中。unicode作为一个字符集,并没有规定字符在计算机中存储和传输的编码。为了更好地用计算机处理这些字符,还需要规定具体的字符编码格式。在我国,常用的编码方案有UTF-8、UTF-16、UTF-32及我国的国家标准GB 18030—2005 等。

我国常用的字符编码方案

我国在1980年公布了国家标准GB2312—1980,其中包含了6763个汉字。后来为了处理更多文字,1995年曾公布过一个过渡性质的行业规范GBK,全称为《汉字内码扩展规范》。GB18030—2005是我国目前使用的强制性国家标准,采用单字节、双字节和4字节的变长编码,其优点是与GB2312—1980编码兼容。另一种在互联网中广泛使用的字符编码方案是UTF-8,它采用1~4字节的变长编码方案,与ASCII兼容,英文仍然是单字节,且有编码自纠错等优点,但很多常用汉字采用3字节编码。因此与GB18030—2005相比,用UTF-8编码后的汉字文本所占的存储空间会大不少。

计算机中常见的存储单位及换算关系

计算机中常见的存储单位有B(byte)字节、KB(kilobyte)千字节、MB(megabyte)兆字节、GB(gigabyte)吉字节、TB(terabyte)太字节。它们的换算单位是1024!

1B=8b(bit,位)

1KB=1024B

1MB-1024KB

1GB=1024MB

1TB=1024GB

大家可以单击下面的观看视频,去观看老师更详细的视频讲解。