当前位置：首页 > Windows程序 > 正文

【Windows编程】系列第四篇：使用Unicode编程

2021-05-24 Windows程序

上一篇我们学习了Windows编程的文本及字体输出，在以上几篇的实例中也出现了一些带有“TEXT”的Windows宏定义，有朋友留言想了解一些ANSI和Unicode编程方面的内容，本章就来了解和学习一些Windows下关于ANSI和Unicode方面的编程基础。

计算机最早在美国诞生，所以最开始都是以英语为作为交互语言，由于只有26个字母，用一个字节（范围-128 ~ 127）表示，这个范围足够表示26个因为字符和一些常用的控制字符，这个就是ASCII编码。因此最早的各种程序设计语言以及使用的字符串都用字节数组表示，也确实满足了编程的各种需求。但是随着计算机的普及，范围上逐渐超出了英语使用的国家，这样一来，字符编码就成了问题，因为很多国家的语言字符数目根本不能用一个字节来表示，比如我们国家的中文，常用的就有四千多个，如果再加上一些不常用的字符，更是远远不止这些，因此一个字节的字符串编码就行不通了，那么自然而然就出现了两个字节甚至跟多字节的编码方式了。

除了基本的ASCII编码外，目前常用的字符编码有MBCS、BG2312、GBK、UTF-8、UTF-16、 UTF-32、BIG5、Base64、Unicode等等，其实Unicode就是使用UTF-16编码。现在的所有系统都支持多字节编码，Windows98以前的对Unicode支持不好，很多内核函数都需要将字符串转换之后才能处理，从Windows NT系统后几乎都采用了Unicode编码重新系统内核，非Unicode的编码会经过转换之后在传入内核处理。

在C语言诞生的时候，同样还没有遇到多字节字符串问题，当然也没有Unicode等这些编码，标准的C语言库函数处理字符串时都是ASCII编码，因此用标C函数处理多字节字符编码就存在问题，所以不同系统都在内部进行这种字符编码的处理。那么问题来了，既然标C不支持Unicode，我们又如何编程使用Unicode呢？我们如何指定程序中的字符串采用ASCII还是Unicode或者两种同时出现在一个程序里面呢？更好的情况，我们如何编写程序，根据自己的需求编译ASCII和Unicode（以下称宽字符）版本？本文我们就来谈谈这个问题。在微软公司提供的C/C++编译器中提供了一个wchar_t的变量类型，这个类型实际上是通过typedef定义的一个无符号16位整型数。我们使用这个来定义宽字符版本的字符和字符串，而普通的ANSI还是标准C语言的char来定义。

宽字符串的使用

下面我们对比一下ASCII和Unicode字符（串）的定义及常量的定义方式。

ASCII版本：

Char c = ‘A’; Char str[] = “hello, world”;

宽字符版本：

wchar_t wch = L’A’; wchar_t wstr[] = L“hello, world”;

微软的编译器通过这个大写字母“L”开头来识别后面的字符串将编译为一个Unicode的字符或字符串，注意这里的L后面不能有空格。

看下面的实例：

#include <windows.h> #include <stdio.h> int main(void) { char c = ‘A‘; char str[] = "hello, ANSI"; wchar_t wch = L‘A‘; wchar_t wstr[] = L"hello, Unicode"; printf("1 --> %c\n", c); printf("2 --> %s\n", str); printf("3 --> %c\n", wch); printf("4 --> %s\n", wstr); printf("5 --> %C\n", c); printf("6 --> %S\n", wstr); wprintf(L"7 --> %c\n", wch); wprintf(L"8 --> %s\n\n", wstr); system("pause"); return 0; }

这个小程序的输出如下：

可以看出：

用printf可以输出ANSI的字符和字符串（废话）

用wprintf可以输出Unicode字符和字符串

printf可以用大写的字母C、S，即“%C”“%S”来输出宽字符和字符串

可以看出第3和第4用printf可以输出宽字符，但宽字符串仅仅输出了字符串的第一个字符，实际上这个就是问题了，不能这样输出，第3的字符A实际上完全是运气好，因为Unicode是双字节，所以宽字符”A”实际在是十六进制的“00 41”，而Windows系统是一个小端系统，所以在内存中的排版为“41 00 ……”，所以第一个刚好输出A。而第4只能输出一个“h”，也是因为这个原因。字符串wstr在内存的存在形式如下如：

第一个字符是“h”，它的宽字符在内存排布（小端系统）为”68 00 …”，根据C语言规则，字符串以空字符0x00为结束符，因此使用printf和%s来输出时，系统并不知道这个h是一个宽字符，而是以此向后一直到空字符，这里刚好第二个就碰上了，因此只能输出一个“h”。

同样，scanf函数也是如此：

scanf("%s", str); //这个是C语言的正常用法

scanf("%s", wstr); //这个是可以工作的，但是接收结果是ANSI格式的字符串

scanf("%S", wstr); //这个可以正确接收宽字符格式的字符串

wscanf(L"%s", wstr); //这个是标准的接收宽字符格式字符串

以上的printf和scanf用%S来处理宽字符的方式是微软扩展的，不一定其他编译系统也能这样处理。

Unicode字符串支持函数

温馨提示: 本文由Jm博客推荐，转载请保留链接: https://www.jmwww.net/file/70245.html

上一篇：Microsoft Windows 服务(3) 使用Quartz.net定时任务
下一篇：WPF中控件TextBlock使用（简单）

【Windows编程】系列第四篇：使用Unicode编程

推荐文章

热门文章

标签

友情链接

关于本站

联系我们

特别鸣谢