设为首页收藏本站Access中国

Office中国论坛/Access中国论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

返回列表 发新帖
查看: 3572|回复: 2
打印 上一主题 下一主题

[分享]VBA与国际化

[复制链接]
跳转到指定楼层
1#
发表于 2006-1-11 19:40:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
对UTF8编码的初步认识
在网络中有很多地方都有采用UTF8编码,由于要编写与邮件服务端有关的程序,而邮件服务端有些地方用到了UTF8编码,所以对它有了初步的认识!

它其实和Unicode是同类,就是在编码方式上不同!
首先UTF8编码后的大小是不一定,不像Unicode编码后的大小是一样的!

我们先来看Unicode的编码:一个英文字母 “a” 和 一个汉字 “好”,编码后都是占用的空间大小是一样的,都是两个字节!而UTF8编码:一个英文字母“a” 和 一个汉字 “好”,编码后占用的空间大小就不样了,前者是一个字节,后者是三个字节!

现在就让我们来看看UTF8编码的原理吧:
  因为一个字母还有一些键盘上的符号加起来只用二进制七位就可以表示出来,而一个字节就是八位,所以UTF8就用一个字节来表式字母和一些键盘上的符号。然而当我们拿到被编码后的一个字节后怎么知道它的组成?它有可能是英文字母的一个字节,也有可能是汉字的三个字节中的一个字节!所以,UTF8是有标志位的!

  当要表示的内容是 7位 的时候就用一个字节:0*******   第一个0为标志位,剩下的空间正好可以表示ASCII 0-127 的内容。

  当要表示的内容在 8 到 11 位的时候就用两个字节:110***** 10******   第一个字节的110和第二个字节的10为标志位。

  当要表示的内容在 12 到 16 位的时候就用三个字节:1110***** 10****** 10******    和上面一样,第一个字节的1110和第二、三个字节的10都是标志位,剩下的空间正好可以表示汉字。

  以此类推:
        四个字节:11110**** 10****** 10****** 10******
  五个字节:111110*** 10****** 10****** 10****** 10******
  六个字节:1111110** 10****** 10****** 10****** 10****** 10******
  .............................................
       ..............................................

明白了没有?
编码的方法是从低位到高位



UTF-8编码的有关知识


  下面我先简单讲述一下UTF-8编码的有关知识,并且只讲与我编写
的读写UTF-8文本代码有关的知识(如有谬误之处请各位兄弟指正),
详细的理论请各位自己找专业文章看看。
  UTF-8 编码字符理论上可以最多到 6个字节长,但目前全世界的所
有文字和符号种类加起来也只要编到 4个字节长就够了。
  UTF-8 是以 8位(即 1个字节)为单元对原始码进行编码(注意一
点:这里所讲的原始码都是指Unicode码),并规定:多字节码(2个字
节以上才称为多字节)以转换后第1个字节起头的连续“1”的数目(这
些连续“1”称为标记位),表示转换成几个字节:“110”连续两个
“1”,表示转换结果为2个字节,“1110”表示3个字节,而“11110”
则表示4个字节……跟随在标记位之后的“0”,其作用是分隔标记位和
字符码位。第2~第4个字节的起头两个位固定设置为“10”,也作为标
记,剩下的6个位才做为字符码位使用。
  这样,2字节UTF-8码剩下11个字符码位,可用以转换0080~07FF的
原始字符码,3字节剩下16个字符码位,可用以转换0800~FFFF的原始字
符码,由此类推。编码方式的模板如下:

原始码(16进制) UTF-8编码(二进制)
--------------------------------------------
0000 - 007F       0xxxxxxx
0080 - 07FF       110xxxxx 10xxxxxx
0800 - FFFF       1110xxxx 10xxxxxx 10xxxxxx
……
--------------------------------------------

  模板中的“x”表示字符码。
  VB能识别的 Ascii码<007F,所以在VB中,Ascii码都只能编为1个
字节的UTF-8码。汉字的 Unicode编码范围为0800-FFFF,所以被编为
3个字节的UTF-8码。
  例如“汉”字的Unicode编码是6C49,6C49在0800-FFFF之间,所以
要用3个字节的模板:1110xxxx 10xxxxxx 10xxxxxx。
  UTF-8文本文件与Unicode文本文件类似,在文件的头部也有标记字
节,Unicode文件的标记是2个字节:&HFF 和 &HFE,UTF-8文件的标记
是3个字节:&HEF、&HBB 和 &HBF

  要写入UTF-8编码的文本文件,关键是对汉字编码的处理。我们从
上述的汉字编码模板就可以看出,对汉字的处理步骤大致为:
第一步:取得汉字的Unicode码
第二步:将Unicode码分解为两个16进制数据
第三步:将这两个16进制数据转换成二进制数据并连接
第四步:将二进制数据分解为三个串,第一个串为4个位,在前面加上
标记位“1110”,第二、三个串均为6个位,分别在前面加上“10”标
记位
第五步:将这三个串分别转换为10进制数据并赋值给字节型数组
第六步:将字节型数组用二进制法写盘,并且要先在文本头存入三个字
节的标记(&HEF、&HBB、&HBF),再将转换好的数据写入

  要读取UTF-8编码的文本文件,对
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享 分享淘帖 订阅订阅
2#
发表于 2006-1-11 20:30:00 | 只看该作者
谢谢魔法师HG的分享
3#
发表于 2006-3-17 01:17:00 | 只看该作者
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|站长邮箱|小黑屋|手机版|Office中国/Access中国 ( 粤ICP备10043721号-1 )  

GMT+8, 2024-11-15 03:47 , Processed in 0.075462 second(s), 27 queries .

Powered by Discuz! X3.3

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表