用信息化手段进行语言文字研究 -- 工作因为vb更精彩-- 编程爱好者博客

用信息化手段进行语言文字研究王晓明教育部语言文字应用研究所随着中文数字化产品的不断问世，表明中文数字化技术日渐成熟，用信息化手段研究语言文字的时代已经到来。相对于信息技术的发展而言，语言文字工作者的研究手段则显得相对落后，制约着其研究和发展的进程。究其主要原因在于：资源的数字化远远跟不上时代的发展脉搏，满足不了学者所需。目前为止，仍有相当数量的关于语言文字方面的史料、资源等都是以纸张形式存在，即便有电子形式，也不成体系。学者要进行学术研究、撰写论著，还只能凭借自己大脑中贮存的有限信息为线索，到浩瀚的书海中搜寻，而且由于研究手段的陈旧，研究成果往往不便重复利用，造成很大的人力、资源的浪费，制约着研究的进程。据了解，多数学者都把80%、甚至更多的时间、经历用于资料搜集，而且尚无把握查全；只有不到20%的时间、经历是真正用于思考、研究。这不仅浪费了大量宝贵的时间和精力，也会由于个人知识的空白而漏掉了某些有价值的资源，这种本末倒置的现状必须改变。利用信息化手段进行研究工作，不仅可以提高研究工作效率，而且对信息挖掘的深度和广度也是过去手工办法无法比拟的。我们要充分地运用信息化手段，让更多的人成为学者，让学者更专注于研究，这样才能多出成果、快出成果、出好成果。使语言文字的研究工作迈上一个新台阶。对语言文字的研究来说，信息化的前提就是要数字化。纵观近十年的数字化历程，笔者认为以下几点值得重视：一、什么是数字化？数字化不是纸张载体版本的翻版。扫描在很多情况下是必要的，但扫描不是数字化，因为图像文字代替不了编码文字，不能实现全文检索。真正的数字化是将纸张内容转为编码文字并使之与多种有效的检索、处理工具相结合，做到足不出户、字字可查、句句可检、图图可视、由此及彼、由表及里，获取所需资料。这才是真正的数字化。二、什么样的编码标准适合中文数字化? 由于历史的原因，导致了今天这个“万码奔腾”的局面。其中最主要汉字编码标准有BIG5、ISO 10646、UNICODE、CJK、GB2312、GBK、GB13000、GB18030等等、等等，再加上一些自造的编码，一时间让人们不知所措。笔者认为，做数字化之前，先弄清楚这些编码及其之间的相互关系非常重要。故此花点篇幅作一简单介绍。 ISO 10646是国际编码标准，该标准旨在囊括世界上所有文种。CJK特指其中的中、日、韩统一编码的汉字部分。目前CJK由三部分构成：CJK 20902汉字、CJK Extension A 6582汉字和CJK Extension B 47211汉字。也就是说，到目前为止ISO 10646已编码汉字达七万字之多。其中，前两部分在基本多文种平面（BMP）编码，第三部分是在第二辅助平面编码。UNICODE 是工业标准，它是由IT企业集团制定的，总体上，他的内容与ISO 10646完全相同，也可以简单地说是对ISO 10646的俗称。GB13000是等同采用ISO 10646的国家标准。CJK 20902汉字部分，既包容了GB2312，同时也包容了台湾的工业标准Big5。 BIG5是台湾的工业标准，编码汉字13061字，在Windows NT 5.0之前，俗称的繁体平台普遍采用此编码标准。GB2312、GB18030、GB13000.1均为国家标准，而GBK是国家规范。GB2312编码汉字6763字，是在Windows 95出现以前，国内信息处理普遍采用的编码标准。GBK是在保持GB2312原貌的基础上，将其字汇扩充至ISO 10646中的CJK 20902汉字，同时也就包容了台湾的工业标准Big5中的全部汉字，没有体系结构的变化。而GB18030则不然，它是在GBK的基础上做进一步扩充，不但把CJK Extension A 的6582汉字扩充进去，而且还改变了GBK的体系结构。GBK是在Windows 95开始至Windows NT 5.0之前这一段时间内被业界广泛采用的编码规范。GB18030至今未见实现。尽管GB2312、BIG5、GBK在某种程度上依然尚存，但ISO 10646（GB 13000/Unicode）已日渐成为主流编码，这是一个不争的事实。由于语言文字研究领域对文字量的特殊需求，经常会有人投其所好，推荐什么所谓的大字库，切忌慎用。凡属这样的字库，多半是自造编码，与通用的编码标准不兼容，只能在它自己特定的环境下显现、输出，通常的文件存储形式为Word或文本，检索、排序等等都存在着相当大的问题，而且不能与外界进行交换。因此，自造编码体系是绝对不可取的。作为一名从事十几年国际编码标准的制定者、近十年的数字化历程的见证者，笔者认为：对语言文字领域而言，数字化产品的开发应该建立在国际标准ISO 10646（GB 13000/ Unicode）的基础上，坚持走国际化道路，这样的产品才更有生命力。也只有这样，才能促进相互间、乃至国际间的学术交流。三、国际标准ISO 10646（GB 13000/Unicode）的优势何在？国际标准ISO/IEC 10646-1:2000（包含CJK和CJK Extension A 汉字27484），已于2000年10月5日正式出版。其内容与工业标准Unicode3.0是完全等同的（也已出版）；而ISO/IEC 10646-2:2000（包含CJK Extension B汉字42711）已于2001年10月正式颁布。预计2003年11月前后国际标准ISO/IEC 10646：2003将正式出版，与其相应的工业标准Unicode4.0也出版在即。目前正在研究中的CJK Extension C1含有24000字左右，不日也将正式进入国际标准ISO 10646。我们说到ISO 10646/Unicode，首先指的是它的体系结构，其次才是它的字汇量。选择ISO 10646/Unicode作为文字平台，一、是由语言文字资源的丰富内容决定的：只有ISO 10646/Unicode广阔的代码空间才能全面地、准确地、合理地表征数以亿计的汉字内容。二、是由汉字的字际关联特性决定的：只有ISO 10646/Unicode的体系结构才可能方便地实现在一个代码体系内的汉字关联，这样才能完成数字化的使命。不但是简-繁、正-异等常见的关联，中-日也可关联，关联类型更宽泛。三、是多文种并存的需求所决定的：中国本身就是一个多文种国家，再加之国际间的文化交流，日、俄、汉、蒙、藏、彝、朝等多文种并存现象不可避免，只有ISO 10646/Unicode的体系结构才可能更好地解决多文种并存问题。四、是由交换的需要所决定的：只有ISO 10646/Unicode的体系结构才可能实现数字化资源的通用性，才能够打破字符集的壁垒，让两岸四地乃至全球都能实现汉字的无障碍交换，全球交互操作。五、是技术实现和开发成本所决定的：只有ISO 10646/Unicode的体系结构才有可能实现SDSB（一套数据、一套软件在多种平台上运行），这样才能使软件大大简化，降低开发、维护、培训成本。六、是数据稳定性的需要：只有ISO 10646/Unicode才能做到“一码”走遍天下。四、采用国际标准ISO 10646应该注意哪些问题？选择ISO 10646并不意味着字符集愈大愈好。一切都应从内容的实际需要出发。实际上，ISO 10646本身就是允许子集的，国际标准化组织IRG目前正在进行国际基本子集的研制工作，不日即将问世。工程的实践已经清楚地表明：像《四库全书》这样7亿汉字的古籍巨著，CJK的20902汉字已经可以解决99.4%的问题（不包括小学类字头），如果再加上CJK Extension A便可以解决99.9%的问题。即便像《四部丛刊》这样被圈内誉为版本比较好、没有做过规范化整理的古籍，CJK的20902汉字竟可以解决其1亿汉字的98.1%的问题（不包括小学类字头），如果再加上CJK Extension A便可以解决99%的问题。像《中华文化通志》百卷本1300万字的当代巨著， CJK的20902汉字可以解决99.97%的问题。像《人民日报》这样内容宽泛的现代出版物，以其1998年一年的2,694万数据为例，GB 2312的6763汉字就可以解决99.993%的问题，其中“镕”和“珮”两个字在0.7%%外字中的占有率竟高达93%；如果采用CJK的20902汉字，外字仅出现6字次，所占比例微乎其微。至于CJK Extension B和即将颁布的CJK Extension C1，主要适用于进一步支持类似《康熙》字典和《汉语大字典》这样大规模字、辞书的电子印刷和电子出版。采用ISO 10646 / Unicode，特别是采用CJK和CJK Extension A，目前的条件已经成熟，从平台、浏览器、编辑器、程序语言、字库、输入法、数据库管理系统都已经支持Unicode，只是一些人还不太了解这个事实罢了。然而，对于CJK Extension B，目前的条件尚不成熟，决策之前，必须审慎再审慎、斟酌再斟酌，权衡利弊，一定要考虑清楚是否真的需要？原因在于这是涉及到体系结构的大事情。另外，必须弄清楚Code Page与ISO 10646的关系。GB2312、GBK、GB18030、BIG5等等都是Code Page，GBK是GB2312和Big5等的超集，GB18030是GBK等所有Code Page的超集，它是迄今为止最大的Code Page，也是最没有生命力的Code Page，理论上存在，现实中死亡。GBK对于从GB 2312向ISO 10646过渡起了重要的作用，这在WINDOWS 95上就有所体现：WINDOWS 95的内核已经Unicode化，正是由于这一点，WINDOWS 95上所有GBK字库都可以完全不加修改地作为Unicode字库用于WINDOWS NT平台；只要将WINDOWS 95上输入法码表存成Unicode形式，就可以用于WINDOWS NT平台。但它毕竟还是Code Page，它不是ISO 10646 “一码走遍天下”的体系结构。停留在GBK，或者去发展GB18030都是自寻死路，不可能实现SDSB全球化的数字化产品的开发。特别需要注意的是，ISO 10646 / Unicode也有多种变换形式，UTF-8和UTF-16。新近又增加了UTF-32。从数字化的发展来看，最好直接使用UCS-2而不要涉及这些变换形式，以免造成今后转换的负担。UTF-8看来已经落后；而UTF-16（Surrogate）还不够成熟。UTF-32正处在发展当中。对于字种需求量大的用户，主要是字、辞书用户，请特别注意UTF-32的发展动向，这有可能是这些用户未来的一个良好出路。五、哪些成熟的技术适合中文数字化？平台：Windows NT 4.0以上版本、Windows XP、Windows 2000 数据库：Sybase, Oracle, SQL Server 编程语言：VC、VB、Java以及新近推出的.NET 文献内容标识语言：XML 浏览器：IE 4.x 或以上版本字库：标准的TrueType字库都是基于ISO 10646 /Unicode的，但需要注意的是：字符容量超过64K尚存在技术问题。适用工具： ☆ 基于UNICODE的OCR自动识别技术，可以实现手写体和印刷体的图文数码转换，并可以实现无纸化的联机校对。 ☆ 基于UNICODE的全文检索技术，可以实现跨篇章的全文检索，并将汉字关联纳入其中。 ☆ 基于UNICODE的输入工具 ☆ SDSB全球版技术：一套数据、一套软件可用于多文种视窗平台。

博客介绍

正文

用信息化手段进行语言文字研究2006-02-28 21:06:00

评论