正文

用信息化手段进行语言文字研究2006-02-28 21:06:00

【评论】 【打印】 【字体: 】 本文链接:http://blog.pfan.cn/iamben250/10634.html

分享到:

用信息化手段进行语言文字研究
王晓明

                          教育部语言文字应用研究所

    随着中文数字化产品的不断问世,表明中文数字化技术日渐成熟,用信息化手段研究语言文字的时代已经到来。
    相对于信息技术的发展而言,语言文字工作者的研究手段则显得相对落后,制约着其研究和发展的进程。究其主要原因在于:资源的数字化远远跟不上时代的发展脉搏,满足不了学者所需。目前为止,仍有相当数量的关于语言文字方面的史料、资源等都是以纸张形式存在,即便有电子形式,也不成体系。学者要进行学术研究、撰写论著,还只能凭借自己大脑中贮存的有限信息为线索,到浩瀚的书海中搜寻,而且由于研究手段的陈旧,研究成果往往不便重复利用,造成很大的人力、资源的浪费,制约着研究的进程。据了解,多数学者都把80%、甚至更多的时间、经历用于资料搜集,而且尚无把握查全;只有不到20%的时间、经历是真正用于思考、研究。这不仅浪费了大量宝贵的时间和精力,也会由于个人知识的空白而漏掉了某些有价值的资源,这种本末倒置的现状必须改变。利用信息化手段进行研究工作,不仅可以提高研究工作效率,而且对信息挖掘的深度和广度也是过去手工办法无法比拟的。我们要充分地运用信息化手段,让更多的人成为学者,让学者更专注于研究,这样才能多出成果、快出成果、出好成果。使语言文字的研究工作迈上一个新台阶。
    对语言文字的研究来说,信息化的前提就是要数字化。纵观近十年的数字化历程,笔者认为以下几点值得重视:

一、什么是数字化?
    数字化不是纸张载体版本的翻版。扫描在很多情况下是必要的,但扫描不是数字化,因为图像文字代替不了编码文字,不能实现全文检索。真正的数字化是将纸张内容转为编码文字并使之与多种有效的检索、处理工具相结合,做到足不出户、字字可查、句句可检、图图可视、由此及彼、由表及里,获取所需资料。这才是真正的数字化。

二、什么样的编码标准适合中文数字化?
    由于历史的原因,导致了今天这个“万码奔腾”的局面。其中最主要汉字编码标准有BIG5、ISO 10646、UNICODE、CJK、GB2312、GBK、GB13000、GB18030等等、等等,再加上一些自造的编码,一时间让人们不知所措。
    笔者认为,做数字化之前,先弄清楚这些编码及其之间的相互关系非常重要。故此花点篇幅作一简单介绍。
    ISO 10646是国际编码标准,该标准旨在囊括世界上所有文种。CJK特指其中的中、日、韩统一编码的汉字部分。目前CJK由三部分构成:CJK 20902汉字、CJK Extension A 6582汉字和CJK Extension B 47211汉字。也就是说,到目前为止ISO 10646已编码汉字达七万字之多。其中,前两部分在基本多文种平面(BMP)编码,第三部分是在第二辅助平面编码。UNICODE 是工业标准,它是由IT企业集团制定的,总体上,他的内容与ISO 10646完全相同,也可以简单地说是对ISO 10646的俗称。GB13000是等同采用ISO 10646的国家标准。CJK 20902汉字部分,既包容了GB2312,同时也包容了台湾的工业标准Big5。
    BIG5是台湾的工业标准,编码汉字13061字,在Windows NT 5.0之前,俗称的繁体平台普遍采用此编码标准。GB2312、GB18030、GB13000.1均为国家标准,而GBK是国家规范。GB2312编码汉字6763字,是在Windows 95出现以前,国内信息处理普遍采用的编码标准。GBK是在保持GB2312原貌的基础上,将其字汇扩充至ISO 10646中的CJK 20902汉字,同时也就包容了台湾的工业标准Big5中的全部汉字,没有体系结构的变化。而GB18030则不然,它是在GBK的基础上做进一步扩充,不但把CJK Extension A 的6582汉字扩充进去,而且还改变了GBK的体系结构。GBK是在Windows 95开始至Windows NT 5.0之前这一段时间内被业界广泛采用的编码规范。GB18030至今未见实现。 尽管GB2312、BIG5、GBK在某种程度上依然尚存,但ISO 10646(GB 13000/Unicode)已日渐成为主流编码,这是一个不争的事实。
    由于语言文字研究领域对文字量的特殊需求,经常会有人投其所好,推荐什么所谓的大字库,切忌慎用。凡属这样的字库,多半是自造编码,与通用的编码标准不兼容,只能在它自己特定的环境下显现、输出,通常的文件存储形式为Word或文本,检索、排序等等都存在着相当大的问题,而且不能与外界进行交换。因此,自造编码体系是绝对不可取的。
    作为一名从事十几年国际编码标准的制定者、近十年的数字化历程的见证者,笔者认为:对语言文字领域而言,数字化产品的开发应该建立在国际标准ISO 10646(GB 13000/ Unicode)的基础上,坚持走国际化道路,这样的产品才更有生命力。也只有这样,才能促进相互间、乃至国际间的学术交流。

三、国际标准ISO 10646(GB 13000/Unicode)的优势何在?
    国际标准ISO/IEC 10646-1:2000(包含CJK和CJK Extension A 汉字27484),已于2000年10月5日正式出版。其内容与工业标准Unicode3.0是完全等同的(也已出版);而ISO/IEC 10646-2:2000(包含CJK Extension B汉字42711)已于2001年10月正式颁布。预计2003年11月前后国际标准ISO/IEC 10646:2003将正式出版,与其相应的工业标准Unicode4.0也出版在即。目前正在研究中的CJK Extension C1含有24000字左右,不日也将正式进入国际标准ISO 10646。
    我们说到ISO 10646/Unicode,首先指的是它的体系结构,其次才是它的字汇量。
    选择ISO 10646/Unicode作为文字平台,一、是由语言文字资源的丰富内容决定的:只有ISO 10646/Unicode广阔的代码空间才能全面地、准确地、合理地表征数以亿计的汉字内容。二、是由汉字的字际关联特性决定的:只有ISO 10646/Unicode的体系结构才可能方便地实现在一个代码体系内的汉字关联,这样才能完成数字化的使命。不但是简-繁、正-异等常见的关联,中-日也可关联,关联类型更宽泛。三、是多文种并存的需求所决定的:中国本身就是一个多文种国家,再加之国际间的文化交流,日、俄、汉、蒙、藏、彝、朝等多文种并存现象不可避免,只有ISO 10646/Unicode的体系结构才可能更好地解决多文种并存问题。四、是由交换的需要所决定的:只有ISO 10646/Unicode的体系结构才可能实现数字化资源的通用性,才能够打破字符集的壁垒,让两岸四地乃至全球都能实现汉字的无障碍交换,全球交互操作。五、是技术实现和开发成本所决定的:只有ISO 10646/Unicode的体系结构才有可能实现SDSB(一套数据、一套软件在多种平台上运行),这样才能使软件大大简化,降低开发、维护、培训成本。六、是数据稳定性的需要:只有ISO 10646/Unicode才能做到“一码”走遍天下。

四、采用国际标准ISO 10646应该注意哪些问题?
    选择ISO 10646并不意味着字符集愈大愈好。一切都应从内容的实际需要出发。实际上,ISO 10646本身就是允许子集的,国际标准化组织IRG目前正在进行国际基本子集的研制工作,不日即将问世。工程的实践已经清楚地表明: 
    像《四库全书》这样7亿汉字的古籍巨著,CJK的20902汉字已经可以解决99.4%的问题(不包括小学类字头),如果再加上CJK Extension A便可以解决99.9%的问题。即便像《四部丛刊》这样被圈内誉为版本比较好、没有做过规范化整理的古籍,CJK的20902汉字竟可以解决其1亿汉字的98.1%的问题(不包括小学类字头),如果再加上CJK Extension A便可以解决99%的问题。
    像《中华文化通志》百卷本1300万字的当代巨著, CJK的20902汉字可以解决99.97%的问题。像《人民日报》这样内容宽泛的现代出版物,以其1998年一年的2,694万数据为例,GB 2312的6763汉字就可以解决99.993%的问题,其中“镕”和“珮”两个字在0.7%%外字中的占有率竟高达93%;如果采用CJK的20902汉字,外字仅出现6字次,所占比例微乎其微。
    至于CJK Extension B和即将颁布的CJK Extension C1,主要适用于进一步支持类似《康熙》字典和《汉语大字典》这样大规模字、辞书的电子印刷和电子出版。采用ISO 10646 / Unicode,特别是采用CJK和CJK Extension A,目前的条件已经成熟,从平台、浏览器、编辑器、程序语言、字库、输入法、数据库管理系统都已经支持Unicode,只是一些人还不太了解这个事实罢了。然而,对于CJK Extension B,目前的条件尚不成熟,决策之前,必须审慎再审慎、斟酌再斟酌,权衡利弊,一定要考虑清楚是否真的需要?原因在于这是涉及到体系结构的大事情。
    另外,必须弄清楚Code Page与ISO 10646的关系。GB2312、GBK、GB18030、BIG5等等都是Code Page,GBK是GB2312和Big5等的超集,GB18030是GBK等所有Code Page的超集,它是迄今为止最大的Code Page,也是最没有生命力的Code Page,理论上存在,现实中死亡。GBK对于从GB 2312向ISO 10646过渡起了重要的作用,这在WINDOWS 95上就有所体现:WINDOWS 95的内核已经Unicode化,正是由于这一点,WINDOWS 95上所有GBK字库都可以完全不加修改地作为Unicode字库用于WINDOWS NT平台;只要将WINDOWS 95上输入法码表存成Unicode形式,就可以用于WINDOWS NT平台。但它毕竟还是Code Page,它不是ISO 10646 “一码走遍天下”的体系结构。停留在GBK,或者去发展GB18030都是自寻死路,不可能实现SDSB全球化的数字化产品的开发。
    特别需要注意的是,ISO 10646 / Unicode也有多种变换形式,UTF-8和UTF-16。新近又增加了UTF-32。从数字化的发展来看,最好直接使用UCS-2而不要涉及这些变换形式,以免造成今后转换的负担。UTF-8看来已经落后;而UTF-16(Surrogate)还不够成熟。UTF-32正处在发展当中。
    对于字种需求量大的用户,主要是字、辞书用户,请特别注意UTF-32的发展动向,这有可能是这些用户未来的一个良好出路。

五、哪些成熟的技术适合中文数字化?
    平    台:Windows NT 4.0以上版本、Windows XP、Windows 2000
    数 据 库:Sybase, Oracle, SQL Server
    编程语言:VC、VB、Java以及新近推出的.NET
    文献内容标识语言:XML
    浏 览 器:IE 4.x 或以上版本
    字    库:标准的TrueType字库都是基于ISO 10646 /Unicode的,但需要注意的是:字符容量超过64K尚存在技术问题。
    适用工具:
    ☆  基于UNICODE的OCR自动识别技术,可以实现手写体和印刷体的图文数码转换,并可以实现无纸化的联机校对。
    ☆  基于UNICODE的全文检索技术,可以实现跨篇章的全文检索,并将汉字关联纳入其中。
    ☆  基于UNICODE的输入工具
    ☆  SDSB全球版技术:一套数据、一套软件可用于多文种视窗平台。


阅读(2389) | 评论(1)


版权声明:编程爱好者网站为此博客服务提供商,如本文牵涉到版权问题,编程爱好者网站不承担相关责任,如有版权问题请直接与本文作者联系解决。谢谢!

评论

loading...
您需要登录后才能评论,请 登录 或者 注册