原文
+ |3 k' C$ e7 k- thttp://blog.sina.com.cn/s/blog_5 ... el=rela_prevarticle
r) ?& O7 H, Z) X1 N5 x3 A. q) f7 C' r, c! t Y# ~% J
作者:何晓龙: F0 ]8 F2 ~6 ?6 d. w. w0 l
/ P7 T e1 H# t& H9 N
7 l% V. \0 f8 |8 Y
苏哲是开源中文输入法SCIM的总架构师,SCIM是一个优秀的开源国际化输入法平台,支持多达40多种语言的输入,目前已经被多数主流的Linux发行版本作为默认的输入法。它最大的特点可以通过插件的形式扩充输入法。基于SCIM输入法平台,苏哲还开发了一款智能拼音输入法,可以媲美著名输入法紫光拼音。但苏哲在开发SCIM智能拼音输入法的过程中却产生了很多困惑,下面就来就从苏哲的困惑谈起。
' {& K4 R8 s& S+ j3 a
) |+ i9 i, L" a2 I0 c 图 甲骨文
! ?7 ~0 \1 |! U8 { + l' H d" {4 _
苏哲的困惑5 T2 \8 F! {' T: \
1 X/ L; M/ \% l# \% T" [1.不规范的输入法引出的问题1 \7 N7 {/ u0 Y D' b2 {8 j
对于这个SCIM的总架构师来说,有许多困惑。首先是汉字词库和语料库规范的问题,由于目前国家还没有标准的词库和语料库,导致了目前多数中文输入法在使用中会出现不规范问题,如输出错误的汉字,拼音不规范和音调错误的情形,比较典型的案例就是2002年,武汉市青山区退休老人冯勇投诉《微软拼音输入法》,下面先让我们重温一下当时投诉微软输入法新闻:( u; U2 B7 O. Q" A8 ^$ j
新华网武汉6月13日电武汉市青山区退休老人冯勇,发现美国微软公司出品的《微软拼音输入法》3个版本存在拼音错误,多次协商未果后,向湖北省消委投诉。湖北省消费者委员会投诉科今天证实,日前他们已经正式受理了这一投诉。这是湖北省继去年的刘良诉“全日空”案后,受理的第二起涉外投诉案。
1 q" a) I0 h/ t( K2001年9月,冯勇在学习电脑时,发现《微软拼音输入法》2.0版本有拼写错误。后来,冯勇又发现《微软拼音输入法》1.5版本、2.0版本、3.0版本均有数十或百余个拼写错误。他第一次找出2.0版本的拼写错误后,曾与微软北京中心接触过,但该中心没有拿出改进意见。在这以后,他又对该公司推出的1.5、3.0版本进行研究,发现的错误越来越多。今年,他多次与微软北京中心联系,并给微软总裁比尔·盖茨写过信,却一直未得到满意答复。
; B% f9 ?9 g! ~3 p9 w* y- j
. [4 ]2 o+ @* h- g/ R
1 W4 p9 x+ l+ E$ @6 c" U% J图 甲骨文8 Z0 N- _! [ W1 ~8 j7 y/ t
+ N* U; s, Z; ? 冯勇觉得,《微软拼音输入法》在全球发行量巨大,会对使用者产生误导,于是向湖北省消费者委员会投诉。他要求微软公司迅速对不合格的三个版本升级改进,并给购买该类版本的消费者适当补偿。
- U7 |2 Y: a# V' H上述内容可以在http://http://news.xinhuanet.com/it/2002-06/13/content_438722.htm找到。这是由于中文输入法拼音不规范造成的的问题,虽然事情已经过去好久,问题已经解决,但思考还在继续,由于没有标准的词库、语料库以及拼写标准可以遵循,目前输入法,无论是开源还是闭源都存在着很多被人忽视的问题,使得中文的使用,尤其是在计算机和网络领域,造成了很大混乱,存在大量以讹传讹的现象,造成了计算机和网络汉字使用不够规范。从教育、文化传播和流传的角度来说,其危害和影响就更为深远了。试想某天一个小学生由于使用输入法并将其错误、不规范的汉字作为学习对象来学习,那会造成何种状况?& D5 L! E! z3 p6 C: F
. K0 y* O" t" n$ z- }; u3 }& R5 R
- A' @* a: p2 i& b( H图 金文( l% [7 l5 p! D# t$ M
! }. c {; R% J% L2.计算机使用的中文词库和语料库亟待规范/ q) k$ Y; J: u% E0 `9 ]2 \
如果说中文输入法大家比较熟悉的话,中文词库和语料库对于普通计算机用户似乎十分遥远和陌生,再举个身边的例子来说明一下,大家使用的Windows XP操作系统的欢迎登录界面右下脚提示中的“帐户”一词就是一个不规范的汉字用法。当然从苏哲自己开发SCIM项目中也深刻感觉到,要开发一个好的中文输入法,尤其是具备整句输入能力的智能拼音输入法,不仅需要完善的理论基础来开发输入法核心,更重要的是,需要一套高质量的中文词库和语料库。! `7 X+ ] T! h& ^* k
% h2 m- C# X" B! Z5 {' ^8 s
0 S2 K; |- w: @) t" z# `" G$ d图 汉简
2 l. ~5 z1 J4 s( D$ F9 ^, A1 A2 L. C- J; C- k! C2 j8 L4 ]
中文词库就是包含中文常用词语、成语、惯用语及其拼音标注的词典。中文词库中每一个词条及其拼音标注的正确性,在很大程度上决定了中文输入法的输入质量。但由于开源领域的开发人员往往都不是专业语言学家,要想开发出一套高质量的中文词库是非常困难的。而且不幸的是,国内目前尚没有任何国家权威机构、企业或学术单位提供免费公开的开源中文词库。虽然已经有很多商业词库产品,但都因为价格高昂和封闭许可证问题,无法应用于开源软件。中文语料库就是经过词语切分和标注的大规模中文语言素材,例如报纸、小说和书籍等内容。高质量大规模的中文语料库对于开发具备整句输入能力的智能中文输入法以及中文简繁转换、汉字到拼音转换等众多领域有着至关重要的作用。和中文词库的处境类似,虽然国内已经有很多国家权威机构、企业和学术单位可以提供商业的语料库产品,但到目前为止还没有任何几个单位提供过免费公开的开源语料库。
6 f" _" D$ k& ]& q( Z$ h: W" w$ d# i& r# B9 }, M# Y v
; W( h' z, {! f图 隶书
" ~( \0 r( E0 |: [, J' l
( j- z% T/ t- D* l/ ~$ `
4 [6 b. Y2 P, s! I7 g3.节约型社会呼唤免费字体) j8 X6 o4 c4 I6 j+ \0 B
开源系统中没有免费、高质量的汉字字体可用,众所周知,中文是一种使用表意字符的语言,拥有多达几万个汉字。因此,制作一款中文字库的工作量是非常巨大的。另外,由于中文字库是所有中文相关技术的基础,没有一个好的字库,就不可能做到很好的中文支持。因此,中文字库的质量是至关重要的。保证中文字库中每个汉字字形的正确也就成为中文字库制作过程中最艰巨的任务。国家相关部门为此也制定了相关标准来约束字库厂商。字库必须通过国家相关部门的检测才能上市销售。所有这些因素,导致字库开发的成本非常高。
5 v& `$ [" W; l! p" X S! U! ~/ f# Y/ H7 z+ j
1 Q y2 Z) [/ g
- E" N, D. n. l$ g& n图 唐碑7 r8 n3 I; W7 I& J: F9 w3 I
5 G7 r9 s/ e/ G
高昂的成本,对开源软件社区来说是无法承受的。这也是为什么到现在为止还没有出现一款高质量开源字库的原因。为什么不是开源字体,这个问题下面会专门提到,在中文字体方面,虽然我国有很多字库厂商提供商业的中文字库,但大都价格昂贵。到目前为止还没有任何一个厂商或组织发布过高质量的开源字库,这极大的影响了开源软件对中文支持的质量。此外,一方面是有众多厂商在制作、销售商业字体,可以说当今是商业字体泛滥的一个时代,另一方面字体利用率却很低,常用的只有常见的几种字体,如方正、中易等字体,尤其是开源系统中缺乏一套免费的高质量的字体,由于字体的开发投资巨大,所以这造成了社会资源的极大浪费,和我国目前推行的节约型社会的导向不符,所以我们的政府有必要推出一套标准的免费字体来供大家使用,那怕只是一套简单的宋体和楷体字体,这对于规范计算机和网络汉字使用环境,推动开源中文软件的应用都大有好处。% F$ K8 S5 \3 U, V3 f% t3 N. c9 ]
5 Q1 V9 S" I4 b' _
7 E/ i: _4 o& _ Q9 r: @1 Y0 o1 l
N) [' _% B b* A' y, @图 印刷技术的演进
( U0 i8 A+ b6 s1 m
" \7 T2 K, R& Z0 k1 |* }2 H& |5 p' C. M0 h
苏哲看开源字体
, v' h2 M3 A6 J$ @2 ~! }- Z+ V$ U
# ~& ]0 X* d" M/ C6 ~0 b' Q+ B4 X1.开源字体无法承受之重9 F( T9 i. P4 {- Z5 \' ^! L
在中文字体方面,虽然我国有很多字库厂商提供商业的中文字库,但大都价格昂贵。到目前为止还没有任何一个厂商或组织发布过高质量的开源字库,这极大的影响了开源软件对中文支持的质量。开源字体的问题详细来说,首先是汉字的每个字形是有国家标准的,每个字体、字符都是有国家的规定。字库里面每一个字的字形都必须经过汉字专家的审查认定,符合国家汉字标准才行。如大家常用的点阵字都是有明确的国家标准的,如手持设备、便携设备等,每个字怎么写、如何排布的,都是有着严格的规范的。也就是说,字库里面必须保证没有错字。这个关系到文化教育、文化传承等各个方面,马虎不得,所以通过一个认证机构也是必要的。此外,开源字体目前还有二个尴尬,第一个尴尬是国家标准的认证不是免费的认证,到国家的认证机构作字体规范化认证是要花钱的,并且每次修改后还需要再经过国家认证机构的认证,不但维护起来十分烦琐,而且国家认证费用也不是一个开源项目所能承担的起。第二个尴尬是许多字体标准本身就不是免费的,使用这些标准也要花钱,这是开源字体项目所无法承受的。4 v3 q, C5 m4 n1 J
. u5 p* c% x% T' |: Q& x+ ^
2.开源字体任重道远
( _4 K% S, e# j6 n2 o: a 当然,以开源的方式是可以作字体的,使用也没有问题,但要想做一套符合国家标准的开源字体就比较麻烦了,首先是经费问题,对于多数开源项目来说有一定的经费是最为基本的要求,没有经费和机构来负责开源字体的国家的认证,其次是由于开源字体是由众多开源爱好者和志愿者参与制作的,他们的水平可能参差不齐,很难保证字体的一致性和整体质量,个人认为制作和维护一个字体是一件劳动密集、需要很多投入的事情,在以前,像方正这样的字库大厂,都是投入相当大的人力和物力来开发一套字体,每种字体都需要聘请老书法家,一个字一个字的写在纸上,然后再全部扫描到计算机中进行数字化和矢量化,工序非常的烦琐,在制作过程中要保证每一个字的质量一直以及这种字体风格的统一,所以一套字体的制作成本是非常之高的。8 T7 V( s# w/ C9 d
目前的开源字体项目则只是简单地通过网站将开源爱好者和志愿者组织起来,很难保证每一个字的质量一致和风格的统一。如目前的国家标准GB18030,一共有二万多个汉字,如何保证这二万多个字体的质量和风格是一个不小的难题。此外,制作一套曲线字库的技术难度要比点阵字库困难很多,如果使用TrueType字体格式,还牵扯到其中的一些专利使用权的问题。所以要想制作一套高质量、美观的开源的TrueType 中文字体,难度是非常巨大的。需要大量人力物力和财力,这些都不是普通开源组织能够承受的。
5 @, u) s' Z( X% f( X
4 r/ t6 X5 t& A# p8 |苏哲看中文环境
% |, `1 n0 N3 l* m. q+ d' d- a$ `6 w& P; ^& U, l& K
除了标准中文词库、语料库和开源字体之外,苏哲对于汉字体系的其他方面也有话要说。
: P& g4 ]4 E1 b+ i1 i5 H
3 }% T$ P% C/ {# z1.汉字编码2 E* }- |* ], D8 g" G& }! O% }; H& A
除了字体之外,在汉字的编码支持方面,大部分开源软件已经做得很好,这是由于大家现在基本都采用国际标准Unicode/ISO10646编码,这样就可以比较容易的支持各个国家的语言文字编码。在中文本地编码支持方面,经过大家的努力,中文GB2312、GBK、GB18030等常用中文编码已经可以被大部分开源软件所支持。所以在编码方面基本不存在很大问题。; M6 b- A+ ~7 B* W) [/ I
9 _6 r( Z* Z+ `* D) N# F% n( U
2.开源中文输入法0 W: [' d$ p' y" L4 R
在中文输入法方面,虽然国内开源社区和厂商已经开发出很多开源的中文输入法,包括各种拼音输入法和笔划输入法。但还没有出现一种效果能和Windows平台下商业输入法相媲美的开源产品,尤其是缺乏支持整句输入的智能拼音输入法。拼音输入法在国内的用户占有量是非常巨大的,保守估计也有超过70%的计算机用户使用拼音输入法,剩下的用户大都使用五笔字型等笔划输入法。因此,一套好的拼音输入法对于大部分用户来说是至关重要的,尤其是使用开源平台的用户。
# y* k6 X/ l3 r# K- w% c2 t; }1 Y9 V6 f
1 Q( }( R) u- L
3 ~7 K2 q c& ] B图 文泉驿字体, @( f" I% H3 Q: W$ f
1 M. d+ f# {# v: n" N1 ?3.打印; i+ E: d1 v' V( f( l3 @! J8 q% g
在中文打印方面,开源软件领域已经具备比较成熟的中文打印技术,因此只要有高质量的中文字库,中文打印就不成问题。
, m& ^. I) B3 X& o& J3 e
0 ]% W% X2 n4 }" f/ B- [最后结论
. v+ `* g7 d& d& X& O* m/ D6 z# q 综上所述,由于免费字体和中文标准词库和语料库领域的特殊性,光靠开源社区的力量是远远不够的。还必须依靠国家相关部门和企业的支持才行。从推进我国信息化建设、推广普通话、发扬汉字文化等角度考虑,制作发布一套符合国家相关标准的免费开源中文字体、中文词库和语料库是至关重要的。而这个工作应由国家相关权威部门领导、协调各方力量来完成。对于中文免费字体,最好的解决办法就是由政府来研制一套标准字库公开出来,作为免费字库供社会各界使用。 |