原文
0 k! F, Y6 A7 F- R6 Yhttp://tsuui.is-programmer.com/posts/4252.html$ U% W) G2 V6 L: N2 `
1 d) b8 K; [: ~http://www.zwqxin.com/archives/o ... etting-showing.html
# {8 ^+ f* e0 H. p: H" ahttp://bbs.gameres.com/showthread.asp?threadid=101677/ z( P* m, L0 |+ d3 Z) S
http://www.ategpu.com/2009/08/27 ... 96%87%E5%AD%97.html
9 ]3 t5 Q0 _5 B% u4 J7 S/ c! M
/ H" e1 n$ z4 z$ j+ X$ u; D! v' |8 ^. n$ {/ o: _8 W
经过多次修改测试,字体问题终于有了个比较完美的解决方法了,贴出来亮亮~~, ]3 A! Y ]* @7 ]/ O7 g9 Y
" G+ c4 A- l P, a. l5 r此法可以说完全是“红宝书”(即《OpenGL编程指南》)所赐, 此篇也不过是一些实践心得和我自己对字体显示方法的一些体会罢了。+ A/ ~' W6 y7 O$ {, h
( m7 w, L9 S& r3 Z下面就来介绍这个所谓的“终极解决方案”,对于待解决的各种问题,都有着多种可供选择的方案,就让我来边比较边描述吧:
% W% P7 j s+ N F
5 I' ~ U0 U6 M; H7 [* ?, |, ]渲染方式和帧数
0 k, E% y7 [& F7 `3 N* J: R, K0 {不管是不是OpenGL平台, 在每个3D平台中, 点阵字体无非两个用处: 要么做效果,要么做提示。效果就是标题文字、按钮之类的,我们一般称之为banner,titile,caption的东西; 提示就是指一些有动态更新要求的文字,如控制信息提示, 调试模式下的对象名称、坐标等, 还有就是交互场合,比如聊天。
2 x; D- }" i, B8 M% c4 C. ]- k3 `$ S- j3 g- H+ N/ a/ [
两种应用需求有所不同,但不管是哪种,在OpenGL中我能找到的直接支持字体的,只有三种方法,选择他们的标准只有一个——速度:5 B8 r/ \/ S' o: L+ O
( e0 s6 B* B, D. b
● glBindTexture, 纹理贴图,连文字带背景做好一张大图, 按需地选取各个文字子图像,再贴到相应位置的矩形上。贴图能够实现的文字效果最多,你可以把文字纹理映射到空间任意位置的巨型上,可以随意的旋转缩放和变形。在不要求大量动态更新文字内容的地方,可以选用此方法。大部分的小型3D游戏,都采用了这样的方式显示文字,速度够快,能实现所有的变换效果。
0 |6 D+ ^, M9 P% p4 E6 E$ i( D* K# s, `! X8 u2 c. B9 F: _
不足之处是:
* L4 ?5 I1 Q$ y9 E0 W" a- }
* ~( [8 A f* B( }! j# I* x" {/ s. y
很难实现多颜色混合显示的文字,因为为纹理设置颜色需要的步骤十分繁琐,需要反复切换和设置纹理函数和像素传输转换函数,难免影响性能;: V$ \4 e- K7 |7 _0 k
, v7 @, ^) ]1 {# o8 c! W# H- q, T4 J( g; y% t) c- \
文字内容不能灵活的更换, 除非你打算用很多碎小的纹理来拼凑文章;但随着碎小图片的增多,顶点的和纹理对象也大量增加,需要大量额外的片段处理和过滤操作,会明显拖慢处理流水线,在要求显示大量动态文本的场合下力不从心。不过好在OpenGL在处理纹理对象时多数情况是使用硬件实现的,速度不会慢太多,但也绝对不够块(你可能玩过这样的3D游戏:图像效果场景规模都一般,可鼠标速度慢得难以忍受,出现这种情况,九成的原因是顶点片元过多造成的,单次场景同时显示的纹理片段过碎过多,都会成倍地同时增加顶点和像素片元,拖慢速度,鼠标有时间响应,却没时间画出来); % j0 O% @/ p5 |/ Q4 ?7 A6 p
" S$ R4 B- v7 W+ k9 U) k/ C
4 r3 s1 Z" ~1 z5 N1 d还有就是变换拉伸后,纹理字体会出现模糊的现象,有些人建议打开Anisotropic Filtering(各向异性过滤)开关, 利用反走样解决,但效果似乎也不稳定,在转角过大、近距离或光线角度太偏的情况下,效果就越来越差了,我想这是纹理映射的通病吧,不可能就一张图你从哪里看都一样的清晰啊,也有人用多等级的纹理和Mipmap解决,本人没试验过(比较麻烦)所以没什么发现权。
6 o( ?+ y- \7 M2 m
, J/ O+ c% o5 G) }5 v7 n) L. a● glDrawPixels,像素绘制,任何纹理能够支持的图像格式,它都能支持,缩放也很简单,也可通过设置像素传输和像素封装函数实现一些其他的效果。* {2 y- g+ l( L/ ~
( {2 \2 H2 S( N2 i- A/ f, |! `
缺点是:7 d1 o; k- q8 f& T' H( U" K, c
/ X& R6 s& \& y: x0 U/ a+ {7 R1 p: d1 ]6 e! W ?
他同纹理一样,很难灵活设置颜色; / r% t) A/ f9 W, I
% M" I3 c* L" L. R6 q. N# w6 v# n& s
只能在光栅上绘制,若需要各种变换效果,还要开辟额外的辅助缓冲和纹理对象;' m) E, i; P3 H B
. a# i1 g8 F& X/ |
) J* v$ s. M$ J) y' z" }而最大最大的问题就是速度! 像素在显示之前的处理动作是没有经过加速的,也就是说不管你有没有把他编译到显示列表,像素的转换传输等动作每次都照做不误,它不同于纹理对象中的像素,多数OpenGL实现没有对它开辟专属的显存区域(这种说法有待考证,但实际测试中效率确实很差,编程指南中有特定篇幅介绍了如何提高像素绘制的效率,但即使牺牲一切资源来保证效率,实测效果仍然很难让人满意)。
9 Z. d# m5 J+ Z: n' C# q: q& Q
; O& [, L" l/ X; i$ ^
* N2 F. l* X% h3 P2 V& J/ `. J所以,虽然 glDrawPixels似乎是三种方法中最简单有效的, 可实际运行起来却是三种方法中最慢的!所以如果你要绘制大量点阵字,又想保证帧数的话,宁愿去考虑纹理贴图,也不要在这个函数上花太多心思。7 j9 Y1 `# E7 _+ b& Z+ ^$ I# W8 ?
% Z' `: |. X+ F: ~& K● glBitmap,位图,如果你想在你的3D引擎里添加一个控制台,这个是唯一的选择,96个可打印字符做成位图映射到索引为0x20~0x7F的显示列表,供随时调用。就算直接用glBitmap也来的及,对帧数的影响也不算大, 三种方法中它的速度最能让人满意, 且能通过设置光栅颜色灵活改变位图字体的颜色。想象一下,如果你的控制台里的warning error 普通的log message和user command分别使用了不同的颜色显示,而为实现这个既酷又实用的效果,所付出的代价仅仅是在设置光栅前加个glColor这么简单而已。0 F0 L6 w$ b, u, Y8 i! `& a
5 A4 {6 b' L& G缺点:( A0 c; i; x/ e) C' r+ j' f* D
3 u& i2 W7 j |/ Z0 Q' E9 I只能在光栅上绘制,若要缩放旋转之类的变换,需要额外的处理工序,但由于其本身的速度优势,这些工序一般不会对帧数有太大的影响;
4 V9 e3 u, N" E9 ]9 Z; M2 q( K; H% n. `3 C2 h
另外由于位图只有黑白单色,无法表示灰度,锯齿问题严重,如果只显示英文字体还好,一旦要显示中文,文字效果很差,实在是亵渎中华文化!当然如果你知道怎么在OpenGL里实现一个和ClearType类似的技术,那另当别论。0 G u- X- K! L, a3 _. }! |
3 u- q3 o$ o8 `9 }3 O
4 f( u/ W# ]( J- {
5 y4 ~3 M2 A9 D5 c0 z( a3 x
以往对于全屏字体渲染,glBitmap一直是我心中的痛,难以割舍它的高速,又无法忍受它的效果, 直到前一段在读编程指南时,无意间发现了一种利用glBitmap显示反锯齿字体的技巧。当时反复读了几次,貌似明白了上面的意思,拿到机器上试了试, 果然天才, 很好地解决了锯齿的问题,相见恨晚,感叹读书太不认真,怎么早没发现!! 下面简单描述一下这个方法:
" b; e1 U% y6 s( K# R$ ?- `9 ~2 s/ M) o6 \
对于一副256灰度图像,每个像素使用了一个字节表示0~255个灰度,而位图只有一位0或1,乍一看不太可能,但位图可以灵活设置颜色的特点,成了突破口。既然位图在设置光栅前可以使用glColor为光栅指定"当前光栅颜色",不仅如此,我们还可以指定颜色的alpha值,从而绘制明暗相间的彩色位图,了解了?) v1 i5 M. a0 F1 t+ h
; E/ q' I: q/ W7 D- Q$ u
把一个反锯齿的灰度字体图像分为多幅位图,假设分为4张位图,第一张:使灰度1~63的相应点置1,其他点置0;第二张:64~127的置1,其他置0...以此类推, 灰阶每上升64的点都集中到同一张位图上。然后,打开混合,使用4次glBitmap调用绘制出来,每次绘制前将光栅颜色设置成与图像对应阶段的灰度,像下面这样:
8 W- n( x% L3 ?8 e# P6 f' N# j0 l& v, F2 w! ^( ]( G+ B
GLfloat curColor[4] = { r, g, b, a*0.25f}; //假设当前颜色为 (r,g,b,a)# Y! M1 B2 Y- P
for (int i=0; i<4; ++i) {
6 p8 j; [1 i% f glColor4fv(curColor);
- Q! V4 g* g; y% F" v- O( t0 Q& x glRasterPosiv(curPos);
; X( E% |. S+ T. O+ R/ ` glBitmap(w,h, 0,0, 0,0, bitmap);
5 b! c6 E2 _ d6 u( S& D( u: F //当前alpha增幅0.25, 4次增至1.0
; P9 r) F: c! f' }" z! I curColor[3] += a*0.25f;
/ Z& v7 Z5 y+ e0 u: X) ? Z8 F; [}8 O& n9 b- k8 q
就相当于让一张256灰阶的位图降低到5灰阶。这么做的效果如何呢?/ P+ Z) [# U: U# W" h- R( M
! j+ ^% Y# v/ `; X& H下图是我在glut这种超慢框架下的测试的:1 V/ j N* h4 k9 @' B7 W x
: H4 |/ [( o; L( V6 Q9 R中间的截图是用glDrawPixels在打开freetype2的autohinting选项下渲染的256灰阶字体, 上下两张截图都是使用glBitmap绘制的,没有打开autohintng,上面的是3副位图(4灰阶)/字,下面的是4副位图/字。glDrawPixels是使用了显示列表绘制全屏1003个汉字的,已经累成14FPS了,而glBitmap是没用显示列表的,同样1003字一屏,在glut下也能达到50FPS以上! 近乎完美!1 k2 V- N( m% {" F6 _5 }( [. v
: @+ V1 `, _; ]" B: t/ B( \(窗口分辨率是960x600)% @8 Z8 |' ?0 @. N) I3 v
l8 @7 Q5 `, O8 B# Y7 a
7 E7 x/ v3 d9 z* j% c
; e" J. \4 x! o% P6 |! _/ U1 ] 同时,由于每个像素变成了4个bit表示(4张图每张1bit),使存储字模所需的空间降至原来的一半。 K. g) u( z9 k# n" j% _
0 M, i" ~' V9 S( W+ O: d
$ L' q L/ O% R; t% H; h3 t# ~6 |8 j( D% \& F
字库和编码映射
- Z5 c) L0 t. D; l V除了glDrawPixels,每一种方法都有应用它的理由,但不管你用哪一种,要克服的最大困难除了渲染速度,就是字库问题了! 读取字库建议使用FreeType2这个开源目, 它支持当今几乎所有流行格式的字体文件,我们可以选择它来作为字体导入的工具,当然也可以把它link到你的程序中,实时的载入ttf字体并按需生成字模图像。解决字库的读取问题,FreeType2绝对是上上之选,就这么简单~
# X8 H( U1 k( {* u( [, X$ f9 I- {$ o F
当然, 如果你只想支持普通的96个可打印字符,除了glDrawPixels,其他两种方式随便用——想要效果就用glBindTexture、想要简单方便就glBitmap,然后关掉浏览器、合上参考书,最多半个小时你的字体问题就有着落了! 可如果你想要支持中文??庞大的字库体积是你不得不考虑的另一个问题, 何为庞大?让我们简单地算下:( s) z8 H. B+ V( Y! ~
& H: A7 m+ t& k# g; b( Q
GB2312编码包含7445个字符,其中汉字6000多个,GBK编码下仅汉字就有20902个,最新国家标准GB18030-2005,总共76546个字符, 而目前的Unicode字符集,已经增至超过10万个字符,虽然现在还没有哪个unicode字库能支持到这么多字符(难道真的有?),但至少20000个还是有的! 而这些字符都是分散在编码空间中的,就是说编码是不连续的,不能使用连续的显示列表索引作简单的映射(即使连续,这么庞大的数目,就算显示列表没有上限,它所占据的显存空间也相当可观),因此不得不为‘字符编码’到‘字模索引/列表索引’建立查找表。
7 ?% R3 G" ^6 U/ d @( m+ ~6 |, j/ |
1 C7 O3 w5 V# |& r! t最猛的做法是,在内存平铺整张表,字模全部存入内存,一步索引到字模,生成显示列表,下次再绘制字模时只需索引到显示列表而不必去取字模。这样做好像也没什么问题,没什么问题?如果真的没问题就不会是最猛的了——对于GB2312和GBK这种"小型"多字节编码就需要尽1MB的空间,对于unicode最少最少需要近4MB的空间,而在这个大表里,八成以上的内容是普通人这辈子都用不上的,而每刷新一帧,你的每个要显示的字符都要重复查表一次,在这样大的空间中频繁查表,产生页交换的可能非常的大,速度不慢才怪,绝对不比你每次调用freetype实时转换灰阶来的快,而且还很浪费。
& `4 s# M W+ v! Y
* z! e- g: w; w& F# e4 E我建议的方法是利用std::map!当然如果你有自己的红黑树类和allocator也可以自己做一个map,效率上可能更胜一筹。map的作用是把字模信息映射到字符编码,动态的载入我们仅有可能用到的那几千个字模信息,这样既节省了空间(省点是点),又比较高效。另外,这里不必专门为map设定空间限制,map在到达一定大小后(大约7000个节点)或每过一段时间后将查找表clear掉就可以了,除非你要在程序里显示《说文解字》全篇,否则要让map增大到5000节点都是个相当有难度的工作。
) R) I6 w. {# Z7 G8 \0 q
$ P: s- q G1 S# \2 d+ S
* m2 q" Y- P9 O' g; J; z( _+ _
) F0 z$ D$ A$ N# @6 \0 \7 s8 ^2 O9 g* d定制自己的字体文件 5 p3 K& U2 R- E1 W v5 ~; l. t
哎……这也是被逼无奈,如果你梦想着自己的图行引擎能有全功能的中文支持(显示、输入),你必须一再考虑速度的问题!因为中文实在是太多了……而且万把字符一会要查表一会要转换图像一会又要排布文字,各个环节都不像西文那样方便直接, 都需要额外的繁琐的计算!如果你还要些特效,你一定会比我更吝啬速度。
, m4 c# `5 Y" D" q' H: D/ K8 J0 @! } g* P9 c- r" ~6 X
实践证明,使用了定制点阵字体文件的方式后,不使用显示列表而是实时从内存取得字模再逐个glBitmap,其效率几乎可以和使用了显示列表的内嵌Freetype2的字体系统媲美。至于怎么建立自己的字体文件嘛,我的意见是:怎么方便怎么建,读着方便,用这方便就OK了,因为像这样的位图数据生成文件后数据是很“稀疏”的,很容易压缩和解压,所以空间上不必太担心(我自己做的24×24点阵字体文件,连带额外数据只有4MB多一点)。
" {: N# t" r- S/ P1 r( R
2 ` V" P; |9 {* C `其他的就没什么可说的了,要注意的只有三点:你需要一个有序的code-index表,为什么要有序?因为代码域很长而实际的可显示码点很稀少,在一个有序的静态表中二分查找是不二之选;你还需要为每个字模数据建立一个字模信息记录,记录啥?宽width、高height、列步进长度advance、行字节数pitch、字模数据指针等; 还有就是字模数据,如果你想更块一些,让每行像素的字节数扩充到4的倍数,浪费些空间可以再换些速度。
3 G d( u$ A7 J
6 p% g3 n* { ], N# O. t* D9 T9 X 1 S( U$ M# D: V& M
. T e7 M& m, {. S5 ~; v( L9 N
到目前为止我们基本完成了下面的要求:* s9 W1 s0 d/ W) I @
+ O4 o! {) h9 R' a8 m1. 速度快,永远不能放弃对它的追求!- |' @0 N0 c" F( X9 b) O0 ]
$ d6 |1 b' M6 o! ?
2. 省内存,CPU内存要省,GPU内存更要一省再省!
2 D" ?' J5 x }' N& a
, b' z: j, I; j& o3. 美观,字是拿来看的,辛勤劳动不能仅因一个难看而被沦为劣质产品。9 z( }# ?3 Q. U+ q5 x- [
6 }2 _, V5 ?1 a, X, T* _
4. 简单,方法要简单通用!这个好像差点事.....# x4 c/ {% p$ F0 I$ N7 H* V& p
, d' n& Z8 t) ~
5. 支持海量中文,在新一轮的‘文字改革’到来之前,这永远是个艰巨的任务! 而我们做到……一半了!! 不容易啊!! |