cccltd_title2.gif (14532 bytes)

cccltd_book.gif (2247 bytes)


創《學倉頡》多媒體
教學軟件品牌


   


作者:李祥

由於香港地理、方言及歷史的原因,與海峽兩岸在用字,語彙上都存在一些差異。在電腦使用上差異更為突出,香港用字的問題一直令人困擾。我們經過廣泛調查,深入分析,香港華通研發的軟件、書籍其「標準字詞典」收字是香港較為流行的字詞典書籍之中全部收字之集合,還收錄了香港教育學院《常用字字形表》備註之中提及的較為常見的異體字,並且收錄了電腦系統可替換原台灣BIG5代用字的Unicode用字,按照香港出版業界的計算方法總計有 8,500 餘字。這些 Unicode漢字在電腦內碼分佈:92.8% 是原 BIG5碼漢字,2.2% 是原 GB2312-80內碼漢字,5% 是非原 BIG5、非原 GB2312-80 碼的Unicode 漢字。故此,香港華通使用Unicode編碼徹底解決了中港台繁體版字詞典軟件、書籍有600餘個常用或次常用的漢字查詢不到的狀況。請看具體案例。

2.2% 是原 GB2312-80 內碼漢字,例如:
「咔」(Unicode-5494)、「姹」(Unicode-59F9)、「温」(Unicode-6E29)、「着」(Unicode-7740)。

5% 是非原 BIG5 非原 GB2312-80 碼 Unicode 漢字,例如:
「乸」(Unicode-4E784)、「劏」(Unicode-528F)、「廐」(Unicode-5ED0)、「邨」(Unicode-90A8)、「麪」(Unicode-9EAA)。

在Windows95/98/Me操作系統之中,上述漢字是以「香港字」的身份出現,使用BIG5碼「使用者造字區」的內碼,輸入或顯示它們需要安裝支援HKSCS(香港增補字符集)的輸入法和字型,在當年操作系統之中必須要這樣做才行得通。Windows95/98/Me已是日薄西山,十年前Unicode 3.0編碼噴薄而出。Unicode是國際組織制定的可以容納世界上所有文字和符號的字符編碼方案,Unicode字元集在得到世界各國的認同,使其在電腦軟件的國際化與本地化領域中,廣泛的被採用。如今上述「香港字」已經融入了Unicode之中,一般人士不需要架屋疊牀再次安裝HKSCS了。

可惜香港坊間,絕大多數倉頡字典仍然不含有這600個香港人較為常用的漢字和倉頡碼。坊間編書的多數是COPY台灣BIG5碼舊有的資料(這樣做不用花費太多氣力,也不必懂得太多編碼知識就可以出書),大多數買倉頡字典的是初學倉頡的人士,不太懂得倉頡編碼,懂得電腦Unicode編碼的人就更少了。求知心切的人們很容易「中招」。

坊間倉頡字典良莠不齊。多數仍然停留在舊有BIG5碼的13000範圍內收字,有的圖解倉頡字典收字約5400字,對外卻號稱13000字。精明的消費者,只需要把字典正文每一頁大約的字數乘以其頁數就可知收字數目的真假了。何必報大數造假,其實倉頡字典收錄五六千也說得過去了,關鍵在於:收錄的漢字是否以香港的用字頻率有關係。

關鍵是收錄是否以香港用字頻率有關係。BIG5碼的13000個字中許多是不符合香港人習慣用字,甚至,含有不少不符合台灣用字習慣的日本字型(在此不纍述,詳情請看《中文字碼 萬碼奔騰 一碼當先》作者:黃大一,永麒科技出版)。要與時俱進,就得使用Unicode碼。Unicode CJK 統一的表意文字,共有20902個漢字,其中含有HKCSC-2004的2241個字*。

* HKSCS-2004即《香港增補字符集-2004》收字共 4,941 個。其中,Unicode CJK 統一的表意文字,含有HKCSC-2004的2241個字;這些較為常見常用的香港字已經同化在Unicode之中,只要是Windows 2000 或者以上都應該能夠正確的顯示及打印,有個別人士由於使用了過份陳舊的中文輸入法,才引致這部分漢字在文字編輯處理上的困擾。擴展區A含有HKCSC-2004的672個字,港澳台完全支援擴展區A的輸入法屈指可數。擴展區B含有HKCSC-2004的1693個字,一般的輸入法很難遊刃有餘,存在輸入及使用上的兼容問題。
(廣告時段:香港華通研發的Uncode化的輸入法及教學軟件,完全與HKCSC-2004兼容)

如何做一個精明的消費者?
購買倉頡字典書籍時,不要被類似「四種」「五用」等等廣告字句所誤導,書的印刷日期也只能作為參考。首先翻開書,查一下書中有沒有「着」「邨」二字?如果沒有「着」「邨」,可以肯定此書資料很舊,已經過時了,不必浪費金錢。如果有,再查一下書中除了有「漢字、倉頡字母」之外,是否還提供相關的『Unicode碼(亦稱「統一碼」)』?如果有此項,資料不會太舊,使用方便*,基本上值得購買。(例如:「着」,倉頡碼:廿手月山或TQBU,Unicode碼:7740)。如果書中還具有你希望的其他資料就更值得你去買一本了。

* 在MS Word XP/ 2003/ 2007中,可以實現在漢字與其Unicode值之間切換:
如果已知一個漢字的內碼,就可以在MS Word中,英文輸入狀態下直接鍵入其Unicode值,再按下鍵盤中的 [Alt+X]組合鍵,就能呈現該漢字。若再按下 [Alt+X]組合鍵,又可呈現其Unicode值。因此,用此方法可以在MS Word中查出任何一個字符的內碼,或者輸入任何一個字符。例如:在MS Word XP中,鍵入7740,再按下鍵盤中的 [Alt+X]組合鍵,就能呈現漢字「着」(只需要Windows系統字型就行了)。
【注意】:MS Word 2000 並不提供按 [Alt+X]組合鍵切換功能。
Unicode:由「Unicode協會」開發的字元編碼標準。透過使用多個位元組代表一個字元,Unicode讓世界上幾乎所有書寫語言皆可以由使用單一字集代表。

如何判斷「隱形的」第五代倉頡的字典書籍呢?
如果你是使用Windows的倉頡輸入法,你還得留意:Windows的倉頡輸入法基本上屬於第三代倉頡。(第五代倉頡的字典書籍並不適用於你。有人含糊其辭或有意無意不寫明其書是使用第五代倉頡編碼)。

購買所謂「繁簡」「2萬5千」等等倉頡字典書籍時,請記得查一下書中「應」,倉頡碼:戈人土心(IOGP);「袅」,倉頡碼:心卜尸女(PYSV)。如果是,可以肯定此書是使用了第五代倉頡編碼,不適合你。請再查一下書中「面」,倉頡碼:一田尸中(MWSL)。如果是,可以肯定此書是徹頭徹尾的第五代倉頡編碼,完全不適合你!否則,你買了書,照着書中的編碼用Windows的倉頡輸入法打字時,肯定會被搞得一頭霧水,啼笑皆非。完全不是那麼一回事呵!有許多字打不出來?!

筆者相信倉頡字典書籍的字數不必求多求全,只要囊括常用字、次常用字就夠了。羅列出全部2萬餘個漢字,書就會厚,成本就會高,售價也會增加,查找起來也費時。沒有篩選、沒有驗證的漢字集成為倉頡字典的書籍,對於絕大多數非專業字型研究人士是毫無意義的,顯然弊多於利。

以上供大家參考。如有興趣,可以瀏覽筆者與同事共同編寫的《Windows倉頡編碼的夜與霧》

(20090527)

[返回上頁]


[華通資訊網]  [華通科技]  版權所有
Copyrignt © 1999 All Rights Reserved
最佳螢幕顯示:800x600,請使用IE4.0瀏覽器瀏覽,E-Mail:cccltd@cccl.com.hk
中文站點導航 | 共享特區 | 電腦書城 | 華通之家 | Java魔術師 | DIY行情