cccltd_title2.gif (14532 bytes)

cccltd_book.gif (2247 bytes)


《千字文Unicode版》
電腦字元的校理
.PDF格式



《千字文Unicode版》(全文)
.PDF格式下載(含前言備註)



《千字文Unicode版》(全文)
.PDF格式下載(含備註)



《千字文Unicode版》(全文)
.PDF格式下載



普通話與IT


普通話與IT - 討論區


   


作者:李祥

  《千字文》四字一句,共二百五十句,一千字。經過一千五百年的流傳,在抄寫刻印的過程中,早就發生了版本的差異。近二三十年資訊流動蓬勃,網上資料可輕易地複製、發佈。由於電腦字元的局限,繁簡漢字轉換的紕漏,使得《千字文》中不少字的差異更為顯著。我們--「李祥工作室」盡可能的由接近源頭的圖書資料著手,對《千字文Unicode版》進行了電腦字元的校理。
 
一、《千字文》的史書記載和現代較權威性的說法
 
  台灣國立故宮博物院在「千字文書法展-展覽概述」中寫道:『千字文相傳是南朝梁武帝(464-549)為教導諸子學書,搨取內府所藏王羲之(303-361)書蹟中不重複的一千字,命周興嗣(?-521)次韻而成,四字一句,內容論及自然、社會、歷史、倫理等。千字文不僅成為古代兒童啟蒙教育的代表作,在日常生活中也常被運用於計數編號,如項元汴(1525-1590)的書畫收藏中就可以見到以千字文編號的例子。』『在文學上,千字文也引發模仿創作的風潮,出現各種變體千文,還有將句子直接運用於小說、戲曲中,反映出強大的滲透力。』
 
  著名的語言學家及語文教育家張志公指出:『關於編著的經過和千字的來源,較早的記載見唐姚思廉的《梁書》和唐李綽的《尚書故實》。《梁書》說:高祖以三橋舊宅為光宅寺,敕興嗣與陸各制寺碑。及成,俱奏。高祖用興嗣所制者。自是《銅麥銘》《柵塘碣》《北伐檄》《次韻王羲之書千字》,並使興嗣為文。(見周興嗣傳,《梁書》四十九,《列傳》四十三。)《尚書故實》的記載是:梁武教諸王書。令殷鐵石於大王書中塌一千字不重者,每字片紙,雜碎無序。武帝召興嗣謂曰:“卿有才思,為我韻之。”興嗣一夕編綴進上,鬢髮皆白,而賞賜甚厚。右罩孫智永禪師,自臨八百本散與人間,江南諸寺各留一本。』(摘錄自「傳統語文教育初探」-張志公(1918~1997))
 
  王羲之(公元303—361年,另一說法是公元321—379年),字逸少,號澹齋,是東晉書法大家,被後人尊為書聖。王羲之生前並無千字文,過了百餘年之後《千字文》才成書。約梁武帝天監年間(公元502—520年)經周興嗣編次成韻文,如今人們所指的《千字文》就是《次韻王羲之書千字》的簡化通用名稱。
 
  南朝梁武帝在位時沒有留下任何可尋證的千字文資料,如今人們所述的都是南朝梁滅亡後,又過了百餘年,唐代姚思廉的《梁書》和李綽的《尚書故實》之說法。我們今天已經看不到周興嗣成書的《千字文》全文之原版,其實在唐代相關史書中就看不到有周興嗣成書的《千字文》全文之原版的記載。大家可以看到的唐《梁書》中所記載的周興嗣「制寺碑」一事,但所說的寺碑已不知所終,沒有留下破碑也沒有留下拓片,它早已遺失在歷史的塵埃中。
 
  我們完全認同:『千字文從最初的集王字到智永(約510-約610)臨寫八百本分施浙東諸寺,都與書法學習有密切關係,也因此一出現即受到學書者的重視,在書史上持續地發揮影響力。』(摘錄自「千字文書法展-展覽概述」-台灣國立故宮博物院)。釋智永為王羲之七世孫,為隋唐書學名家。「智永真草千字文」是中國書法史上留傳的千古名跡。智永為後人留下了寶貴的《千字文》全文資料,確實持續地發揮其影響力。
 
二、由博物館的珍藏資料,探尋校理《千字文》全文
 
  遼寧省博物館收藏「唐歐陽詢行書千字文」,此卷系唐代書法大家歐陽詢早年用功之作,首尾百餘行,前後千餘字,自始至終,一絲不苟。卷上所鈐唐宋以來的官私鑒藏印極多,是一件國寶級文物。1945年由長春偽滿洲國皇宮佚出,後歸遼寧省博物館收藏。歐陽詢(公元557一641年),字信本,潭州臨湘人。隋時官至太常博士,唐時封為太子率更令,也稱「歐陽率更」。楷書四大家(歐陽詢、顏真卿、柳公權、趙孟頫)之一。
 
  由年份上來看,《千字文》成書最早是梁武帝天監年間(公元502—520年),據推算,是在天監九年(510年)以前經周興嗣編次成韻文。釋智永(約510-約610)之「智永真草千字文」,歐陽詢(公元557一641年)之「歐陽詢行書千字文」由年份上來看,相隔數十年,應該較接近源頭。由身份上來看,他們也是能夠接近源頭的。我們相信由「智永真草千字文」「歐陽詢行書千字文」為主線索之一去探尋,比起以明清及近代的書法為基礎更真切。
 
  我們看到了另一個途徑:「王羲之臨鍾繇千字文」。『《王羲之臨鍾繇千字文》為三希堂法帖第三帖,現藏北京故宮博物院。傳說是宋人集王羲之字摹本。由該帖歷代藏印之多,可知其在人們心目中的地位。關於此帖的真偽,歷代也有很多闡述。乾隆定論此帖「筆意精到,而結構特為謹嚴」。著名書法家啟功先生等一致認為「是唐、宋間人所作」,專家們評書此帖「在用筆結體上,嚴守矩矱而不逾于法,雍容大度而無小家氣」[見《中國書法》總第二期,一九八三年五月]本書作者將原帖重新整理排版後,與人們現常用的周興嗣版本「千字文」基本一致,缺字補充僅為四十六個「見附錄」。原帖的問題是「辭語雜湊,不能克讀」。經過重新編排,該問題已得以解決,這樣,就可以在讀文時朗朗上口,在臨習、背默時增加實效性,以最終達到在最短時間內快速熟悉、記憶、掌握該帖。』(摘錄自「新編 王羲之臨鍾繇千字文」-朱慶禮)
 
  由於千字文是從王羲之碑帖中挑選拓印而出的一千個字所組成,即便「王羲之臨鍾繇千字文」不是王羲之真跡,即便它是集王羲之的字唐人所書,仍然『是一件傳世有名的墨蹟,為歷代收藏家所寶重』。其內容『與人們現常用的周興嗣版本「千字文」基本一致,缺字補充僅為四十六個「見附錄」。』我們相信由「新編 王羲之臨鍾繇千字文」為主線索之一去探尋,比起以清代、民國初期的千字文「讀本、釋句、釋義」為基礎更踏實。
 
三、《千字文Unicode版》電腦字元的校理工作簡述
 
1. 是次校理工作,主要參考版本是:
1).「新編王羲之臨鍾繇千字文」,簡稱「*1」。
天津人民美術出版社(2008-06出版)
2).(陳、隋)「智永墨本真草千字文」,簡稱「*2」。
吉林文史出版社 (2009-09出版)
3).(唐)「歐陽詢行書千字文」,簡稱「*3」。
吉林文史出版社(2009-09出版)
 
2. 是次校理工作,輔助參考版本是:
A).(唐)「顏真卿楷書千字文」,簡稱「*A」。
齊魯書社(2010-05出版)
B).(宋)「趙佶真書千字文」,簡稱「*B」。
吉林摄影出版社(2005-07第1版)〔宋徽宗,名赵佶(公元1082~1135年)〕
C).(元)「趙孟頫真草千字文」,簡稱「*C」。
上海書畫出版社(2006-01出版)
D).(元)「班惟志書二體千字文」,簡稱「*D」。
人民美術出版社(2010-06出版)
E).(明)「文徵明小楷千字文」,簡稱「*E」。
 
3.《千字文Unicode版》電腦字元校理的一般操作順序
  《千字文Unicode版》電腦字元的校理工作是用千字文的不同版本加以比較,核对文字的異同,盡可能找出原文的真相。比較所見到的「漢字字形」,而不是以「四言」的釋義來決定是否是明顯的錯別字。首先以主要參考版本*1*2*3為依據,採用Unicode 5.0(等同GB18030-2005)輸入相關「漢字字形」。然後對於不能由主要參考版本確定的漢字,我們才查看輔助參考版本*A*B*C*D*E。這樣既可節省查證時間,又不漏失求證的可能。
 
  第一輪輸入是使用香港華通《會說普通話的輸入法》3(32-bit/64-bit)的自由速成模式和自由快拼模式輸入相關漢字,基本上可以完成CJK和CJK統一漢字擴充A的漢字輸入,由於伴有普通話同步發音,故此,可以比較容易地去掉不合理的字元。
 
  第二輪輸入是使用Windows 7「微軟速成輸入法」,基本上可以完成CJK統一漢字擴充B的漢字輸入,但是還需要再通過查閱目前收字最多的漢字字典--《中華字海》才能完成去掉不合理的字元。
 
  對於CJK統一漢字擴充A的漢字、擴充B的漢字,在其後都附有Unicode碼。對於CJK統一漢字一般不提供Unicode碼,其中有可能混淆的漢字也提供Unicode碼。我們提供漢字的Unicode碼是為了大家能夠較易地輸入相關漢字。在MS Word中可以輕鬆地實現漢字與其Unicode值之間的轉換。如果已知一個漢字的Unicode內碼,就可以在MS Word中,英文輸入狀態下直接鍵入其Unicode值,再按下鍵盤中的 [Alt+X]組合鍵,就能呈現該漢字。若再按下 [Alt+X]組合鍵,又可呈現其Unicode值。因此,用此方法可以在MS Word中查出任何一個字符的內碼,或者輸入任何一個字符。
 
例一:在MS Word中,鍵入4EB0,再按下鍵盤中的 [Alt+X]組合鍵,就能呈現漢字「亰」(需要有含CJK統一漢字擴充A的字型)。
 
例二:在MS Word中,鍵入20991,再按下鍵盤中的 [Alt+X]組合鍵,就能呈現漢字「𠦑」(需要有含CJK統一漢字擴充B的字型)。
【注意】:Microsoft Word XP或以上版本才提供按[Alt+X]組合鍵切換功能。
 
4. 《千字文Unicode版》所使用的電腦字元的簡介
  目前GB18030有兩個版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本(含CJK統一漢字),它的主要特點是在CJK統一漢字基礎上增加了CJK統一漢字擴充A的漢字。GB18030-2005的主要特點是在GB18030-2000基礎上增加了CJK統一漢字擴充B的漢字。
 
  Unicode 5.0的99089個字符中,漢字總數是20924+6582+42711=70217 (不計兼容漢字)。它們的分佈如下:

分段名稱 開始碼位 結束碼位

字符數

CJK統一漢字 4E00  9FBB

20924

CJK統一漢字擴充A 3400 4DB5

6582

CJK統一漢字擴充B 20000  2A6D6 42711
CJK兼容漢字 F900 FA2D 302
CJK兼容漢字 FA30  FA6A 59
CJK兼容漢字 FA70 FAD9 106
CJK兼容漢字補充 2F800 2FA1D 542


四、《千字文Unicode版》電腦字元的校理結果
 
  是次公佈的是《千字文Unicode版》,主要是為了給網絡上流傳的千字文文件提供一個可信任的參考資料。千字文的正文以大字型顯示,其中彩色字在該行的下方,均有簡要的說明,綠色為Unicode CJK Ext-A區字元(21個),紅色為Unicode CJK Ext-B區字元(35個),若瀏覽者其電腦系統的版本較舊,將會不能正常顯示這類字元。在Windows Vista/7中可以完整顯示《千字文Unicode版》全文。故此,《千字文Unicode版》提供.pdf文件下載。雖然電腦字元是我們的強項,但電腦字元在古文方面的應用只是一個初步嘗試,由於我們水平有限,缺點和錯誤之處,敬希大家指正。
 
(一)、在流傳過程之中,可以肯定的明顯錯別字
 「始制文字」:「制」*123,不是「製」。
 「周發殷湯」:「殷」*123,不是「商」。
 「鳴鳳在樹」:「樹」*123,不是「竹」。
 「梧桐早彫」:「早」*123,不是「蚤」。
 「落葉飄颻」:「颻」(U-98BB)*123,不是「搖」。
 「遊鵾獨運」:「鵾」(U-9D7E)*123,不是「鯤」。
 「九州禹跡」:「跡」*123,不是「蹟、迹」。
 「嶽宗恒岱」:「恒」*123,不是「泰」。
 「禪主云亭」:「云」*123,不是「雲」。
 「剋念作聖」:「剋」(U-524B)*123,不是「克」。
 「百郡秦并」:「并」(U-5E76)*123,不是「並」。
 「藍笋象床」:「床」*123。不是「牀」
 
 「我藝黍稷」:「藝」(U-9451)*123,不是「蓻(U-84FB)」。
 「飢厭糟糠」:「飢」(U-98E2)*123,不是「饑(U-9951)」。
 
 「女慕貞絜」:「絜」(U-7D5C)*123,同「潔」,但此處不是「潔」字。
 「藍笋象床」:「笋」(U-7B0B)*123。同「筍」,但此處不是「筍」字。
 「吊民伐罪」:「吊」*123,同「弔」,但此處不是「弔」字。
 「宮殿磐欝」:「磐」*123,通「盤」,但此處不是「盤」字。
 「林睾幸即」:「睾」(U-777E)*123,同「皋」,但此處不是「皋」字。
 「工嚬妍笑」:「嚬」(U-56AC)*123。古同「顰」。但此處不是「顰」字。
 「鑑貌辯色」:「辯」(U-8FAF) *123,通「辨」。但此處不是「辨」。
 「梧桐早彫」:「彫」(U-5F6B)*123,通「凋」。但此處不是「凋」。
 
(二)、古時也有此種寫法的簡化字
 「盖此身髮」:「盖」(U-76D6)*123,是「蓋」的簡化字,古時也有此寫法。
 「遐迩壹體」:「迩」(U-8FE9)*123,是「邇」的簡化字,古時也有此寫法。
 「夫唱婦随」:「随」(U-968F)*123,是「隨」的簡化字,古時也有此寫法。
 「性静情𨓜」:「静」(U-9759)*123,是「靜(U-975C)」的簡化字,古時也有此寫法。
 「老少異粮」:「粮」(U-7CAE)*123,(中華字海)同「糧」《墨子‧魯問》。今為「糧(U-7CE7)」的簡化字。
 「冈談彼短」:「冈」(U-5188)*123,今是「岡」的簡化字,此古書法所見「冈」是「罔」的草書寫法。
 
(三)、由於內碼及用字習慣等原因,被人們改用異體字
 「玉出崐崗」:「崐」(U-5D10)*123,「昆」的異體。BIG5碼文件多改用「崑(U-5D11)」字。
 「丙舍傍啓」:「啓」(U-5553)*123,「啟」的異體。BIG5碼文件多改用「啟(U-555F)」字。
 「亦聚羣英」:「羣」(U-7FA3)*123,不是「群」。BIG5碼文件多改用「群(U-7FA4)」字。
 「户封八縣」:「户」(U-6237)*123。不是「戶」。BIG5碼文件多改用「戶(U-6236)」字。
 「夙興温清」:「温」(U-6E29)*123,不是「溫」。BIG5碼文件多改用「溫(U-6EAB)」字。
 「鑑貌辯色」:「鑑」(U-9451)*123,不是「鑒」。都屬於BIG5碼字,今台灣多用「鑒(U-9452)」。
 「索居閑處」:「閑」(U-9591),通「閒」。此處不是「閒」。都屬於BIG5碼字,今台灣多用「閒(U-9592)」。
 
(四)、近似手寫體的舊字型
 「髙𠖌陪輦」:「髙」(U-9AD9)(中華字海)「高(U-9AD8)」的舊字型。
 「禪主云𠅘」:「𠅘」(U-20158)(中華字海)「亭」的舊字型。
 「晦魄𤨔照」:「𤨔」(U-24A14)(中華字海)同「環」字見《字匯》。
 「曠逺綿邈」:「逺」(U-52D1)(中華字海)同「遠」見《重編國語辭典》。
 「索居閑𩂜」:「𩂜」(U-2909C)(中華字海)同「處」字見《篇海》。
 「浮渭𢴃涇」:「𢴃」(U-22D03)(中華字海)同「據」見《敦煌俗字譜》。
 
 「曰嚴與敬」:與*123,古書寫電腦無此字型。
 「馳譽丹青」:譽*123,古書寫電腦無此字型。
 「接杯舉觴」:舉*123,古書寫電腦無此字型。
 
(五)、古今書寫筆劃不同的字
古書寫少「一點」的字
 「川𣴑不息」:古書寫「“流”右上方沒有一點」-𣴑(U-23D11)(中華字海)同「流」。見《宋無以來俗字譜》。
 「性静情𨓜」:古書寫「“逸”右方沒有一點」-𨓜:(U-284DC)(中華字海)同「逸(U-9038)」。字見《敦煌俗字譜》。
 
古書寫多「一點」的字
 「束帶矝㽵」:古書寫「“矜”右下方有一點」-矝(U-8129)古同「矜(U-77DC)」。
 「巖岫杳㝠」:古書寫「“冥”上方有一點」-㝠(U-3760)(中華字海)同「冥」。
 「飢厭糟糠」:厭(U-53AD)*123,古書寫「上方多“一點”」電腦無此字型。
 
古書寫少「一撇」的字
 「路俠槐𠨞」:古書寫「右方上方少一撇」-𠨞:(U-20A1E)(中華字海)同「卿」。字見《集韻》。
 「釋紛利俗」:古書寫「左上方少“一撇”」-𥼶:(U-25F36)*123,(中華字海)淘米見《說文解字注》。釋義不符,此版本用「釋」。
 「龍師火帝」:師*123,古書寫「“師”右上方沒有一撇」電腦無此字型。
 「磻溪伊尹」:磻(U-78FB)*123,古書寫「右方“番”上方少一撇」電腦無此字型。
 
古書寫多「一橫」的字
 「東西二亰」:亰(U-4EB0)<文>與「京」同。
 「㬌行維賢」:㬌(U-3B0C)(中華字海)同「景」字見漢《曹全碑》 。
 「執熱願涼」:涼*123,古書寫「右方是“亰”」電腦無此字型。
 「左達承眀」:眀(U-7700)與「明」同(見《字彙》)。。
 「踐土會盟」:盟*123,古書寫「上方是“眀”」電腦無此字型。
 
古書寫少「一橫」的字
 「徳建名立」:徳(U-5FB3)(中華字海)同「德」見《宋元以來俗字譜》。
 「虛堂習聴」:聴(U-8074)(中華字海)同「聽」見《敦煌俗字譜》。
 
古書寫「竹字頭」寫為「草字頭」的字,查釋義十分重要
 「莭義㢘退」:莭(U-83AD)*123,(中華字海)jié同「節」見《干祿字書》。
 「頋荅審詳」:荅(U-8345))*123與「答」同(見《玉篇》)。
 「恬茟倫紙」:茟(U-831F)*123,(中華字海) bí同「筆」字見魏《元祐墓志》。
 
 「肆筵設席」:筵(U-7B75)*AB,古書寫「上方為“艹”」電腦字型-莚 (U-839A)*123*CDE。[莚蔓]釋義為牽纏。此版本用「筵」字。
 「寓目囊箱」:箱(U-7BB1)古書寫「上方為“艹”」電腦字型-葙(U-8459)*123。釋義為植物。此版本用「箱」。
 「牋牒簡要」:簡(U-7C21)古書寫「上方為“艹”,內下方“月”」電腦字型-蕑:(U-8551)*123。釋義為蘭草、蓮子。此版本用「簡」。
 
(六)、訛字
 「䔍初誠羙」:䔍(U-450D)(中華字海)「篤」的訛字。
 「焉㦲乎也」:㦲(U-39B2)(中華字海)「哉(U-54C9)」的訛字。見《正字通》。
 
(七)、各版本上顯示不同的異見字
 「律吕調陽」:吕:(U-5415)*1*ABCE,「吕」舊字形是「呂」。「𠮥」(U-20BA5)*23*D,(中華字海)同「召」。「吕、𠮥」屬「異見字」,此版本用「吕」字。
 「夙興温清」:「清」(U-6E05)*123,不是「凊(U-51CA)」*ABCDE。屬「異見字」,此版本用「清」字。
 「藉甚無竟」:「藉」(U-85C9)*123*AD,jiè <文>做襯墊的東西。不是「籍」*BCE。屬「異見字」,此版本用「藉」字。
 「背芒面洛」:「芒」(U-8292)*123*CD。不是「邙(U-9099)」*ABE。屬「異見字」,此版本用「芒」字。
 「羲暉朗曜」:「羲」(U-7FB2)*123*BCD。曦(U-66E6)*A。此版本用「羲」。
 
是否當年殷鐵石從王羲之碑帖中挑選拓印一千個字時,沒有拓出「邙、曦」等本字,因而周興嗣編次成韻文時只好借用了音同的字「芒、羲」等来替代呢?由於我們手邊的資料所限,有待大家進一步查證。
 
  是次《千字文Unicode版》電腦字元校理是以漢字字形為主進行,不是以「四言」的釋義來決定是否是明顯的錯別字。但是,以漢字字形為主也不是絕對的,對於古今書寫筆劃不同的字,我們還是要查看單字的釋義以免誤認。由於我們水平有限,只是一個初步嘗試,缺點和錯誤之處,敬希大家不吝賜教。謝謝!
 

若瀏覽者其電腦系統的版本較舊,將會不能正常顯示本文某些電腦字元。
完整顯示請瀏覽:『《千字文Unicode版》電腦字元的校理』的.PDF格式


 
 
                     二○一○年十月三十日於香港
 
 
【歡迎轉載‧翻印】
 

 

 

[返回上頁]


[華通資訊網]  [華通科技]  版權所有
Copyrignt © 1999 All Rights Reserved
最佳螢幕顯示:800x600,請使用IE4.0瀏覽器瀏覽,E-Mail:cccltd@cccl.com.hk
中文站點導航 | 共享特區 | 電腦書城 | 華通之家 | Java魔術師 | DIY行情