程式語言 : 關於 Unicode 的文章; 连同 Big5e 編碼
發表人 ols3 貼於 2002/11/20 0:00:00 (3108 人讀取)
程式語言

Unicode 在未來可能越來越重要, 資訊人不可不知....
我找到一篇中研院的通訊, 有提到 utf-16 及 utf-8.
文章出處: 中央研究院計算中央通訊
http://www.ascc.net/nl/89/


另外, Big5e 也是最近很重要的論點, 由 statue 先生寫的這篇文章十分受用. 介紹給您!



由方方土探討 Big5e 編碼


中推會Big5e字型安裝程式下載區

《資訊話題》

Unicode與ISO10646(上)(作者:曾士熊)

一、緣起

1960年代初期,美國國會圖書館(Library of Congress, LC)的
Henriette Avram等人開始研擬機讀編目格式,同時James Agenboard
等人也制訂了英文的字元集和交換碼,以做為美國圖書館界書目交
換的一起標準。LC交換碼隨後發展成為美國的國家標準ASCII(American
Standard Codefor Information Interchange),而且還進一步演
變成世界性的電腦字元編碼標準ISO646(其全名為7-bit coded
character set for information interchange)。時至今日,雖然
一個位元組(byte)的長度已經從7個位元(bit)增加為8個位元,
ASCII和ISO646 仍然是電腦與網路世界裡要的奠基標準。

依ASCII和ISO646的規定,7個位元所能提供的128個編碼位置(編
碼範圍為0~127)被區分為兩部分:94個圖形字元碼和34個控制字
元碼。圖形字元包括52個大小寫英文字母﹑10個阿拉伯數字﹑9個標
點符號﹑6個括號,连同17個其他符號,編碼範圍從33到126。控制
字元則包括10個傳輸控制字元、6個版面調整字元、4個設備控制字
元、 4個資訊分隔字元和10個特别控制字元,其編碼為0~32和127。
當電腦或網路設備收到一連串的位元信號時,通常會一邊接收一邊
切分為位元組(即每8個位元一切),並且立即分辨剛收到的位元
組究竟是控制字元碼還是圖形字元碼。若是屬收訊設備相關的控制
字元時(例如傳輸控制、編碼為7的BELL等字元),當電腦或網路
設備會截留該字元並立即做出對應動作(例如BELL字元會驅使收訊
設備叫一聲),否則不予處理而傳送給後續設備。換言之,電腦和
網路設備會吃掉位元串裡的特定控制字元碼。

隨著電腦弁鄋漱橧舠j大與價格的日趨便宜,其應用領域也越來
越廣。但是隨之而來的各種編碼需求,卻使得單一位元組的編碼方
式,因編碼空間太小,變得不足以因應各種應用程式的需求。中文
字、排版系統的標誌符號、非英語拼音字母和圖形符號等的編碼,
需要使用2或多個位元組來編碼。同時,為了預防這些多位元組字元
碼被電腦或網路設備「吃掉」其中的某個位元組,編碼時必須避開
每個位元組的0~32和127這34個控制碼。這種做法嚴重浪費編碼空
間,就多位元組擴充編碼的國際標準ISO2022而言,兩個8位元的位
元組只能提供最多188個控制字元和35,344個文字形符號的編碼空間,
共計35,532個編碼位置,但是16個位元的編碼空間事實上高達65,536。
兩者相比較,ISO2022的16位元編碼只能達到最大編碼空間的54%,
顯得利用率很差。同時在應用層次的編碼,由於廠商眾多又缺乏共
識,往往您編您的碼、我編我的碼,其後果則是引發萬碼奔騰的亂
象。

為容納全世界各種語言的字元和符號,ISO的一些會員國於1984年
發起定制新的國際字元集編碼標準。新標準由工作小組ISO/IEC
JTC1/SC2/WG2(註1)負責擬訂(以下簡稱WG2),最後定案的標準
命名為“Universal Multiple-Octet Coded Character Set”
(簡稱UCS),其編號則訂為ISO/IEC 10646。依WG2原來的規劃,
ISO10646的編碼結構係沿襲ISO2022八位元延伸編碼結構以避開C0和
C1兩個控制碼區(註2),但打破每個字元碼裡的任何位元組的bit-8
(即最左邊的位元,其值為28=128)必須都設為0或是都設為1的限制,
以提高編碼空間的使用率。同時,為了能有足夠位置以容納全世界各
種語言的字元和符號,连同為了配合微處理器以8、16、32甚或64個
位元為一個運算處理單位的趨勢,ISO10646的字元碼長度被規定為
定長的4個八位元(octet)。

ISO10646草案初稿一經公佈,其編碼結構立即遭到美國部份電腦
業者的反對。1988年初,美國Xerox公司的Joe Becker倡議以新的編
碼結構,另外編訂世界性字元編碼標準:將電腦字元集編碼的基本
單位由現行的7或8個位元一舉擴充為16個位元,並且充分利用65,536
個編碼位置以容納全世界各種語言的字元和常用符號。新的字元集
編碼標準被命名為“Unicode”(註3)。一群來自Xerox公司和Apple
公司的工程師組成工作小組,負責Unicode的原始設計工作。1991年
元月,十多家電腦硬軟體、網路和資訊服務業者,包括:IBM、DEC、
Sun、Xerox、Apple、MicroSoft、Novell名公司,一起出資成立
Unicode協會(The Unicode Consortium),並由協會設立非營利的
Unicode公司。Unicode協會成立之後,將原先的工作小組擴編為
Unicode技術委員會(Unicode Technical Committee),專責Unicode
的字元搜集、整理、編碼等工作。推動Unicode成為國際標準的工作,
則由Unicode公司負責。Unicode草案第一版於1989年9月發表,歷經
多次修訂後,分別於1991、92年出版了Unicode標準第一版(The

文章整理:西部数码--专业提供域名注册虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!