電腦在開始的時候,是以Byte來儲存資料,
1Byte = 8 bits, 1bit能儲存 0 或 1 兩種數值。
也就是從 0000-0000 到 1111-1111,共256種變化,
可用來儲存代表的數值,或者對應的符號。
非數值的資料,在要電腦中表示,最重要的就是編碼(Encode)
就是重新將要表達的符號(Token)先予以統計和計算,
然後以足夠的長度位元加以組合和編碼。
常見編碼系統:
- ASCII 美國國家標準資訊交換碼
(American Standard Code For
Information Exchange)
其定義了一些數字、英文、符號跟控制碼,
也是諸多英文文件傳輸普遍的一種編碼,
其使用 7 Bits來表示字元,可表示27=127種字符.
現有擴充的ASCII,使用到 8 Bits來表示,儲用256種的字元符號。
- 中文編碼系統
如今為止,到底有多少個中文字呢?
東漢許慎說文解字以540部統計 9353
字;
漢字種類繁多,常見四種:象形(pictographs)、指事(simple
ideographs)、
會意(compound ideographs)、 形聲(phonetic
ideographs)。
國語辭典裡共有 13757 個字。
Unicode漢字集共 20902 字。
而中文編碼的系統,常見分類如下:
- 輸入碼(Input Code)
從輸入設備 key in
字符到電腦的轉換碼,例如:不同輸入法。
- 內碼(Internal Code)
電腦中內部儲存或處理的編碼,有Big5、TCA碼、倚天碼、王安碼等。
Big-5碼:目前台灣最常用的內碼,
為資策會在1985年發佈的中文編碼系統,
字集共是13461個字符,其中常用字5401個,
次常用字7652個,及自造字、罕用字、異體字、錯別字等符號408個。
GB 2312碼:中華人民共和國國家標準漢字信息交換用編碼,標準號為
GB 2312-80,1981年5月1日發佈實施。
GBK編碼:目前大陸地區採用的內碼、等同於UCS中新的中文編碼擴展國家標準。GBK編碼可用來表示正體字和簡體字,而GB2312只能表示簡體字。GBK工作小組於1995年10月,同年12月完成GBK規範。該編碼標準相容GB2312,共收錄漢字70205個、符號883個,並提供1894個造字碼位。
- 交換碼(Interchange Code)
漢字標準交換碼 CISCII
(Chinese Ideographic Standard code
for Information Interchange):
由行政院主計處公布,使用2Bytes編碼,按照第一筆劃,
第二部首的順序排列。
全漢字標準交換碼CCCII
(Chinese Character Code for
Information Interchange):
由國字整理小組制訂,使用3
Bytes編碼,按照第一部首,
第二筆劃,並蒐集大陸簡體字、日韓字等字集。
- 輸出碼(Output Code):
也就是字型。
|