非數值資料表示
更新日期:2004.08.01
 
參考資料:
 

電腦在開始的時候,是以Byte來儲存資料,
1Byte = 8 bits, 1bit能儲存 0 或 1 兩種數值。
也就是從 0000-0000 到 1111-1111,共256種變化,
可用來儲存代表的數值,或者對應的符號。

非數值的資料,在要電腦中表示,最重要的就是編碼(Encode)
就是重新將要表達的符號(Token)先予以統計和計算,
然後以足夠的長度位元加以組合和編碼。

常見編碼系統:
  • ASCII 美國國家標準資訊交換碼
    (American Standard Code For Information Exchange)
    其定義了一些數字、英文、符號跟控制碼,
    也是諸多英文文件傳輸普遍的一種編碼,
    其使用 7 Bits來表示字元,可表示27=127種字符.
    現有擴充的ASCII,使用到 8 Bits來表示,儲用256種的字元符號。

  • 中文編碼系統
    如今為止,到底有多少個中文字呢?
    東漢許慎說文解字以540部統計 9353 字;
    漢字種類繁多,常見四種:象形(pictographs)、指事(simple ideographs)、
    會意(compound ideographs)、 形聲(phonetic ideographs)。
    國語辭典裡共有 13757 個字。
    Unicode漢字集共 20902 字。
    而中文編碼的系統,常見分類如下:
    • 輸入碼(Input Code)
      從輸入設備 key in 字符到電腦的轉換碼,例如:不同輸入法。

    • 內碼(Internal Code)
      電腦中內部儲存或處理的編碼,有Big5、TCA碼、倚天碼、王安碼等。

      Big-5碼:目前台灣最常用的內碼,
      為資策會在1985年發佈的中文編碼系統,
      字集共是13461個字符,其中常用字5401個,
      次常用字7652個,及自造字、罕用字、異體字、錯別字等符號408個。

      GB 2312碼:中華人民共和國國家標準漢字信息交換用編碼,標準號為 GB 2312-80,1981年5月1日發佈實施。

      GBK編碼:目前大陸地區採用的內碼、等同於UCS中新的中文編碼擴展國家標準。GBK編碼可用來表示正體字和簡體字,而GB2312只能表示簡體字。GBK工作小組於1995年10月,同年12月完成GBK規範。該編碼標準相容GB2312,共收錄漢字70205個、符號883個,並提供1894個造字碼位。

    • 交換碼(Interchange Code)

      漢字標準交換碼 CISCII (Chinese Ideographic Standard code for Information Interchange):
      由行政院主計處公布,使用2Bytes編碼,按照第一筆劃, 第二部首的順序排列。

      全漢字標準交換碼CCCII (Chinese Character Code for Information Interchange):
      由國字整理小組制訂,使用3 Bytes編碼,按照第一部首, 第二筆劃,並蒐集大陸簡體字、日韓字等字集。

    • 輸出碼(Output Code): 也就是字型。



曾聖超老師製作