ビットとバイトとその他の単位、文字の表現方法


ビットとバイトとその他の単位

コンピュータが表現する最小の単位がビット(bit)ですが、どんな単位でもビットであらわそうとすると
やたら大きい数字なってしまうので、8ビットをひとまとめにしたバイト(byte)という単位が
コンピュータでは主に用いられています。
  

 補助単位
コンピュータの世界にも補助単位があり主に記憶容量等でよく使う「大きい数値をあらわす補助単位」
  処理速度などでよく使う「小さい数値をあらわす補助単位」等がある
  

文字の表現方法

英数字、記号、ひらがな、漢字等は、コンピュータはそのまま理解することができないため、コンピュータが理解できる数値(16進数)に置き換えたものを文字コードという。
文字集合符号化方式という2つの概念が存在し、これらが組み合わさってコンピュータの文字を表している。
文字集合
「文字」と「文字に割り当てた番号」の対応表のこと。
符号化方式
文字集合で定義されている一つ一つの文字を、どのように符号化するかという方式(エンコーディング)。

文字コードの種類とその特徴

ASCIIコード
 ・標準的な文字コード
 ・米国規格協会(ANSI)によって定められた、基本的な文字コード
 ・アルファベット、数字、記号のみ、1文字を7ビットであらわします。
 

EBCDIC
・IBM社が定めた文字コードで、8ビットを使って1文字をあらわします。

シフトJISコード(S-JIS)
・ASCIIのコード体系の文字と混在させて使えるようになっている日本語文字コード
・ひらがな、漢字、カタカナ等が扱える
・1文字を2倍とで表す
EUC
・拡張UNIXコードとも呼ばれ、UNIXというOS情でよく使われる日本語文字コード
・基本的に1文字を2バイトで表すが、補助漢字などは3バイト使う

Unicode
・全世界の文字コードをひとつに統一し、各国のありとあらゆる文字を1つのコード体系であらわそうとした文字コード
・当初は1文字2バイトで表す予定だったが、文字数が足りないので3バイト、4バイトと拡張されている。

以上