文字コードの基本と、表現できる文字数


文字コードに関して調べためも。

文字コード wikipediaより

文字コード(もじコード)はコンピュータ上で文字(キャラクタ (コンピュータ))を利用するために各文字に割り当てられるバイト表現。もしくは、バイト表現と文字の対応関係(文字コード体系)のことを指して「文字コード」と呼ぶことも多い。

英数字の文字コードは 1バイトで表現されるが、この場合、256文字しか表現できない。すると、日本語、中国語の感じは表現しきれないため、それぞれ2バイトのコード体系を定め運用している。

IT用語辞典 文字コードより

1バイトの文字コードとしてはASCIIが世界標準となっているが、一部の大型コンピュータではIBM社のEBCDICを使うものもある。

日本語の文字コードは、JIS(日本工業規格)で標準化されたJISコードの他、主にUNIXなどで使われるEUC、WindowsやMac OSなどで使われるシフトJISの3種類が利用されている。

最近では、世界のほとんどの主要な言語をサポートした2バイトの統一文字コード体系であるUnicodeの規格化が進み、一部で利用が始まっている。

Unicodeはこれまで各国でばらばらに制定されてきた文字コードを統一するものとして期待されているが、普段アルファベットしか使わない欧米の情報技術関連企業を中心に規格化が進んだこともあり、数多くの文字を抱えるアジアの国々からは批判されている。