javascriptは漢字のUnicodeを取得します.
924 ワード
Unicodeは文字セットが一つしかないです.中、日、韓の3文字はUnicodeの中の0 x 3000から0 x 9 FFFの部分を占有しています.
Unicodeは現在一般的に採用されているのはUCS-2です.漢字の「経」の符号化は0 x 7 ECFです.文字コードは16進数で表されています.十進数と区別するために、16進数は0 xで始まり、0 x 7 ECFは10進数で32463、UCS-2は2バイトで文字を符号化します.だからUCS-2は最大65536文字を符号化できます.コードは0から127までの文字はASCIIコードの文字と同じです.例えば、アルファベット「a」のユニックコードは0 x 0061、10進数は97です.「a」のASCIIコードは0 x 61、10進数も97です.漢字の符号化については、Uniodeは漢字にあまり良くないです.これも仕方がないです.簡体字と繁体字は全部で六七万字です.UCS-536万字です.Unicoodeはほとんど使わない漢字しか排除できません.幸い常用する簡体字は七千字以上しかないです.すべての漢字を表すために、UnicoodeにはUCS-4の規格があります.つまり4バイトで文字を符号化しますが、今は普通に使われているのはUCS-2です.二バイトだけで符号化します.
ユニックコード表をご覧ください.
http://www.cnblogs.com/whiteyun/archive/2010/07/06/1772218.html
JAvascriptでUnicodeを取得する方法はとても簡単です.
Unicodeは現在一般的に採用されているのはUCS-2です.漢字の「経」の符号化は0 x 7 ECFです.文字コードは16進数で表されています.十進数と区別するために、16進数は0 xで始まり、0 x 7 ECFは10進数で32463、UCS-2は2バイトで文字を符号化します.だからUCS-2は最大65536文字を符号化できます.コードは0から127までの文字はASCIIコードの文字と同じです.例えば、アルファベット「a」のユニックコードは0 x 0061、10進数は97です.「a」のASCIIコードは0 x 61、10進数も97です.漢字の符号化については、Uniodeは漢字にあまり良くないです.これも仕方がないです.簡体字と繁体字は全部で六七万字です.UCS-536万字です.Unicoodeはほとんど使わない漢字しか排除できません.幸い常用する簡体字は七千字以上しかないです.すべての漢字を表すために、UnicoodeにはUCS-4の規格があります.つまり4バイトで文字を符号化しますが、今は普通に使われているのはUCS-2です.二バイトだけで符号化します.
ユニックコード表をご覧ください.
http://www.cnblogs.com/whiteyun/archive/2010/07/06/1772218.html
JAvascriptでUnicodeを取得する方法はとても簡単です.
var txt = new String("Hello world");
document.write(txt.charCodeAt(index));
Dcument.write(txt.chart(index)を加えたほうがいいです.正しい文字を取ったかどうか確認してください.取得した文字が争われない場合は、headタグに