Unicode中国語ソート
転載:
http://www.bullog.cn/blogs/cathayan/archives/33231.aspx
Linuxの下でUTF-8を全面的に使った后にかつて中国语の顺位が少し理解していないことを発见したことがあって、昨日やっと他の人の讨论を见て、もとは
Unicodeの中の漢字の順序はなんと「康熙字典」の偏旁部首順だった.調べてみると、康熙辞書の部首は214個あります.
Google Docsのように、Spreadsheet表を並べ替えると、中国語は上の部首順に進み、部首が前の字が前になり、部首が同じならストローク数、ストローク数が同じならどう並べばいいか分からない.たとえば、次のような結果が得られます.
劉孫康張李王趙銭斉
それらの部首はそれぞれ刀子広弓木王走金斉である.
また、刈劉は刹剤で削り、文と貝は同じ4画、殺と斉は同じ6画で、点は縦の前で、横の前に置いて、伝統的に「江山千古」(丶丨他にも、「寒来暑往」(丶一丨放///)、「天上人间」(一丨放丶////)、札字(一丨放丶////)法、礼(丶一丨放////)法などがある.
このようにUnicodeを使うと、何の処理もしないで並べ替えた漢字も理にかなっている.しかし、ピンインの順番を並べたいなら、もっと方法を考えなければなりません.
Unicodeと康熙を調べた時、これも調べました.
海峰五筆超大文字セット入力法、Winシステム用の5つの入力方式で、86と98の標準があり、最もすごいのは:収録
ユニコード超大字集全7万余の中日韓漢字、同時にexeをインストールします
このフォント :
http://www.bullog.cn/blogs/cathayan/archives/33231.aspx
Linuxの下でUTF-8を全面的に使った后にかつて中国语の顺位が少し理解していないことを発见したことがあって、昨日やっと他の人の讨论を见て、もとは
Unicodeの中の漢字の順序はなんと「康熙字典」の偏旁部首順だった.調べてみると、康熙辞書の部首は214個あります.
一丨丶放乙----二二二二二二人は八冂文斗斤方無日曰曰曰月木欠止悪繆耳?肉臣自至臼舌舛舟艮色青年虍虫血行衣864
Google Docsのように、Spreadsheet表を並べ替えると、中国語は上の部首順に進み、部首が前の字が前になり、部首が同じならストローク数、ストローク数が同じならどう並べばいいか分からない.たとえば、次のような結果が得られます.
劉孫康張李王趙銭斉
それらの部首はそれぞれ刀子広弓木王走金斉である.
また、刈劉は刹剤で削り、文と貝は同じ4画、殺と斉は同じ6画で、点は縦の前で、横の前に置いて、伝統的に「江山千古」(丶丨他にも、「寒来暑往」(丶一丨放///)、「天上人间」(一丨放丶////)、札字(一丨放丶////)法、礼(丶一丨放////)法などがある.
このようにUnicodeを使うと、何の処理もしないで並べ替えた漢字も理にかなっている.しかし、ピンインの順番を並べたいなら、もっと方法を考えなければなりません.
Unicodeと康熙を調べた時、これも調べました.
海峰五筆超大文字セット入力法、Winシステム用の5つの入力方式で、86と98の標準があり、最もすごいのは:収録
ユニコード超大字集全7万余の中日韓漢字、同時にexeをインストールします
このフォント :
CJK [4E00-9FFF] 20992 20924
CJK A [3400-4DBF] 6592 6582
CJK B [20000-2A6DF] 42720 42711
CJK C [2A700-2BA7F] 4224 4219
CJK [2F800-2FA1F] 544 542
CJK [2E80-2EFF] 128 116
CJK [2F00-2FDF] 224 214
CJK [31C0-31EF] 48 36
CJK [F900-FAFF] 512 474