Julia で令和対応(やっつけ)してみた


TL;DR

  • 対応したこと:Unicode U+32FF('㋿')の扱い(エミュレート)
    • pkg> add https://github.com/antimon2/Reiwa.jl.git
  • 対応してないこと:和暦西暦変換

新元号サポートのニュース

Ruby 2.6.3 で「日本の新元号『令和』のサポート追加」が話題になっています。

なんか面白そうだったので Julia でも同じようなこと出来ないか、とやってみました。
日付の方の対応(和暦のformatting/parsing)はとりあえずおいといて、Unicodeの方の対応(U+32FF SQUARE ERA NAME REIWA の扱い)だけ。

Reiwa.jl 作りました

できました。

といっても Julia のコアをいじって正式対応ではなく、文字列の互換型を定義してエミュレートする形で。

成果物→ https://github.com/antimon2/Reiwa.jl

対象の Julia バージョンは v1.x です(v1.0.3, v1.1.0 で動作確認済)

使い方

Julia では通常、文字列リテラルは "〜" と二重引用符で括ります。
Unicode コードポイントを指定して文字を指定することは出来ますが、扱える Unicode のバージョンで割り当てられていない文字は正常には扱えません1

julia> s = "\u337e\u337d\u337c\u337b\u32ff"
# => "㍾㍽㍼㍻\u32ff"

julia> using Unicode

julia> Unicode.isassigned('\u32ff')
# => false

julia> Unicode.normalize(s, :NFKC)
# => "明治大正昭和平成\u32ff"

using Reiwa して、通常の文字列リテラルの代わりに reiwa"〜" を利用して ReiwaString 型のオブジェクトを生成すると、その中に '\u32ff''㋿'←フォントがサポートされていればこちらも見えるはず)が含まれていた場合に、それを正しく扱えるようになります。

julia> using Reiwa

julia> s = reiwa"\u337e\u337d\u337c\u337b\u32ff"
# => reiwa"㍾㍽㍼㍻㋿"

julia> using Unicode

julia> Unicode.isassigned('\u32ff')
# => true

julia> Unicode.normalize(s, :NFKC)
# => "明治大正昭和平成令和"

ReiwaStringString 型と互換性があるので、通常の文字列の代わりとしても利用可能です。
合字の '㋿' を積極的に利用する機会のある Julia ユーザの方2は、ぜひお試しください!

 技術情報

Reiwa.jl は、オレオレ文字列型の定義、新しい文字列を生成するマクロの定義のサンプルにもなっていると思います。その辺の技術情報が知りたい方は、ソースを見てみてください
(反響があったらもう少し詳しく追記します

フォントについて

この記事を見て「合字の『令和』の部分、文字化けしていない?」と思った方。それはまだフォントが対応していないからです。
正確には、対応していないフォントしかインストールされていないからです。

2019年4月前半時点ですでに '㋿' (U+32FF SQUARE ERA NAME REIWA) に対応したフォントがいくつか公開されています。例を挙げます:

これらのフォントをインストールし適切に設定すれば、'㋿'←この文字はきちんと表示できます。

↓先ほどのサンプルコード部分(編集中の記事のプレビューをキャプチャした画像)( だけたぶん 源ノ角ゴシック)

↓Julia を実行したターミナル(Cica)

Let's Enjoy Life!


  1. 現在の所、Julia 1.1 以下では Unicode 11.x までしか対応していません。もうすぐ出る(はずの)Julia v1.2 では Unicode 12.0.0 をサポートするそうです。でも '㋿' (U+32FF SQUARE ERA NAME REIWA) は Unicode 12.1.0 で初めてサポートされることになっています(てか Unicode 12.1 はそのため(だけ)の更新)。 

  2. かくいう私は(作っといてなんですが)まず '㋿' を積極的に使うことはないですし使う場面も全然思い浮かびません…じゃぁなんで作ったんだってそりゃもうほぼただのネタです…