DockerでJUMAN++(alpine linux)


JUMAN++とは

黒橋・河原研究室が公開した日本語の形態素解析器です。以下、サイトの紹介文

JUMAN++は言語モデルを利用した高性能な形態素解析システムです.言語モデルとして Recurrent Neural Network Language Model(RNNLM) を用いることにより,単語の並びの意味的な自然さを考慮した解析を行います.それにより JUMAN,MeCab に比べ大きく性能が向上しています.文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています.本システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました.

Dockerで環境構築

自分の環境はいじりたくないけど試してみたいということで、Dockerで試してみようと思います。

HOW TO

docker pull kyobad/jumanpp-alpine
or
docker pull kyobad/jumanpp-alpine:light
latestとlightの違いですが、コメントでご指摘もらって、インストールに使ったコードやMakefileを見る必要がないという方はlightの方が容量が少ないイメージにしてあるのでそちらを使っていただければと思います。
docker run -it kyobad/jumanpp-alpine

これでjumanppが起動しているので、適当に日本語を打つと結果が返ってきます。

alpineベースで作っているが、juman++自体がなかなか大きなデータなのでimageも大きくなってしまってます

参考にしたサイト

新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話

Dockerfile

Dockerfile

FROM alpine:latest

MAINTAINER K.Kato

RUN apk add --update --no-cache --virtual=build-deps \
    boost-dev g++ make \
    && wget -q http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.01.tar.xz \
    && tar Jxfv jumanpp-1.01.tar.xz \
    && cd jumanpp-1.01/ \
    && ./configure \
    && make \
    && make install \
    && cd .. \
    && rm jumanpp-1.01.tar.xz \
    && rm -rf /var/cache/* \
    && apk del build-deps \
    && apk add --update --no-cache boost 

CMD ["jumanpp"]