青空文庫から目当ての作家の作品取得


概要

NLP 遊び用にファイルを取得する。

  • 環境は MacOSX Mojave 10.14.5 ローカル。
  • 手順:
    1. github から青空文庫のソースコードを丸ごと git clone
    2. WEB ページで目当ての作家の ID 探してディレクトリにたどり着く
    3. unar で unar
    4. xattr で xattr
    5. nkf で nkf

1. github から青空文庫のソースコードを丸ごと git clone

いつからか github で管理し始めたらしい。

Clone or download からリポジトリのアドレスをコピーして

クローンする。15 GB あるので注意。

$ cd $適当なディレクトリ
$ git clone [email protected]:aozorabunko/aozorabunko.git

2. WEB ページで目当ての作家の ID 探してディレクトリにたどり着く

WEB ページから好きな作家の作品のページにどうにかしてたどり着く。
URL の「〜cards」の直後に作家を示す ID が入ってるのでコピー。
画像でいうと 000879

ID 把握したら以下のディレクトリに移動。

cd $適当なディレクトリ/aozorabunko/cards/$作家を示すID/files/

3. unar で unar

解凍する。
解凍できたら unar でなくてもよいです。

$ mkdir $解凍ファイル用ディレクトリ
$ brew install unar
$ find . -name '*.zip' -exec unar {} -o $解凍ファイル用ディレクトリ \;

4. xattr で xattr

なんか com.apple.FinderInfo っていう属性がついてる。
気持ち悪いので削除。

$ # なかったらインストール
$ brew xattr
$ # まとめて削除
$ for f in `ls -1 $解凍先ディレクトリ`;
$ do
$     xattr -d com.apple.FinderInfo ${f};
$ done

5. nkf で nkf

これで準備万端!
ってあああああああああ!!!!!!!

文字コード直す

$ cd $解凍先ディレクトリ
$ mkdir ../$UTF8用ディレクトリ
$ for f in `ls -1`;
$ do
$     nkf -u $f > ../$UTF8用ディレクトリ/$f;
$ done 

直った

あとはお好みで前処理。