青空文庫から目当ての作家の作品取得
概要
NLP 遊び用にファイルを取得する。
- 環境は MacOSX Mojave 10.14.5 ローカル。
- 手順:
- github から青空文庫のソースコードを丸ごと
git clone
- WEB ページで目当ての作家の ID 探してディレクトリにたどり着く
- unar で unar
- xattr で xattr
- nkf で nkf
- github から青空文庫のソースコードを丸ごと
1. github から青空文庫のソースコードを丸ごと git clone
いつからか github で管理し始めたらしい。
Clone or download
からリポジトリのアドレスをコピーして
クローンする。15 GB あるので注意。
$ cd $適当なディレクトリ
$ git clone [email protected]:aozorabunko/aozorabunko.git
2. WEB ページで目当ての作家の ID 探してディレクトリにたどり着く
WEB ページから好きな作家の作品のページにどうにかしてたどり着く。
URL の「〜cards」の直後に作家を示す ID が入ってるのでコピー。
画像でいうと 000879
ID 把握したら以下のディレクトリに移動。
cd $適当なディレクトリ/aozorabunko/cards/$作家を示すID/files/
3. unar で unar
解凍する。
解凍できたら unar でなくてもよいです。
$ mkdir $解凍ファイル用ディレクトリ
$ brew install unar
$ find . -name '*.zip' -exec unar {} -o $解凍ファイル用ディレクトリ \;
4. xattr で xattr
なんか com.apple.FinderInfo っていう属性がついてる。
気持ち悪いので削除。
$ # なかったらインストール
$ brew xattr
$ # まとめて削除
$ for f in `ls -1 $解凍先ディレクトリ`;
$ do
$ xattr -d com.apple.FinderInfo ${f};
$ done
5. nkf で nkf
これで準備万端!
ってあああああああああ!!!!!!!
文字コード直す
$ cd $解凍先ディレクトリ
$ mkdir ../$UTF8用ディレクトリ
$ for f in `ls -1`;
$ do
$ nkf -u $f > ../$UTF8用ディレクトリ/$f;
$ done
あとはお好みで前処理。
Author And Source
この問題について(青空文庫から目当ての作家の作品取得), 我々は、より多くの情報をここで見つけました https://qiita.com/miorgash/items/be24c816c97d5162e68d著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .