日本語GPT-2で 'Tokenizer class T5Tokenizer does not exist or is not currently' と怒られた
1850 ワード
日本語GPT-2をfine-tuningしようとしたら怒られたので、メモ。
環境
GCPのCompute Engineで、Deep Learning on Linux
イメージを使いました。
構成
Python3.8
Transformers==4.18.0.dev0
PyTroch==1.11.0+cu113
datasets==2.0.0
OS: Debian
GPU: Tesla K80
CUDA: 11.4
起こったこと
rinna/japanese-gpt2-smallを自前のデータでfine-tuningしようと、run_clm.pyを走らせたところ、以下の様に怒られました。
run_clm.py
ValueError: Tokenizer class T5Tokenizer does not exist or is not currently imported.
んなこと言われても...と思い、色々やりました。
解決
sentencepieceを入れたら解決しました。
Bash
pip install setencepiece
ちゃんと依存関係調べてからやろうねっていう教訓でした。
確認不足で時間食ってしまった....
まとめ
つまり、以下が必要っぽいです。
Bash
pip install git+https://github.com/huggingface/transformers.git
pip install datasets
pip install sklearn
pip install sentencepiece
pip install torch #GPU環境では公式ドキュメント要確認
Author And Source
この問題について(日本語GPT-2で 'Tokenizer class T5Tokenizer does not exist or is not currently' と怒られた), 我々は、より多くの情報をここで見つけました https://qiita.com/Yokohide/items/28007be97020f6e03255著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .