日本語GPT-2で 'Tokenizer class T5Tokenizer does not exist or is not currently' と怒られた

1850 ワード

PyTorch gpt-2 huggingface PyTorch テキストリンク

日本語GPT-2をfine-tuningしようとしたら怒られたので、メモ。

環境

GCPのCompute Engineで、Deep Learning on Linuxイメージを使いました。

構成

Python3.8
Transformers==4.18.0.dev0
PyTroch==1.11.0+cu113
datasets==2.0.0

OS: Debian
GPU: Tesla K80
CUDA: 11.4

起こったこと

rinna/japanese-gpt2-smallを自前のデータでfine-tuningしようと、run_clm.pyを走らせたところ、以下の様に怒られました。

run_clm.py

ValueError: Tokenizer class T5Tokenizer does not exist or is not currently imported.

んなこと言われても...と思い、色々やりました。

解決

sentencepieceを入れたら解決しました。

Bash

pip install setencepiece

ちゃんと依存関係調べてからやろうねっていう教訓でした。
確認不足で時間食ってしまった....

まとめ

つまり、以下が必要っぽいです。

Bash

pip install git+https://github.com/huggingface/transformers.git
pip install datasets
pip install sklearn
pip install sentencepiece
pip install torch                   #GPU環境では公式ドキュメント要確認

Author And Source

この問題について(日本語GPT-2で 'Tokenizer class T5Tokenizer does not exist or is not currently' と怒られた), 我々は、より多くの情報をここで見つけました https://qiita.com/Yokohide/items/28007be97020f6e03255

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .