［機械学習］Transformerモデルを使ったテキスト分類（Attentionベースの識別器）

8184 ワード

dockerfile Python Keras TensorFlow Python テキストリンク

ゴール

Tensorflowのチュートリアルにある「言語理解のためのTransformerモデル」の一部を修正して、
テキスト分類のタスクができるようになることです。

Notebook

NotebookをGithubにアップしてあります。
transformer_classify

解説

チュートリアルとの主な差分を以下に記載します。

使用データはlivedoorニュースコーパス

本記事で紹介した分類タスクは、業務に活用する場合には日本語の文書分類になると想定しています。
そのためデータは機械学習でよく利用されるlivedoorニュースコーパスを利用させていただきました。

文章の分かち書きにJumanを使用

日本語の分かち書きに定評のあるJumanを使っています。
Jumanのダウンロード、インストールを自動化したDockerfileはこちら

Decoderの削除

DecoderはEncoderのアウトプットを受け取り他言語ベクトルに変換する仕組みです。
今回は他言語ベクトルへの変換ではなく分類タスクであるため、Decoderは利用しません。

Transformerの修正

Decoderを削除する代わりに、Encoderで得られたアウトプットにDenseレイヤーを重ね、これを出力層として追加します。
インプットとなるテキストベクトルが、どのクラスに分類されるかを確率的に表現した値に変換するため、活性化関数にはSoftmax関数を用いています。

transformer_classify.ipynb

NUMLABELS = 9

class Transformer(tf.keras.Model):
  def __init__(self, num_layers, d_model, num_heads, dff, input_vocab_size, 
               target_vocab_size, pe_input, pe_target, rate=0.1):
    super(Transformer, self).__init__()

    self.encoder = Encoder(num_layers, d_model, num_heads, dff, 
                           input_vocab_size, pe_input, rate)
    self.dense1 = tf.keras.layers.Dense(d_model, activation='tanh')
    self.dropout1 = tf.keras.layers.Dropout(rate)   
    self.final_layer = tf.keras.layers.Dense(NUMLABELS, activation='softmax')

  def call(self, inp, tar, training, enc_padding_mask):

    enc_output = self.encoder(inp, training, enc_padding_mask)  # (batch_size, inp_seq_len, d_model)
    enc_output = self.dense1(enc_output[:,0])
    enc_output = self.dropout1(enc_output, training=training)
    final_output = self.final_layer(enc_output )  # (batch_size, tar_seq_len, target_vocab_size)

    return final_output

損失関数

出力層の活性化関数をSoftmax関数を用いているため、損失関数には多クラス交差エントロピーを使います。
One-hotベクトル化していないので、SparseCategoricalCrossentropy()を利用しています。

transformer_classify.ipynb

loss_object = tf.keras.losses.SparseCategoricalCrossentropy()

def loss_function(labels, pred):
  loss_ = loss_object(labels, pred)
  return loss_

val_stepの追加

train_stepの後にvalidデータを用いたval_stepを追加しています。
validationであるため、dropoutレイヤーをスキップさせるためにtraininngはfalseにセットしてます。

結果

あまりよい精度は出せませんでした。

参考URL

tf2_classify
BERT with SentencePiece for Japanese text.
作って理解する Transformer / Attention
Transformer model for language understanding

Author And Source

この問題について(［機械学習］Transformerモデルを使ったテキスト分類（Attentionベースの識別器）), 我々は、より多くの情報をここで見つけました https://qiita.com/raidenn/items/ccacf620d37bb6848e2b

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .