[AIFFEL] 22.Jan.20 - Exploration, RNN_Sentiment_Analysis


今日の学習リスト

  • Rˆ2Rˆ2Rˆ2変数が増えるにつれて高くなる.
    例えば、特徴数が13の場合は
  • 、特徴数が105の場合は線形回帰を用いて学習および予測を行うRˆ2Rˆ2Rˆ2を得ると40%と80%の差が大きい.
  • しかし、これは訓練データセットがいくつか改善されたと言えるが、以下の調整Rˆ2Rˆ2Rˆ2公式を使うと物語が違います.
  • ここでの意味はnはデータ数、kは変数数で、変数数が多くなったため、Rˆ2Rˆ2Rˆ2が高くなるのを止めるという意味です.
  • とデータ数(n)が増加すると、変数の数はそれほど重要ではありません.
  • だからこの調整のRˆ2Rˆ2Rˆ2を使用するとPolynomialFeatures()を使用しても結晶系数値は類似する.
  • したがって,精度が重要であればPolynomialFeatures()を用い,変数の説明力が重要であれば,簡単な第1グループのデータを用いることが望ましい.
  • ソースリンク(https://ltlkodae.tistory.com/19)

  • テキストの感性分析のキー
    事前構築
  • 応用領域特性
  • データ収集戦略
  • を実施
  • 入門(目標)、調査(部分)、Option(感性表現)...まだあるかもしれませんが、これは感性分析の主な分析ポイントのようです.

  • テキスト分析は理解すればするほど奥深くなり、面白くなるようだ.
  • には役に立つところがたくさんあるようですが...
  • 東亜ビジネスレビュー(リンク)->この記事は多くの紹介を与えています.
  • 感性辞書はしっかり構築しなければなりません...
  • 感性辞書は、オブジェクトによって正逆を変更することもできる.
  • は、オブジェクトのプロパティによって異なる場合もあります.
  • この点に基づいてそれぞれ構築される作業は,正しいモデルを用いることと同様に重要である.
  • 特にこのようなテキスト分析は、経営の観点から顧客の「硬い声」を表現することができ、大きな助けになるはずだ.

  • ダウンジャケット
  • の代表的なものはWord 2 Vec
  • です
  • 個の単語を低次元ベクトルの観点から大量に縮小し,単語間の相関をベクトル内の位置(?)に置く.あるいはベクトル間の位置で教えてくれるので有効です.

  • 次の文章はタイトルを作ります.
  • joinにコンバータが加わっても、
  • よりも各値が接続されます.
    かっこを使わずにそのまま書くとPolynomialFeatures()エラーが発生します.
    # 숫자 벡터로 encode된 문장을 원래대로 decode하는 함수입니다. 
    def get_decoded_sentence(encoded_sentence, index_to_word):
        return ' '.join(index_to_word[index] if index in index_to_word else '<UNK>' for index in encoded_sentence[1:])  #[1:]를 통해 <BOS>를 제외
    
    print(get_decoded_sentence([1, 3, 4, 5], index_to_word))
    i if i % 2 == 0 else i+10 for i in [1,2,3,4,5]
    >>>SyntaxError: invalid syntax
    
    print(i if i % 2 == 0 else i+10 for i in [1,2,3,4,5])
    >>><generator object <genexpr> at 0x7f14177228d0>

  • シーケンスデータ
    :実は音がもっと正確です

  • RNNはステートマシンとして設計されている
  • stateとは、あくまで文脈の維持、すなわち
  • である
  • 無状態は順序、有機的な問題ではなく、コンテキストによって1つの答えを与えるのではなく、一瞬ごとにすべての答えを与えるのです.

  • 同じ時間ステップのデータ(またはデータセット?)関連する重みwと同じです.(だからinvalid syntaxです).

  • RNNと呼ばなければなりませんか?
    答えは、1-D Convolution Neural Network(1-D CNN)も使えます.
    画像は2-D CNNで、文章は1次元(語には複数の要素がある)に置くことができます.
    このようにして、そのベクトルを走査しながら特徴を抽出する.
    また,並列処理はRNNよりも効率が高く,速度が速い.
  • ミニプロジェクト(NAVER映画評論、韓国語感性分析)

  • imbeddingレイヤのoutput dimとLSTMの次元が異なる場合があります...
  • と混同されたことがありますが、まず異なるコードがあります.
  • vocab_size = 10000
    word_vector_dim = 32 
    
    model = tf.keras.Sequential()
    model.add(tf.keras.layers.Embedding(vocab_size, word_vector_dim, input_shape=(None,)))
    model.add(tf.keras.layers.LSTM(8?????))
  • 位の場合、Ipel課題ではx -> RNN -> yが4、LSTMでは「8」と書いてあるので、欲しいと思って探してみましたが、以下のようなケースがありました.
  • 理由はよくわかりませんが...
  • embedding_dim = 100
    hidden_units = 128
    
    model = Sequential()
    model.add(Embedding(vocab_size, embedding_dim))
    model.add(LSTM(hidden_units))
  • Dense層の数字も意味を理解する必要がある.
  • はまずDense層の後出力ノード(ニューロン)の数字であるため、数字は前の層の出力とは異なる可能性がある.
  • 世界Average Poyoung実はいろいろな種類があります...
  • min、average、maxにはこのような種類があり、3人の修飾が違うようです.
  • とKerasモードでword_vector_dimを勉強し続けると、勉強を続けます...
  • モデルオブジェクトを再作成すると、初期化されます.
  • が出版する辞書は同じなので、必ずしも同じ形で出版されるとは限らない.
  • これもrandom stateありますか...
  • 今日の感謝


    1)それでもword 2 vecにおけるword->integer->vectorの構造を少し理解しました.