AI/MLレッスンWeek 1の一方向プリロード


1.本人が本講座に参加する目的

  • 就業連絡+プロジェクト
  • NLP深化学習
  • 本当の企業はどのような形式で働いていますか.

    2.Paperswithcodeで2つのNLPサブタスクを選択してクリーンアップする


  • 問題の定義

  • taskが解決する問題は何ですか?(Question Answering)
  • マイクロフォンを使用して問い合わせを行う場合、ユーザの質問に答えられないと判断する質問は
  • である.

  • データの概要

  • タスクの解決に使用できるデータは何ですか?
  • SQuAD(Stanford Question Answering Dataset) リンク

  • データ構造はどうですか.
  • Wikipediaドキュメントから派生した質問-SQUAD 1.1の質問データ(10万)+ユーザーが敵意を持って記入した答えられない質問(5万)を類似の形式で組み合わせたデータ

  • Data Instances
  • train
  • {
        "answers": {
            "answer_start": [1],
            "text": ["This is a test text"]
        },
        "context": "This is a test context.",
        "id": "1",
        "question": "Is this a test?",
        "title": "train test"
    }

  • Data Fields
  • id : a string feature.
  • title : a string feature.
  • context : a string feature.
  • question : a string feature.
  • answers : a dictionary feature containing:
  • text : a string feature.
  • answer_start : a int32 feature.

  • 最新技術(SOTA)モデル(1つの代表モデル)を紹介する

  • taskのSOTAモデルは何ですか?
  • Retro-Reader

  • このモデル論文の要約の主なキーワードは何ですか.
  • reading and verification

  • 問題の定義

  • taskが解決する問題は何ですか?(Sentiment Analysis)
  • 投稿またはコメントの感情分析によって決定する

  • データの概要

  • タスクの解決に使用できるデータは何ですか?
  • SST リンク

  • データ構造はどうですか.
  • 映画評論から抽出された単一の文章11855個の馬球+3個人注釈215154個の独特な文

  • Data Instances

  • default
    {'label': 0.7222200036048889,
     'sentence': 'Yet the act is still charming here .',
     'tokens': 'Yet|the|act|is|still|charming|here|.',
     'tree': '15|13|13|10|9|9|11|12|10|11|12|14|14|15|0'}

  • dictionary
    {'label': 0.7361099720001221, 
    'phrase': 'still charming'}

  • ptb
    {'ptb_tree': '(3 (2 Yet) (3 (2 (2 the) (2 act)) (3 (4 (3 (2 is) (3 (2 still) (4 charming))) (2 here)) (2 .))))'}

  • Data Fields
  • sentence : a complete sentence expressing an opinion about a film
  • label : the degree of "positivity"of the opinion, on a scale between 0.0 and 1.0
  • tokens : a sequence of tokens that form a sentence
  • tree : a sentence parse tree formatted as a parent pointer tree
  • phrase : a sub-sentence of a complete sentence
  • ptb_tree : a sentence parse tree formatted in Penn Treebank-style, where each component's degree of positive sentiment is labelled on a scale from 0 to 4
  • - SOTA(State-of-the-Art : 최신 기술) 모델 소개(대표 모델 1개)
    
      * task의 SOTA 모델은 무엇인가?
        * **[MUPPET Roberta Large](https://paperswithcode.com/paper/muppet-massive-multi-task-representations)**
      * 해당 모델 논문의 요약에서 주요 키워드는 무엇인가?
        * pre-finetuning consistently improves performance for pretrained discriminators