基礎ゼロ入門NLP試合——試合問題理解

2263 ワード

基礎ゼロ入門NLP試合——試合問題理解


一、試合問題データ


試合問題はニュースデータを試合問題データとし、データセットの申し込み後に表示され、ダウンロードすることができる.試合問題データはニューステキストであり,文字レベルで匿名処理を行う.統合は14の候補分類カテゴリに分けられた:財経、宝くじ、不動産、株、家庭、教育、科学技術、社会、ファッション、時政、スポーツ、星座、ゲーム、娯楽のテキストデータ.試合問題データは以下のいくつかの部分から構成される:訓練セット20 wのサンプル、試験セットAは5 wのサンプルを含み、試験セットBは5 wのサンプルを含む.選手がテストセットを人工的に表示することを予防するために,試合データのテキストを文字レベルで匿名処理した.処理後の試合問題の訓練データは以下の通りである.
label
text
6
57 44 66 56 2 3 3 37 5 41 9 57 44 47 45 33 13 63 58 31 17 47 0 1 1 69 26 60 62 15 21 12 49 18 38 20 50 23 57 44 45 33 25 28 47 22 52 35 30 14 24 69 54 7 48 19 11 51 16 43 26 34 53 27 64 8 4 42 36 46 65 69 29 39 15 37 57 44 45 33 69 54 7 25 40 35 30 66 56 47 55 69 61 10 60 42 36 46 65 37 5 41 32 67 6 59 47 0 1 1 68
データセット内のラベルの対応関係は次のとおりです.
{' ': 0, ' ': 1, ' ': 2, ' ': 3, ' ': 4, ' ': 5, ' ': 6, ' ': 7, ' ': 8, ' ': 9, ' ': 10, ' ': 11, ' ': 12, ' ': 13}

試合問題のデータソースはインターネット上のニュースで、収集して匿名で処理することで得られる.そのため、選手は自分でデータ分析を行い、自分の特技を十分に発揮して各種の特徴工事を完成することができ、外部データとモデルの使用を制限しない.データ列はtで分割され、Pandasがデータを読み出すコードは以下の通りです.
train_df = pd.read_csv('../input/train_set.csv', sep='\t')

二、評価基準


評価基準はカテゴリf 1_scoreの平均値は,選手が提出した結果を実際のテストセットのカテゴリと比較し,結果が大きいほどよい.
sklearnでf 1_を完了できますscore計算:
from sklearn.metrics import f1_score
y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
f1_score(y_true, y_pred, average='macro')

三、問題を解く構想


試合問題の構想分析:試合問題の本質はテキスト分類問題であり、各文の文字に基づいて分類する必要がある.しかし、試合問題が与えたデータは匿名化されており、中国語の分詞などを直接使うことができないのが試合問題の難点だ.
そのため、今回の試合問題の難点は匿名文字をモデリングし、テキスト分類の過程を完成させることだ.テキストデータは典型的な非構造化データであるため、 の2つの部分に及ぶ可能性がある.参加の難易度を下げるために、私たちはいくつかの解題の構想を提供して皆さんの参考にしました.
  • 構想1:TF-IDF+機械学習分類器
  • TF-IDFを直接使用してテキストにフィーチャーを抽出し、分類器を使用して分類します.分類器の選択には、SVM、LR、またはXGBoostを用いることができる.
  • 構想2:FastText
  • FastTextは入門モデルの語ベクトルであり,Facebookが提供するFastTextツールを用いて分類器を迅速に構築することができる.
  • 構想3:WordVec+深さ学習分類器
  • WordVecは進級金の語ベクトルであり,深さ学習分類を構築することによって分類が完了する.深さ学習分類のネットワーク構造は、TextCNN、TextRNNまたはBiLSTMを選択することができる.
  • 構想4:Bert語ベクトル
  • Bertは高い配金の語ベクトルであり、強力なモデリング学習能力を持っている.