感情分析-データセット

3595 ワード

1、スタンフォード大学Stanford Sentiment Treebankは標準データセットとなり、2つの任務に分けられ、1つは2点、6920/872/1821である.1つは5点(very negative,negative,neutral,positive,very positive)で、11855文と215154フレーズのタグ(5種類)を含む.8544トレーニングセット、1101検証セット、および2210テストセット.
2、IMDB:10 W個のコメントテキスト、25000個のトレーニング(2種類)、25000個のテストが含まれており、バランスよく処理されており、50000個の未表示もある.
3、Yelp:ビジネス、user、review、tip、checkin情報が含まれています.
4、Amazonコメント
5、SemEval
SemEval2014:
restaurant分野:3842文、3041訓練文、800テスト文;
Laptop分野:3845文、3045訓練、800テスト.
共pos,neg,neu,conflictの4種類.Tangはその文章の中でconflictを考慮していない.
Dataset
Pos.
Neg.
Neu.
Laptop-Train Laptop-Test Restaurant-Train Restaurant-Test
994 341 2164 728
870 128 807 196
464 2328 169 638 637 3608 196 1120
データの例:
Although we were looking for regular lettuce and some walnuts the salads we got were great.

SemEval2015:
restaurant分野:2000個の訓練文(350 reviews)、48個の検証文(10 reviews)、676個のテスト文(90 reviews);
Laptop分野:2500トレーニング(450 reviews)、55検証(10 reviews)、808テスト(80 reviews).
共pos,neg,neuの3種類.
restデータの例:
Went on a 3 day oyster binge, with Fish bringing up the closing, and I am so glad this was the place it O trip ended, because it was so great!Service was devine, oysters where a sensual as they come, and the price can't be beat!!!You can't go wrong here.

Laptopデータの例(aspect termマークなし):
the laptop was really good and it goes really fast just the way i thought it would of run.i would really recommend to any person out there to get this laptop cause its really worth it.and its really cheap and you wont regret buying it.

6、Stanford Twitter Sentiment(STS):1.6 M個のツイッター(2種類)を含み、著者らは訓練セットとして80 K、検証セットとして16 K、試験機として498個をランダムに選択した.