カスタマーレビューを分析する方法


遅くまで、私はカスタマーレビューを分析することについて調査を始めました.基本的に、どんなウェブサイトでも、あらゆる実体のための顧客レビューの束が、製品のために、ホテルのために、映画のために、コースのために言います.すべての電子商取引/ご予約ウェブサイト全体.
しかし、通常、私は顧客レビューを垣間見るために少なくとも最小5 - 7レビューをスクロールしなければならなかった.それで、複数のレビューを読んだ後に、私は製品に関する若干の意見に終わります.しかし、私はすべてのレビューだけではなく、いくつかのレビューを行ったとして、この意見はまだ偏りがあります.
だから、各製品のレビューの10 sまたは100 sを読むことなく、任意の製品の顧客レビューの一瞥を取得する方法を把握したい.基本的には、カスタマーレビューについて次のことを簡単に見てみたい.
  • どのように多くの肯定と否定的なレビュー.
  • 負のレビューの中で最も議論されたトピックは何ですか?
  • 肯定的なレビューの中で最も議論されたトピックは何ですか?
  • したがって、上記の明白な解決策を引き出すためには、お客様のレビューに自然言語処理技術を適用することです.
     Let’s jump into real work :)
    

    私は1835年のコースの合計140317レビューを持ってこの運動のためのKaggleからCourseraレビューデータセットを取った.以下はレビューデータのサンプル形式です.
  • Courseid -クレーラコース識別子
  • レビュー-カスタマーレビューテキスト
  • ラベル- 0と5の間の顧客評価
    レビューの最大数とコース

    機械学習コースは、レビュー(8570)の最高の数を持っています.だから、マシンの学習コースのレビューのみをフィルタリングし、同じ分析してみましょう.
  • 非英語アルファ数値文字でレビューを無視した後、我々は8220レビューを残している.

  • レビューのための感情スコアの追加
  • 私たちはTextBlobを使用して各レビューのセンチメンタルな分析を行う予定です.
  • TextBlobは- 1(負の感情)から1(肯定的な感情)に至るまで、各レビューの感情スコアを与え、0は中立感情である.

  • Let’s see some sample Reviews With Positive Sentiment Score.

    Here we see most of the reviews says this course is awesome and also talking positively about Andrew Ng (the course instructor for machine learning).



    Sample Reviews With Negative Sentiment Score.

    Here we see the user says the difficulty level of the course is high and also talks about the certificate is expensive.



    Sentiment Score Distribution.

    Here we see most of the reviews have neutral to the positive sentiment with minor negative sentiment for the machine learning course.



    Review Rating Distribution.

    Here we see most of the ratings are 3.5 and above. So, this rating reflects the sentiment score we calculated in the above step.



      Analysing Top Words
    
  • は、正と負のレビューのレビューで述べた上の単語を分析しましょう.
  • SkLearnキットからCounterVetorizerを使用してレビューデータセットのトップNの単語を計算します.

  •  Analysing Positive Reviews
    
  • トップ20の語
  • トップ20のBiグラム
  • トップ20トライグラム

  • So, if we see people mentioned positive reviews more about the following
    
    * Easily Understandable Course (from bigrams).
    * Great/Good/Awesome course(from bigrams).
    * Prof. Andrew Ng (from trigrams)
    * Good Introduction machine learning Course(from trigrams)
    * Good explanation about machine learning techniques(from trigrams)
    
      Analysing Negative Reviews
    
  • トップ20の語
  • トップ20ビッググラム
  • トップ20のtrigrams

  • So, if we see people mentioned negative reviews more about the following:
    
    - Complex Concepts/ Subject
    - Audio Quality
    - Video Quality
    - The course is a little bit difficult
    - Need to pay in order to get certification for course
    - Complex Computations applied
    - This course needs linear algebra background.
    

    Further Improvements


    しかし、もし我々が観察するならば、我々は機械学習、アンドリューNGなどのようないくつかの繰り返された語を得ました.両方の正と負のレビューで.したがって、このようなケースをフィルタアウトするためにさらに改善する必要があります.これは次のブログ記事の将来の仕事です.
  • も、LDAモデルのようなテキストから話題を引き出す他のいくつかのテクニックがありません.
  • 言語固有のレビューの感情分析を適用する(ここでは非英語のレビューを除外).
  • Git Repository

  • は、CourseraレビューデータとコードのためのGithub linkです.