[Aiffel]エッフェル56第一概念の整理と回顧


1.概念整理


1)偏向性


  • 収集されたデータに偏向性が既に存在する場合、導出された結果も偏向性を有する.

  • 偏向性を測定する方法:グローバル埋め込み関連試験(WEAT)

  • 偏向性に関する研究
  • Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings
  • 2)WEAT原理

  • 心理学のImplicit Association Testと呼ばれる認知偏向実験構造.
  • 単語と性別の間の距離が等しくない場合、その差異を利用してその偏向性
  • を計算する.
  • 偏りを示す複数の単語と、各性別を最も表す単語生成集合
  • を選択する.
  • の単語セットに属するすべての単語間の偏向性はそれぞれ計算され、平均値は
  • である.
  • target, attribute
  • 3)WEATを用いて偏向性を計算する

  • WEAT score:ピッチ値が大きいほど、2つのコンセプト軸間のオフセットが大きくなります
  • cosine similarity: dot product, magnitude
  • cos(θ) = 1:2つのベクトルの方向が同じ
  • cos(θ) = 0:2つのベクトルが直交する場合
  • cos(θ) = -1:2つのベクトルの方向が反対
  • X中の単語とY中の単語のA-B概念軸への偏向度が顕著であればあるほど分子は大きくなる
  • -2から2の間の値
  • の曲げ値が大きいほど、w対A-Bの概念軸は
  • に偏る.

    4)エラー

  • 'Word2VecKeyedVectors' object has no attribute 'index_to_key'
  • w2v = KeyedVectors.load_word2vec_format(model_dir, binary=True, limit=500000)
    実行時の結果はcorapでで、Ipelではで表示されます.
  • stackoverflowで同じエラーに遭遇した人を特定しましたが、解決策はありません
  • バージョンの問題だと思い、確認してみましたが、corapのgensimバージョンは3.6.0、ipelは4.1.2です.
  • CORAPのバージョンは、
    ! pip install --upgrade 원하는 패키지 명
  • にアップグレードされました.

    2.回顧


    偏向性の測定方法を学んだ.分類モデルが人種主義分類を実行したという記事を先日見たことがある.特定の動物を黒人に分類するのが問題だが、もう一つの動物を白人に分類するのは、本当に分類パターンが差別的な観点を学んだのか、単純に類似度を判断したのかを区別しなければならないという現象だ.一方、性別についても特定の性別の役割に関連した結果が多い.
    差別的な観点を持つデータから偏向性を解消し、絶えず考え、解決する方法は、エンジニアが備えるべき基本的な倫理的態度だと思います.だから今回のノードは特に印象的で、関連項目を作ってもいいです.