1.概念整理
1)偏向性
収集されたデータに偏向性が既に存在する場合、導出された結果も偏向性を有する.
偏向性を測定する方法:グローバル埋め込み関連試験(WEAT)
偏向性に関する研究
Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings 2)WEAT原理
心理学のImplicit Association Testと呼ばれる認知偏向実験構造.単語と性別の間の距離が等しくない場合、その差異を利用してその偏向性を計算する.
偏りを示す複数の単語と、各性別を最も表す単語生成集合を選択する.
の単語セットに属するすべての単語間の偏向性はそれぞれ計算され、平均値はである.
target, attribute 3)WEATを用いて偏向性を計算する
WEAT score:ピッチ値が大きいほど、2つのコンセプト軸間のオフセットが大きくなります
cosine similarity: dot product, magnitude
cos(θ) = 1:2つのベクトルの方向が同じ cos(θ) = 0:2つのベクトルが直交する場合 cos(θ) = -1:2つのベクトルの方向が反対 X中の単語とY中の単語のA-B概念軸への偏向度が顕著であればあるほど分子は大きくなる
-2から2の間の値の曲げ値が大きいほど、w対A-Bの概念軸はに偏る.
4)エラー
'Word2VecKeyedVectors' object has no attribute 'index_to_key' w2v = KeyedVectors.load_word2vec_format(model_dir, binary=True, limit=500000)
実行時の結果はcorapでで、Ipelではで表示されます. stackoverflowで同じエラーに遭遇した人を特定しましたが、解決策はありませんバージョンの問題だと思い、確認してみましたが、corapのgensimバージョンは3.6.0、ipelは4.1.2です. CORAPのバージョンは、! pip install --upgrade 원하는 패키지 명
にアップグレードされました.
2.回顧
偏向性の測定方法を学んだ.分類モデルが人種主義分類を実行したという記事を先日見たことがある.特定の動物を黒人に分類するのが問題だが、もう一つの動物を白人に分類するのは、本当に分類パターンが差別的な観点を学んだのか、単純に類似度を判断したのかを区別しなければならないという現象だ.一方、性別についても特定の性別の役割に関連した結果が多い.
差別的な観点を持つデータから偏向性を解消し、絶えず考え、解決する方法は、エンジニアが備えるべき基本的な倫理的態度だと思います.だから今回のノードは特に印象的で、関連項目を作ってもいいです.
Reference
この問題について([Aiffel]エッフェル56第一概念の整理と回顧), 我々は、より多くの情報をここで見つけました
https://velog.io/@gongsam/aiffel55-t4bjrck6
テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol