WWW2019 論文読み会 勉強会メモ


概要

WWW2019 論文読み会

情報系トップカンファレンス WWW (The Web Conference) の論文読み会を開催いたします。WWWはその名の通りWebに関する国際会議でシステム・検索・機械学習から社会問題まで幅広いトピックを扱っています。 発表された全ての論文は以下のサイトで公開されています。
この論文読み会では後述の弊社エンジニアの5名がWWW2019の発表論文から各自のテーマに沿っていくつか選び、興味深い論文をいくつかご紹介いたします。Webの最前線を把握し、Web業界のエンジニア・研究者として目指すべき方向を参加者の皆様と議論することを目的としています。

発表内容

Webと経済学:経済主体の意思決定に影響する推薦システム

  • 題材

  • ゲーム理論の用語

    • 情報提供者
      • 意思決定者にある行動をとらせるために、シグナルを意思決定者に送る
      • 情報提供者の期待利得を最大にするシグナルを最適シグナル
    • 意思決定者
      • タイプ(ユーザの持つ属性)をもつ
      • 公開されている / 徐々に公開される / 秘匿されているパターンが存在する
  • 実サービスにおける例

    • 推薦システム
      • 情報提供者:推薦システム
      • 意思決定者:ユーザ
      • シグナル:行動履歴
    • インターネット広告
      • 情報提供者:広告プラットフォーム
      • 意思決定者:ユーザ
      • シグナル:広告、デザイン

Webとニュース

  • ソーシャルメディア時代のニュース接触の変化

    • 出回るニュースの品質の玉石混合化
    • ニュース接触の全体像が複雑化
    • ニュースに対する一般人の反応が可視化
  • ニュース品質に関して フェイクニュース問題

    • 広告収入目的や政治的意図によるフェイクニュース作成
    • 世論への影響やデマ、サービスの質の低下に繋がる
    • 簡単に発信でき、特にセンセーショナルな内容は意図的にSNS拡散しやすい
  • What happened? The Spread of Fake News Publisher Content During the 2016 U.S. Presidential Election

    • Twitterから作成したフェイクニュースのコーパスを対象に分析
    • 2値分類モデルによるフェイク度スコアと電話インタビューの内容を比較
    • インタビュー中に出た支持政党に関する単語とフェイク度の違いを可視化
  • Quality Effects on User Preferences and Behaviorsin Mobile News Streaming

    • 実験用アプリを使って、記事を読む前後に記事内容を評価してもらう
    • ユーザの行動と記事内容の評価を比較
    • CTRが高い記事は質が低い
      • 記事タイトルが誇張気味
    • 質が高い記事は記事の滞在時間(=読む時間)が長い -滞在時間でニュース記事の品質をある程度予測できる
  • From Stances' Imbalance to Their Hierarchical Representation and Detection

    • フェイクニュースは、ヘッドラインと内容に乖離をもつ傾向がある
    • ヘッドラインから、内容を「同意/反対/議論/無関係」のどれかを推定してみると、うまくいく
  • SciLens: Evaluating the Quality of Scientific News Articles Using Social Media and Scientific Literature Indicators

    • 科学ニュースは、TVや新聞などの伝統的メディアが必ずしも正とならない
      • 政治ニュースは、伝統的メディアを性とすることが多い
      • 科学ニュースの品質指標を自動で作成する
      • まともな引用をしているか
      • ニュース記事と論文が意味的に類似しているか
      • SNSでの人気度
  • Stereotypical Bias Removal for Hate Speech Detection Task using Knowledge-based Generalizations

    • ヘイトスピーチ分類タスクは、バイアスがかかる
      • 一部の差別対象を示唆する用語や特定の言い回しなど
    • バイアスのある単語の置換を実施し、精度を保ちながらバイアスを除去

Web フィルタリング最前線: 「「検閲回避」回避」

-
- コンテンツフィルタ
- スパム・フィッシングや違法、誹謗中傷を含むなど、有害コンテンツを特定する
- データ量が少ないため、機械学習でなくキーワードベースが主流
- キーワードを書き換えることで、キーワードベースのフィルターを回避することがある
- スペル誤り
- stupid → stupi.d など
- 難読化
- 爆弾 → 火暴弓単 など

  • Context-Sensitive Malicious Spelling Error Correction

    • モデル学習前の前処理として、辞書に含まれていない語に対して、スペル誤りを訂正
      • 辞書にない単語に対して、編集距離で候補を列挙し、周辺文脈の分散表現から類似語を探す
    • 訂正を行うことで、検出性能が高くなる
    • 一方で、辞書にない単語を無理やり訂正することで検出性能が低下する場合も
    • 日本語の場合、分かち書きの問題があるため、応用が難しい
  • A Multimodal Text Matching Model for Obfuscated Language Identification in Adversarial Communication?

    • テキストと画像のマルチモーダル問題として、検出器を学習
      • LSTMとNGワードとのテンプレートマッチング
    • 分かち書きが不要なため、日本語においても活用しやすい

WWW2019で見るモバイルコンピューティングの技術と動向

  • スマートフォンに関する技術動向

    • AndroidでどのようなDeep Learningフレームワークが使われているか
    • APKから抽出した情報とDLフレームワークとGoogle Play上のアプリ情報を利用
  • 分析結果

    • 2018/9の時点で、16500個のアプリのうち、211個(1.3%)でアプリ
      • ダウンロード数でみると、全体の11.9%
    • 用途は、画像処理が多く、CNNが多い
    • フレームワーク別では、TensorflowやTFLiteなど、OSSが多い
    • DLモデルの保護(難読化/暗号化)を行っているアプリは非常に少ない
      • 背景として、ほとんどのDLフレームワークが対応していない

WWW2019 ダイジェスト

関連? The Web Conference 2019 参加レポート - LINE ENGINEERING

  • [WWW 2019 Tutorial on Online User Engagement | Metrics and Optimization https://onlineuserengagement.github.io/]

  • Spotify: Online User Engagement: Metrics and Optimization

    • オンラインのユーザエンゲージメント指標を体系的に整理
    • ABテストやバンディットによる最適化
    • ストリーミング時間分布はユーザのタイプとコンテンツのタイプに依存する
      • バンディットに組み込むことで、再生時間を大きく改善
  • Dynamic Ensemble of Contextual Bandits to Satisfy Users' Changing Interests

    • ユーザ関心の不連続変化を適応し、Contextを反映したい
    • バンディットモデルに対して、評価を行い変化を検出するモデルを組み込む
    • 安定的に評価できていると判断したアームはそのまま、変化していると判断したアームは再学習