【LINE DEV DAY 2017】セキュリティのためのデータ分析 / ログ分析プラットフォーム Monolith と LINE Spam対策の現状 #line_devday


概要

LINE セキュリティ室で行っているデータ分析事例を2つ紹介します。
ひとつはサーバ、PC、ネットワークといったインフラに関わるシステムログを収集し、不正侵入、高負荷、情報漏洩といったインシデントをいち早く検知するシステム、プラットフォームの構成と活用事例を解説します。
もうひとつは LINE での迷惑メッセージ(Spam)対策の現状と、ユーザーからの通報データをもとに、Spamらしさを分析し、自動でブロックするAnti-Spamシステムについてを紹介します。

アジェンダ

  • インフラセキュリティの話
  • スパム対策の話
  • キーワードはログ解析

インフラセキュリティ Monolith

ログが色々なデバイスに保存されるため、それぞれのデバイスからログを収集する必要があった。
Kafka hadoop elastic連携してログの保存、監視。
機械学習(マシンラーニング)でログを監視し、危険度を可視化。

スパム対策

2013年からスパム対策を実施して、件数は減少傾向。2015年から横ばい。
LINEではユーザがスパムを通報する機能があり、それを分析している。

各国別の通報件数
多い順に
* 台湾
* 日本
(ほぼ同じくらい)

スパムメッセージは国によって内容が大きくことなる傾向がある。

ルールベースのフィルター

例えば、1秒間に1000人友達追加したら、みたいなルール。(実際にはこのルールは使われていないらしい)
当てはまれば、ほぼ間違いなくスパムであるものをルールで弾く。

マシンラーニングベースのフィルター

ユーザからの通報データを元に自動的に学習と検知を繰り返す。
動かし始めれば自動的にルールが更新される。
ユーザからの通報メッセージは、80%は本当のスパムだが、残りの20%は誤報である。
ユーザからの通報が多いメッセージはスパムと判定するなどを実施している。

監視者自身のフィルター(モニタリング)

最後は人が判断するものが残る。
正常なユーザを誤検知することを避けるため、少しゆるめのルールで運用を行っている。
そのためフィルターから漏れたスパムに対して、人によるモニタリングが必要。