「夏真っ盛り！Spark + Python + Data Science祭り」行ってきた。

4096 ワード

勉強会 Python Spark データ分析 hadoop Python テキストリンク

例によって途中参加だったので1つ目の発表は途中から＆macbook忘れてiPhoneでメモ取ったので日本語不自由な感じになっています。

Ibis: すごいpandas 大規模データ分析もらっくらく

Cloudera社有賀康顕氏 ( @chezou )

Jupyter notebookでデモ

教師データを作ってからscikit-learnが出てくる

PySparkと比べて

設定が簡単
速い
- 参考値としては基盤にしているCloudera ImpalaがPySparkよりも7倍速い

spark-sklearn

pip install ibis-framework
でインストールできる

Impala使いたければClouderaのdirectorを使うと良いとのこと。

Amebaにおけるレコメンデーションシステムの紹介

サイバーエージェント社内藤遥氏

レコメンデーションシステム概要

Amebaで使っているレコメンデーションシステムは以下の3種

A.J.A. recommend
phoenix ⇦今日はこれ
強調フィルタリング
Sparkを利用
バトルrecommend

レコメンデーションシステムの利用

関連ハッシュタグ
グルっぽ
読書の時間

概要

アクティビティログをhadoopへ
推薦結果をhbaseへ
- キーにソルトとしてハッシュの頭1文字（分散のため
推薦結果のimp/clkなどをフィードバック
- バンデットアルゴリズムでCTRを元にリランキング

Item to Item collaborative filtering

ユーザーベースの協調フィルタリング

距離の近いユーザの評価を元にする

アイテムベース

アイテム間の距離を元にユーザの評価を元にする
アイテムの評価が少なくても精度が出せる

コサイン類似度

共起数（重複ユーザ数）を要素の平方根を積算した値で割る

ケースごとの工夫

シンプルにする

ブロードキャスト変数を使って各ワーカーに割り振る。
こうすると複雑なjoinが不要になる

Sparkを活用したレコメンドエンジンのパフォーマンスチューニング＆自動化

DMM.comラボ社加嵜長門氏

作ったあとの運用の話

Spark活用システムの概要

2015年2月からSpark活用。

エンジニア3人で13件から168件
自動化してたから対応できた

リソースは1.5倍くらい
230CPUs / 580GB から 360CPUs / 900GB

時間は3hから4hへ

導入自動化

サービスが多いので新サービスでの利用開始を容易にしている

サービス追加したい時

レシピを書く
レシピに従ってテストを流す jenkins
- テスト環境で動作確認
ステージングで性能
本番にリリース

サービスによってユーザ数とアイテム数の比率が大きく違うのでチューニングも個別に必要

スケール感はユーザ数100万人とか商品数400万点とか

全サービス横断のアイテムマトリクスを用意している
→サービス間のレコメンデーションも可能になる