LRアルゴリズムとそのCTR推定上のエンジニアリング実践
3736 ワード
yangliang @ Maan Coffee
人を离れる时、2篇の文章を书いたことがあって、仕事の総括とLRアルゴリズムの総括.今周末に占空とLRを交流して、いくつかの新しいものが自分で前に知らないと感じて、再び総括する必要があると思って、そこでこの文章がありました.
本文では,広告クリック率推定におけるLRアルゴリズムの使用について,オフラインデータ処理,モデルトレーニング,オンラインサービスなどを詳しく紹介する.まずDSPの背景からお話しします.
0 DSP背景紹介
中小広告主が広告を投入し、Ad Exchangeに接続してトラフィックを取得し、リアルタイムの競売に参加し、そこから差額を稼ぐのを助ける.
広告エンジンは、Ad Exchangeを直接接続し、広告ライブラリから広告リストを初歩的に選択します.その後、ポリシーグループの各広告の競売価格をリアルタイムで尋ねます.
ポリシーグループは、ユーザ情報、広告情報、コンテキストシーン情報に基づいて価格を設定します.価格は主に2つの方面に関連しています:競売戦略とCTRの見積り、今回私たちが主に討論したのはCTRの見積りです.
1データ/フィーチャー抽出
1.1データ準備
元のデータ:要求/競売/展示/クリック/変換などのデータ
データclean/merge:汚いデータのclean/およびデータチェーンのmerge、いくつかのidフィールド(cookie mappingなどの技術)に基づいて
1.2特徴抽出(単一特徴/組合せ特徴/変換特徴)
単特徴模範:ユーザー性別組合せ特徴模範:広告id+広告ビットid転化特徴模範:urlドメイン名転換;年齢フィーチャーセグメント
1.3サンプリング
時間による再サンプリング:近距離ポイントデータの再サンプリング
実際のデータ規模
2フィーチャーの選択
特徴選択評価指標:モデルAUC
一般的なフィーチャーの選択方法 L 1正則 ピルソン係数と相互情報係数(情報利得) を計算する.訓練特徴を採点できる予選モデル:RandomForestとLogistic Regressionなどはモデルの特徴を採点し、採点によって相関性を得た後、最終モデルを訓練する.https://www.zhihu.com/question/28641663
以前に採用した方法:前のフィーチャークラスタ選択
3 LRアルゴリズム
3.1 LRモデル構築
極めて似ているようにモデルを構築する.最適化目標関数誤差がGauss分布を満たす前提を得る:極大尤度等価最小二乗法
3.2 LRモデルの解
LRモデルのターゲット関数は凸関数であり,凸問題を解くには多くの汎用的な方法がある.大規模なLRに対しても,的確なアルゴリズムがある.
種々の最適化アルゴリズムの基本構想は,
擬ニュートン法:Hessian行列に似た正定行列を構築するために一定の方法を採用するが,この構造法の計算量はニュートン法より小さい
5 L 1/L 2正則を深く理解する
6その他
Ref
人を离れる时、2篇の文章を书いたことがあって、仕事の総括とLRアルゴリズムの総括.今周末に占空とLRを交流して、いくつかの新しいものが自分で前に知らないと感じて、再び総括する必要があると思って、そこでこの文章がありました.
本文では,広告クリック率推定におけるLRアルゴリズムの使用について,オフラインデータ処理,モデルトレーニング,オンラインサービスなどを詳しく紹介する.まずDSPの背景からお話しします.
0 DSP背景紹介
中小広告主が広告を投入し、Ad Exchangeに接続してトラフィックを取得し、リアルタイムの競売に参加し、そこから差額を稼ぐのを助ける.
広告エンジンは、Ad Exchangeを直接接続し、広告ライブラリから広告リストを初歩的に選択します.その後、ポリシーグループの各広告の競売価格をリアルタイムで尋ねます.
ポリシーグループは、ユーザ情報、広告情報、コンテキストシーン情報に基づいて価格を設定します.価格は主に2つの方面に関連しています:競売戦略とCTRの見積り、今回私たちが主に討論したのはCTRの見積りです.
1データ/フィーチャー抽出
1.1データ準備
元のデータ:要求/競売/展示/クリック/変換などのデータ
データclean/merge:汚いデータのclean/およびデータチェーンのmerge、いくつかのidフィールド(cookie mappingなどの技術)に基づいて
1.2特徴抽出(単一特徴/組合せ特徴/変換特徴)
単特徴模範:ユーザー性別組合せ特徴模範:広告id+広告ビットid転化特徴模範:urlドメイン名転換;年齢フィーチャーセグメント
/ / [ url]
/ :LR , y(CTR) x , x / 。 , 。
- , : >30 1, 0。 , “ 300 ” ;
- , ,
- , ,
+
: , “ + ” “ + ” 。 , 。 。 , , n ,
https://www.zhihu.com/question/31989952/answer/54184582
1.3サンプリング
時間による再サンプリング:近距離ポイントデータの再サンプリング
実際のデータ規模
: pv/click+
: ( : / /IP; id/ ; id)
: 1/2 ; 5-8
click w ;pv kw ;bind :
2フィーチャーの選択
特徴選択評価指標:モデルAUC
一般的なフィーチャーの選択方法
以前に採用した方法:前のフィーチャークラスタ選択
3 LRアルゴリズム
3.1 LRモデル構築
極めて似ているようにモデルを構築する.最適化目標関数誤差がGauss分布を満たす前提を得る:極大尤度等価最小二乗法
3.2 LRモデルの解
LRモデルのターゲット関数は凸関数であり,凸問題を解くには多くの汎用的な方法がある.大規模なLRに対しても,的確なアルゴリズムがある.
種々の最適化アルゴリズムの基本構想は,
の探索と
の計算である.勾配法ニュートン法BFGS/L-BFGS;OWLQN(LRバンドL 1正則)勾配法:勾配情報を用いて最速降下方向を探す.平面を用いて元の関数に近づき,一次収束Newton法:Hessian行列を用いて下降方向を探す.二次曲面を用いて元の関数に近づき,二次収束した.-Hessian逆行列,計算コスト大BFGS(最良の擬ニュートンアルゴリズム):反復の最近のkステップ情報(関数値,勾配情報)に基づいてHessian行列を構築する逆L−BFGS:BFGSの空間的複雑度はo(n^2)であり,このアルゴリズムは空間的複雑度をo(n*k)OWLQN(LRバンドL 1正則):L 1に勾配がないため,二次勾配の概念を提案する擬ニュートン法:Hessian行列に似た正定行列を構築するために一定の方法を採用するが,この構造法の計算量はニュートン法より小さい
5 L 1/L 2正則を深く理解する
1. : ;L1
2.
p(y|x,w), p(w), ,
L(w) = p(y|X;w) * p(w)
w -> L2
w -> L1
: ,
:
Least Square Gaussian
Ridge Gaussian
LASSO Laplace
https://www.zhihu.com/question/35322351
LR sigmoid ?
, paper 。
, 。
https://www.zhihu.com/question/35322351
6その他
1. log loss /auc
logloss ,AUC rank order
https://www.zhihu.com/question/54009615
AUC: ;
MAE(Mean Absolute Error)/MSE(Mean Squared Error), ;
Loss: ;
http://www.flickering.cn/uncategorized/2014/10/%E8%BD%AC%E5%8C%96%E7%8E%87%E9%A2%84%E4%BC%B0-2%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92%E6%8A%80%E6%9C%AF/
2. /
: id: / ( )
-ctr
3. :FM/NB/SVM
LR NB Discriminative and Generative Algorithm , , , 。 LR ,LR 。
:
: ( )
: ,
Ref