LRアルゴリズムとそのCTR推定上のエンジニアリング実践

3736 ワード

yangliang @ Maan Coffee
人を离れる时、2篇の文章を书いたことがあって、仕事の総括とLRアルゴリズムの総括.今周末に占空とLRを交流して、いくつかの新しいものが自分で前に知らないと感じて、再び総括する必要があると思って、そこでこの文章がありました.
本文では,広告クリック率推定におけるLRアルゴリズムの使用について,オフラインデータ処理,モデルトレーニング,オンラインサービスなどを詳しく紹介する.まずDSPの背景からお話しします.
0 DSP背景紹介
中小広告主が広告を投入し、Ad Exchangeに接続してトラフィックを取得し、リアルタイムの競売に参加し、そこから差額を稼ぐのを助ける.
広告エンジンは、Ad Exchangeを直接接続し、広告ライブラリから広告リストを初歩的に選択します.その後、ポリシーグループの各広告の競売価格をリアルタイムで尋ねます.
ポリシーグループは、ユーザ情報、広告情報、コンテキストシーン情報に基づいて価格を設定します.価格は主に2つの方面に関連しています:競売戦略とCTRの見積り、今回私たちが主に討論したのはCTRの見積りです.
1データ／フィーチャー抽出
1.1データ準備
元のデータ:要求/競売/展示/クリック/変換などのデータ
データclean/merge:汚いデータのclean/およびデータチェーンのmerge、いくつかのidフィールド(cookie mappingなどの技術)に基づいて
1.2特徴抽出(単一特徴／組合せ特徴／変換特徴)
単特徴模範:ユーザー性別組合せ特徴模範:広告id+広告ビットid転化特徴模範:urlドメイン名転換;年齢フィーチャーセグメント

       ／  ／       [    url]

    ／    ：LR       ，   y(CTR) x        ，  x     ／   。         ，             。

     
－            ，      ：         >30 1，  0。         ，      “  300 ”           ；
－                 ，        ，    
－          ，          ，    

  ＋     
      ：               ，     “      +    ”   “      +    ”   。           ，             。                。    ，    ，    n       ，     
https://www.zhihu.com/question/31989952/answer/54184582

1.3サンプリング
時間による再サンプリング:近距離ポイントデータの再サンプリング
実際のデータ規模

  ：  pv/click＋       
  ：      （     ：    ／   ／IP；  id／     ；   id）
     ：  1/2  ；   5-8  
click  w  ；pv  kw  ；bind  ：

2フィーチャーの選択
特徴選択評価指標:モデルAUC
一般的なフィーチャーの選択方法

L 1正則

ピルソン係数と相互情報係数(情報利得)

を計算する.

訓練特徴を採点できる予選モデル:RandomForestとLogistic Regressionなどはモデルの特徴を採点し、採点によって相関性を得た後、最終モデルを訓練する.https://www.zhihu.com/question/28641663

以前に採用した方法:前のフィーチャークラスタ選択
3 LRアルゴリズム
3.1 LRモデル構築
極めて似ているようにモデルを構築する.最適化目標関数誤差がGauss分布を満たす前提を得る:極大尤度等価最小二乗法
3.2 LRモデルの解
LRモデルのターゲット関数は凸関数であり,凸問題を解くには多くの汎用的な方法がある.大規模なLRに対しても,的確なアルゴリズムがある.
種々の最適化アルゴリズムの基本構想は, の探索との計算である.勾配法ニュートン法BFGS／L-BFGS;OWLQN(LRバンドL 1正則)勾配法:勾配情報を用いて最速降下方向を探す.平面を用いて元の関数に近づき,一次収束Newton法:Hessian行列を用いて下降方向を探す.二次曲面を用いて元の関数に近づき,二次収束した.-Hessian逆行列,計算コスト大BFGS(最良の擬ニュートンアルゴリズム):反復の最近のkステップ情報(関数値,勾配情報)に基づいてHessian行列を構築する逆L−BFGS:BFGSの空間的複雑度はo(n^2)であり,このアルゴリズムは空間的複雑度をo(n*k)OWLQN(LRバンドL 1正則):L 1に勾配がないため,二次勾配の概念を提案する
擬ニュートン法:Hessian行列に似た正定行列を構築するために一定の方法を採用するが,この構造法の計算量はニュートン法より小さい
5 L 1/L 2正則を深く理解する

1.   ：     ；L1     

2.   
       p（y|x,w)，       p(w)，          ，       
L(w) ＝ p(y|X;w) * p(w)

                   
    w       -> L2  
    w        -> L1  

    ：            ，               

       ：
Least Square         Gaussian             
Ridge       Gaussian            
LASSO       Laplace            
https://www.zhihu.com/question/35322351

    LR       sigmoid   ？
               ， paper        。
                ，                        。
https://www.zhihu.com/question/35322351

6その他

1. log loss    ／auc     
logloss             ，AUC   rank order
https://www.zhihu.com/question/54009615

AUC：              ；
MAE（Mean Absolute Error）/MSE（Mean Squared Error），               ；
Loss：                  ；
http://www.flickering.cn/uncategorized/2014/10/%E8%BD%AC%E5%8C%96%E7%8E%87%E9%A2%84%E4%BC%B0-2%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92%E6%8A%80%E6%9C%AF/


2.      /    
    ：  id：  ／    (  )
    －ctr    
    
    

3.    ：FM／NB／SVM
LR NB    Discriminative and Generative Algorithm   ，      ，         ，        。               LR       ，LR                             。
  ：          
  ：       （       ）
     ：          ，

Ref

応用暗号学(学習整理、二)

コンビネーション数印刷