興味津々な学習ノート

1994 ワード

PYTHON
anaconda以外のパッケージのインストール
  • コマンドラインで実行:conda install xxx
  • インストールpydot(エラーが発生するので使用しないほうがいい):conda install -c https://conda.binstar.org/sstromberg pydot
  • デフォルトのエンコーディング:
    import sys
    sys.getdefaultencoding()
    reload(sys)
    sys.setdefaultencoding("utf-8")
    

    pandas
  • 表示:10 minutes to pandas
  • 例は、公式cookbook
  • を参照できます.
  • filter行:
  • new_df = df[(df["x1"]>2) | (df["x2"]=="abc")
    

    HIVE
  • hiveサポート:"b" in ("b","a","c")のような構文
  • 各カッコに囲まれたselect文は、hiveが各カッコがテーブル
  • を表すと考えているため、カッコの後に名前を付ける必要があります.
  • null <> 1はnull
  • を返す.
  • union allカッコ付きクエリーに接続できない、または2つのテーブル"04151234">="0415"に直接接続できない場合はtrueを返しますが、"04151234"<="0415"はfalse
  • を返します.
    モデリング
    変数の選択
  • 次ペナルティを使用するかどうかにかかわらず、いくつかの変数は削除しなければならない.
  • は、特に多くのcharタイプ変数を取得します.例えば、会計アプリを掘る2級ディレクトリの種類は、人工的に定義されているものが多く、統計的な意味はありません.
  • の1次罰における変数係数の顕著性は非常に奇妙であり,多くは1に近づき,参照性を持たない
  • である.

    logistic regression
  • python statsmodels:
  • import statsmodels as sm
    x = ins_features
    x = sm.add_constant(x, prepend=False)
    y = ins_target
    LR_model = sm.Logit(y, x).fit_regularized(method='l1',alpha = 20)
    print LR_model_result.params
    print LR_model_result.summary
    #score
    y_predicted = LR_model.predict(test_X)
    #save and load model
    LR_model.save("abc.txt")
    sm.load("abc.txt")
    
  • python sklearn
  • import sklearn
    LR_model = sklearn.linear_model.LogisticRegression()
    y = train_df["target_train"]
    X = train_df[...]
    LR_model.fit(X,y)
    #pickle LR_model
    #test
    y_predicted = LR_model.predict_proba(test_dataframe)[:, 1]
    #save and load model: using python pickle
    

    decision tree
  • sklearn分類変数は使用できません.DictVectorizer変換
  • を使用する必要があります.