興味津々な学習ノート

1994 ワード

PYTHON
anaconda以外のパッケージのインストール

コマンドラインで実行:conda install xxx

インストールpydot(エラーが発生するので使用しないほうがいい):conda install -c https://conda.binstar.org/sstromberg pydot

デフォルトのエンコーディング:

import sys
sys.getdefaultencoding()
reload(sys)
sys.setdefaultencoding("utf-8")

pandas

表示:10 minutes to pandas

例は、公式cookbook

を参照できます.

filter行:

new_df = df[(df["x1"]>2) | (df["x2"]=="abc")

HIVE

hiveサポート:"b" in ("b","a","c")のような構文

各カッコに囲まれたselect文は、hiveが各カッコがテーブル

を表すと考えているため、カッコの後に名前を付ける必要があります.

null <> 1はnull

を返す.

union allカッコ付きクエリーに接続できない、または2つのテーブル"04151234">="0415"に直接接続できない場合はtrueを返しますが、"04151234"<="0415"はfalse

を返します.
モデリング
変数の選択

次ペナルティを使用するかどうかにかかわらず、いくつかの変数は削除しなければならない.

は、特に多くのcharタイプ変数を取得します.例えば、会計アプリを掘る2級ディレクトリの種類は、人工的に定義されているものが多く、統計的な意味はありません.

の1次罰における変数係数の顕著性は非常に奇妙であり,多くは1に近づき,参照性を持たない

である.

logistic regression

python statsmodels:

import statsmodels as sm
x = ins_features
x = sm.add_constant(x, prepend=False)
y = ins_target
LR_model = sm.Logit(y, x).fit_regularized(method='l1',alpha = 20)
print LR_model_result.params
print LR_model_result.summary
#score
y_predicted = LR_model.predict(test_X)
#save and load model
LR_model.save("abc.txt")
sm.load("abc.txt")

python sklearn

import sklearn
LR_model = sklearn.linear_model.LogisticRegression()
y = train_df["target_train"]
X = train_df[...]
LR_model.fit(X,y)
#pickle LR_model
#test
y_predicted = LR_model.predict_proba(test_dataframe)[:, 1]
#save and load model: using python pickle

decision tree

sklearn分類変数は使用できません.DictVectorizer変換

を使用する必要があります.

微信小プログラム利刃apifm-wxapiを開発しgithubアドレスを添付

Spring Bootはswaggerと組み合わせて使用