興味津々な学習ノート
1994 ワード
PYTHON
anaconda以外のパッケージのインストールコマンドラインで実行: インストールpydot(エラーが発生するので使用しないほうがいい): デフォルトのエンコーディング:
pandas表示:10 minutes to pandas 例は、公式cookbook を参照できます. filter行:
HIVE hiveサポート: 各カッコに囲まれたselect文は、hiveが各カッコがテーブル を表すと考えているため、カッコの後に名前を付ける必要があります. を返す. を返します.
モデリング
変数の選択次ペナルティを使用するかどうかにかかわらず、いくつかの変数は削除しなければならない. は、特に多くのcharタイプ変数を取得します.例えば、会計アプリを掘る2級ディレクトリの種類は、人工的に定義されているものが多く、統計的な意味はありません. の1次罰における変数係数の顕著性は非常に奇妙であり,多くは1に近づき,参照性を持たない である.
logistic regression python statsmodels: python sklearn
decision tree sklearn分類変数は使用できません.DictVectorizer変換 を使用する必要があります.
anaconda以外のパッケージのインストール
conda install xxx
conda install -c https://conda.binstar.org/sstromberg pydot
import sys
sys.getdefaultencoding()
reload(sys)
sys.setdefaultencoding("utf-8")
pandas
new_df = df[(df["x1"]>2) | (df["x2"]=="abc")
HIVE
"b" in ("b","a","c")
のような構文null <> 1
はnull union all
カッコ付きクエリーに接続できない、または2つのテーブル"04151234">="0415"
に直接接続できない場合はtrueを返しますが、"04151234"<="0415"
はfalse モデリング
変数の選択
logistic regression
import statsmodels as sm
x = ins_features
x = sm.add_constant(x, prepend=False)
y = ins_target
LR_model = sm.Logit(y, x).fit_regularized(method='l1',alpha = 20)
print LR_model_result.params
print LR_model_result.summary
#score
y_predicted = LR_model.predict(test_X)
#save and load model
LR_model.save("abc.txt")
sm.load("abc.txt")
import sklearn
LR_model = sklearn.linear_model.LogisticRegression()
y = train_df["target_train"]
X = train_df[...]
LR_model.fit(X,y)
#pickle LR_model
#test
y_predicted = LR_model.predict_proba(test_dataframe)[:, 1]
#save and load model: using python pickle
decision tree