sklearnのdatasets使用

2335 ワード

紹介する
sklearn.datasetsモジュールでは、dirコマンドまたはhelpコマンドで表示できるインポート、オンラインダウンロード、およびローカルでデータセットを生成する方法が主に提供されています.現在は主に3つの形式があります.

load_ ローカルロードデータ

fetch_ リモートロードデータ

make_ 構築データセット

メソッドの説明

ローカルロードデータセットファイルsklearnインストールディレクトリの下datasetsdataファイルの下で、モジュールディレクトリにアクセスして

を表示します.

In [2]: datasets.load_*?  
datasets.load_boston #          
datasets.load_breast_cancer #        
datasets.load_diabetes #        
datasets.load_digits #          
datasets.load_files  
datasets.load_iris #        
datasets.load_lfw_pairs  
datasets.load_lfw_people  
datasets.load_linnerud #         
datasets.load_mlcomp  
datasets.load_sample_image  
datasets.load_sample_images  
datasets.load_svmlight_file  
datasets.load_svmlight_files

リモートロードデータセットlearn_Dataフォルダでは、環境変数SCIKIT_を設定できます.LEARN_DATAパスの変更、datasets.get_data_ホーム()はダウンロードパスを取得します.

In [3]: datasets.fetch_*?  
datasets.fetch_20newsgroups  
datasets.fetch_20newsgroups_vectorized  
datasets.fetch_california_housing  
datasets.fetch_covtype  
datasets.fetch_kddcup99  
datasets.fetch_lfw_pairs  
datasets.fetch_lfw_people  
datasets.fetch_mldata  
datasets.fetch_olivetti_faces  
datasets.fetch_rcv1  
datasets.fetch_species_distributions

構築データセットの下にmake_regression()関数を例にとると、まず関数構文を見てみましょう:make_regression(n_samples=100,n_features=100,n_informative=10,n_targets=1,bias=0.0,effective_rank=None,tail_strength=0.5,noise=0.0,shuffle=True,coef=False,random_state=None)パラメータ説明:

n_samples:サンプル数

n_Features:フィーチャー数(引数個数)

n_informative:相関特徴(相関引数個数)すなわちモデル構築に関与する特徴数

n_targets:因変数個数

bias:偏差(断面積)

coef:coef識別子

を出力するかどうか

In [4]: datasets.make_*?  
datasets.make_biclusters  
datasets.make_blobs  
datasets.make_checkerboard  
datasets.make_circles  
datasets.make_classification  
datasets.make_friedman1  
datasets.make_friedman2  
datasets.make_friedman3  
datasets.make_gaussian_quantiles  
datasets.make_hastie_10_2  
datasets.make_low_rank_matrix  
datasets.make_moons  
datasets.make_multilabel_classification  
datasets.make_regression  
datasets.make_s_curve  
datasets.make_sparse_coded_signal  
datasets.make_sparse_spd_matrix  
datasets.make_sparse_uncorrelated  
datasets.make_spd_matrix  
datasets.make_swiss_roll

Centos 7固定IP

Java synchronizedキーワード実装原理