sklearnのdatasets使用

2335 ワード

紹介する
 sklearn.datasetsモジュールでは、dirコマンドまたはhelpコマンドで表示できるインポート、オンラインダウンロード、およびローカルでデータセットを生成する方法が主に提供されています.現在は主に3つの形式があります.
  • load_ ローカルロードデータ
  • fetch_ リモートロードデータ
  • make_ 構築データセット
  • メソッドの説明
  • ローカルロードデータセットファイルsklearnインストールディレクトリの下datasetsdataファイルの下で、モジュールディレクトリにアクセスして
  • を表示します.
    In [2]: datasets.load_*?  
    datasets.load_boston #          
    datasets.load_breast_cancer #        
    datasets.load_diabetes #        
    datasets.load_digits #          
    datasets.load_files  
    datasets.load_iris #        
    datasets.load_lfw_pairs  
    datasets.load_lfw_people  
    datasets.load_linnerud #         
    datasets.load_mlcomp  
    datasets.load_sample_image  
    datasets.load_sample_images  
    datasets.load_svmlight_file  
    datasets.load_svmlight_files  
    
  • リモートロードデータセットlearn_Dataフォルダでは、環境変数SCIKIT_を設定できます.LEARN_DATAパスの変更、datasets.get_data_ホーム()はダウンロードパスを取得します.
  • In [3]: datasets.fetch_*?  
    datasets.fetch_20newsgroups  
    datasets.fetch_20newsgroups_vectorized  
    datasets.fetch_california_housing  
    datasets.fetch_covtype  
    datasets.fetch_kddcup99  
    datasets.fetch_lfw_pairs  
    datasets.fetch_lfw_people  
    datasets.fetch_mldata  
    datasets.fetch_olivetti_faces  
    datasets.fetch_rcv1  
    datasets.fetch_species_distributions  
    
  • 構築データセットの下にmake_regression()関数を例にとると、まず関数構文を見てみましょう:make_regression(n_samples=100,n_features=100,n_informative=10,n_targets=1,bias=0.0,effective_rank=None,tail_strength=0.5,noise=0.0,shuffle=True,coef=False,random_state=None)パラメータ説明:
  • n_samples:サンプル数
  • n_Features:フィーチャー数(引数個数)
  • n_informative:相関特徴(相関引数個数)すなわちモデル構築に関与する特徴数
  • n_targets:因変数個数
  • bias:偏差(断面積)
  • coef:coef識別子
  • を出力するかどうか
    In [4]: datasets.make_*?  
    datasets.make_biclusters  
    datasets.make_blobs  
    datasets.make_checkerboard  
    datasets.make_circles  
    datasets.make_classification  
    datasets.make_friedman1  
    datasets.make_friedman2  
    datasets.make_friedman3  
    datasets.make_gaussian_quantiles  
    datasets.make_hastie_10_2  
    datasets.make_low_rank_matrix  
    datasets.make_moons  
    datasets.make_multilabel_classification  
    datasets.make_regression  
    datasets.make_s_curve  
    datasets.make_sparse_coded_signal  
    datasets.make_sparse_spd_matrix  
    datasets.make_sparse_uncorrelated  
    datasets.make_spd_matrix  
    datasets.make_swiss_roll