Pythonで処理するためのデータを読み込みます.


Wikipediaによると、データマイニングは機械学習、統計、およびデータベースシステムの交差点でメソッドを含んでいる大きなデータセットのパターンを抽出して発見する重要なプロセスです.
したがって、任意の機械学習慣習では、取得したデータを取得する必要があります.データは、ログファイル、データセットファイル、または異なる複数のソースから取得できるデータベースです.
この記事では、CSVファイルとSQLデータベースを含むさまざまなソースから異なる形式のデータを読み込むさまざまな方法を見ていきます.
私たちは、外部のデータをロードするためだけでなく、SciKit - LearningとSeabornの作り付けのデータセットをロードするためのPythonパンダの広範なライブラリメソッドに焦点を当てます.

サンプルデータセットの読み込み.
これには、既存のデータセットからのデータを読み込む場合があります.パッケージはいくつかの小さなおもちゃデータセットを埋め込む.データセットは、「おもちゃ」データセットとして参照されます.なぜなら、それらは、現実世界で遭遇するデータセットよりも小さく、よりきれいであるからです.
The sklearn.datasets いくつかの外部のウェブサイトから任意のファイルをダウンロードする必要はありませんいくつかの小さな標準データセットが付属しています.
SkLearnからのサンプルデータセットを以下に示します.
loadHand boston ()--ボストンハウス価格データセットを読み込み、復帰するこれは、ボストン住宅価格503の観測と回帰アルゴリズムを探索するための良いデータセットが含まれます.
loadHound Irse ()-- IRIデータセットを読み込み、それを返すそれは虹彩花の測定に150の観察を含んでいます.分類アルゴリズムを探索するのに良いデータセットである.
loadHand DiabeTes ()-糖尿病データセット(回帰)を読み込み、返します.
loadRound digit ([ NRACK Class ])-桁のデータセットを読み込み、戻します(分類).LoadRange数字は手書き数字のイメージから1797の観測を含んでいます.画像分類を教えるための良いデータセットである.
loadHand linnerup ()-- linnerUDデータセットを読み込み、返す(多変量回帰)
# Load scikit-learn's datasets 
from sklearn import datasets

# Load digits dataset
digits = datasets.load_digits()
IRISデータセットを読み込むには、次の手順に従います.
from sklearn.datasets import load_iris
data = load_iris()
data.target[[10, 25, 50]]
Seabornは、ライブラリ内のいくつかの重要なデータセットが付属しています.Seabornがインストールされると、データセットが自動的にダウンロードされます.データセットのいくつかは、カテゴリカル変数の適切な順序を定義するために少量の前処理を適用する.
使用可能なデータセットの一覧を見るには、getHorse DataSetRound Name ()を使用します.
# Import the seaborn module
import seaborn as sns
sns.get_dataset_names()
上記の行は次の出力を生成します−
['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes', 
'diamonds', 'dots', 'exercise', 
'flights', 'fmri', 'gammas', 'geyser', 'iris', 
'mpg', 'penguins', 'planets', 'tips', 'titanic']
Seabornにはリレーショナルテーブルテーブルが含まれます.
…の助けを借りてload_dataset() 関数は、必要なデータセットを読み込むことができます.
import pandas as pd
import seaborn as sns
df = sns.load_dataset('tips')
print df.head()
上記の行は次の出力を生成します−
   total_bill  tip   sex    smoker day  time   size
0    16.99    1.01   Female  No    Sun  Dinner  2
1    10.34    1.66   Male    No    Sun  Dinner  3
2    21.01    3.50   Male    No    Sun  Dinner  3
3    23.68    3.31   Male    No    Sun  Dinner  2
4    24.59    3.61   Female  No    Sun  Dinner  4

パンダライブラリを使用してファイルを読み込みます.
パンダは、データ操作のためのスクリプトにさまざまな形式のファイルを読み取るためのさまざまな機能を提供する多様なデータ解析ライブラリです.
様々なリーダー関数には以下が含まれます.
  • データセンター
  • エクセル
  • 高周波
  • readsql sql
  • 読本ソン
  • HTML形式
  • リードテンプル
  • クリップボード
  • ドレッシングピクルス
  • read_msgpack
  • Readchen GBQ
  • CSVファイルとテキストファイル
    CSV(カンマ区切り値)は一般に表形式で報告され、コンマで区切られた行の値を持つデータです.
    テキストファイルには、スペースやタブで区切られたテーブルデータが含まれ、ファイルに格納されます.txt拡張.
    型(一般的に拡張子. txtで).
    このために、パンダはローカルまたはホストされたCSVをロードするためにこのために特有のセットのセットを提供します.
  • データセンター
  • readnumテーブル
  • CSVファイルは、タブのような他の文字をセパレータとして使用することができます.パンダのsep = ' ' パラメータを使用すると、ファイルに使用される区切り文字を定義できます.
    # Load library
    import pandas as pd
    
    # Create URL
    url = 'https://tinyurl.com/titanic-csv'
    
    # Load dataset
    dataframe = pd.read_csv(url)
    
    # View first two rows
    dataframe.head(2)
    
    上記の行は次の出力を生成します−
        PassengerId Pclass  Name    Sex Age SibSp   Parch   Ticket  Fare    Cabin   Embarked
    0   892 3   Kelly, Mr. James    male    34.5    0   0   330911  7.8292  NaN Q
    1   893 3   Wilkes, Mrs. James (Ellen Needs)    female  47.0    1   0   363272  7.0000  NaN S
    2   894 2   Myles, Mr. Thomas Francis   male    62.0    0   0   240276  9.6875  NaN Q
    3   895 3   Wirz, Mr. Albert    male    27.0    0   0   315154  8.6625  NaN S
    4   896 3   Hirvonen, Mrs. Alexander (Helga E Lindqvist)    female  22.0    1   1   3101298 12.2875 NaN S
    
    N/B :ローカルに保存されたCSVファイルのために、URLはあなたの働くディレクトリのファイルの参照された位置です.例えば、CSVファイル(SampleCount 1という名前の)が'c:\users\rainer\desktop' 使用するURLは以下の通りです.
    # Create url
    url = 'c:\\users\\rainer\\desktop\\sample_1.csv'
    
    # Load dataset
    dataframe = pd.read_csv(url)
    
    CSVファイルのデータを表形式の
    同じカラムの値がコンマで区切られます.しかし、CSVファイルはテキストファイルと見なされます.
    デリミタを指定している場合、readstamp table ()関数を使用することもできます.
    # Create url
    url = 'c:\\users\\rainer\\desktop\\sample_1.csv'
    
    # Load dataset
    dataframe = pd.read_table(url, sep = ',')
    


    ワーキングディレクトリに小さなCSVファイルを作成し、SampleCount 1として保存します.CSV
    サンプル1.CSV
    白、青、赤、黄色
    ルーラー、1 , 3 , 5 , 2
    カップ、2 , 5 , 9 , 2
    ペン、6 , 1 , 4 , 0
    図書、4 , 1 , 2 , 1
    # Load dataset
    dataframe = pd.read_csv('sample_1.csv')
    print(dataframe)
    
    これが生成されます.
      item   white  blue  red  yellow
    0  ruler       1     3    5       2
    1    cup       2     5    9       2
    2    pen       6     1    4       0
    3   book       4     1    2       1
    
    マイクロソフトExcelファイルからのデータ読み込み
    Excelスプレッドシートには、表形式のデータが含まれます.パンダは、このフォーマット( . xlsおよび. xlsx )のデータを読み込むためにreadwords excl ()関数を提供します.
    これはpd.read_excel('data.xls') これは、スプレッドシートに格納されたデータから構成されるデータフレームを返します.ただし、スプレッドシートにデータを読み込む必要がある場合は、指定したシートの名前やシートの数を指定しますpd.read_excel('data.xls','Sheet2') or pd.read_excel('data.xls',1)実際に行うには、Excelファイルを開き、次の図に示すデータを入力します.

    シート1


    シート2

    スプレッドシートにデータを入力した後、Jupyterノートブックまたは優先的なPython操作ツールを使用して保存し、ロードします.
    import pandas as pd
    
    # Load file into Data variable
    Data = pd.read_excel("Book1.xlsx","Sheet1")
    
    # Print 
    Print(Data.head())
    
    生成される出力は
    NAME     AGE BEST COLOR  BOOK NO.  PAGE
    0     Edwin   5yrs      Green         7  2404
    1  Muuo Ian   6yrs     Purple         8  2405
    2      Joel   5yrs     Orange         9  2406
    3      Mush   5yrs      Red          10  2407
    4  Nyandeng  10yrs      Green        11  2408
    
    他のシートを利用可能な表示するには、単にシート番号を指定します.
    import pandas as pd
    
    # Load file into Data variable
    Data = pd.read_excel("Book1.xlsx","Sheet2")
    
    # Print 
    Print(Data.head())
    
    生成される出力は
    NAME    AGE BEST COLOR BOOK NO.  PAGE
    0       Fred  10yrs     Yellow       25  2410
    1     Bianca  13yrs       Blue       26  2412
    2     Martin   6yrs      Green       27  2413
    3  Genevieve   3yrs     Violet       28  2414
    4      Karen  12yrs     Yellow       29  2415
    
    CSVファイルとExcelファイルが利用可能なので、多くの形式がありますが使用される最も一般的なデータファイル形式です.JSON形式でデータの読み込みを行う次の記事と、Pandasライブラリを使用したデータベースからの次の記事を入力します.
    それなら、さようなら👋👋👋. ハッピーコーディング週間先!