Pythonで処理するためのデータを読み込みます.
12455 ワード
Wikipediaによると、データマイニングは機械学習、統計、およびデータベースシステムの交差点でメソッドを含んでいる大きなデータセットのパターンを抽出して発見する重要なプロセスです.
したがって、任意の機械学習慣習では、取得したデータを取得する必要があります.データは、ログファイル、データセットファイル、または異なる複数のソースから取得できるデータベースです.
この記事では、CSVファイルとSQLデータベースを含むさまざまなソースから異なる形式のデータを読み込むさまざまな方法を見ていきます.
私たちは、外部のデータをロードするためだけでなく、SciKit - LearningとSeabornの作り付けのデータセットをロードするためのPythonパンダの広範なライブラリメソッドに焦点を当てます.
サンプルデータセットの読み込み.
これには、既存のデータセットからのデータを読み込む場合があります.パッケージはいくつかの小さなおもちゃデータセットを埋め込む.データセットは、「おもちゃ」データセットとして参照されます.なぜなら、それらは、現実世界で遭遇するデータセットよりも小さく、よりきれいであるからです.
The
SkLearnからのサンプルデータセットを以下に示します.
loadHand boston ()--ボストンハウス価格データセットを読み込み、復帰するこれは、ボストン住宅価格503の観測と回帰アルゴリズムを探索するための良いデータセットが含まれます.
loadHound Irse ()-- IRIデータセットを読み込み、それを返すそれは虹彩花の測定に150の観察を含んでいます.分類アルゴリズムを探索するのに良いデータセットである.
loadHand DiabeTes ()-糖尿病データセット(回帰)を読み込み、返します.
loadRound digit ([ NRACK Class ])-桁のデータセットを読み込み、戻します(分類).LoadRange数字は手書き数字のイメージから1797の観測を含んでいます.画像分類を教えるための良いデータセットである.
loadHand linnerup ()-- linnerUDデータセットを読み込み、返す(多変量回帰)
使用可能なデータセットの一覧を見るには、getHorse DataSetRound Name ()を使用します.
…の助けを借りて
パンダライブラリを使用してファイルを読み込みます.
パンダは、データ操作のためのスクリプトにさまざまな形式のファイルを読み取るためのさまざまな機能を提供する多様なデータ解析ライブラリです.
様々なリーダー関数には以下が含まれます. データセンター エクセル 高周波 readsql sql 読本ソン HTML形式 リードテンプル クリップボード ドレッシングピクルス read_msgpack Readchen GBQ CSVファイルとテキストファイル
CSV(カンマ区切り値)は一般に表形式で報告され、コンマで区切られた行の値を持つデータです.
テキストファイルには、スペースやタブで区切られたテーブルデータが含まれ、ファイルに格納されます.txt拡張.
型(一般的に拡張子. txtで).
このために、パンダはローカルまたはホストされたCSVをロードするためにこのために特有のセットのセットを提供します. データセンター readnumテーブル CSVファイルは、タブのような他の文字をセパレータとして使用することができます.パンダの
同じカラムの値がコンマで区切られます.しかし、CSVファイルはテキストファイルと見なされます.
デリミタを指定している場合、readstamp table ()関数を使用することもできます.
例
ワーキングディレクトリに小さなCSVファイルを作成し、SampleCount 1として保存します.CSV
サンプル1.CSV
白、青、赤、黄色
ルーラー、1 , 3 , 5 , 2
カップ、2 , 5 , 9 , 2
ペン、6 , 1 , 4 , 0
図書、4 , 1 , 2 , 1
Excelスプレッドシートには、表形式のデータが含まれます.パンダは、このフォーマット( . xlsおよび. xlsx )のデータを読み込むためにreadwords excl ()関数を提供します.
これは
シート1
シート2
スプレッドシートにデータを入力した後、Jupyterノートブックまたは優先的なPython操作ツールを使用して保存し、ロードします.
それなら、さようなら👋👋👋. ハッピーコーディング週間先!
したがって、任意の機械学習慣習では、取得したデータを取得する必要があります.データは、ログファイル、データセットファイル、または異なる複数のソースから取得できるデータベースです.
この記事では、CSVファイルとSQLデータベースを含むさまざまなソースから異なる形式のデータを読み込むさまざまな方法を見ていきます.
私たちは、外部のデータをロードするためだけでなく、SciKit - LearningとSeabornの作り付けのデータセットをロードするためのPythonパンダの広範なライブラリメソッドに焦点を当てます.
サンプルデータセットの読み込み.
これには、既存のデータセットからのデータを読み込む場合があります.パッケージはいくつかの小さなおもちゃデータセットを埋め込む.データセットは、「おもちゃ」データセットとして参照されます.なぜなら、それらは、現実世界で遭遇するデータセットよりも小さく、よりきれいであるからです.
The
sklearn.datasets
いくつかの外部のウェブサイトから任意のファイルをダウンロードする必要はありませんいくつかの小さな標準データセットが付属しています.SkLearnからのサンプルデータセットを以下に示します.
loadHand boston ()--ボストンハウス価格データセットを読み込み、復帰するこれは、ボストン住宅価格503の観測と回帰アルゴリズムを探索するための良いデータセットが含まれます.
loadHound Irse ()-- IRIデータセットを読み込み、それを返すそれは虹彩花の測定に150の観察を含んでいます.分類アルゴリズムを探索するのに良いデータセットである.
loadHand DiabeTes ()-糖尿病データセット(回帰)を読み込み、返します.
loadRound digit ([ NRACK Class ])-桁のデータセットを読み込み、戻します(分類).LoadRange数字は手書き数字のイメージから1797の観測を含んでいます.画像分類を教えるための良いデータセットである.
loadHand linnerup ()-- linnerUDデータセットを読み込み、返す(多変量回帰)
# Load scikit-learn's datasets
from sklearn import datasets
# Load digits dataset
digits = datasets.load_digits()
IRISデータセットを読み込むには、次の手順に従います.from sklearn.datasets import load_iris
data = load_iris()
data.target[[10, 25, 50]]
Seabornは、ライブラリ内のいくつかの重要なデータセットが付属しています.Seabornがインストールされると、データセットが自動的にダウンロードされます.データセットのいくつかは、カテゴリカル変数の適切な順序を定義するために少量の前処理を適用する.使用可能なデータセットの一覧を見るには、getHorse DataSetRound Name ()を使用します.
# Import the seaborn module
import seaborn as sns
sns.get_dataset_names()
上記の行は次の出力を生成します−['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes',
'diamonds', 'dots', 'exercise',
'flights', 'fmri', 'gammas', 'geyser', 'iris',
'mpg', 'penguins', 'planets', 'tips', 'titanic']
Seabornにはリレーショナルテーブルテーブルが含まれます.…の助けを借りて
load_dataset()
関数は、必要なデータセットを読み込むことができます.import pandas as pd
import seaborn as sns
df = sns.load_dataset('tips')
print df.head()
上記の行は次の出力を生成します− total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4
パンダライブラリを使用してファイルを読み込みます.
パンダは、データ操作のためのスクリプトにさまざまな形式のファイルを読み取るためのさまざまな機能を提供する多様なデータ解析ライブラリです.
様々なリーダー関数には以下が含まれます.
CSV(カンマ区切り値)は一般に表形式で報告され、コンマで区切られた行の値を持つデータです.
テキストファイルには、スペースやタブで区切られたテーブルデータが含まれ、ファイルに格納されます.txt拡張.
型(一般的に拡張子. txtで).
このために、パンダはローカルまたはホストされたCSVをロードするためにこのために特有のセットのセットを提供します.
sep = ' '
パラメータを使用すると、ファイルに使用される区切り文字を定義できます.# Load library
import pandas as pd
# Create URL
url = 'https://tinyurl.com/titanic-csv'
# Load dataset
dataframe = pd.read_csv(url)
# View first two rows
dataframe.head(2)
上記の行は次の出力を生成します− PassengerId Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked
0 892 3 Kelly, Mr. James male 34.5 0 0 330911 7.8292 NaN Q
1 893 3 Wilkes, Mrs. James (Ellen Needs) female 47.0 1 0 363272 7.0000 NaN S
2 894 2 Myles, Mr. Thomas Francis male 62.0 0 0 240276 9.6875 NaN Q
3 895 3 Wirz, Mr. Albert male 27.0 0 0 315154 8.6625 NaN S
4 896 3 Hirvonen, Mrs. Alexander (Helga E Lindqvist) female 22.0 1 1 3101298 12.2875 NaN S
N/B :ローカルに保存されたCSVファイルのために、URLはあなたの働くディレクトリのファイルの参照された位置です.例えば、CSVファイル(SampleCount 1という名前の)が'c:\users\rainer\desktop'
使用するURLは以下の通りです.# Create url
url = 'c:\\users\\rainer\\desktop\\sample_1.csv'
# Load dataset
dataframe = pd.read_csv(url)
CSVファイルのデータを表形式の同じカラムの値がコンマで区切られます.しかし、CSVファイルはテキストファイルと見なされます.
デリミタを指定している場合、readstamp table ()関数を使用することもできます.
# Create url
url = 'c:\\users\\rainer\\desktop\\sample_1.csv'
# Load dataset
dataframe = pd.read_table(url, sep = ',')
例
ワーキングディレクトリに小さなCSVファイルを作成し、SampleCount 1として保存します.CSV
サンプル1.CSV
白、青、赤、黄色
ルーラー、1 , 3 , 5 , 2
カップ、2 , 5 , 9 , 2
ペン、6 , 1 , 4 , 0
図書、4 , 1 , 2 , 1
# Load dataset
dataframe = pd.read_csv('sample_1.csv')
print(dataframe)
これが生成されます. item white blue red yellow
0 ruler 1 3 5 2
1 cup 2 5 9 2
2 pen 6 1 4 0
3 book 4 1 2 1
マイクロソフトExcelファイルからのデータ読み込みExcelスプレッドシートには、表形式のデータが含まれます.パンダは、このフォーマット( . xlsおよび. xlsx )のデータを読み込むためにreadwords excl ()関数を提供します.
これは
pd.read_excel('data.xls')
これは、スプレッドシートに格納されたデータから構成されるデータフレームを返します.ただし、スプレッドシートにデータを読み込む必要がある場合は、指定したシートの名前やシートの数を指定しますpd.read_excel('data.xls','Sheet2')
or pd.read_excel('data.xls',1)
実際に行うには、Excelファイルを開き、次の図に示すデータを入力します.シート1
シート2
スプレッドシートにデータを入力した後、Jupyterノートブックまたは優先的なPython操作ツールを使用して保存し、ロードします.
import pandas as pd
# Load file into Data variable
Data = pd.read_excel("Book1.xlsx","Sheet1")
# Print
Print(Data.head())
生成される出力はNAME AGE BEST COLOR BOOK NO. PAGE
0 Edwin 5yrs Green 7 2404
1 Muuo Ian 6yrs Purple 8 2405
2 Joel 5yrs Orange 9 2406
3 Mush 5yrs Red 10 2407
4 Nyandeng 10yrs Green 11 2408
他のシートを利用可能な表示するには、単にシート番号を指定します.import pandas as pd
# Load file into Data variable
Data = pd.read_excel("Book1.xlsx","Sheet2")
# Print
Print(Data.head())
生成される出力はNAME AGE BEST COLOR BOOK NO. PAGE
0 Fred 10yrs Yellow 25 2410
1 Bianca 13yrs Blue 26 2412
2 Martin 6yrs Green 27 2413
3 Genevieve 3yrs Violet 28 2414
4 Karen 12yrs Yellow 29 2415
CSVファイルとExcelファイルが利用可能なので、多くの形式がありますが使用される最も一般的なデータファイル形式です.JSON形式でデータの読み込みを行う次の記事と、Pandasライブラリを使用したデータベースからの次の記事を入力します.それなら、さようなら👋👋👋. ハッピーコーディング週間先!
Reference
この問題について(Pythonで処理するためのデータを読み込みます.), 我々は、より多くの情報をここで見つけました https://dev.to/seniorcitizen/loading-data-for-processing-in-python-22jbテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol