pandas形式のfileの読み込み


0. 本記事の内容

この記事はデータ分析をするための、ファイルを読み込み、出力の方法をメモとして残すものです。

1.参考サイト

pandasでcsv/tsvファイル読み込み(read_csv, read_table)

2. jupyther- notebookでのCSV読み込み

df = pd.read_csv('train.csv', sep = ',', na_values = '.', header = None)

Tips 読み込みタイプ

csvファイルの読み込みはread_csv()、tsvファイル(タブ区切り)の読み込みはread_table()

Tips データの区切り

カンマでもタブでもないデータの区切りの場合、引数(sepかdelimiter)で区切り文字の指定が可能。

Tips 読み込みデータにheaderがない場合

標準で読み込みデータの1行目はheaderとして扱われる。読み込みデータにheaderがない場合は、header = None と指定する。

Tips 読み込みデータにheaderがある場合

headerの読み込み位置を header=2 などで、明示的に指定する。指定個所以前は読み込まれない。

Tips 読み込みデータ型

データ読み込み時に、データ型を指定する場合は2通りある。1つ目は dtype = strとして指定する場合。これは読み込みデータすべてに適応される。2つ目は dtype={'b': str, 'c': str}と辞書形式で指定する。

Tips 欠損値の扱い

データ読み込み時に欠損値として扱いたい場合は、 na_values = ["-","."] と指定することで、欠損値扱いすることができる。

3. Google ColaboratoryでのCSV読み込み

1.アイコンクリック
2.Mount Drive選択
3.自動でこの部分が追加される(※)

3以降.別画面にてColaboratoryと連携をするアカウントを求められるので、選択。その後IDが発行されるため、IDをコピーしてColaboratoryに貼り付け。

(※)自動で追加されない場合は以下コマンドを記載

from google.colab import drive
drive.mount('/content/drive')

pd.reac_csv() にて以下の通り、パスを指定をする

data_fixed = pd.read_csv("/content/drive/My Drive/ColabNotebooks/XXX.csv")

それ以降のCSVファイルの読み込みは 2. jupyther- notebookでのCSV読み込み と同じ。

3.2 ローカルからアップロード

以下コマンドにて、ローカルからアップロードをするファイルをせんたk

from google.colab import files
uploaded = files.upload()

import io
df = pd.read_csv(io.StringIO(uploaded['XXX.csv'].decode('utf-8')))

XXX.csvはアップロードをしたCSVファイルです。

4.Google ColaboratoryへのCSVファイル出力

出力形式は以下の通り。

df.to_csv("/content/drive/My Drive/Colab Notebooks/XXX.csv")

5.ブラウザ経由でローカルへダウンロード(Google ColaboratoryとJupyter-notebook共通)

df.to_csv('XXX.csv' , index=False)
files.download('XXX.csv')

Tips indexの省略

データ出力時に index 部分が必要ない場合は、 index = False と指定する。kaggleでcommitする際に index が必要ないケースが多いため個人的には役立つ。

Tips colaboratoryからのダウンロード

colaboratoryからダウンロードする際は以下を読み込む必要がある。

from google.colab import files