pandas形式のfileの読み込み

4046 ワード

GoogleColaboratory pandas Python Jupyter-notebook Python テキストリンク

0. 本記事の内容

この記事はデータ分析をするための、ファイルを読み込み、出力の方法をメモとして残すものです。

1．参考サイト

pandasでcsv/tsvファイル読み込み（read_csv, read_table）

2. jupyther- notebookでのCSV読み込み

df = pd.read_csv('train.csv', sep = ',', na_values = '.', header = None)

Tips　読み込みタイプ

csvファイルの読み込みはread_csv()、tsvファイル（タブ区切り）の読み込みはread_table()

Tips　データの区切り

カンマでもタブでもないデータの区切りの場合、引数（sepかdelimiter）で区切り文字の指定が可能。

Tips　読み込みデータにheaderがない場合

標準で読み込みデータの1行目はheaderとして扱われる。読み込みデータにheaderがない場合は、header = None と指定する。

Tips　読み込みデータにheaderがある場合

headerの読み込み位置を header=2 などで、明示的に指定する。指定個所以前は読み込まれない。

Tips 読み込みデータ型

データ読み込み時に、データ型を指定する場合は2通りある。1つ目は dtype = strとして指定する場合。これは読み込みデータすべてに適応される。2つ目は dtype={'b': str, 'c': str}と辞書形式で指定する。

Tips 欠損値の扱い

データ読み込み時に欠損値として扱いたい場合は、 na_values = ["-","."] と指定することで、欠損値扱いすることができる。

3. Google ColaboratoryでのCSV読み込み

1．アイコンクリック
2．Mount Drive選択
3．自動でこの部分が追加される（※）

3以降．別画面にてColaboratoryと連携をするアカウントを求められるので、選択。その後IDが発行されるため、IDをコピーしてColaboratoryに貼り付け。

（※）自動で追加されない場合は以下コマンドを記載

from google.colab import drive
drive.mount('/content/drive')

pd.reac_csv() にて以下の通り、パスを指定をする

data_fixed = pd.read_csv("/content/drive/My Drive/ColabNotebooks/XXX.csv")

それ以降のCSVファイルの読み込みは 2. jupyther- notebookでのCSV読み込み と同じ。

3.2　ローカルからアップロード

以下コマンドにて、ローカルからアップロードをするファイルをせんたｋ

from google.colab import files
uploaded = files.upload()

import io
df = pd.read_csv(io.StringIO(uploaded['XXX.csv'].decode('utf-8')))

XXX.csvはアップロードをしたCSVファイルです。

4．Google ColaboratoryへのCSVファイル出力

出力形式は以下の通り。

df.to_csv("/content/drive/My Drive/Colab Notebooks/XXX.csv")

5．ブラウザ経由でローカルへダウンロード（Google ColaboratoryとJupyter-notebook共通）

df.to_csv('XXX.csv' , index=False)
files.download('XXX.csv')

Tips indexの省略

データ出力時に index 部分が必要ない場合は、 index = False と指定する。kaggleでcommitする際に index が必要ないケースが多いため個人的には役立つ。

Tips colaboratoryからのダウンロード

colaboratoryからダウンロードする際は以下を読み込む必要がある。

from google.colab import files

Author And Source

この問題について(pandas形式のfileの読み込み), 我々は、より多くの情報をここで見つけました https://qiita.com/kentagon1007/items/6cf1dfb2de78c8cc39e1

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

pandas形式のfileの読み込み

0. 本記事の内容

1．参考サイト

2. jupyther- notebookでのCSV読み込み

Tips 読み込みタイプ

Tips データの区切り

Tips 読み込みデータにheaderがない場合

Tips 読み込みデータにheaderがある場合

Tips 読み込みデータ型

Tips 欠損値の扱い

3. Google ColaboratoryでのCSV読み込み

3.2 ローカルからアップロード

4．Google ColaboratoryへのCSVファイル出力

5．ブラウザ経由でローカルへダウンロード（Google ColaboratoryとJupyter-notebook共通）

Tips indexの省略

Tips colaboratoryからのダウンロード

Author And Source

Tips　読み込みタイプ

Tips　データの区切り

Tips　読み込みデータにheaderがない場合

Tips　読み込みデータにheaderがある場合

3.2　ローカルからアップロード