Pandas初日

4012 ワード

1.データセットの読み込み


ターゲット:url取得時にExcelファイルを読み込む方法。(Excelシートが2つある場合)


Pandas Excelをcsvに変換する説明リンク
→このリンクを参考に勉強する.

pandas.read_excel(io,sheet_name)


今日はParameterのioとsheet nameについて

- io


ioにはstr、bytes、Excel File、xlrdが含まれます.Book、path object、or file-like objectなども参加できます.
strはURLであってもよい.ローカルファイルfile://localhost/path/to/table.xlsx.このように住所を書きます.

- sheet_name


sheet nameはstr、int、list、or None、default 0などを含むことができる.
何も書かれていない場合は、Default 0、すなわち最初のページを出力します.
数字1を書くとき、2ページ目を持ってきます.「図面1」のように、図面1の名前をstrにインポートすることもできます.

実習


url: https://docs.google.com/spreadsheets/d/e/2PACX-1vQb81Vht5xmxX0AWkVHtkDdCbpAEJzRlI6o6KSa2wjrKviYjSBP3Bw742KAYEN8VaFMPxKN5Fdpcbho/pub?output=xlsx
  • 最初のページ、
  • にロード
  • url,pdを設定します.read excel()関数を使用してurlをioとして、0は最初のsheet
  • にロードされます.
    import pandas as pd
    url = 'https://docs.google.com/spreadsheets/d/e/2PACX-1vQb81Vht5xmxX0AWkVHtkDdCbpAEJzRlI6o6KSa2wjrKviYjSBP3Bw742KAYEN8VaFMPxKN5Fdpcbho/pub?output=xlsx'
    df = pd.read_excel(url,0)
    df

    このように出力します.
  • 2 2 2枚目の表、
  • 前の
  • に示すようにurlは同様に挿入され、2番目のワークシートが1でロードされます.
  • import pandas as pd
    url = 'https://docs.google.com/spreadsheets/d/e/2PACX-1vQb81Vht5xmxX0AWkVHtkDdCbpAEJzRlI6o6KSa2wjrKviYjSBP3Bw742KAYEN8VaFMPxKN5Fdpcbho/pub?output=xlsx'
    df = pd.read_excel(url,1)
    df
    出力は次のとおりです.

    学習中に生じた問題

  • sheetを設定すると、sheetの名前にスペースが含まれます.(『08007』)だから私は最初から空白があることを知らなかった.
  • 解決策


  • 関数に関するエラーが発生した場合、googlingで関数をどのように置き換えるかをすばやく検索し、挿入します.

  • sheet nameにはいろいろな方法があります.しかし、他のサイトでは1つの例しか見ておらず、文字列の追加状況だけを調べ、問題を解決するのに多くの時間を費やしました.

  • 解決策はsheet nameにそれぞれ0と1を2回入れることである.
  • 最後にdf 1 df 2でsheet 1 sheet 2をそれぞれ定義して表す

    import pandas as pd
    url = 'https://docs.google.com/spreadsheets/d/e/2PACX-1vQb81Vht5xmxX0AWkVHtkDdCbpAEJzRlI6o6KSa2wjrKviYjSBP3Bw742KAYEN8VaFMPxKN5Fdpcbho/pub?output=xlsx'
    df1 = pd.read_excel(url,0)
    df2 = pd.read_excel(url,1)
    →これにより、sheet 1 sheet 2をdf 1、df 2のそれぞれにDataFrame形式でロードすることに成功した.