パンダとデータフレーム



概要


pandasはRをテーマにしたPythonライブラリです.
Pythonでデータ処理のために作成されたライブラリは、Pythonでデータ処理を行うために必要なライブラリです!
ファンダスにとって、通常pdの名前でインポートするのが慣例です.
import pandas as pd
pandasは3つのデータ構造を使用している.
  • シリーズ(シリーズ)
  • データフレーム(DataFrame)
  • パネル
  • その中で最もよく使われるのがデータフレームだそうですが、この記事ではシリーズとデータフレームのみを紹介しています.
    データ解析の収集、前処理などのプロセスは、通常、データフレームの形式で行われる.ここでいうデータフレーム(dataframe)は、通常、複数の一般的な行および列からなるテーブルである.
    Dataframeは、複数のシリーズ(series)を組み合わせたデータ型であり、seriesはデータフレームのサブデータ型である.1列が系列であり、この系列が複数の集合でデータフレームを形成していると理解すれば容易である.

    1.シリーズ(シリーズ)


    今勉強しているときは、データフレームが多く使われていますが、ファンダス辞書にもシリーズがあり、一部のモジュールはシリーズ単位で使われているようなので、まずこれを理解しておくべきです.

    2.データフレーム(データフレーム)


    データフレームは、複数のシリーズからなるデータ型のようです.
    つまり、データフレームから1つの列だけをインポートすると、それはシリーズになります.
    Pandas DataFrame is two-dimensional size-mutable, potentially heterogeneous tabular data structure with labeled axes (rows and columns).

    整理する


    シリアル1 Dアレイ形式のデータ構造
    DataFrameは2 D配列形式のデータ構造を提供する
    シリーズは行(横線、行)です.
    DataFrameは行列です.
    索引行ヘッダー行を区切る
    列ヘッダー列の区切り
    seriesはカラムがないのではなく、各カラムにn行があります.

    ヘッダーはcolumnとは違います。


    index:各RowのLabelに似ています.行名とか.
    ヘッダー:各列のラベルなど.列名とか
    row:行(水平線)
    column:列(垂直線)
    用語を整理できないのがちょっと紛らわしいので、こうやって背中を整理します





    デジタルデータセットとデータフレームの違い


    問題を解くときは2人で違うようなので探してみましたが、パンダかPythonの違う言語から出てきたようなコンセプトでした.
    Conceptually, consider DataFrame as an alias for a collection of generic objects Dataset[Row], where a Row is a generic untyped JVM object. ... Dataset, by contrast, is a collection of strongly-typed JVM objects, dictated by a case class you define in Scala or a class in Java.
    パンダでは、データセットとデータフレームの違いは大きく見えません...せめて今書いたこの瞬間に!
    Sparkで使用されているデータ構造タイプはRDD、DataFrame、DataSetがありますが、私はまだ読めないと思いますのでスキップします.
    リファレンス