パンダとデータフレーム
概要
pandasはRをテーマにしたPythonライブラリです.
Pythonでデータ処理のために作成されたライブラリは、Pythonでデータ処理を行うために必要なライブラリです!
ファンダスにとって、通常pdの名前でインポートするのが慣例です.import pandas as pd
pandasは3つのデータ構造を使用している.
import pandas as pd
データ解析の収集、前処理などのプロセスは、通常、データフレームの形式で行われる.ここでいうデータフレーム(dataframe)は、通常、複数の一般的な行および列からなるテーブルである.
Dataframeは、複数のシリーズ(series)を組み合わせたデータ型であり、seriesはデータフレームのサブデータ型である.1列が系列であり、この系列が複数の集合でデータフレームを形成していると理解すれば容易である.
1.シリーズ(シリーズ)
今勉強しているときは、データフレームが多く使われていますが、ファンダス辞書にもシリーズがあり、一部のモジュールはシリーズ単位で使われているようなので、まずこれを理解しておくべきです.
2.データフレーム(データフレーム)
データフレームは、複数のシリーズからなるデータ型のようです.
つまり、データフレームから1つの列だけをインポートすると、それはシリーズになります.
Pandas DataFrame is two-dimensional size-mutable, potentially heterogeneous tabular data structure with labeled axes (rows and columns).
整理する
シリアル1 Dアレイ形式のデータ構造
DataFrameは2 D配列形式のデータ構造を提供する
シリーズは行(横線、行)です.
DataFrameは行列です.
索引行ヘッダー行を区切る
列ヘッダー列の区切り
seriesはカラムがないのではなく、各カラムにn行があります.
ヘッダーはcolumnとは違います。
index:各RowのLabelに似ています.行名とか.
ヘッダー:各列のラベルなど.列名とか
row:行(水平線)
column:列(垂直線)
用語を整理できないのがちょっと紛らわしいので、こうやって背中を整理します
デジタルデータセットとデータフレームの違い
問題を解くときは2人で違うようなので探してみましたが、パンダかPythonの違う言語から出てきたようなコンセプトでした.
Conceptually, consider DataFrame as an alias for a collection of generic objects Dataset[Row], where a Row is a generic untyped JVM object. ... Dataset, by contrast, is a collection of strongly-typed JVM objects, dictated by a case class you define in Scala or a class in Java.
パンダでは、データセットとデータフレームの違いは大きく見えません...せめて今書いたこの瞬間に!
Sparkで使用されているデータ構造タイプはRDD、DataFrame、DataSetがありますが、私はまだ読めないと思いますのでスキップします.
リファレンス
Reference
この問題について(パンダとデータフレーム), 我々は、より多くの情報をここで見つけました https://velog.io/@yuns_u/기초-pandas의-series-dataframe미완テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol