[AIFFEL蔚山第1期]Day 4はどう表現すればいいですか?配列と表

4215 ワード

テキストリンク

学習目標

データを配列として格納する方法を理解し、listとnumpyの使用方法を学びます.

が構造化データを格納することを理解し、dictionaryとPandasの使い方を学びます.

の画像データをNumpy配列として格納する方法を理解し、学習します.

で学習したデータ構造を使用して統計データを計算する方法を学習します.

ポスト

9.データの表現方法配列と表

9.1近くに並ぶ~基本統計を計算してみましょうか?

平均計算

で入力した値をリストに保存する必要はありません.
->数字を足すだけ!
->入力を受け取るたびにカウントし、入力値の追加を続行します.合計

です.

アレイ

標準偏差と中心値を計算するには、すべての入力値を保存する必要があります.

リストの使用
->厳密には、リストはダイナミック配列(Dynamic Array)
->アレイモジュールのアレイは同じサイズとタイプでなければなりません
-> Pythonのリストにはデータ構造listとarrayの利点が採用されている。

中央値

の数字の集合をサイズ順に並べた場合、中央にある値.
->数値が偶数の場合、中央の値が中央になります
->奇数の場合、中央の2つの値の平均値は

です.

9.2ターミネーター登場!Numpyで一度にこのすべてを!

NumPy: Numerical Python
->科学計算とデータ分析用Pythonパッケージ

numpyの利点

メモリを高速かつ効率的に使用し、ベクトルの算術演算とブロードキャスト演算をサポートする多次元配列標準データ型.

複数の標準的な数学関数を提供し、重複文

を記述することなく、データアレイ全体に高速演算を提供します.

アレイのデータをディスクに書き込みまたは読み取りできます.(ファイルとして保存)

線形代数、乱数発生器、プリー、C/C++ポートバーに変換可能なコードを統合します.

numpy

を使用

import numpy as np

np.array([変数をリスト]),np.arange(個数)
文字が

の数字の間に含まれている場合、すべて文字列

に変換されます.

numpy主要機能

サイズ

タイプ

特殊マトリクス

放送

枚およびインデックス

ランダム

フロントマトリクス

統計データ計算

和、平均、標準偏差、計算可能中心値

アレイ.sum()、配列.mean()、配列.std(), numpy.中値(アレイ)

9.3データのマトリックス変換

画像

表示座標

画像左上隅(0,0)の

関連ライブラリ
a. matplotlib
b. PIL

PIL

from Pil import Image

.Open(画像アドレス),.size, .crop((x0, y0, xt, yt)), .resize((w, h)), .save(画像アドレス)

の白黒画像として開きます.Open(画像アドレス).convert('L')

画像をマトリクスに変換

画像マトリクス=np.Array(画像)

9.4構造化データとは?

データ内部に独自のサブ構造を持つ

9.5構造化データとPandas

Pandas

Numpyに基づいて開発され、Numpyを使用するアプリケーションの使用が容易

軸名でソート可能なデータ構造

データを様々な方法でインデックスする機能

統合されたデータ構造

は、クロック列機能と非クロック列データを同時に処理できる

欠落データ処理能力

データベースのようにデータ合成と関係演算を実行する機能

pipを使用して

をインストール

Series
一次元配列に類似した材料構造

は、一連のオブジェクトを収容することができる

pandas.シリーズ(タイル)

インデックスと値は

を構成します.

indexのデフォルトは整数ですが、必要に応じて他の値を指定できます.
-> pands.Series(配列形式,index=配列形式)
->シリーズ.index=タイル形式

ディックシリーズをシリーズに簡単に変換
->シリーズ=パンダ.シリーズ

設定可能名称

->シリーズ.name=シリーズオブジェクト名
->シリーズ.index.name=シリーズオブジェクトのインデックス名

DataFrame
データ構造表に示すように、複数のコラム

シリーズからデータフレームへ
->データフレーム=pands.DataFrame(シリーズ)

シリーズとデータフレームの比較

シリーズ

データフレーム

データ・フレーム.index=配列形式

データ・フレーム.columns=配列形式(->シリーズの名前と同じ)

構造化データ表示法の整理

9.6 PandasでEDAを起動

EDA(Exploratory Data Analysis)
->データの参照、つまりデータの参照

EDA

CSVファイルを読み込む

データフレーム=パンダ.read csv(ファイルアドレス)

.head(), .tail()

データセットの最初の5行と後の5行の

を表示する.
パラメータとして

入力可能な整数->入力整数のみを表示する

.info()

コラムでは、Null値と資料型メソッド

が提供されています.

.descrie()

各コラムの基本統計を示す

個のカウント、平均値(平均値)、標準偏差(std)、最大値(最小)、四分位数(25%、50%、75%)、最大値(最大値)

.isnull().sum()

各コラムの予測値の合計

が表示されます.

EDA統計データ

.value_counts()

各カテゴリ値の数

.sum()

データセット[コラム名].sum()->このコラム合計

データセット.sum()->コラム合計

.corr()

データセット[コラム名].corr(データセット[コラム名])

データセット.corr()->すべてのコラム関連

.drop()

データセット.drop(コラム名)->コラム

を破棄

いくつかのコマンド

count(): NA를 제외한 수를 반환합니다.
describe(): 요약 통계를 계산합니다.
min(), max(): 최소, 최댓값을 계산합니다.
sum(): 합을 계산합니다.
mean(): 평균을 계산합니다.
median(): 중앙값을 계산합니다.
var(): 분산을 계산합니다.
std(): 표준편차를 계산합니다.
argmin(), argmax(): 최소, 최댓값을 가지고 있는 값을 반환합니다.
idxmin(), idxmax(): 최소, 최댓값을 가지고 있는 인덱스를 반환합니다.
cumsum(): 누적 합을 계산합니다.
pct_change(): 퍼센트 변화율을 계산합니다.

Reference

この問題について([AIFFEL蔚山第1期]Day 4はどう表現すればいいですか?配列と表), 我々は、より多くの情報をここで見つけました https://velog.io/@jeongkyeongmin/AIFFEL-울산-1기-Day-4-Data-어떻게-표현하면-좋을까-배열array과-표table

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

JavaScript講義備考2演算子、条件文、繰返し文

【HTML】CSSによる検索フォームのデザイン