[AIFFEL蔚山第1期]Day 4はどう表現すればいいですか?配列と表

4215 ワード

学習目標

  • データを配列として格納する方法を理解し、listとnumpyの使用方法を学びます.
  • が構造化データを格納することを理解し、dictionaryとPandasの使い方を学びます.
  • の画像データをNumpy配列として格納する方法を理解し、学習します.
  • で学習したデータ構造を使用して統計データを計算する方法を学習します.
  • ポスト


    9.データの表現方法配列と表


    9.1近くに並ぶ~基本統計を計算してみましょうか?

  • 平均計算
  • で入力した値をリストに保存する必要はありません.
    ->数字を足すだけ!
    ->入力を受け取るたびにカウントし、入力値の追加を続行します.合計
  • です.
  • アレイ
  • 標準偏差と中心値を計算するには、すべての入力値を保存する必要があります.
  • リストの使用
    ->厳密には、リストはダイナミック配列(Dynamic Array)
    ->アレイモジュールのアレイは同じサイズとタイプでなければなりません
    -> Pythonのリストにはデータ構造listとarrayの利点が採用されている。
  • 中央値
  • の数字の集合をサイズ順に並べた場合、中央にある値.
    ->数値が偶数の場合、中央の値が中央になります
    ->奇数の場合、中央の2つの値の平均値は
  • です.

    9.2ターミネーター登場!Numpyで一度にこのすべてを!


    NumPy: Numerical Python
    ->科学計算とデータ分析用Pythonパッケージ
  • numpyの利点
  • メモリを高速かつ効率的に使用し、ベクトルの算術演算とブロードキャスト演算をサポートする多次元配列標準データ型.
  • 複数の標準的な数学関数を提供し、重複文
  • を記述することなく、データアレイ全体に高速演算を提供します.
  • アレイのデータをディスクに書き込みまたは読み取りできます.(ファイルとして保存)
  • 線形代数、乱数発生器、プリー、C/C++ポートバーに変換可能なコードを統合します.
  • numpy
  • を使用
  • import numpy as np
  • np.array([変数をリスト]),np.arange(個数)
    文字が
  • の数字の間に含まれている場合、すべて文字列
  • に変換されます.
  • numpy主要機能
  • サイズ
  • タイプ
  • 特殊マトリクス
  • 放送
  • 枚およびインデックス
  • ランダム
  • フロントマトリクス
  • 統計データ計算
  • 和、平均、標準偏差、計算可能中心値
  • アレイ.sum()、配列.mean()、配列.std(), numpy.中値(アレイ)
  • 9.3データのマトリックス変換

  • 画像
  • 表示座標
  • 画像左上隅(0,0)の
  • 関連ライブラリ
    a. matplotlib
    b. PIL
  • PIL
  • from Pil import Image
  • .Open(画像アドレス),.size, .crop((x0, y0, xt, yt)), .resize((w, h)), .save(画像アドレス)
  • の白黒画像として開きます.Open(画像アドレス).convert('L')
  • 画像をマトリクスに変換
  • 画像マトリクス=np.Array(画像)
  • 9.4構造化データとは?


    データ内部に独自のサブ構造を持つ

    9.5構造化データとPandas


    Pandas
  • Numpyに基づいて開発され、Numpyを使用するアプリケーションの使用が容易
  • 軸名でソート可能なデータ構造
  • データを様々な方法でインデックスする機能
  • .
  • 統合されたデータ構造
  • は、クロック列機能と非クロック列データを同時に処理できる
  • 欠落データ処理能力
  • データベースのようにデータ合成と関係演算を実行する機能
  • pipを使用して
  • をインストール
  • Series
    一次元配列に類似した材料構造
  • は、一連のオブジェクトを収容することができる
  • pandas.シリーズ(タイル)
  • インデックスと値は
  • を構成します.
  • indexのデフォルトは整数ですが、必要に応じて他の値を指定できます.
    -> pands.Series(配列形式,index=配列形式)
    ->シリーズ.index=タイル形式
  • ディックシリーズをシリーズに簡単に変換
    ->シリーズ=パンダ.シリーズ
  • 設定可能名称

  • ->シリーズ.name=シリーズオブジェクト名
    ->シリーズ.index.name=シリーズオブジェクトのインデックス名
  • DataFrame
    データ構造表に示すように、複数のコラム

  • シリーズからデータフレームへ
    ->データフレーム=pands.DataFrame(シリーズ)

  • シリーズとデータフレームの比較
  • シリーズ
  • データフレーム

  • データ・フレーム.index=配列形式

  • データ・フレーム.columns=配列形式(->シリーズの名前と同じ)
  • 構造化データ表示法の整理



    9.6 PandasでEDAを起動


    EDA(Exploratory Data Analysis)
    ->データの参照、つまりデータの参照
  • EDA
  • CSVファイルを読み込む
  • データフレーム=パンダ.read csv(ファイルアドレス)
  • .head(), .tail()
  • データセットの最初の5行と後の5行の
  • を表示する.
    パラメータとして
  • 入力可能な整数->入力整数のみを表示する
  • .info()
  • コラムでは、Null値と資料型メソッド
  • が提供されています.
  • .descrie()
  • 各コラムの基本統計を示す
  • 個のカウント、平均値(平均値)、標準偏差(std)、最大値(最小)、四分位数(25%、50%、75%)、最大値(最大値)
  • .isnull().sum()
  • 各コラムの予測値の合計
  • が表示されます.
  • EDA統計データ
  • .value_counts()
  • 各カテゴリ値の数
  • .sum()
  • データセット[コラム名].sum()->このコラム合計
  • データセット.sum()->コラム合計
  • .corr()
  • データセット[コラム名].corr(データセット[コラム名])
  • データセット.corr()->すべてのコラム関連
  • .drop()
  • データセット.drop(コラム名)->コラム
  • を破棄
  • いくつかのコマンド
    count(): NA를 제외한 수를 반환합니다.
    describe(): 요약 통계를 계산합니다.
    min(), max(): 최소, 최댓값을 계산합니다.
    sum(): 합을 계산합니다.
    mean(): 평균을 계산합니다.
    median(): 중앙값을 계산합니다.
    var(): 분산을 계산합니다.
    std(): 표준편차를 계산합니다.
    argmin(), argmax(): 최소, 최댓값을 가지고 있는 값을 반환합니다.
    idxmin(), idxmax(): 최소, 최댓값을 가지고 있는 인덱스를 반환합니다.
    cumsum(): 누적 합을 계산합니다.
    pct_change(): 퍼센트 변화율을 계산합니다.