Python Lib+インテリジェント人材開発院


こんにちは!今日はインテリジェント人材開発院受講のPythonライブラリで!Numpy、Pandas、Matplotlibを整理してみましょう.では早速始めましょう!

🍇


Numpy :


高性能科学計算用データ分析ライブラリ
  • は、高速で効率的なベクトル演算の多次元アレイを提供する.(カレンダークラス)
  • を繰り返すことなく、データ・アレイ全体を計算できる標準数学関数
    (sum()、sqrt()、mean()リスト、tupleは単純なリストで、演算できません!
  • 線形代数は、乱数(乱数)を生成し、フーリエ変換に変換する.
  • シーケンス(index)


    numpy.カレンダクラス
  • は、同じデータ型の値を配列形式で存在する.
  • n次元に設定できます.
  • 各値
  • は正の整数にインデックスされます.
  • numpyでは、次元(dimension)をrank、axisと呼ぶ.
  • endarrayをarrayと略す.
  • 条件フィルタ


    ブール索引
  • true値は/false値を出力しません.
  • Tipデータを入力すると、サイズを知るのが基本です!
    shape():サイズ、size():要素数、ndim():次元
    Tip順があるのでインデックス、スライドができます!
    インデックスとスクライブは、秩序あるデータソースからデータを取得する方法であり、それらの書き込み方法は同じです.
    かっこでスタート!
    Tip axis=0(垂直)/axis=1(水平)

    n.関数




    🥑


    Pandas :


    行と列からなる表形式のデータを処理および分析するためのライブラリ.
    Numpyベースでpandas->を使用して計算可能!
  • 2

    Series Class:1 D{index+値}

    値:検証値
    index:インデックスのチェック
    dtype:
  • データ型の検証

    n.関数


    名前を付ける
  • .name
  • .index.name
  • 測定値確認
  • .isnull()
  • .notnull()
  • Tip
  • and = &
  • or = |
  • 2

    DataFrame Class:2 D

    行および列と同様のテーブル.
    異なるタイプのデータ型を格納できます.
  • 値:検査値
  • index:インデックスのチェック(1次元のシリーズは値、インデックスのみ)
  • 列:列をチェック(2 Dデータフレームから列へ!)
  • 索引、スライド


    :行と列を一度にインデックスし、関数/変数をスムーズにします.インデックス[行、列]
  • loc:インデックスの値(文字)を使用します.
  • iloc:インデックスの番号(整数)を使用します.(i=予告編!)
  • インデックス[行]:対応する行のデータ出力.
  • Q.人口実習
    # 1. 파일 드랍하고 업로드 후, 데이터 불러오기. 인코딩해주고, 인덱스값을 바로 지정! 
    population_number = pd.read_csv('population_number.csv', encodeing='euc-kr', index_col='도시')
    # 2. 각 값이 나온 횟수 세기
    # 2-1. 인덱싱하기
    # 2.2 value_counts() 함수 이용

    ツールバーの

  • sort index:インデックス値でソートします.昇順!
    (降順ソートの場合、カッコ内の昇順=エラー!)
  • sort values:データ値でソートします.
    by=カラム値ベース
    リストを使用して複数の基準でソートできます.
  • population_number.sort_values(by=['지역', '2010'])
    => '지역''2010'를 하나의 리스트로 묶어 정렬. 

    Booleanインデックス

  • 条件でのデータインポート=>インデックス
  • 判別(ブール)->戻り論理値(真/偽)
  • 条件に従ってデータ
  • をインポートする.
    Q.2015年の人口が250万人を超えるデータを導入.
    1. population_number['2015']
    2. population_number['2015'] >= 2500000
    3. population_number[population_number['2015']>=2500000
    条件が2つを超える場合はカッコで囲みます!
    population_number[(population_number['2015']>=2500000) & (population_number['2010']>=2500000)]
    Q.合計、平均列を追加
    score['합계'] = score_sum
    score['평균'] = score.loc[:, :'4반'].mean(axis=1)

    データフレームのマージ

  • concat

  • merge


  • Fillna(入力値指定):入力が欠落しています
    drop:DataFrame列を削除する(出力のみ!元の値は変更しない)
    axisを指定し、inplace=Trueを指定してデータを削除します.
    Q.犯罪率の増減を求める
    1.データをインポートし、「発生回数」のみ抽出
    2.年度増減を探せ!
    3.カラム名を変更!
    途中でうまくいかなければ、そのままデータを再読み込みして行います!
    # 데이터 가져오기 
    df2015 = pd.read_csv('2015.csv', encoding='euc-kr', index_col='관서명')
    df2016 = pd.read_csv('2016.csv', encoding='euc-kr', index_col='관서명')
    df2017 = pd.read_csv('2017.csv', encoding='euc-kr', index_col='관서명')
    
    # 광주지방경찰청은 2017년에만 있는 데이터여서 삭제 
    df2017.drop('광주지방경찰청', axis=0, inplace=True)
    
    # 총계(데이터 총합) 컬럼 추가
    df2015_crime['총계'] = df2015_crime.sum(axis=1)
    df2016_crime['총계'] = df2016_crime.sum(axis=1)
    df2017_crime['총계'] = df2017_crime.sum(axis=1)
    
    df2015_crime.loc[:, '살인':'폭력'].sum(axis=1)
    df2016_crime.loc[:, '살인':'폭력'].sum(axis=1)
    df2017_crime.loc[:, '살인':'폭력'].sum(axis=1)
    
    t1 = df2015_crime['총계']
    t2 = df2016_crime['총계']
    t3 = df2017_crime['총계']
    
    p1 = (t2-t1)/t1*100
    p2 = (t3-t2)/t2*100
    
    crime = pd.concat([t1, p1, t2, p2, t3], axis=1)
    
    p1.name = '2015-2016 증감율'
    p2.name = '2016-2017 증감율'
    
    crime.columns = ['2015총계', '2015-2016 증감율', 
                    '2016총계', '2016-2017 증감율', '2017총계']

    🥕


    Matplotlib :


    2 Dグラフィックスで可視化可能なライブラリ

    データの表示


    大量に分散した資料をグラフやグラフに整理して、一目で見えるようにします.
    ビジュアル化により、データの特徴を簡単に理解できます.
    分析結果を効果的に相手に伝えることができます.
    pyplot:非可視化の簡単な情報を入力するだけで印刷できます.(plt)
    pylab:可視化+numpy




    Q.毎週死亡交通事故の可視化
    import pandas as pd
    data=pd.read_csv("", encoding="euc-kr")
    
    # 분석 시작 전 확인하기. 
    data.shape() 
    data.head()
    data.tail()
    data.info()
    
    # 1. 요일 컬럼 가져오기
    # .unique() : 중복없는 데이터 출력 함수. 
    data['요일'].unique() 
    # 요일별 사고 발생 건수 확인하고 temp에 담기
    temp = data['요일'].value_counts()
    # 요일 순서대로 가져와서 y에 담기 
    # temp['월', '화'] 이런식으로 하면 오루! 대괄호 하나 더 써서 리스트화 시키기! 
    y = temp[['월', '화', '수', '목', '금', '토', '일']]
    x = y.index
    
    # 2. barchart 그리기 
    plt.bar(x, y)
    plt.show() 
    # 특정 구간만 확대해서 출력하기. 
    plt.bar(x, y)
    plt.ylim(500, 600)
    plt.show()


    /


    この記事では、Pythonライブラリについて理解しました.データを取得して可視化するプロセスはとても面白いです.では次のポストで会いましょう!

    インテリジェント人材開発院をもっと知りたいなら👆上の画像👆クリック!
    #ビッグデータ専門家、#IT資格証明、#インテリジェント人材開発院、#SQL、#機械学習