Python Lib+インテリジェント人材開発院
19286 ワード
こんにちは!今日はインテリジェント人材開発院受講のPythonライブラリで!Numpy、Pandas、Matplotlibを整理してみましょう.では早速始めましょう!
🍇
は、高速で効率的なベクトル演算の多次元アレイを提供する.(カレンダークラス) を繰り返すことなく、データ・アレイ全体を計算できる標準数学関数
(sum()、sqrt()、mean()リスト、tupleは単純なリストで、演算できません! 線形代数は、乱数(乱数)を生成し、フーリエ変換に変換する.
numpy.カレンダクラスは、同じデータ型の値を配列形式で存在する. n次元に設定できます. 各値は正の整数にインデックスされます. numpyでは、次元(dimension)をrank、axisと呼ぶ. endarrayをarrayと略す.
ブール索引 true値は/false値を出力しません. Tipデータを入力すると、サイズを知るのが基本です!
shape():サイズ、size():要素数、ndim():次元
Tip順があるのでインデックス、スライドができます!
インデックスとスクライブは、秩序あるデータソースからデータを取得する方法であり、それらの書き込み方法は同じです.
かっこでスタート!
Tip axis=0(垂直)/axis=1(水平)
🥑
2
index:インデックスのチェック
dtype: データ型の検証
名前を付ける .name .index.name 測定値確認 .isnull() .notnull() Tip and = & or = | 2
異なるタイプのデータ型を格納できます.
値:検査値 index:インデックスのチェック(1次元のシリーズは値、インデックスのみ) 列:列をチェック(2 Dデータフレームから列へ!)
:行と列を一度にインデックスし、関数/変数をスムーズにします.インデックス[行、列] loc:インデックスの値(文字)を使用します. iloc:インデックスの番号(整数)を使用します.(i=予告編!) インデックス[行]:対応する行のデータ出力. Q.人口実習 sort index:インデックス値でソートします.昇順!
(降順ソートの場合、カッコ内の昇順=エラー!) sort values:データ値でソートします.
by=カラム値ベース
リストを使用して複数の基準でソートできます. 条件でのデータインポート=>インデックス 判別(ブール)->戻り論理値(真/偽) 条件に従ってデータ をインポートする.
Q.2015年の人口が250万人を超えるデータを導入.
Fillna(入力値指定):入力が欠落しています
drop:DataFrame列を削除する(出力のみ!元の値は変更しない)
axisを指定し、inplace=Trueを指定してデータを削除します.
Q.犯罪率の増減を求める
1.データをインポートし、「発生回数」のみ抽出
2.年度増減を探せ!
3.カラム名を変更!
途中でうまくいかなければ、そのままデータを再読み込みして行います!🥕
🍇
Numpy :
高性能科学計算用データ分析ライブラリ
高性能科学計算用データ分析ライブラリ
(sum()、sqrt()、mean()リスト、tupleは単純なリストで、演算できません!
シーケンス(index)
numpy.カレンダクラス
条件フィルタ
ブール索引
shape():サイズ、size():要素数、ndim():次元
Tip順があるのでインデックス、スライドができます!
インデックスとスクライブは、秩序あるデータソースからデータを取得する方法であり、それらの書き込み方法は同じです.
かっこでスタート!
Tip axis=0(垂直)/axis=1(水平)
n.関数
🥑
Pandas :
行と列からなる表形式のデータを処理および分析するためのライブラリ.
Numpyベースでpandas->を使用して計算可能!
行と列からなる表形式のデータを処理および分析するためのライブラリ.
Numpyベースでpandas->を使用して計算可能!
Series Class:1 D{index+値}
値:検証値index:インデックスのチェック
dtype:
n.関数
名前を付ける
DataFrame Class:2 D
行および列と同様のテーブル.異なるタイプのデータ型を格納できます.
索引、スライド
:行と列を一度にインデックスし、関数/変数をスムーズにします.インデックス[行、列]
# 1. 파일 드랍하고 업로드 후, 데이터 불러오기. 인코딩해주고, 인덱스값을 바로 지정!
population_number = pd.read_csv('population_number.csv', encodeing='euc-kr', index_col='도시')
# 2. 각 값이 나온 횟수 세기
# 2-1. 인덱싱하기
# 2.2 value_counts() 함수 이용
ツールバーの
(降順ソートの場合、カッコ内の昇順=エラー!)
by=カラム値ベース
リストを使用して複数の基準でソートできます.
population_number.sort_values(by=['지역', '2010'])
=> '지역'과 '2010'를 하나의 리스트로 묶어 정렬.
Booleanインデックス
Q.2015年の人口が250万人を超えるデータを導入.
1. population_number['2015']
2. population_number['2015'] >= 2500000
3. population_number[population_number['2015']>=2500000
条件が2つを超える場合はカッコで囲みます!population_number[(population_number['2015']>=2500000) & (population_number['2010']>=2500000)]
Q.合計、平均列を追加score['합계'] = score_sum
score['평균'] = score.loc[:, :'4반'].mean(axis=1)
データフレームのマージ
concat
merge
Fillna(入力値指定):入力が欠落しています
drop:DataFrame列を削除する(出力のみ!元の値は変更しない)
axisを指定し、inplace=Trueを指定してデータを削除します.
Q.犯罪率の増減を求める
1.データをインポートし、「発生回数」のみ抽出
2.年度増減を探せ!
3.カラム名を変更!
途中でうまくいかなければ、そのままデータを再読み込みして行います!
# 데이터 가져오기
df2015 = pd.read_csv('2015.csv', encoding='euc-kr', index_col='관서명')
df2016 = pd.read_csv('2016.csv', encoding='euc-kr', index_col='관서명')
df2017 = pd.read_csv('2017.csv', encoding='euc-kr', index_col='관서명')
# 광주지방경찰청은 2017년에만 있는 데이터여서 삭제
df2017.drop('광주지방경찰청', axis=0, inplace=True)
# 총계(데이터 총합) 컬럼 추가
df2015_crime['총계'] = df2015_crime.sum(axis=1)
df2016_crime['총계'] = df2016_crime.sum(axis=1)
df2017_crime['총계'] = df2017_crime.sum(axis=1)
df2015_crime.loc[:, '살인':'폭력'].sum(axis=1)
df2016_crime.loc[:, '살인':'폭력'].sum(axis=1)
df2017_crime.loc[:, '살인':'폭력'].sum(axis=1)
t1 = df2015_crime['총계']
t2 = df2016_crime['총계']
t3 = df2017_crime['총계']
p1 = (t2-t1)/t1*100
p2 = (t3-t2)/t2*100
crime = pd.concat([t1, p1, t2, p2, t3], axis=1)
p1.name = '2015-2016 증감율'
p2.name = '2016-2017 증감율'
crime.columns = ['2015총계', '2015-2016 증감율',
'2016총계', '2016-2017 증감율', '2017총계']
🥕
Matplotlib :
2 Dグラフィックスで可視化可能なライブラリ
データの表示
大量に分散した資料をグラフやグラフに整理して、一目で見えるようにします.
ビジュアル化により、データの特徴を簡単に理解できます.
分析結果を効果的に相手に伝えることができます.
pyplot:非可視化の簡単な情報を入力するだけで印刷できます.(plt)
pylab:可視化+numpy
Q.毎週死亡交通事故の可視化import pandas as pd
data=pd.read_csv("", encoding="euc-kr")
# 분석 시작 전 확인하기.
data.shape()
data.head()
data.tail()
data.info()
# 1. 요일 컬럼 가져오기
# .unique() : 중복없는 데이터 출력 함수.
data['요일'].unique()
# 요일별 사고 발생 건수 확인하고 temp에 담기
temp = data['요일'].value_counts()
# 요일 순서대로 가져와서 y에 담기
# temp['월', '화'] 이런식으로 하면 오루! 대괄호 하나 더 써서 리스트화 시키기!
y = temp[['월', '화', '수', '목', '금', '토', '일']]
x = y.index
# 2. barchart 그리기
plt.bar(x, y)
plt.show()
# 특정 구간만 확대해서 출력하기.
plt.bar(x, y)
plt.ylim(500, 600)
plt.show()
/
この記事では、Pythonライブラリについて理解しました.データを取得して可視化するプロセスはとても面白いです.では次のポストで会いましょう!
インテリジェント人材開発院をもっと知りたいなら👆上の画像👆クリック!
#ビッグデータ専門家、#IT資格証明、#インテリジェント人材開発院、#SQL、#機械学習
Reference
この問題について(Python Lib+インテリジェント人材開発院), 我々は、より多くの情報をここで見つけました
https://velog.io/@0808yeonghye/Python-Lib
テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol
2 Dグラフィックスで可視化可能なライブラリ
データの表示
大量に分散した資料をグラフやグラフに整理して、一目で見えるようにします.
ビジュアル化により、データの特徴を簡単に理解できます.
分析結果を効果的に相手に伝えることができます.
pyplot:非可視化の簡単な情報を入力するだけで印刷できます.(plt)
pylab:可視化+numpy
Q.毎週死亡交通事故の可視化
import pandas as pd
data=pd.read_csv("", encoding="euc-kr")
# 분석 시작 전 확인하기.
data.shape()
data.head()
data.tail()
data.info()
# 1. 요일 컬럼 가져오기
# .unique() : 중복없는 데이터 출력 함수.
data['요일'].unique()
# 요일별 사고 발생 건수 확인하고 temp에 담기
temp = data['요일'].value_counts()
# 요일 순서대로 가져와서 y에 담기
# temp['월', '화'] 이런식으로 하면 오루! 대괄호 하나 더 써서 리스트화 시키기!
y = temp[['월', '화', '수', '목', '금', '토', '일']]
x = y.index
# 2. barchart 그리기
plt.bar(x, y)
plt.show()
# 특정 구간만 확대해서 출력하기.
plt.bar(x, y)
plt.ylim(500, 600)
plt.show()
/
この記事では、Pythonライブラリについて理解しました.データを取得して可視化するプロセスはとても面白いです.では次のポストで会いましょう!
インテリジェント人材開発院をもっと知りたいなら👆上の画像👆クリック!
#ビッグデータ専門家、#IT資格証明、#インテリジェント人材開発院、#SQL、#機械学習
Reference
この問題について(Python Lib+インテリジェント人材開発院), 我々は、より多くの情報をここで見つけました
https://velog.io/@0808yeonghye/Python-Lib
テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol
Reference
この問題について(Python Lib+インテリジェント人材開発院), 我々は、より多くの情報をここで見つけました https://velog.io/@0808yeonghye/Python-Libテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol