Python 3基礎文法04|Pandasでデータ処理(2)
私たちは前編に続いてPandasを続けます.
1.データテーブルのマージ
私たちはデータベースを操作してSQL言語を使う時、接続(JOIN)操作を使って2つの表あるいは複数の表を接続して、その中はまた左の接続、右の接続、内の接続、外の接続などに分けます.
では、Dataframeを使用してデータベース・テーブルのマージを行うにはどうすればいいのでしょうか.
これでmerge()関数を引き出します~
2.SQLでPandasを操作する
PythonではSQL文でPandasを操作することをサポートしています.そうすれば、追加の操作を学ぶ必要はありません.
1.データテーブルのマージ
私たちはデータベースを操作してSQL言語を使う時、接続(JOIN)操作を使って2つの表あるいは複数の表を接続して、その中はまた左の接続、右の接続、内の接続、外の接続などに分けます.
では、Dataframeを使用してデータベース・テーブルのマージを行うにはどうすればいいのでしょうか.
これでmerge()関数を引き出します~
import pandas as pd
from pandas import DataFrame
df1 = DataFrame({
'name': ['Alice', 'Bob', 'a', 'b', 'c'], 'data1': range(5)})
df2 = DataFrame({
'name': ['Alice', 'Bob', 'A', 'B', 'C'], 'data2': range(5)})
# ,
df3 = pd.merge(df1, df2, on='name')
print(df1)
print(df2)
print(df3)
:
name data1
0 Alice 0
1 Bob 1
2 a 2
3 b 3
4 c 4
name data2
0 Alice 0
1 Bob 1
2 A 2
3 B 3
4 C 4
name data1 data2
0 Alice 0 0
1 Bob 1 1
# inner
df3 = pd.merge(df1, df2, how='inner')
:
name data1 data2
0 Alice 0 0
1 Bob 1 1
# left
df3 = pd.merge(df1, df2, how='left')
:
name data1 data2
0 Alice 0 0.0
1 Bob 1 1.0
2 a 2 NaN
3 b 3 NaN
4 c 4 NaN
# right
df3 = pd.merge(df1, df2, how='right')
:
name data1 data2
0 Alice 0.0 0
1 Bob 1.0 1
2 A NaN 2
3 B NaN 3
4 C NaN 4
# outer
df3 = pd.merge(df1, df2, how='outer')
:
name data1 data2
0 Alice 0.0 0.0
1 Bob 1.0 1.0
2 a 2.0 NaN
3 b 3.0 NaN
4 c 4.0 NaN
5 A NaN 2.0
6 B NaN 3.0
7 C NaN 4.0
2.SQLでPandasを操作する
PythonではSQL文でPandasを操作することをサポートしています.そうすれば、追加の操作を学ぶ必要はありません.
from pandas import DataFrame
from pandasql import sqldf, load_meat, load_births
df1 = DataFrame({
'name': ['Alice', 'Bob', 'a', 'b', 'c'], 'data1': range(5)})
# lambda
pysqldf = lambda sql: sqldf(sql, globals())
sql = "select * from df1 where name = 'Alice'"
print(pysqldf(sql))
:
name data1
0 Alice 0