Python 3基礎文法04|Pandasでデータ処理(2)


私たちは前編に続いてPandasを続けます.
1.データテーブルのマージ
私たちはデータベースを操作してSQL言語を使う時、接続(JOIN)操作を使って2つの表あるいは複数の表を接続して、その中はまた左の接続、右の接続、内の接続、外の接続などに分けます.
では、Dataframeを使用してデータベース・テーブルのマージを行うにはどうすればいいのでしょうか.
これでmerge()関数を引き出します~
import pandas as pd
from pandas import DataFrame

df1 = DataFrame({
     'name': ['Alice', 'Bob', 'a', 'b', 'c'], 'data1': range(5)})
df2 = DataFrame({
     'name': ['Alice', 'Bob', 'A', 'B', 'C'], 'data2': range(5)})

#          ,               
df3 = pd.merge(df1, df2, on='name')
print(df1)
print(df2)
print(df3)

  :
    name  data1
0  Alice      0
1    Bob      1
2      a      2
3      b      3
4      c      4
    name  data2
0  Alice      0
1    Bob      1
2      A      2
3      B      3
4      C      4
    name  data1  data2
0  Alice      0      0
1    Bob      1      1
# inner   
df3 = pd.merge(df1, df2, how='inner')

  :
    name  data1  data2
0  Alice      0      0
1    Bob      1      1
# left   
df3 = pd.merge(df1, df2, how='left')

  :
    name  data1  data2
0  Alice      0    0.0
1    Bob      1    1.0
2      a      2    NaN
3      b      3    NaN
4      c      4    NaN
# right   
df3 = pd.merge(df1, df2, how='right')

  :
    name  data1  data2
0  Alice    0.0      0
1    Bob    1.0      1
2      A    NaN      2
3      B    NaN      3
4      C    NaN      4
# outer   
df3 = pd.merge(df1, df2, how='outer')

  :
    name  data1  data2
0  Alice    0.0    0.0
1    Bob    1.0    1.0
2      a    2.0    NaN
3      b    3.0    NaN
4      c    4.0    NaN
5      A    NaN    2.0
6      B    NaN    3.0
7      C    NaN    4.0

2.SQLでPandasを操作する
PythonではSQL文でPandasを操作することをサポートしています.そうすれば、追加の操作を学ぶ必要はありません.
from pandas import DataFrame
from pandasql import sqldf, load_meat, load_births

df1 = DataFrame({
     'name': ['Alice', 'Bob', 'a', 'b', 'c'], 'data1': range(5)})

# lambda         
pysqldf = lambda sql: sqldf(sql, globals())
sql = "select * from df1 where name = 'Alice'"
print(pysqldf(sql))

  :
    name  data1
0  Alice      0