pands.Data Frame.drop_duplicatesの使い方紹介


以下の通りです
DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)
subsetはどの列で繰り返されるかを考慮して、デフォルトではすべての列を考慮します。どの列に重複があるかは重複データとして計算されます。
keepは3つのパラメータfirst、last、False、firstを含み、検索された最初の重複データを保持し、その後のすべての削除を指す。lastとは、検索した最後の重複データを保持し、以前に検索した重複データはすべて削除し、Falseとは、検索したすべての重複データを削除し、一つは保留しない。つまり、二行のデータが重複している場合は、両方の行のデータを削除し、その中の1行を保存するのではない。デフォルトのパラメータはfirstです。
追加知識:python 3データの重複値を削除し、最初の項目だけを残します。drop_duplicates()関数の使用紹介
元のデータは以下の通りです。

f列の前の3つのデータには重複項目があります。現在は重複値を削除し、最初の項目または最後の項目だけを残します。
drop_を使うduplicates()
drop_duplicates(self,subset=None,keep='first',inplace=False)
subset:「'a'」のようにa列の重複値はすべて削除されます。
keep:最初の値を保持します。パラメータはfirst、lastです。
inplace:元のdfを置き換えるかどうか、デフォルトはFalseです。

import pandas as pd
data = pd.read_table("C:/Users/xujinhua/Desktop/aa/a.txt",header=None, names=['a','b','c','d','e','f','g']) 
#      ,      abcdef
data.drop_duplicates(subset='f', keep='first', inplace=True)
print(data)
結果:

f列の重複値がすべて削除され、最初の項目が保存されていることが分かります。
以上のパンdas.DataFrame.drop_duplicatesの使い方紹介は小編が皆さんに教えた内容を全部共有します。参考にしていただければと思います。よろしくお願いします。