[備忘録]pandas mode()で最頻値を抽出する
いつもforループを使って処理していて
処理に1時間とかかかっていたので。
使い方
サンプルデータとして
kaggle-House Prices
features['MSZoning'] = features.groupby('MSSubClass')['MSZoning'].transform(lambda x: x.fillna(x.mode()[0]))
これで 'MSSubClass'のグループ毎に'MSZoning'の最頻値を欠損値に代入できる。
x.mode()[0]
>>>最頻値そのものの値を取得
以上
まとめ
初めての記事投稿。
間違っている部分やアドバイス等ご指摘いただけると助かります。
Author And Source
この問題について([備忘録]pandas mode()で最頻値を抽出する), 我々は、より多くの情報をここで見つけました https://qiita.com/KeisukeN/items/99064f5728b74e357ff2著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .