[備忘録]pandas mode()で最頻値を抽出する

1631 ワード

いつもforループを使って処理していて
処理に1時間とかかかっていたので。

使い方

サンプルデータとして
kaggle-House Prices


features['MSZoning'] = features.groupby('MSSubClass')['MSZoning'].transform(lambda x: x.fillna(x.mode()[0]))

これで 'MSSubClass'のグループ毎に'MSZoning'の最頻値を欠損値に代入できる。

x.mode()[0]
>>>最頻値そのものの値を取得

以上

まとめ

初めての記事投稿。
間違っている部分やアドバイス等ご指摘いただけると助かります。

Author And Source

この問題について([備忘録]pandas mode()で最頻値を抽出する), 我々は、より多くの情報をここで見つけました https://qiita.com/KeisukeN/items/99064f5728b74e357ff2

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

カスタムバイナリ・メッセージ・フロー解析クラス

Linkerd管理コンソール