ビッグデータの処理


🦏 大型データフレームの表示

import pandas as pd
laptops_df = pd.read_csv('data/laptops.csv')
  • ほとんどのデータセットは非常に大きい
  • の間のデータは...と省略される
  • データセットサイズ
  • を確認
    laptops_df.shape
    (167, 15) # 167rows(노트북 종류) / 15columns(특징)
  • 任意行数
  • を出力する.
    laptop_df.head(3) # 맨 위 세 줄 출력
    laptop_df.tail(6) # 마지막 여섯 줄 출력
  • について
    laptops_df.columns
    laptops_df.info() # 각 컬럼의 기본 정보 확인
    # row 수 다른 경우는 해당 값이 비어있는 것
  • DataFrameの統計を表示する
  • laptops_df.describe() # 평균, 중간값, 최소최댓값, 표준편차 등

    必要に応じて
  • 既存のデータFrameは変更されません
  • 変更:inplace=True
  • laptops_df.sort_values(by='price') # 가격이 낮은 순으로 정렬
    laptops_df.sort_values(by='price', ascending=False) # 가격이 높은 순으로 정렬

    🦏 大シリーズの表示

  • 大規模Seiresの概要
  • 中略...
  • laptop_df['brand']
  • 冗長データを消去
  • laptop_df['brand'].unique()
  • 行数
  • について
    laptops_df['brand'].value_counts()
  • 特定行情報
  • を知る.
    laptops_df['brand'].describe()
    * 출처: CODEIT - 데이터 사이언스 입문