[Aiffel]エッフェル15日概念整理と回顧


1.データ分析
1) EDA
たんさくデータかいせき
2)使用するライブラリ
  • seborn:Matplotlibのアドバンスドバージョン
  • 3)基本関数
    # csv 파일 읽어오기
    pd.read_csv('파일 경로')
    
    # 특정 칼럼 선택
    df[칼럼명]
    
    # 조건에 맞는 특정 칼럼 선택
    df[df[칼럼명] == 조건]
    
    # 행의 인덱스 재배열. drop을 True로 설정하면 기존 인덱스를 버리고 재설정
    df.reset_index(drop=True)
    
    # column의 수
    len(df.columns)
    
    # column 명 모아 보기
    df.columns
    
    # unique한 지 판단하기 (unique하다면 index로 활용 가능)
    len(set(df[column])) == len(df[column])
    
    # 특정 행 보기 - 여러 개를 보고 싶으면 행의 순서를 ,로 구분
    df.loc[[int]]
    
    # 여러 행 보기
    df.loc[int:int]
    
    # NaN이 몇 개인지 판단하기
    df[column].isna().sum()
    
    # pivot table
    df[column].isna().sum()
    
    # 특정 행의 특정 컬럼 내용 보기
    # 컬럼 명을 list로 넘겨주면 그에 해당하는 모든 값을 list로 반환
    df.loc[row,column]
    
    # 각 행의 총합, axis 설정 안하면 column 기준으로 합 반환
    df.sum(axis=1)
    
    # column 별 값만 출력
    df[column].values
    
    # column 별 값만 출력해서 각 행 별로 합하기
    df[column].values.sum(axis=1)
    
    # column에 특정 조건 적용시키기
    df[column].apply(lambda x: 조건)
    
    # 원래 있는 column + 따로 list로 만들어둔 column 합해서 출력하고 싶을 때
    #[0]을 붙이지 않으면 [[]] 형태라 오류남
    df[[[column, column] + list_][0]]
    
    
    ✔✔✔🤔 間違えないで
    伝説全体のドラゴンの割合、飛行全体の伝説の割合なので、二人の分母は違います!
    4)正規表現
    tokens = re.findall('[A-Z][a-z]*', temp)
  • [A-Z]:英語の大文字と組み合わせる
  • [a-z]:小文字と重複する組み合わせ
    上記の条件を満たす単語をlist
  • に返す
    Counter(list_).most_common()
  • カウンタ:リストdictの
  • にリスト内の要素を返します.
  • most common():出現回数が最も多い順にtuple形式で返す.カッコ内に数字
  • を設定できます.
    5)データ分類

  • ベースラインデータ
    最も基本的な方法で作成されたモデルとパフォーマンスの下限を提供することに注意してください.

  • recall
    値が高いほど、正しいと思うが間違っている(FN)比率が高くなる
  • 2.回顧
    lmsの難易度は大きくなく、できます.そこで,この時間の探索と解の基本関数を整理した.後で上に書いた内容を覚えてほしい.
    混乱行列の場合は理解できますが、説明させていただくと、止まることがあるので、もっと熟知しているはずです.このほかrecallやf 1 scoreなどの概念を見直す必要がある.
    そしてアルゴリズムの問題を解いて、見終わったらこの数字を使いましょうか?Collectionでいいんじゃないですか?作りましたが、使えないと思って使っていませんでしたが、接着剤を見ると全部使ってしまい、使いたいだけ正確に知るようになりました.しかし、企業ごとに条件が異なるので、できるだけ解決策を考えてみましょう.