データ分析プログラミング0322 TUE

5313 ワード

Data Visualization Basic(samples)のダウンロード

Preview


panda dataファイルのクリーンアップ
前回の空白解消、データ欠落時にリースステーション番号、リース時間を削除しないイベント
連続データの場合、平均値に置き換えるとエラー->カテゴリデータが発生するため、平均値を求めるとエラーが発生します.
この問題を解決するには、カテゴリ型データ秒ではなく数値型データ秒を使用して測定するだけです.
測定値情報を消去し、代替する方法.

  • 例外データ

    年齢120歳の4番インデックスrow
    インデックス番号4を配置して問題を解決しますか?

    boxplotの特性



    直線=中値(中値=ただし平均ではありません)
    平均値は点と三角形で表すことができます.
    最大値、最小値を表示します.
    25%と75%をボックスとしてマークします.だいたい年齢の範囲!
    範囲外のデータが存在する(Outline)

    じょうちょうデータ


    同じデータで大量のリソースのみを使用(ハードディスク、SSD)=>冗長データの検索と削除
    パブリックデータポータルからデータをダウンロードすると、重複データは生成されませんが、教授がデータを追加します.
    rowデータを認識できるデータ
    年齢+使用距離認識データ(反復x)
    first:初期繰返し値をfalseに戻す
    Last:最初の繰り返し値をtrue、残りのfalseに返します.

  • drop重複データ:重複データ削除、一意の鍵のみ保持、残りの重複データ削除

    Data Visualization Basic samples


    平均値、標準偏差が同じなら、同じデータ?その他のデータ?
    他のデータかもしれません.
    Nsformという人は数値でしか表現できないというデータ解析の限界を指摘した.
    カテゴリデータ=>カテゴリに分類可能(groupby)
    データに基づいてline/box plot図面を選択します.
    fig=plt.figure()
  • 図面全体を配置するためのデフォルトフレームを作成するには


    sub plot:1、2、3と4つの象限に分かれた図形

    ![](https://media.vlpt.us/images/allzeroyou/post/a2dffd99-ec60-4f68-a445-ffd75f3ddf6f/image.png)
    
    >https://wikidocs.net/book/5011
    한글화문서 참고해서 matplotlib과 친해지기
    https://matplotlib.org/
    공식문서를 들어가서그려진 그래프들을 확인 => 다음에 그래프를 그리게 될 때 참고할 것
    
    ![](https://media.vlpt.us/images/allzeroyou/post/eb8ab7b8-2b74-49ec-81ce-2e12db0b0c07/image.png)
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    실질적으로 화면에 뿌리는 기능은 `mpl.rcParams`로 설정한다.
    pylab= matplotlib과 numpy가 합쳐진 것.
    리스트로 입력하면 패키지가 알아서 그래프를 그려줌.
    
    maker에 어떤 모양으로 점을 찍을 지 결정.
    matplotlib말고 seaborn을 쓰면 파스텔 톤 그래프 그리기 가능.
    
    범례 추가
    ![](https://media.vlpt.us/images/allzeroyou/post/81be16d4-8e97-47ba-98c1-d5323bca30c6/image.png)
    
    -기호, 한글이 잘 안보이면 한글 폰트를 설정해주고 unicode_minus를 False 설정한다.
    ![](https://media.vlpt.us/images/allzeroyou/post/80dec175-6dd6-4248-8b16-b37b528a57c9/image.png)
    
    주피터 노트북은 자동완성 기능까지는 제공해줌.
    
    박스플롯: 데이터 집합의 범위와 이상값 확인용
    ![](https://media.vlpt.us/images/allzeroyou/post/b262bee5-9cf4-4c20-aa13-7064914615a2/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.47.01.png)
    평균 값 표시가능.
    
    축은 vertical이 기본이나 축 변경도 가능.
    ![](https://media.vlpt.us/images/allzeroyou/post/0fca12f6-424f-4347-9046-65bd536c6854/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.48.00.png)
    
    total bill의 경우 40달러 보다 작고 tip의 경우 8달러 보다 작은 데이터 추출
    ![](https://media.vlpt.us/images/allzeroyou/post/33606045-bb9e-4295-b806-70a8834df8dd/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.51.06.png)
    244개
    
    True 결과만 뽑아줘
    ![](https://media.vlpt.us/images/allzeroyou/post/c5d9d5d4-02d0-4e83-88a4-1958849ac588/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.48.57.png)
    10개의 데이터가 삭제되고 234개의 데이터 추출(이상치 데이터를 삭제)
    
    조건을 계속 달면 아웃라이너가 계속 나올 수 있음.
    
    matplotlib의 경우 복잡한 일을 해결
    seaborn의 경우 복잡한 것을 가독성 좋고 예쁘게 보이게끔 함.
    
    ## seaborn
    범주형데이터, 연속형 데이터 사용하는 유형이 있으나 필수적으로 따라해야할 필요는 없음.
    > 커널밀도함수가 어떤것? 이런 기능이 있다 정도만 알아둘것.
    
    ![](https://media.vlpt.us/images/allzeroyou/post/56ae3598-5562-4e52-9108-dbf9e63261a5/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.54.38.png)
    
    - 다변량 연속형
    일일이 그래프를 그리지 않고 여러가지 그래프를 볼 수 있음.
    
    day별로 total_bill을 표시하기
    ![](https://media.vlpt.us/images/allzeroyou/post/290eae95-e9d4-4787-b2eb-ce11077db2ef/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.55.42.png)
    
    ## Interactive 시각화
    상호작용이라는 뜻의 interactive.
    상호관계라는게 클라이언트에게 데이터를 뿌리기만 하는 것이 아니라 그래프를 확대, 축소가 가능하게끔
    ![](https://media.vlpt.us/images/allzeroyou/post/5b7b42cf-cc21-4659-a708-1e6791af6c24/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.48.00.png)
    ![](https://media.vlpt.us/images/allzeroyou/post/8ac6df1b-0a01-4835-9727-471f1a744e9d/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.58.51.png)
    
    > google에 interactive 시각화를 검색하면 굉장히 많은 기능이 나옴.
    
    데이터분석에 필요한 numpy(파라미터 생성할때 순차적인 행렬, 간격 정할 때 이용-deep learning때), pandas(데이터 유형, 탐색), seaborn을 통해 그래프 그려봄.
    3주뒤 정도 다시 다룰 듯.
    크롤링(데이터 확보 방법)
    
    이런 기능들이 있었지..중복데이터 제거, 대체, 삭제하는법.. 해당 column에 있는 값 수정하는 법 등 키워드를 중심으로 구글링할 수 있어야.
    시험 문제로 나올 예정(누가 빨리 찾느냐)
    꼭 실습을 해봐야 함!