データ分析と処理1


データ分析と処理
  • 1データ分析とデータマイニング
  • 2データマイニングプロセス
  • 3モジュール取付及び使用
  • 4モジュール
  • を使用
  • 4.1 numpy
  • 4.2 pandas
  • 5データインポート
  • 6データ探索と洗浄
  • 1データ分析とデータマイニング
    データ分析:既知のデータを分析し、平均数、標準差などの情報を統計するなど、価値のある情報を抽出します.データマイニング:大量のデータを分析し、マイニングし、未知の価値のある情報を得る.データマイニングはデータ分析の向上である.データマイニングは実物間の法則をよりよく発見し、データマイニング技術を利用してデータ法則の探索を実現することができる.
    2データ・マイニングのプロセス
    1、目標の定義2、データの取得(爬虫類欧州ダウンロードデータ)3、データ探索4、データの前処理(データ洗浄【汚れたデータを取り除き、無効なデータを取り除く】、データ集積【集中、異なるソースのデータを一緒に置く】、データ変換【規範化、転置など】、データ規約【簡素化、統合、作業量を減らす】)5、マイニングモデリング(分類、クラスタリング、関連、予測)6、モデル評価と発表
    3モジュールの取り付けと使用
    1、numpyはデータの処理を行い、配列のサポートを提供することができ、pandas、scipy、matplotlibなどの多くのモジュールは彼に依存し、numpyは基礎である.2、pandasは主にデータ探索とデータ分析に用いられる.3、matplotlib作図モジュール、可視化問題を解決する.4、scipyは主に数値計算を行い、同時にマトリクス雲散をサポートし、多くの高等データ処理機能を提供する.5、statsmodelsは主に統計分析に用いられる.6、Gensimは主にテキストマイニングに用いられる.7、sklearn、keras前者機械学習、後者深さ学習.インストールの注意事項1、numpyを先にインストールし、numpy+mklのインストールパッケージをダウンロードしてインストールすることをお勧めします.そうしないと、mklの後期インストールに問題がある可能性がありますnumpy+mkl.whl 2、numpy、scipyはダウンロードインストールを推奨し、他のモジュールはネットワークインストールを採用することができます.
    4モジュール使用
    4.1 numpy
    import numpy as np
    arr1 = np.array([2,1,3]) #      
    arr2 = np.array([[2,3,1],
    				[6,5,4]]) #      
    arr1[2] #   3,   0    
    arr2[2][1] #   5,     
    arr1.sort() #  ,   [1,2,3]
    arr2.sort() #   [[1,2,3],[4,5,6]]
    arr2.max() #   6,      ,   min
    #      [    :    +1]
    arr1[:1] #   [2,1]
    

    4.2 pandas
    import pandas as pd
    #Series     ,     ,    index 0,1,2,...
    #DataFrame   ,       ,    ,   ,   index,   columns
    #   DataFrame             Series
    pd.Series([8,9,2,1],index=["one","two","three","four"]) #    
    pd.DataFrame([[1,3,2],[3,6,4],[5,2,6]],column=["one","two","three"]) #    
    pd.DataFrame({
    "one":4,
    "two":[6,2,1],
    "three":list(str(982))}) 
    #     :
    #  one two three
    # 0 4 6 9
    # 1 4 2 8
    # 2 4 1 2
    #   .head()       ,    5 
    #   .tail()       ,    5 
    #   .describe()       ,  、   、   、    
    #   .T    ,     
    
    

    5データのインポート
    import pandas as pd
    pd.read_csv('    ')
    pd.read_excel(('    ')
    pd.read_html(('    ')
    pd.read_sql(('    ')
    pd.read_table(('    ')
    

    6データの探索と洗浄
    データ探索の目的は、データの簡単な法則や特徴を早期に発見することであり、データ洗浄の目的は信頼できるデータを残し、汚いデータの干渉を避けることである.データ探索の核心:1、データ品質分析(データ洗浄、処理データ)2、データ特徴分析(データの基本法則を発見)