データ分析と処理1
データ分析と処理1データ分析とデータマイニング 2データマイニングプロセス 3モジュール取付及び使用 4モジュール を使用 4.1 numpy 4.2 pandas 5データインポート 6データ探索と洗浄 1データ分析とデータマイニング
データ分析:既知のデータを分析し、平均数、標準差などの情報を統計するなど、価値のある情報を抽出します.データマイニング:大量のデータを分析し、マイニングし、未知の価値のある情報を得る.データマイニングはデータ分析の向上である.データマイニングは実物間の法則をよりよく発見し、データマイニング技術を利用してデータ法則の探索を実現することができる.
2データ・マイニングのプロセス
1、目標の定義2、データの取得(爬虫類欧州ダウンロードデータ)3、データ探索4、データの前処理(データ洗浄【汚れたデータを取り除き、無効なデータを取り除く】、データ集積【集中、異なるソースのデータを一緒に置く】、データ変換【規範化、転置など】、データ規約【簡素化、統合、作業量を減らす】)5、マイニングモデリング(分類、クラスタリング、関連、予測)6、モデル評価と発表
3モジュールの取り付けと使用
1、numpyはデータの処理を行い、配列のサポートを提供することができ、pandas、scipy、matplotlibなどの多くのモジュールは彼に依存し、numpyは基礎である.2、pandasは主にデータ探索とデータ分析に用いられる.3、matplotlib作図モジュール、可視化問題を解決する.4、scipyは主に数値計算を行い、同時にマトリクス雲散をサポートし、多くの高等データ処理機能を提供する.5、statsmodelsは主に統計分析に用いられる.6、Gensimは主にテキストマイニングに用いられる.7、sklearn、keras前者機械学習、後者深さ学習.インストールの注意事項1、numpyを先にインストールし、numpy+mklのインストールパッケージをダウンロードしてインストールすることをお勧めします.そうしないと、mklの後期インストールに問題がある可能性がありますnumpy+mkl.whl 2、numpy、scipyはダウンロードインストールを推奨し、他のモジュールはネットワークインストールを採用することができます.
4モジュール使用
4.1 numpy
4.2 pandas
5データのインポート
6データの探索と洗浄
データ探索の目的は、データの簡単な法則や特徴を早期に発見することであり、データ洗浄の目的は信頼できるデータを残し、汚いデータの干渉を避けることである.データ探索の核心:1、データ品質分析(データ洗浄、処理データ)2、データ特徴分析(データの基本法則を発見)
データ分析:既知のデータを分析し、平均数、標準差などの情報を統計するなど、価値のある情報を抽出します.データマイニング:大量のデータを分析し、マイニングし、未知の価値のある情報を得る.データマイニングはデータ分析の向上である.データマイニングは実物間の法則をよりよく発見し、データマイニング技術を利用してデータ法則の探索を実現することができる.
2データ・マイニングのプロセス
1、目標の定義2、データの取得(爬虫類欧州ダウンロードデータ)3、データ探索4、データの前処理(データ洗浄【汚れたデータを取り除き、無効なデータを取り除く】、データ集積【集中、異なるソースのデータを一緒に置く】、データ変換【規範化、転置など】、データ規約【簡素化、統合、作業量を減らす】)5、マイニングモデリング(分類、クラスタリング、関連、予測)6、モデル評価と発表
3モジュールの取り付けと使用
1、numpyはデータの処理を行い、配列のサポートを提供することができ、pandas、scipy、matplotlibなどの多くのモジュールは彼に依存し、numpyは基礎である.2、pandasは主にデータ探索とデータ分析に用いられる.3、matplotlib作図モジュール、可視化問題を解決する.4、scipyは主に数値計算を行い、同時にマトリクス雲散をサポートし、多くの高等データ処理機能を提供する.5、statsmodelsは主に統計分析に用いられる.6、Gensimは主にテキストマイニングに用いられる.7、sklearn、keras前者機械学習、後者深さ学習.インストールの注意事項1、numpyを先にインストールし、numpy+mklのインストールパッケージをダウンロードしてインストールすることをお勧めします.そうしないと、mklの後期インストールに問題がある可能性がありますnumpy+mkl.whl 2、numpy、scipyはダウンロードインストールを推奨し、他のモジュールはネットワークインストールを採用することができます.
4モジュール使用
4.1 numpy
import numpy as np
arr1 = np.array([2,1,3]) #
arr2 = np.array([[2,3,1],
[6,5,4]]) #
arr1[2] # 3, 0
arr2[2][1] # 5,
arr1.sort() # , [1,2,3]
arr2.sort() # [[1,2,3],[4,5,6]]
arr2.max() # 6, , min
# [ : +1]
arr1[:1] # [2,1]
4.2 pandas
import pandas as pd
#Series , , index 0,1,2,...
#DataFrame , , , , index, columns
# DataFrame Series
pd.Series([8,9,2,1],index=["one","two","three","four"]) #
pd.DataFrame([[1,3,2],[3,6,4],[5,2,6]],column=["one","two","three"]) #
pd.DataFrame({
"one":4,
"two":[6,2,1],
"three":list(str(982))})
# :
# one two three
# 0 4 6 9
# 1 4 2 8
# 2 4 1 2
# .head() , 5
# .tail() , 5
# .describe() , 、 、 、
# .T ,
5データのインポート
import pandas as pd
pd.read_csv(' ')
pd.read_excel((' ')
pd.read_html((' ')
pd.read_sql((' ')
pd.read_table((' ')
6データの探索と洗浄
データ探索の目的は、データの簡単な法則や特徴を早期に発見することであり、データ洗浄の目的は信頼できるデータを残し、汚いデータの干渉を避けることである.データ探索の核心:1、データ品質分析(データ洗浄、処理データ)2、データ特徴分析(データの基本法則を発見)