機械の勉強初日

1373 ワード

ステップ:データを収集する---入力データを準備する---入力データを分析する---トレーニングアルゴリズム---アルゴリズムを使う
①K近接アルゴリズムにはサンプルデータのセットがあり、トレーニングサンプルセットとも呼ばれ、サンプルセットには各データにラベルが存在します.つまり、サンプルセットの各データと所属分類の対応関係を知っています.入力者がラベルを持っていない新しいデータの後、新しいデータの各特徴をサンプル集中データに対応する特徴と比較し、アルゴリズムでサンプル集中特徴の最も似たデータ(最近隣)の分類ラベルを抽出する.一般的には、私たちはサンプルデータの最初のk個の最も似たデータだけを選択します.これはK近隣アルゴリズムにおけるkの出典であり、通常kは20以下の整数です.最後に、k個の似たようなデータの中で最も多く出現する分類を選択して、新しいデータの分類とします.
②決定ツリーアルゴリズム(1)データ収集:任意の方法を使用することができます.(2)データを準備する:ツリー構造アルゴリズムは公称型データのみに適用されるので、数値型データは離散化しなければならない.(3)データの解析:ツリーを作成した後、任意の方法を使って、図が予想通りかどうかを確認します.(4)トレーニングアルゴリズム:ツリーのデータ構造を構築する.(5)テストアルゴリズム:試行ツリーを用いてエラー率を計算する.(6)アルゴリズムを使用する:このステップは、任意の監視学習アルゴリズムに適用でき、決定ツリーを使用して、データの内在的な意味をより良く理解することができる.
いくつかのパンズnumpy関数文:
from skimage import data
import matplotlib.pyplot as plt
img=data.camera()
plt.figure("hist")
arr=img.flatten()
n, bins, patches = plt.hist(arr, bins=256, normed=1,edgecolor='None',facecolor='red')  
plt.show()
histのパラメータは非常に多いですが、よく使われているのはこの6つだけです.最初は必須で、後の4つのオプションがあります.arr:ヒストグラムの1次元配列binsを計算する必要があります.ヒストグラムの柱の数は、オプションがあります.デフォルトは10 normedです.得られたヒストグラムのベクトルを正規化しますか?デフォルトは0 faceカラー:ヒストグラムの色edgeカラー:ヒストグラムの枠の色alpha:透明度histtype:ヒストグラムのタイプ、“bar”、“barstacked”、“step”、“stepfilled”
戻り値:n:ヒストグラムベクトル、正規化するかどうかはパラメータnormedでbinsを設定します.それぞれのbinの区間範囲patchを返します.各binの中に含まれているデータを返します.リストです.
疑問:pd.read_いつ持ってきますか?