pythonデータ処理洗浄
9902 ワード
1.背景
プロジェクトはpythonでマトリクスのノイズ除去と正規化を実現するつもりです.numpyという数学ライブラリでは理想的な関数が見つからなかったので、怒って自分で標準ライブラリでノイズ除去と正規化のアルゴリズムを書きました.効率は少し低いですが、まだ使えます.必要があれば持って行ってもいいです.
(1)ノイズ除去アルゴリズム:確率論の知識に基づいて,一組のデータが正規分布に従う場合,平均値はn,分散はvとすると,(n−3*v,n+3*v)の区間内で離散数値ごとに9,12%以上の確率が得られる.したがって,ここでのノイズ除去機能は,区間を超えた場合にこの値を区間としてマークできる許容最大値を実現することが主である.
(2)正規化:入力キューの最大値max,最小値minを見つける.任意の自己変数xに対して、その正規化値は(x−min/max−min)である.
2.実装コード
GetAverage(mat):平均を返します
GetVar(average,mat):戻り分散
DenoisMat(mat):ノイズ除去
AutoNorm(mat):正規化マトリクス
ダウンロード先:
https://github.com/jimenbian/AutoNorm-mat-
/********************************
*ブログ「李博Garvin」より
*転載は出典を明記してください
: http://blog.csdn.net/buptgshengod
******************************************/
プロジェクトはpythonでマトリクスのノイズ除去と正規化を実現するつもりです.numpyという数学ライブラリでは理想的な関数が見つからなかったので、怒って自分で標準ライブラリでノイズ除去と正規化のアルゴリズムを書きました.効率は少し低いですが、まだ使えます.必要があれば持って行ってもいいです.
(1)ノイズ除去アルゴリズム:確率論の知識に基づいて,一組のデータが正規分布に従う場合,平均値はn,分散はvとすると,(n−3*v,n+3*v)の区間内で離散数値ごとに9,12%以上の確率が得られる.したがって,ここでのノイズ除去機能は,区間を超えた場合にこの値を区間としてマークできる許容最大値を実現することが主である.
(2)正規化:入力キューの最大値max,最小値minを見つける.任意の自己変数xに対して、その正規化値は(x−min/max−min)である.
2.実装コード
from __future__ import division
def GetAverage(mat):
n=len(mat)
m= width(mat)
num = [0]*m
for j in range(0,m):
for i in mat:
num[j]=num[j]+i[j]
num[j]=num[j]/n
return num
def width(lst):
i=0
for j in lst[0]:
i=i+1
return i
def GetVar(average,mat):
ListMat=[]
for i in mat:
ListMat.append(list(map(lambda x: x[0]-x[1], zip(average, i))))
n=len(ListMat)
m= width(ListMat)
num = [0]*m
for j in range(0,m):
for i in ListMat:
num[j]=num[j]+(i[j]*i[j])
num[j]=num[j]/n
return num
def DenoisMat(mat):
average=GetAverage(mat)
variance=GetVar(average,mat)
section=list(map(lambda x: x[0]+x[1], zip(average, variance)))
n=len(mat)
m= width(mat)
num = [0]*m
denoisMat=[]
for i in mat:
for j in range(0,m):
if i[j]>section[j]:
i[j]=section[j]
denoisMat.append(i)
return denoisMat
def AutoNorm(mat):
n=len(mat)
m= width(mat)
MinNum=[9999999999]*m
MaxNum = [0]*m
for i in mat:
for j in range(0,m):
if i[j]>MaxNum[j]:
MaxNum[j]=i[j]
for p in mat:
for q in range(0,m):
if p[q]<=MinNum[q]:
MinNum[q]=p[q]
section=list(map(lambda x: x[0]-x[1], zip(MaxNum, MinNum)))
print section
NormMat=[]
for k in mat:
distance=list(map(lambda x: x[0]-x[1], zip(k, MinNum)))
value=list(map(lambda x: x[0]/x[1], zip(distance,section)))
NormMat.append(value)
return NormMat
ライブラリの実装:入力マトリクスmat,GetAverage(mat):平均を返します
GetVar(average,mat):戻り分散
DenoisMat(mat):ノイズ除去
AutoNorm(mat):正規化マトリクス
ダウンロード先:
https://github.com/jimenbian/AutoNorm-mat-
/********************************
*ブログ「李博Garvin」より
*転載は出典を明記してください
: http://blog.csdn.net/buptgshengod
******************************************/