Python:MNISTデータPCAを87次元に下げ、arff形式として保存する
import numpy as np
import copy
import pandas as pd
from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
MNIST = datasets.fetch_mldata('MNIST original')
X, y = MNIST['data'], MNIST['target']
# Scaler = StandardScaler()
# X = Scaler.fit_transform(X)
pca = PCA(0.9)
pca.fit(X)
X = pca.fit_transform(X)
# print(y.shape)
# data = np.array(pd.read_csv(r'E:\dataset\clusterData\sonar.csv', header=None))
# X = data[:, :-1]
# y = data[:, -1]
# Scaler = StandardScaler()
# pca = PCA(n_components=10)
# X = Scaler.fit_transform(data[:, :-1])
# X = pca.fit_transform(X)
# y = data[:, -1]
y = np.vstack(y)
data = np.hstack((X,y))
print(data.shape)
data = pd.DataFrame(data)
data.to_csv(r'E:\dataset\clusterData\MNIST_PCA.csv',header=None,index=None)
次に、生成されたcsvファイルを開き、最初の行に各列に属性名を追加します.加算しないと最初の行のデータはheadにデフォルト設定されます.Java実行ではデータセットが1行少なくなります.
package classifier;
import weka.core.Instances;
import weka.core.converters.ConverterUtils.DataSource;
import weka.core.converters.ArffSaver;
import java.util.Random;
import java.io.File;
public class TransformCSV_arff {
public static void main(String[] args) throws Exception{
Instances allData = DataSource.read("E:\\dataset\\clusterData\\COIL20_2.csv");
ArffSaver saver = new ArffSaver();
saver.setInstances(allData);
saver.setFile(new File("E:\\dataset\\clusterData\\COIL20_2.arff"));
saver.writeBatch();
System.out.println(" arrf ");
}
}
Wekaパッケージをインストールしてください.そうしないと、その後はありません.