pytorchイメージ分類器

27247 ワード

文書ディレクトリ

  • データの処理方法
  • 画像分類器
  • を訓練する
  • 1.torchvisionを使用してCIFAR 10のトレーニングおよびテストデータセット
  • をロードおよび正規化する.
  • 2.ボリュームニューラルネットワーク
  • を定義する
  • 3.損失関数
  • を定義する
  • 4.トレーニングサンプルデータ上のトレーニングネットワーク
  • 5.テストサンプルでネットワークをテストします.
  • 6.GPU

  • データの処理方法


    標準pythonパケットを用いるnumpy配列フォーマットにデータをロードし、この配列をtorchに変換することができる.Tensor. 画像の場合:Pillow,OpenCVを使用できます.音声にはscipy,librosaを使用できます.テキストについては、PythonまたはCythonベースのデータでモジュールを直接ロードするか、NLTKおよびSpaCyを使用します.特に視覚的には、Imagene、CIFAR 10、MNISTなどの共通データセットのロードをサポートするデータロードモジュール、torchvisionというパッケージが作成されている.Datasetsと画像データのロードをサポートする変換モジュールtorch.utils.data.DataLoader. 次に、CIFAR 10データセットを使用して、画像サイズ33232、すなわちRGBの3層カラーチャネルを含む10種類のカテゴリを含み、各層チャネル内のサイズは3232である.

    画像分類器を訓練する


    1.torchvisionを使用してCIFAR 10のトレーニングおよびテストデータセットをロードおよび正規化する

    import torch
    import torchvision
    import torchvision.transforms as transforms
    
    # torchvision [0,1] PILImage, [-1,1] Tensors
    transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
    trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
    trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2)
    # num_workers: ,0 
    testset = torchvision.datasets.CIFAR10(root='./data', train=Flase, download=True, transform=transform)
    testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)
    classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
    
    import matplotlib.pyplot as plt
    import numpy as np
    #  
    def imshow(img):
        img = img / 2 + 0.5   #  
        npimg = img.numpy()
        plt.imshow(np.transpose(npimg, (1, 2, 0)))
        plt.show()
    
    #  
    dataiter = iter(trainloader)
    images, labels = dataiter.next()
    
    #  
    imshow(torchvision.utils,make_grid(images))
    #  
    print(''.join('%5s' % classes[labels[j]] for j in range(4)))
    

    2.コンボリューションニューラルネットワークを定義する

    import torch.nn as nn
    import torch.nn.functional as F
    
    #  
    class Net(nn.Module):
        def __init__(self):
            super(Net, self).__init__()
            self.conv1 = nn.Conv2d(3, 6, 5)
            self.pool = nn.MaxPool2d(2, 2)
            self.conv2 = nn.Conv2d(6, 16, 5)
            self.fc1 = nn.Linear(16 * 5 * 5, 120)
            self.fc2 = nn.Linear(120, 84)
            self.fc3 = nn.Linear(84, 10)
    
        def forward(self, x):
            x = self.pool(F.relu(self.conv1(x)))
            x = self.pool(F.relu(self.conv2(x)))
            x = x.view(-1, 16 * 5 * 5)
            x = F.relu(self.fc1(x))
            x = F.relu(self.fc2(x))
            x = self.fc3(x)
            return x
        
    net = Net()
    

    3.損失関数の定義

    import torch.optim as optim
    
    # 
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
    

    4.トレーニングサンプルデータ上でネットワークをトレーニングする

    #  
    for epoch in range(2):
        running_loss = 0.0
        for i, data in enumerate(trainloader, 0):
            inputs, labels = data
            optimizer.zero_grad()
            outputs = net(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            
            running_loss += loss.item()
            if i % 2000 == 1999:
                print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 2000))
                running_loss = 0.0
    print('Finished Training')
    

    5.テストサンプルでネットワークをテストします。

    #  
    correct = 0
    total = 0
    with torch.no_grad():
        for data in testloader:
            images, labels = data
            outputs = net(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels.sum().item()
            
    print('Accuracy of the network on the 10000 test images: %d %%' %(100 * correct / total))
    
    class_correct = list(0. for i in range(10))
    class_total = list(0. for i in range(10))
    with torch.no_grad():
        for data in testloader:
            images, labels = data
            outputs = net(images)
            _, predicted = torch.max(outputs.data, 1)
            c = (predicted == labels),squeeze()
            for i in range(4):
                label = labels[i]
                class_correct[label] += c[i].item()
                class_total[label] += 1
    for i in range(10):
        print('Accuracy of %5s : %2d %%' % (classes[i], 100 * class_correct[i] / class_total[i]))
    

    6.GPU

    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    print(device)
    net.to(device)
    inputs, labels = inputs.to(device), labels.to(device)