import torch
import torch.nn as nn

class ThirdOrderPolynomial(nn.Module):
    def __init__(self):
        '''
        Specify the learnable parameters: a, b, c, d
        '''
        super().__init__() # call nn.Module constructor first
        self.a = nn.Parameter(torch.rand(1))
        self.b = nn.Parameter(torch.rand(1))
        self.c = nn.Parameter(torch.rand(1))
        self.d = nn.Parameter(torch.rand(1))

    def forward(self, x):
        '''
        Implement f(x).
        '''
        f_x = self.a*x**3 + self.b*x**2 + self.c*x + self.d
        return f_x

# create ThirdOrderPolynomial object
my_model = ThirdOrderPolynomial()
# print model parameters
print(my_model.a)
print(my_model.b)
print(my_model.c)
print(my_model.d)
x_input = torch.tensor([1])
prediction = my_model(x_input)
print(prediction)

Parameter containing:
tensor([0.2886], requires_grad=True)
Parameter containing:
tensor([0.9114], requires_grad=True)
Parameter containing:
tensor([0.5586], requires_grad=True)
Parameter containing:
tensor([0.8617], requires_grad=True)
tensor([2.6203], grad_fn=<AddBackward0>)

learnable_parameters = my_model.parameters()
print(learnable_parameters)
for p in learnable_parameters:
    print(p)

<generator object Module.parameters at 0x10c634900>
Parameter containing:
tensor([0.2886], requires_grad=True)
Parameter containing:
tensor([0.9114], requires_grad=True)
Parameter containing:
tensor([0.5586], requires_grad=True)
Parameter containing:
tensor([0.8617], requires_grad=True)

import torch
import torch.nn as nn
import numpy as np
import matplotlib.pyplot as plt

class LogisticRegression(nn.Module):
    def __init__(self, N):
        super().__init__()
        self.w = nn.Parameter(torch.ones(N))
        self.b = nn.Parameter(torch.zeros(1))

    def forward(self, x):
        #x = x.view(-1, 1)
        return 1/(1+torch.exp(-(self.w@x+self.b)))

N = 1
my_logreg = LogisticRegression(N)
x = torch.randn(N)
y = my_logreg(x)

# Plot both on the same figure
L = 100
x_values = torch.linspace(-5, 5, L)
with torch.no_grad():
    y_values = [my_logreg(torch.tensor(x_values[i].view(-1, 1))) for i in range(L)]
plt.figure(figsize=(7,5))
plt.plot(x_values.detach().numpy(), y_values, 'b', label="Logistic Function")

# Axis labels, legend, grid, etc.
plt.xlabel('x')
plt.ylabel('$\sigma$')
plt.grid(True, alpha=0.3)
plt.legend()
plt.ylim([0, 1.2])  # Adjust as needed
plt.show()
#plt.savefig("img/log_ce_loss_plot.png")

/var/folders/r5/0w7y2nzn6z519vv67rcw3ffr0000gn/T/ipykernel_48708/2244924915.py:25: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
  y_values = [my_logreg(torch.tensor(x_values[i].view(-1, 1))) for i in range(L)]

import torch
import torch.nn as nn

criterion_mean = nn.MSELoss(reduction='mean')
criterion_sum = nn.MSELoss(reduction='sum')
criterion_none = nn.MSELoss(reduction='none')

x = torch.zeros(4)
y = torch.ones(4)

print(criterion_mean(x, y))
print(criterion_sum(x, y))
print(criterion_none(x, y))

tensor(1.)
tensor(4.)
tensor([1., 1., 1., 1.])

import torch

optimizer = torch.optim.SGD(my_logreg.parameters(), lr=1e-3, momentum=0.99, weight_decay=1e-4)

import torch
import torch.nn as nn
import numpy as np
import matplotlib.pyplot as plt

# plotting utility function to visualize model proabilities of positive class
def plot_model_probs(model, plus_class, negative_class):
    x = torch.linspace(-4, 4, 100)
    y = torch.linspace(-4, 4, 100)
    X, Y = torch.meshgrid(x, y, indexing='ij')
    meshgrid_inputs = torch.stack((X.flatten(), Y.flatten()), dim=1).unsqueeze(-1)
    with torch.no_grad():
        meshgrid_outputs = logreg_model(meshgrid_inputs)

    plt.figure(figsize=(8, 6))
    plt.contourf(X.numpy(), Y.numpy(), meshgrid_outputs.reshape(100, 100).numpy(), cmap='RdBu_r', levels=100)
    plt.colorbar()
    plt.title('Probability of positive class')
    plt.scatter(plus_class[:, 0].numpy(), plus_class[:, 1].numpy(), color='tomato', s=50, edgecolor='black')
    plt.scatter(negative_class[:, 0].numpy(), negative_class[:, 1].numpy(), color='cornflowerblue', s=50, edgecolor='black')
    plt.tight_layout()

# compute classification accuracy
def model_accuracy(model, input_data, labels):
    predictions = model(input_data.unsqueeze(-1)).squeeze(-1)
    positive_preds = predictions >= 0.5
    negative_preds = predictions < 0.5
    n_correct = torch.sum(positive_preds*labels)+torch.sum(negative_preds*(1-labels))
    return n_correct/len(labels)

# prepare dataset
N = 50 # 50 points per class
plus_class = 0.75*torch.randn(N, 2) + torch.tensor([-1, 1])
negative_class = 0.75*torch.randn(N, 2) + torch.tensor([1, -1])
input_data = torch.cat((plus_class, negative_class), dim=0)
labels = torch.cat((torch.ones(N), torch.zeros(N)))
print(input_data.shape, labels.shape)
plt.figure(figsize=(8, 6))
plt.scatter(plus_class[:, 0].numpy(), plus_class[:, 1].numpy(), color='tomato', s=50, edgecolor='black')
plt.scatter(negative_class[:, 0].numpy(), negative_class[:, 1].numpy(), color='cornflowerblue', s=50, edgecolor='black')
plt.tight_layout()

torch.Size([100, 2]) torch.Size([100])

# setup before training loop
# set up model
logreg_model = LogisticRegression(2)

# loss function and optimizer
criterion = nn.BCELoss(reduction='mean') # binary cross-entropy loss, use mean loss
lr = 1e-2 # learning rate
optimizer = torch.optim.SGD(logreg_model.parameters(), lr=lr) 

# plotting utility, initial model performance (before learning!)
plot_model_probs(logreg_model, plus_class, negative_class) # initial 
print('Model accuracy: {:.3f}'.format(model_accuracy(logreg_model, input_data, labels)))

Model accuracy: 0.520

# Part a)
# loss function and optimizer
criterion = nn.BCELoss(reduction='mean') # binary cross-entropy loss, use mean loss
lr = 1e-2 # learning rate

# without momentum
plot_probs = True
logreg_model = LogisticRegression(2)
optimizer = torch.optim.SGD(logreg_model.parameters(), lr=lr) 
# training loop
n_iter = 200
batch_size = 16
loss_values, accuracies = [], []
for n in range(n_iter):
    # zero out gradients
    optimizer.zero_grad()
    # sample random batch and pass to model
    batch_indices = np.random.choice(np.arange(len(labels)), size=batch_size)
    input_batch = input_data[batch_indices].unsqueeze(-1) # make dimensions match for matrix multiplication
    label_batch = labels[batch_indices]
    predictions = logreg_model(input_batch).squeeze(-1) # make dimensions match for loss function
    # calculate loss
    loss = criterion(predictions, label_batch)
    # backpropagate and update
    loss.backward()
    optimizer.step()
    # logging
    loss_values.append(loss.item())
    accuracies.append(model_accuracy(logreg_model, input_data, labels))
# plot model probabilities
if plot_probs:
    plot_model_probs(logreg_model, plus_class, negative_class)
    plt.savefig("./img/classification_no_momentum.png")

# plot loss values
plt.figure(figsize=(12,6))
plt.subplot(121)
plt.semilogy(loss_values)
plt.grid(True)
plt.title('Without momentum')
plt.xlabel('Iteration')
plt.ylabel('Loss')
plt.subplot(122)
plt.plot(accuracies)
plt.grid(True)
plt.title('Without momentum')
plt.xlabel('Iteration')
plt.ylabel('Classification accuracy')
plt.savefig("./img/lossacc_no_momentum.png")

# with momentum
plot_probs = True
logreg_model = LogisticRegression(2) # re-initialize model
optimizer = torch.optim.SGD(logreg_model.parameters(), lr=lr, momentum=0.99) 
# training loop
n_iter = 200
batch_size = 16
loss_values, accuracies = [], []
for n in range(n_iter):
    # zero out gradients
    optimizer.zero_grad()
    # sample random batch and pass to model
    batch_indices = np.random.choice(np.arange(len(labels)), size=batch_size)
    input_batch = input_data[batch_indices].unsqueeze(-1) # make dimensions match for matrix multiplication
    label_batch = labels[batch_indices]
    predictions = logreg_model(input_batch).squeeze(-1) # make dimensions match for loss function
    # calculate loss
    loss = criterion(predictions, label_batch)
    # backpropagate and update
    loss.backward()
    optimizer.step()
    # logging
    loss_values.append(loss.item())
    accuracies.append(model_accuracy(logreg_model, input_data, labels))
# plot model probabilities
if plot_probs:
    plot_model_probs(logreg_model, plus_class, negative_class)
    plt.savefig("./img/classification_w_momentum.png")
# plot loss values
plt.figure(figsize=(12,6))
plt.subplot(121)
plt.semilogy(loss_values)
plt.grid(True)
plt.title('With momentum')
plt.xlabel('Iteration')
plt.ylabel('Loss')
plt.subplot(122)
plt.plot(accuracies)
plt.grid(True)
plt.title('With momentum')
plt.xlabel('Iteration')
plt.ylabel('Classification accuracy')
plt.savefig("./img/lossacc_w_momentum.png")

# Part b)
# loss function and optimizer
criterion = nn.BCELoss(reduction='mean') # binary cross-entropy loss, use mean loss
lr = 1e-2 # learning rate

# no weight decay
plot_probs = True
logreg_model = LogisticRegression(2)
optimizer = torch.optim.SGD(logreg_model.parameters(), lr=lr, momentum=0.99) 
# training loop
n_iter = 200
batch_size = 16
loss_values, accuracies = [], []
for n in range(n_iter):
    # zero out gradients
    optimizer.zero_grad()
    # sample random batch and pass to model
    batch_indices = np.random.choice(np.arange(len(labels)), size=batch_size)
    input_batch = input_data[batch_indices].unsqueeze(-1) # make dimensions match for matrix multiplication
    label_batch = labels[batch_indices]
    predictions = logreg_model(input_batch).squeeze(-1) # make dimensions match for loss function
    # calculate loss
    loss = criterion(predictions, label_batch)
    # backpropagate and update
    loss.backward()
    optimizer.step()
    # logging
    loss_values.append(loss.item())
    accuracies.append(model_accuracy(logreg_model, input_data, labels))
# plot model probabilities
if plot_probs:
    plot_model_probs(logreg_model, plus_class, negative_class)
    plt.savefig("./img/classification_no_weightdecay.png")
# plot loss values
plt.figure(figsize=(12,6))
plt.subplot(121)
plt.semilogy(loss_values)
plt.grid(True)
plt.title('Without weight decay')
plt.xlabel('Iteration')
plt.ylabel('Loss')
plt.subplot(122)
plt.plot(accuracies)
plt.grid(True)
plt.title('Without weight decay')
plt.xlabel('Iteration')
plt.ylabel('Classification accuracy')
plt.savefig("./img/lossacc_no_weightdecay.png")

# with weight decay
plot_probs = True
logreg_model = LogisticRegression(2) # re-initialize model
optimizer = torch.optim.SGD(logreg_model.parameters(), lr=lr, momentum=0.99, weight_decay=1e-2) 
# training loop
n_iter = 200
batch_size = 16
loss_values, accuracies = [], []
for n in range(n_iter):
    # zero out gradients
    optimizer.zero_grad()
    # sample random batch and pass to model
    batch_indices = np.random.choice(np.arange(len(labels)), size=batch_size)
    input_batch = input_data[batch_indices].unsqueeze(-1) # make dimensions match for matrix multiplication
    label_batch = labels[batch_indices]
    predictions = logreg_model(input_batch).squeeze(-1) # make dimensions match for loss function
    # calculate loss
    loss = criterion(predictions, label_batch)
    # backpropagate and update
    loss.backward()
    optimizer.step()
    # logging
    loss_values.append(loss.item())
    accuracies.append(model_accuracy(logreg_model, input_data, labels))
# plot model probabilities
if plot_probs:
    plot_model_probs(logreg_model, plus_class, negative_class)
    plt.savefig("./img/classification_w_weightdecay.png")
# plot loss values
plt.figure(figsize=(12,6))
plt.subplot(121)
plt.semilogy(loss_values)
plt.grid(True)
plt.title('With weight decay')
plt.xlabel('Iteration')
plt.ylabel('Loss')
plt.subplot(122)
plt.plot(accuracies)
plt.grid(True)
plt.title('With weight decay')
plt.xlabel('Iteration')
plt.ylabel('Classification accuracy')
plt.savefig("./img/lossacc_w_weightdecay.png")

# Part a)
# loss function and optimizer
criterion = nn.BCELoss(reduction='mean') # binary cross-entropy loss, use mean loss
lr = 1e-2 # learning rate

# without momentum
plot_probs = True
logreg_model = LogisticRegression(2)
optimizer = torch.optim.SGD(logreg_model.parameters(), lr=lr) 
# training loop
n_iter = 200
batch_size = 16
loss_values, accuracies = [], []
for n in range(n_iter):
    # zero out gradients
    optimizer.zero_grad()
    # sample random batch and pass to model
    batch_indices = np.random.choice(np.arange(len(labels)), size=batch_size)
    input_batch = input_data[batch_indices].unsqueeze(-1) # make dimensions match for matrix multiplication
    label_batch = labels[batch_indices]
    predictions = logreg_model(input_batch).squeeze(-1) # make dimensions match for loss function
    # calculate loss
    loss = criterion(predictions, label_batch)
    # backpropagate and update
    loss.backward()
    optimizer.step()
    # logging
    loss_values.append(loss.item())
    accuracies.append(model_accuracy(logreg_model, input_data, labels))
# plot model probabilities
if plot_probs:
    plot_model_probs(logreg_model, plus_class, negative_class)
    plt.savefig("./img/classification_no_momentum.png")
# plot loss values
plt.figure(figsize=(12,6))
plt.subplot(121)
plt.semilogy(loss_values)
plt.grid(True)
plt.title('Without momentum')
plt.xlabel('Iteration')
plt.ylabel('Loss')
plt.subplot(122)
plt.plot(accuracies)
plt.grid(True)
plt.title('Without momentum')
plt.xlabel('Iteration')
plt.ylabel('Classification accuracy')
plt.savefig("./img/lossacc_no_momentum.png")


# with momentum
plot_probs = True
logreg_model = LogisticRegression(2) # re-initialize model
optimizer = torch.optim.SGD(logreg_model.parameters(), lr=lr, momentum=0.99) 
# training loop
n_iter = 200
batch_size = 16
loss_values, accuracies = [], []
for n in range(n_iter):
    # zero out gradients
    optimizer.zero_grad()
    # sample random batch and pass to model
    batch_indices = np.random.choice(np.arange(len(labels)), size=batch_size)
    input_batch = input_data[batch_indices].unsqueeze(-1) # make dimensions match for matrix multiplication
    label_batch = labels[batch_indices]
    predictions = logreg_model(input_batch).squeeze(-1) # make dimensions match for loss function
    # calculate loss
    loss = criterion(predictions, label_batch)
    # backpropagate and update
    loss.backward()
    optimizer.step()
    # logging
    loss_values.append(loss.item())
    accuracies.append(model_accuracy(logreg_model, input_data, labels))
# plot model probabilities
if plot_probs:
    plot_model_probs(logreg_model, plus_class, negative_class)
    plt.savefig("./img/classification_w_momentum.png")
# plot loss values
plt.figure(figsize=(12,6))
plt.subplot(121)
plt.semilogy(loss_values)
plt.grid(True)
plt.title('With momentum')
plt.xlabel('Iteration')
plt.ylabel('Loss')
plt.subplot(122)
plt.plot(accuracies)
plt.grid(True)
plt.title('With momentum')
plt.xlabel('Iteration')
plt.ylabel('Classification accuracy')
plt.savefig("./img/lossacc_w_momentum.png")

Lecture 11 - Pytorch NN module and optimizers¶

ECE364 - Programming Methods for Machine Learning¶

Nickvash Kani¶

Slides based off prior lectures by Alex Schwing, Aigou Han, Farzad Kamalabadi, Corey Snyder. All mistakes are my own!¶

Brief review of objects and classes¶

`nn.Module` class¶

Example: Logistic Regression Module¶

Loss functions¶

`torch.optim` package¶

Momentum and Weight Decay¶

Learning Rate Adjustments¶

A PyTorch training loop¶

Example: Varying training parameters¶

Exercise: Varying training parameters¶

That's it for today¶

Lecture 11 - Pytorch NN module and optimizers¶

ECE364 - Programming Methods for Machine Learning¶

Nickvash Kani¶

Slides based off prior lectures by Alex Schwing, Aigou Han, Farzad Kamalabadi, Corey Snyder. All mistakes are my own!¶

Brief review of objects and classes¶

nn.Module class¶

Example: Logistic Regression Module¶

Loss functions¶

torch.optim package¶

Momentum and Weight Decay¶

Learning Rate Adjustments¶

A PyTorch training loop¶

Example: Varying training parameters¶

Exercise: Varying training parameters¶

That's it for today¶

`nn.Module` class¶

`torch.optim` package¶