Projet : Classification de galaxies

1. Introduction

La catégorisation automatique des images représente un enjeu essentiel dans le domaine du traitement de données. En astrophysique, avec le lancement du télescope James Webb, des millions de données vont être recueillies. Cependant, cet afflux de données sera difficile à traiter. Je me souviens d'une conférence donnée par l’un de mes professeurs en astrophysique, qui a grandement contribué à la construction de James Webb. Il nous disait qu'il manquait déjà de main-d'œuvre pour traiter les données de Hubble, et que la tâche de traitement de ce nouveau satellite serait faramineuse. Il nous confiait cette mission, notre département d'astrophysique à l’Université de Montréal étant très reconnu.

Après avoir étudié l'intelligence artificielle appliquée à la physique, notamment avec le modèle de Hopfield et les perceptrons, j’ai voulu m’orienter vers des méthodes plus récentes, notamment via PyTorch. C’est dans ce cadre que j’ai découvert "Galaxy Zoo – The Galaxy Challenge" et que j’ai décidé, moi aussi, de tenter ma propre approche. L’objectif est de concevoir un système sophistiqué capable de classifier avec précision différentes galaxies en se basant sur des méthodes d’apprentissage en profondeur, telles que les réseaux de neurones convolutifs (CNN). Pour cela, j’ai suivi plusieurs étapes importantes : exploration initiale des données, préparation et prétraitement des images, création et entraînement d’un CNN personnalisé. Ce document expose toutes les étapes suivies, les choix techniques effectués tout au long du processus, ainsi que les conclusions tirées de notre modèle final, avec un regard critique.

Toutes les données sont disponibles ici : https://www.kaggle.com/c/galaxy-zoo-the-galaxy-challenge/data

Préparation des fonction utilitaire

Voir le code ▶


import os
from PIL import Image
import cv2
import torch
from pandas import read_csv
from torch.utils.data import Dataset

# Sert à créer un dataset personnalisé pour entraîner un modèle sur des images de galaxies, hérite de Dataset (PyTorch). 
class GalaxyDataset(Dataset):
    def __init__(
        self,
        labels,
        img_dir,
        inds=None,
        ext=".png",
        transform=None,
        target_transform=None,
    ):
        """
        Ensemble de données pour les images de galaxies

        Chaque élément du dataset est un tuple avec (image, probabilités, galaxyid)

        :param labels: Fichier CSV avec les informations sur les images
        :type labels: str
        :param img_dir: Dossier avec les images
        :type img_dir: str
        :param inds: indices (galaxyid en str) à utiliser pour cet ensemble, defaults to None
        :type inds: List[str], optional
        :param ext: Extension des fichiers images dans img_dir, avec le point, defaults to ".png"
        :type ext: str, optional
        :param transform: Transformation PyTorch pour les images, peuvent être combinnées avec Compose au besoin, defaults to None
        :type transform: Transformation PyTorch pour les clases (probabilités), optional
        :param target_transform: Transofmation , defaults to None
        :type target_transform: utils, optional
        """

        self.img_labels = read_csv(labels, index_col=0) # Chargement du fichier CSV avec les labels
        self.img_labels.index = self.img_labels.index.astype(str) # Convertit les IDs en str
        if inds is not None:
            self.img_labels = self.img_labels.loc[inds]  # Filtrage des données si on veut un sous-ensemble
        # Préparation des attributs :
        self.img_dir = img_dir
        self.ext = ext
        self.transform = transform
        self.target_transform = target_transform

# Donne la longueur des données
    def __len__(self):
        return len(self.img_labels)
        
        
# Retourne 1 élément du dataset : l’image, son label et son ID.
    def __getitem__(self, idx):
        img_id = self.img_labels.index[idx] # Récupère l’ID de l’image
        img_path = os.path.join(self.img_dir, img_id + self.ext)  # Chemin vers l’image
        img = cv2.imread(img_path) # Lecture de l’image avec OpenCV (en BGR)
        label = torch.tensor(self.img_labels.iloc[idx].tolist()).float() # Conversion en RGB
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # RAJOUT RGB
        img = Image.fromarray(img)  # Conversion en image PIL

        if self.transform:
            img = self.transform(img) # Applique les transformations définies à l’image
        if self.target_transform:
            label = self.target_transform(label) # Applique transformation aux labels si besoin

        return img, label, img_id

# Noms des colonnes du CSV
CLASSES = [
    "Class1.1",
    "Class1.2",
    "Class1.3",
    "Class2.1",
    "Class2.2",
    "Class3.1",
    "Class3.2",
    "Class4.1",
    "Class4.2",
    "Class5.1",
    "Class5.2",
    "Class5.3",
    "Class5.4",
    "Class6.1",
    "Class6.2",
    "Class7.1",
    "Class7.2",
    "Class7.3",
    "Class8.1",
    "Class8.2",
    "Class8.3",
    "Class8.4",
    "Class8.5",
    "Class8.6",
    "Class8.7",
    "Class9.1",
    "Class9.2",
    "Class9.3",
    "Class10.1",
    "Class10.2",
    "Class10.3",
    "Class11.1",
    "Class11.2",
    "Class11.3",
    "Class11.4",
    "Class11.5",
    "Class11.6",
]

# Description humaine de ce que chaque classe représente
DESCRIPTIONS = [
    "Smooth",
    "Featured or disc",
    "Star or artifact",
    "Edge on",
    "Not edge on",
    "Bar through center",
    "No bar",
    "Spiral",
    "No Spiral",
    "No bulge",
    "Just noticeable bulge",
    "Obvious bulge",
    "Dominant bulge",
    "Odd Feature",
    "No Odd Feature",
    "Completely round",
    "In between",
    "Cigar shaped",
    "Ring",
    "Lens or arc",
    "Disturbed",
    "Irregular",
    "Other",
    "Merger",
    "Dust lane",
    "Rounded bulge",
    "Boxy bulge",
    "No bulge",
    "Tightly wound arms",
    "Medium wound arms",
    "Loose wound arms",
    "1 Spiral Arm",
    "2 Spiral Arms",
    "3 Spiral Arms",
    "4 Spiral Arms",
    "More than four Spiral Arms",
    "Can't tell how many spiral arms",
]

# Crée un dictionnaire qui associe chaque nom de classe à sa description
CDICT = dict(zip(CLASSES, DESCRIPTIONS))

Préparation des images

Le format initial des images n'est pas optimal. Le format est grand (424 × 424) et il y a beaucoup d'espace vide autour des galaxies. Écrivez un code qui effectue les tâches suivantes :

Découpage de l'image pour obtenir une taille réduite de moitié autour du centre (212 × 212)
Dégradation de la résolution pour que l'image ait 64 pixels de chaque côté
Sauvegardez toutes les images pré-traitées dans un nouveau dossier

Voir le code ▶


import cv2
import os
import glob

# Mon chemin vers le dossier contenant les images originales
input_dir = '/Users/victor/Downloads/images_training_rev1'

# Mon chemin vers le dossier où les images traitées seront sauvegardées 
output_dir = '/Users/victor/Desktop/processed_images'

# On passe a travers toutes les images JPG dans le dossier originale
image_paths = glob.glob(os.path.join(input_dir, '*.jpg'))

for img_path in image_paths:
    img = cv2.imread(img_path)  # Lire l'image
    
    # On calcul le centre et découpe l'image
    center_x, center_y = img.shape[1] // 2, img.shape[0] // 2
    cropped_img = img[center_y - 106:center_y + 106, center_x - 106:center_x + 106]
    
    # On redimensionne l'image à 64x64 pixels
    resized_img = cv2.resize(cropped_img, (64, 64))
    
    # Sauvegarde de l'image
    output_path = os.path.join(output_dir, os.path.basename(img_path))
    cv2.imwrite(output_path, resized_img)

Préparation des jeux de données (dataset)

Voir le code ▶


import pandas as pd
from sklearn.model_selection import train_test_split

# Chemin vers le fichier CSV contenant les probabilités des classes
csv_file_path = '/Users/victor/Downloads/training_solutions_rev1.csv'

# On import les données
data = pd.read_csv(csv_file_path)
 
# On prend les GalaxyID et on en fait un tableau 1D contenant tout les ID des images
galaxy_ids = data['GalaxyID'].values

# On Sépare les données en sous-ensembles d'entraînement et de test de manière aléatoire, avec 20% de test comme demandé et le reste en entrainement
# C'est pour eviter qu'il s'entraine sur des images dont il sera testé après 
train_ids, test_ids = train_test_split(galaxy_ids, test_size=0.2, random_state=42)

# Affichage des tailles pour vérifier que tout est correct
print(f"Taille de l'ensemble d'entraînement: {len(train_ids)}")
print(f"Taille de l'ensemble de test: {len(test_ids)}")

from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor

# On crée GalaxyDataset pour l'entraînement avec la fonction donnée GalaxyDataset : 
train_dataset = GalaxyDataset(
    labels='/Users/victor/Downloads/training_solutions_rev1.csv',
    img_dir='/Users/victor/Desktop/processed_images',  
    inds=train_ids.astype(str),
    ext=".jpg",  
    transform=ToTensor(),
    target_transform=None
)

# On crée GalaxyDataset pour le test avec la fonction donnée GalaxyDataset : 
test_dataset = GalaxyDataset(
    labels='/Users/victor/Downloads/training_solutions_rev1.csv',
    img_dir='/Users/victor/Desktop/processed_images',  
    inds=test_ids.astype(str),
    ext=".jpg",  # 
    transform=ToTensor(),
    target_transform=None
)

# On verifie que tout est bon : 
print(train_dataset)
print(len(train_dataset))
print(type(train_dataset[0]))  
print(type(train_dataset[0][0]))
print(train_dataset[0][0].shape)
print(type(train_dataset[0][0]))

Définition du CNN

Les données sont maintenant compatibles avec PyTorch et sont prêtes à être analysées. Il faut ensuite définir un CNN qui va prendre en entrée les images 64 × 64 avec 3 couleurs et nous donner une probabilité pour les 37 classes en sortie. Pour commencer, on définit un CNN avec les éléments suivants :

Structure Générale

Couches Convolutives (conv_stack) : Le modèle commence avec une couche convolutive prenant des images à 3 canaux (RGB) et les transforme en un ensemble de cartes de caractéristiques à 6 canaux. Une deuxième couche convolutive augmente davantage le nombre de canaux de 6 à 16 pour extraire des caractéristiques plus profondes. Ces couches fonctionnent en appliquant un ensemble de filtres (ou noyaux) sur l'image d'entrée. Ces filtres se déplacent à travers l'image (un processus appelé convolution) pour détecter des caractéristiques telles que les bords, les textures ou d'autres motifs spécifiques. En ajustant les poids de ces filtres pendant l'entraînement, le réseau apprend à extraire les caractéristiques les plus pertinentes pour la tâche donnée.
Normalisation par Lots (BatchNorm2d) : Chaque couche convolutive est suivie d'une normalisation par lots, qui agit en normalisant les sorties de la couche précédente pour chaque mini-lot d'entraînement. Elle ajuste et met à l'échelle les activations pour que leur distribution ait une moyenne proche de 0 et une variance proche de 1. Cela réduit le problème du décalage des covariables, stabilise l'apprentissage et permet d'utiliser des taux d'apprentissage plus élevés.
Activation (ReLU) : Chaque normalisation est suivie de la fonction d'activation ReLU (Rectified Linear Unit), qui transforme les valeurs négatives en zéro et laisse passer les valeurs positives. Cela introduit une non-linéarité essentielle pour apprendre des relations complexes entre les entrées et les sorties.
Pooling (self.pool) : Une opération de pooling (généralement de taille 2×2) réduit la dimensionnalité des cartes de caractéristiques, en conservant les informations les plus importantes. Cela augmente la robustesse aux petites variations de position.
Aplatissement (Flatten) : Avant de passer aux couches pleinement connectées, les cartes de caractéristiques 2D doivent être converties en un vecteur 1D. L'aplatissement permet cette transformation, préparant les données à la suite du traitement.
Couches Pleinement Connectées (linear_stack) : Les caractéristiques extraites sont ensuite passées à des couches entièrement connectées. Ces couches combinent les caractéristiques pour produire des représentations de plus haut niveau, puis génèrent des prédictions pour les 37 classes possibles.
Activation Finale (Sigmoid) : La dernière couche utilise une fonction sigmoïde pour transformer les valeurs de sortie (logits) en probabilités entre 0 et 1. Chaque neurone représente la probabilité que l'image appartienne à une classe donnée.

Voir le code ▶


import torch
import torch.nn as nn
import torch.nn.functional as F

class GalaxyCNN(nn.Module):
    def __init__(self):
        super(GalaxyCNN, self).__init__()
        
        # Première couche de convolution
        self.conv1 = nn.Conv2d(3, 6, kernel_size=5, padding=3)
        self.bn1 = nn.BatchNorm2d(6)
        
        # Deuxième couche de convolution
        self.conv2 = nn.Conv2d(6, 16, kernel_size=5, padding=3)
        self.bn2 = nn.BatchNorm2d(16)
        
        # Aplatissement des caractéristiques pour les couches pleinement connectées
        self.flatten = nn.Flatten()

        self.linear_entry_dim = get_output_width(get_output_width(
            get_output_width(get_output_width(64, 5,  padding=3 ), 2, stride=2), 5 ,  padding=3
        ), 2, stride=2)

        
        # Première couche pleinement connectée
        self.fc1 = nn.Linear(16 * self.linear_entry_dim**2, 120)  # La taille doit corresponde a celle la sortie 
                                                                  # de la dernière couche de pooling, on utilise donc get_output_width
        
        # Deuxième couche pleinement connectée
        self.fc2 = nn.Linear(120, 84)
        
        # Couche finale pour les 37 classes
        self.fc3 = nn.Linear(84, 37)
        
    def forward(self, x):
        # Appliquer la première couche de convolution, batch norm, ReLU et pooling
        x = F.relu(self.bn1(self.conv1(x)))
        x = F.max_pool2d(x, 2)
        
        # Appliquer la deuxième couche de convolution, batch norm, ReLU et pooling
        x = F.relu(self.bn2(self.conv2(x)))
        x = F.max_pool2d(x, 2)
        
        # Aplatissement des caractéristiques
        x = self.flatten(x)
        
        # Passer à travers les couches pleinement connectées avec ReLU pour les deux premières
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        
        # Sortie finale sans ReLU mais avec sigmoide pour les probabilités
        x = torch.sigmoid(self.fc3(x))
        return x

Entraînement du réseau

Maintenant que notre CNN (réseau de neurones convolutif) est prêt, on peut commencer son entraînement à reconnaître les galaxies. Pour cela, on procède à une segmentation de l'ensemble des données en deux parties distinctes : environ 80 % des informations sont consacrées à l'entraînement du modèle afin qu'il puisse assimiler les caractéristiques des galaxies, et 20 % des données restantes sont utilisées pour tester comment le modèle se comporte sur des exemples qu'il ne connaît pas. Cela permet de vérifier s'il comprend bien l'ensemble ou s'il se contente juste d'apprendre par cœur les images (phénomène appelé surapprentissage ou surajustement).

Pour orienter l'apprentissage du réseau neuronal, une fonction de perte est employée. Dans notre cas, il s'agit de la MSE (Mean Squared Error), ou erreur quadratique moyenne. À chaque prédiction du réseau est associée une valeur d'erreur correspondant à l'écart entre la prédiction et la réponse attendue. On élève cette valeur au carré afin d'éliminer les valeurs négatives et d'amplifier les grosses erreurs.

Ensuite, la moyenne de ces erreurs est calculée sur toutes les données disponibles. Plus cet écart est important, plus le modèle est éloigné de la bonne réponse. Pour corriger cette erreur, il est nécessaire de mettre à jour les poids internes (les paramètres qui déterminent les connexions entre les neurones) en utilisant un optimiseur, ici Adam (Adaptive Moment Estimation).

Adam est un algorithme d'optimisation qui ajuste automatiquement la taille des pas (learning rate) pour chaque poids, en se basant sur les gradients antérieurs. Il fusionne deux concepts :

La méthode traditionnelle de descente de gradient, qui suit la pente de l'erreur pour atteindre un minimum.
Des ajustements adaptatifs qui permettent d'accélérer ou ralentir l'apprentissage, tout en évitant les pièges comme les minima locaux ou les oscillations.

Grâce à cela, notre modèle apprend de manière plus rapide et efficace que s’il utilisait une méthode de mise à jour simple. Enfin, nous effectuons 6 époques d’entraînement, ce qui signifie que le modèle parcourt six fois l’ensemble des données d’apprentissage, lui permettant d’apprendre progressivement à identifier les galaxies avec une meilleure précision.

Voir le code ▶


import torch
import torch.nn as nn
import torch.nn.functional as F

device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # nécessaire pour savoir sur quoi va travailler le réseau (voir tp)

from torch import nn, optim
from torch.utils.data import DataLoader

# Initialisation du model 
model = GalaxyCNN().to(device) 

# Hyper paramètre 

learning_rate = 1e-3
epochs = 6

# Fonction de perte et optimiseur
loss_fn = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

def train_loop(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)
    train_loss = 0.0
    
    for batch, (X, y, _) in enumerate(dataloader):  # On ajoute d'un _ pour ignorer img_id 
        X, y = X.to(device), y.to(device)
        
        # Calcul de la prédiction et de la perte
        pred = model(X)
        loss = loss_fn(pred, y)
        
        # Rétropropagation
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        loss, current = loss.item(), batch * len(X)
        train_loss += loss * X.size(0)

        # Progrès
        if batch % 100 == 0:
            print(f"Loss: {loss}, [{current}/{size}]")
    
    return train_loss / size

def test_loop(dataloader, model, loss_fn):
    size = len(dataloader.dataset)
    test_loss = 0
    num_batches = len(dataloader)

    with torch.no_grad():
        for X, y, _ in dataloader:  # On ajoute d'un _ pour ignorer img_id
            X, y = X.to(device), y.to(device)
            
            pred = model(X)
            test_loss += loss_fn(pred, y).item()  # calcul de perte

    test_loss /= num_batches
    print(f"Avg loss: {test_loss} \n")
    return test_loss

# Boucles d'entraînement et de test
train_losses = []
test_losses = []
for epoch in range(epochs):
    print(f"Epoch {epoch+1}\n-------------------------------")
    train_loss = train_loop(train_loader, model, loss_fn, optimizer)
    test_loss = test_loop(test_loader, model, loss_fn)
    train_losses.append(train_loss)
    test_losses.append(test_loss)
print("Done!")

Processus d'entraînement (train_loop)

Processus de Test (test_loop)

Après chaque époque d'entraînement, le modèle est évalué sur l'ensemble de test :

Évaluation du modèle

Calcul des Erreurs : Pour chaque lot de données, le modèle prédit les sorties et les erreurs sont calculées comme la différence entre les prédictions et les vérités terrain.
Erreur Quadratique : L'erreur quadratique de chaque échantillon est calculée et stockée.
RMSE : La moyenne des erreurs quadratiques est prise sur toutes les prédictions, puis la racine carrée de cette moyenne est calculée pour obtenir le RMSE.

Voir le code ▶


            
from torch.utils.data import DataLoader

# mode évaluation
model.eval()

def calculate_rmse(dataloader, model):
    squared_errors = []
    with torch.no_grad():  # Pour l'évaluation, pas besoin de calculer les gradients
        for X, y, _ in dataloader:  # On ignore img_id
            X, y = X.to(device), y.to(device)
            predictions = model(X)
            errors = predictions - y  # Erreur = prédiction - vérité
            squared_errors.extend((errors ** 2).mean(1).cpu().numpy())  # On calcul simplement l'erreur quadratique moyenne par échantillon
    
    mean_squared_error = np.mean(squared_errors)  # Moyenne des erreurs quadratiques sur tout le dataset
    rmse = np.sqrt(mean_squared_error)  # Racine carrée de la MSE pour obtenir le RMSE
    return rmse

# On calcul le RMSE sur les données de test
rmse = calculate_rmse(test_loader, model)
print(f"RMSE sur les données de test: {rmse}")

# Comparaison avec la méthode simpliste
rmse_simpliste = 0.16194
print(f"RMSE de la méthode simpliste : {rmse_simpliste}")
if rmse < rmse_simpliste:
    print("Le modèle CNN performe mieux que la méthode simpliste.")
else:
    print("La méthode simpliste performe mieux que le modèle CNN.")

Amélioration du modèle

Voir le code ▶


class GalaxyCNN3(nn.Module):
    def __init__(self):
        super(GalaxyCNN3, self).__init__()
        # Couche de convolution 1
        self.conv1 = nn.Conv2d(3, 8, kernel_size=5, padding=3)  # Modification : 6 à 8 filtres
        self.bn1 = nn.BatchNorm2d(8)  # Normalisation par batch ajustée pour 8 filtres
        
        # Couche de convolution 2
        self.conv2 = nn.Conv2d(8, 16, kernel_size=5, padding=3)  # Entrée ajustée pour 8 canaux
        self.bn2 = nn.BatchNorm2d(16)  # Normalisation par batch pour 16 filtres

        # Couche de convolution 3 ajoutée
        self.conv3 = nn.Conv2d(16, 32, kernel_size=5, padding=2)  # Nouvelle couche : 16 à 32 filtres, padding ajusté
        self.bn3 = nn.BatchNorm2d(32)  # Normalisation par batch pour 32 filtres
        
        # Aplatissement des données pour la première couche pleinement connectée
        self.flatten = nn.Flatten()
        
        # Couches pleinement connectées avec ajustement pour le dropout
        self.fc1 = nn.Linear(2048, 256)  # Ajustement suite à l'ajout d'une couche de convolution
        self.fc2 = nn.Linear(256, 128)  # Ajustement de la dimension et ajout d'une autre couche de Dropout après
        self.fc3 = nn.Linear(128, 37)  # Sortie pour 37 classes
        
    def forward(self, x):
        # Passage à travers la couche de convolution 1 -> Normalisation par batch -> ReLU -> Pooling
        x = F.max_pool2d(F.relu(self.bn1(self.conv1(x))), 2)
        
        # Passage à travers la couche de convolution 2 -> Normalisation par batch -> ReLU -> Pooling
        x = F.max_pool2d(F.relu(self.bn2(self.conv2(x))), 2)
        
        # Passage à travers la nouvelle couche de convolution 3 -> Normalisation par batch -> ReLU -> Pooling
        x = F.max_pool2d(F.relu(self.bn3(self.conv3(x))), 2)
        
        # Aplatir les sorties pour les couches pleinement connectées
        x = self.flatten(x)
        #print(x.shape) 
        
        # Première couche pleinement connectée -> ReLU
        x = F.relu(self.fc1(x))
        
        # Deuxième couche pleinement connectée -> ReLU
        x = F.relu(self.fc2(x))
        
        # Troisième couche pleinement connectée, pas de ReLU ici
        x = self.fc3(x)
        
        # Application de la fonction sigmoïde pour obtenir des probabilités
        x = torch.sigmoid(x)
        return x

C'est mieux ! Je pense même que j'aurai pu accroître les époques ! Le système semblait encore stable. Avec ceci on obtient la 30ème place du classment, avec 10 ans de retard...

Voilà c'est tout pour ce projet, je serai curieux de savoir si depuis tout ce temps des techniques plus puissantes pourraient battre le 1er du classment : 0.07491 par un chercheur de chez DeepMind. La suite au prochain episode...

Classification de galaxies avec Python

1. Introduction

Préparation des fonction utilitaire

Préparation des images

Préparation des jeux de données (dataset)

Définition du CNN

Structure Générale

Entraînement du réseau

Processus d'entraînement (`train_loop`)

Processus de Test (`test_loop`)

Évaluation du modèle

Amélioration du modèle

Classification de galaxies avec Python

1. Introduction

Préparation des fonction utilitaire

Préparation des images

Préparation des jeux de données (dataset)

Définition du CNN

Structure Générale

Entraînement du réseau

Processus d'entraînement (train_loop)

Processus de Test (test_loop)

Évaluation du modèle

Amélioration du modèle

Processus d'entraînement (`train_loop`)

Processus de Test (`test_loop`)