Simulation de réseau de Hopfield

1. Introduction

L'apprentissage automatique peut être défini comme l'ensemble des méthodes qui permettent à un automate de faire quelque chose pour lequel il n'a pas été programmé explicitement. Cela veut dire, par exemple, parvenir à identifier des tumeurs sur une radiographie sans qu'une méthode explicite de calcul ne soit utilisée.

Dans un tel cas, il faut tout de même entraîner l'automate, mais sans lui indiquer quelles règles utiliser. Par contre, il y a des règles implicites : le choix des cas pour l'entraînement, la réponse qu'on fournit, le coût de l'erreur, etc.

On appelle apprentissage supervisé une situation où le jeu d'entraînement vient avec la classification attendue (tumeur ou pas de tumeur, par exemple). Il existe aussi un apprentissage non supervisé, où c’est à l'automate de détecter lui-même les corrélations ou regroupements. Ici, nous nous concentrerons sur la première approche.

Modèle de Hopfield

John Joseph Hopfield (1933 -- ) est un physicien de la matière condensée qui s'est intéressé, dans les années 1970, à des problèmes biologiques et a publié, en 1982, un modèle de réseaux de neurones simplifié, basé sur le modèle de Hebb.

Rapidement, le modèle de Hopfield a été déployé pour l'étude des systèmes complexes, entre autres, et à des questions liées à l'entreposage d'information. Le modèle de Hopfield ramène les neurones à deux états : actif (si le neurone reçoit un influx électrique supérieur à un seuil donné) et inactif. La réponse des neurones est donc une fonction non-linéaire de la somme des entrées, c'est-à-dire du poids de la force des synapses qui relient ces neurones.

Le réseau de Hopfield est un réseau non-dirigé d'éléments dans deux états : \( +1 \) (actif) ou \( -1 \) (inactif). Ceci permet de réécrire le problème comme celui d'un ensemble de spins d'Ising dont l'interaction est donnée par \( w_{ij} \). L'objectif de ce modèle n'est pas d'identifier des corrélations, mais simplement d'étudier comment on peut emmagasiner et retrouver l'information.

Pour reproduire le modèle de Hebb, Hopfield ajoute un seuil à l'interaction d'Ising : un spin \( S_i \) passe à \( +1 \) seulement si la somme des interactions sur ce spin est supérieure à un seuil d'activation \( A_i \). La règle d'évolution, si l'on pose le seuil \( A_i = 0 \) pour tous les \( i \), est donc simplement :

\[ S_i(t+1) = \begin{cases} +1 & \text{si } \sum_{j \neq i} w_{ij} S_j(t) > 0 \\ -1 & \text{si } \sum_{j \neq i} w_{ij} S_j(t) \leq 0 \end{cases} \]

Une différence plus importante avec le modèle d'Ising est le fait que la constante d'interaction, le poids \( w_{ij} \), n'est pas fixe, mais évolue. En effet, ce modèle tente de reproduire la façon dont l'information est stockée dans le cerveau : l'évolution des poids synaptiques va permettre de renforcer l'apprentissage d'une information, définie par l'orientation des spins : \( \{S\} \).

Pour ce faire, on doit entraîner les synapses : \[ \Delta w_{ij} = \eta S_i S_j \] où \( \eta > 0 \) représente le taux d'apprentissage.

Ce processus d'apprentissage est répété pour une série de \( P \) patrons binaires (\( +1, -1 \)) de longueur \( N \), qui représentent le nombre de neurones : \( \xi^1, \dots, \xi^P \). Par exemple, le patron \( \xi^1 = 1011\cdots 1 \) indique l'état des neurones pour le patron numéro 1.

À la fin de la période d'apprentissage, la mémoire du réseau correspondra à : \[ w_{ij} = \frac{1}{N} \sum_{\alpha=1}^{P} \xi_i^{\alpha} \xi_j^{\alpha} \] où le facteur \( \frac{1}{N} \) correspond au taux d'apprentissage \( \eta = \frac{1}{N} \).

Une fois les patrons appris, on doit pouvoir les retrouver en entrant une configuration de spins proche d'une des solutions, mais qui contient des erreurs.

Exemple : un patron unique

Considérons l'apprentissage d'un seul patron :

Si, lorsqu'on évalue la valeur des spins à \( t'' = t+2 \), le système ne change pas par rapport à \( t' = t+1 \), c'est-à-dire \( \{S\}_{t+2} = \{S\}_{t+1} \), alors le système est stable.

On peut aussi avoir une solution cyclique donnée par : \[ \{S\}_1, \{S\}_1, \{S\}_3, \{S\}_3, \cdots, \{S\}_1 \]

L'information est emmagasinée dans ce réseau d'interactions, \( w_{ij} \) : \[ w_{ij} = \frac{1}{N} \xi_i \xi_j \]

Dans ce cas, la dynamique du système aura la forme : \[ S_i' = \mathrm{sgn} \left( \xi_i \cdot \frac{1}{N} \sum_j \xi_j S_j \right) \]

où l'on peut définir le terme de recouvrement comme : \[ m = \frac{1}{N} \sum_j \xi_j S_j \] et donc : \[ S_i' = \mathrm{sgn}(\xi_i m) \]

Lorsque \( \xi = \{S\} \), on a \( m = 1 \) et on retrouve un état stable, ou, dans un contexte dynamique, un état stationnaire. Même chose si \( m = -1 \) et \( \{S\} = -\xi \).

Si \( m > 0 \), les itérations ne peuvent que faire augmenter \( m \). Idem lorsque \( m < 0 \) : les itérations ne font que faire décroître \( m \).

On peut, dans ces conditions, conclure que ces états stationnaires sont des attracteurs de la dynamique.

Préparation des images

Voir le code ▶


import numpy as np
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation, PillowWriter

# Prendre des images sur internet 
# Puis on les réduits en 32*32
image = Image.open('/Users/Desktop/pixel_art_kangourou.png')
image_reduced = image.resize((32, 32), Image.NEAREST)
image_reduced.save('pixel_art_kang.png')

# Chargement et conversion de l'image en patron binaire
img = plt.imread("/Users/victor/Desktop/animal_reduced.png")

# Si l'image est en couleur, on la convertit en niveau de gris 
if img.ndim == 3:
    img_gray = 0.2989 * img[:,:,0] + 0.5870 * img[:,:,1] + 0.1140 * img[:,:,2]
else:
    img_gray = img.copy()

threshold = 0.5
pattern = np.where(img_gray > threshold, 1, -1)

# Sauvegarde de la forme de l'image
shape_img = pattern.shape
# Aplatir l'image pour former le vecteur mémoire
xi = pattern.flatten()

Mise en place du réseau (un seul pattern)

Préparation des graphiques

Simulation dynamique du réseau

Cas général

Que se passe-t-il lorsque l'on veut mémoriser plusieurs patrons ? Dans ce cas, la matrice de poids n'est qu'une superposition des patrons uniques :

\[ \begin{split} \sum_{j \neq i} w_{ij} \xi_j^{\beta} &= \frac{1}{N} \sum_{j \neq i} \sum_{\alpha = 1}^{P} \xi_i^{\alpha} \xi_j^{\alpha} \xi_j^{\beta} \\ &= \xi_i^{\beta} + \frac{1}{N} \sum_{j \neq i} \sum_{\alpha \neq \beta}^{P} \xi_i^{\alpha} \xi_j^{\alpha} \xi_j^{\beta} \\ &= \xi_i^{\beta} \left( 1 + \frac{1}{N} \sum_{j \neq i} \sum_{\alpha \neq \beta}^{P} \xi_i^{\alpha} \xi_i^{\beta} \xi_j^{\alpha} \xi_j^{\beta} \right) \end{split} \]

Le dernier terme est appelé le terme d'interférence. Lorsque celui-ci est plus grand que \( -1 \) pour tous les \( i \), alors le \( \beta \)-ième patron est dans un état stationnaire :

\[ \xi_i^{\beta} = \mathrm{sign} \left( \sum_j w_{ij} \xi_j^{\beta} \right) \]

S'il y a trop de patrons à stocker, la mémoire déborde, les patrons font de l'interférence et le système commence à oublier.

Généralisation de l'exemple simple

Voir le code ▶


# Liste des fichiers images (les images doivent être déjà réduite)
image_files = [
    "/Users/victor/Desktop/pixel_art_kang.png",
    "/Users/victor/Desktop/pixel_art_cerf.png",
    "/Users/victor/Desktop/pixel_art_ours.png",
]

# Chargement et conversion en binaire
patterns = []
for file in image_files:
    img = plt.imread(file)
    # Conversion en niveau de gris si l'image est en couleur
    if img.ndim == 3:
        img_gray = 0.2989 * img[:, :, 0] + 0.5870 * img[:, :, 1] + 0.1140 * img[:, :, 2]
    else:
        img_gray = img.copy()
    threshold = 0.5
    binary_img = np.where(img_gray > threshold, 1, -1)
    patterns.append(binary_img)

shape_img = patterns[0].shape
P = len(patterns)          # Nombre de patrons
N = shape_img[0] * shape_img[1]  # Nombre total de neurones (pixels)

# Création d'un tableau contenant les vecteurs mémoires aplatis
xi_all = np.array([p.flatten() for p in patterns])

# Construction de la matrice de poids pour les multiples patrons (règle de Hebb)
W = np.zeros((N, N))
for xi in xi_all:
    W += np.outer(xi, xi)
W /= N
np.fill_diagonal(W, 0)  # Pas d'auto-interaction

Fonctions de mesure : recouvrement, distance de Hamming, énergie

Initialisation d’un état perturbé

Pour tester la capacité de récupération du réseau, on sélectionne l’un des motifs et on introduit un bruit aléatoire en inversant un certain pourcentage de ses pixels. Cet état bruité servira de point de départ pour la dynamique du réseau. On calcule ensuite les énergies associées aux motifs mémorisés, lesquelles serviront de référence pour l’analyse comparative.

Visualisation des états et des métriques

Voir le code ▶



# Création de la figure avec 4 sous-graphes :
fig, axs = plt.subplots(2, 2, figsize=(12, 12))
ax_img = axs[0, 0]
ax_overlap = axs[0, 1]
ax_hamming = axs[1, 0]
ax_energy = axs[1, 1]

# Affichage de la configuration actuelle sous forme d'image (reconvertir -1/1 en 0/1)
current_img = ((S.reshape(shape_img) + 1) / 2)
im = ax_img.imshow(current_img, cmap='gray', interpolation='nearest')
ax_img.set_title("Configuration en temps réel")
ax_img.axis('off')

# Histogramme des recouvrements
overlaps = compute_all_overlaps(S, xi_all)
bars_overlap = ax_overlap.bar(np.arange(P), overlaps, tick_label=["kangourou","Cerf","Ours"])
ax_overlap.set_ylim([-1, 1])
ax_overlap.set_ylabel("Recouvrement (m)")
ax_overlap.set_title("Recouvrement avec chaque image")

# Histogramme des distances de Hamming (normalisées, entre 0 et 1)
hamming_dists = compute_all_hamming(S, xi_all)
bars_hamming = ax_hamming.bar(np.arange(P), hamming_dists, tick_label=["kangourou","Cerf","Ours"])
ax_hamming.set_ylim([0, 1])
ax_hamming.set_ylabel("Distance de Hamming")
ax_hamming.set_title("Distance de Hamming normalisée")

# Histogramme des énergies :
# La première barre représente l'énergie de l'état courant S,
# les barres suivantes représentent l'énergie des patrons mémorisés (constantes)
categories = ["S"] + ["kangourou","Cerf","Ours"]
# On initialise avec l'énergie courante et les énergies stockées
energy_S = compute_energy(S, W)
energy_vals = [energy_S] + stored_energies.tolist()
bars_energy = ax_energy.bar(np.arange(P+1), energy_vals, tick_label=categories)
ax_energy.set_ylabel("Énergie")
ax_energy.set_title("Comparaison de l'énergie")

plt.tight_layout()

Simulation dynamique du réseau

Voir le code ▶


def update(frame):
    global S
    for _ in range(10):
        i = np.random.randint(0, N)
        h = np.dot(W[i], S)
        # Règle de mise à jour du réseau de Hopfield
        if h > 0:
            S[i] = 1
        elif h < 0:
            S[i] = -1
        # Si h == 0, on laisse S[i] inchangé

    # Mise à jour de l'image de la configuration
    current_img = ((S.reshape(shape_img) + 1) / 2)
    im.set_data(current_img)

    # Mise à jour des recouvrements avec chaque patron
    overlaps = compute_all_overlaps(S, xi_all)
    for rect, val in zip(bars_overlap, overlaps):
        rect.set_height(val)
    ax_overlap.set_title("Recouvrement : " + ", ".join([f"{val:.2f}" for val in overlaps]))

    # Mise à jour des distances de Hamming normalisées
    hamming_dists = compute_all_hamming(S, xi_all)
    for rect, d in zip(bars_hamming, hamming_dists):
        rect.set_height(d)
    ax_hamming.set_title("Distance de Hamming (norm.) : " + ", ".join([f"{d:.2f}" for d in hamming_dists]))

    # Mise à jour de l'énergie :
    energy_S = compute_energy(S, W)
    energies_patterns = np.array([compute_energy(xi, W) for xi in xi_all])
    bars_energy[0].set_height(energy_S)
    for rect, e in zip(bars_energy[1:], energies_patterns):
        rect.set_height(e)
    ax_energy.set_title("Énergie : S = {:.2f}, ".format(energy_S) +
                        ", ".join([f"I{i+1} = {e:.2f}" for i, e in enumerate(energies_patterns)]))
    
    # Ajustement dynamiquement des limites verticales pour l'énergie
    ax_energy.relim()
    ax_energy.autoscale_view()

    return im, bars_overlap, bars_hamming, bars_energy

Les limites du modèle de Hopfield

Le réseau de Hopfield a ses avantages, mais il est aussi connu pour ses limites. Dans mon cas, il semble qu’on ne puisse stocker que trois images différentes, ce qui est assez faible — mais ce n’est pas surprenant. Ces réseaux ont plusieurs contraintes bien connues :