Acte 3

Ce que la machine
a vraiment appris

La loss a convergé. Le modèle prédit bien dans l'espace latent. Mais que contient cet espace, concrètement ? Comprend-il la position de l'agent ? La relation entre la boîte et la cible ? On va l'ausculter.

La méthode

Interroger le latent sans toucher au modèle

Après l'entraînement, l'encodeur produit un vecteur de 32 nombres pour chaque état du monde. Ce vecteur, c'est la "compréhension" du modèle. Pour savoir ce qu'il contient, on utilise une technique appelée sondage linéaire (linear probing).

Le principe : on gèle le modèle — aucun poids ne change — et on entraîne un simple modèle linéaire à prédire une propriété à partir du vecteur latent. Si ça marche bien avec un modèle linéaire, c'est que cette propriété est directement lisible dans la représentation. Si ça échoue, soit elle n'est pas encodée, soit elle l'est de façon non-linéaire et implicite.

La linéarité est la contrainte importante ici. Un réseau profond pourrait extraire n'importe quelle information — même cachée — par des transformations non-linéaires successives. Un modèle linéaire, lui, ne peut que lire ce qui est explicitement présent dans les directions de l'espace. C'est un test de "lisibilité directe".

On génère 4 032 états aléatoires, on les encode, et on entraîne des régressions (pour les positions continues) et des classifieurs logistiques (pour les propriétés binaires) sur un split 80/20.

Analyse en composantes principales

Un espace presque unidimensionnel

Avant le sondage, on réduit le vecteur latent 32D à 2 dimensions par PCA pour le visualiser. Chaque point représente un état encodé. On colore les points selon différentes propriétés pour voir si une structure émerge.

Variance expliquée par composante
PC1
92.45%
PC2
1.55%
PC3–32
6.00%

Le résultat est frappant : 92.45% de la variance totale est concentrée dans la première composante principale. Les 31 autres dimensions ne portent presque rien. L'espace latent 32D s'est, en pratique, réduit à une ligne.

Ce n'est pas nécessairement un problème — un monde simple peut s'organiser le long d'un axe principal. Mais ça signifie que le modèle a trouvé une représentation très compressée, peut-être trop pour les tâches de planification.

PCA colorée par position de l'agent
Coloré par position de l'agent. Un gradient est visible le long de PC1 pour la ligne (row), mais la colonne (col) est plus diffuse.
PCA colorée par position de la boîte
Coloré par position de la boîte. La structure est plus nette pour la boîte — lignes et colonnes montrent toutes deux un gradient organisé.

Les points ne sont pas aléatoirement dispersés : des états similaires se regroupent. Le latent a bien construit une sorte de carte mentale du monde — mais une carte partielle et imprécise.

Résultats des sondes

Ce qui se lit dans le vecteur latent

8 propriétés sondées. Pour les positions (continues) : R² entre 0 et 1, où 0 = pas mieux que la moyenne, 1 = parfait. Pour les propriétés binaires : accuracy, où 50% = aléatoire.

Le trait gris vertical sur les barres de classification marque le seuil aléatoire (50%). Dépasser ce seuil signifie que la sonde a appris quelque chose. Le dépasser de peu signifie que c'est à peine mieux que rien.

Le résultat clé

Le modèle connaît les positions. Pas les relations.

Parmi tous les résultats, un seul révèle quelque chose de fondamental sur les limites de cette représentation. On a testé deux variantes de la même propriété : "la boîte est-elle sur la cible ?"

98.4%
Cible à position fixe (7, 7)
Dans ce test, la cible est toujours à la même case. La sonde prédit quasiment parfaitement si la boîte est dessus.
58.6%
Cible à position variable
Dès que la cible change de place à chaque état, la performance s'effondre à peine au-dessus du hasard.

L'interprétation est claire : avec une cible fixe, la sonde n'a pas appris "boîte == cible". Elle a appris "boîte est à (7,7)". C'est une information positionnelle déguisée en information relationnelle. Le modèle n'a jamais représenté le concept abstrait de relation entre deux objets.

Cette distinction est au cœur de la différence entre apprendre des régularités locales et apprendre des concepts abstraits. Le modèle sait que "quand l'agent pousse la boîte vers la droite, elle se déplace". Il ne sait pas que "la boîte et la cible sont des entités qui peuvent coïncider". C'est exactement la limite que Yann LeCun pointe dans les LLMs : manipuler des symboles sans comprendre leur signification.

Bilan

Portrait du modèle

L'espace latent n'est pas une boîte noire opaque. Il a une structure, et cette structure est partiellement interprétable. Mais ce qu'elle encode est sélectif.

Dynamique locale. Le modèle prédit correctement ce qui se passe au prochain pas dans 99.99% des cas. Il a appris la physique immédiate du monde.
Position de la boîte. R² ≈ 0.68 — la position de la boîte est encodée de façon linéairement lisible. Ce n'est pas parfait, mais c'est significatif.
~
Position de l'agent. La ligne est mieux encodée que la colonne (61% vs 40%). L'agent est moins "important" pour la dynamique du monde que la boîte.
Proximité agent-boîte. 94.4% de précision. La relation de contact local est très bien capturée — c'est logique, c'est ce qui déclenche la poussée.
Concept de "boîte sur cible". 58.6% avec cible variable. Le modèle ne représente pas cette relation de façon générale. Il ne sait pas ce qu'est un objectif.
Proximité aux murs. 57.4% — à peine mieux que le hasard. L'information sur les murs n'est encodée que de façon très implicite dans le latent.

En un mot : le modèle est un expert de la physique locale, pas un planificateur orienté objectif. C'est cohérent avec l'architecture JEPA : elle optimise la prédiction au pas suivant, pas la capacité à atteindre un but. C'est précisément ce que l'Acte 4 met à l'épreuve.

← Acte 2 — Entraînement Acte 4 — Limites →