Projet de recherche & exploration

Apprendre à prédire
un monde

Peut-on entraîner une machine à comprendre les lois d'un monde simplement en l'observant — sans lui en expliquer les règles ? C'est le pari des modèles monde, et c'est ce que ce projet explore.

World Models JEPA PyTorch Espace latent Planning Auto-supervisé

Le point de départ

Yann LeCun, AMI Labs, et la promesse d'une révolution

En mars 2026, Yann LeCun — récipiendaire du prix Turing et ancien Chief AI Scientist de Meta — annonce la création de son laboratoire AMI (Advanced Machine Intelligence), avec une ambition explicite : construire la prochaine génération d'intelligence artificielle en repartant de zéro sur l'architecture.

Sa thèse est tranchante. Les grands modèles de langage (LLMs) — GPT, Claude, Gemini — sont impressionnants, mais fondamentalement limités. Ils manipulent des séquences de tokens discrets. Or, le monde réel n'est pas du texte.

« Le monde est beaucoup plus complexe que la langue. On a l'impression, en tant qu'humain, qu'une entité est intelligente si elle manipule la langue — mais on est trompé. La langue, c'est une séquence de symboles discrets. Le monde réel est bien plus complexe, et le comprendre nécessite des techniques complètement différentes. La question, c'est : comment faire en sorte que les machines apprennent le monde en l'observant, à la manière d'un jeune enfant, ou même d'un chat de gouttière ? »

Yann LeCun — France Inter, L'invité du 7h50, 10 mars 2026

La réponse de LeCun à cette question, c'est une architecture nouvelle : les modèles monde (world models). L'idée n'est pas de prédire des pixels, ni de reconstituer des images. C'est d'apprendre une représentation abstraite du monde, et d'apprendre à prédire comment cette représentation évolue quand on agit.

Ce projet est né de l'envie de comprendre cette idée de l'intérieur — pas en lisant des papiers, mais en l'implémentant sur un monde minimal, de A à Z. Le papier de référence : LeWM (LeWorldModel), publié par Lucas Maes, Quentin Le Lidec et Yann LeCun en mars 2026.

L'architecture

JEPA — prédire dans l'abstrait, pas dans le pixel

L'idée centrale s'appelle JEPA : Joint Embedding Predictive Architecture. Elle repose sur deux composants qui s'entraînent ensemble.

L'encodeur prend une observation du monde (une image, une grille, un état) et la compresse en une représentation abstraite appelée vecteur latent — un point dans un espace à faible dimension qui capture l'essentiel de la situation. Le prédicteur, lui, prend ce vecteur latent et une action, et doit anticiper le vecteur latent du prochain état.

La clé : on n'entraîne pas le système à reconstruire des images. On l'entraîne à prédire dans l'espace latent. L'encodeur doit produire une représentation que le prédicteur peut anticiper. Le prédicteur doit anticiper ce que l'encodeur produira. Ils s'améliorent ensemble.

obs état t Encodeur ϕ zt Prédicteur f t+1 actiont L₂ obs état t+1 Encodeur ϕ zt+1 prédit réel

L'encodeur ϕ est partagé entre les deux observations. La loss L₂ force ẑt+1 (prédit) à se rapprocher de zt+1 (réel) dans l'espace latent.

Ce qu'il y a d'élégant dans cette approche : le système n'apprend jamais à reconstituer une image. Il apprend quelque chose de plus profond — une représentation du monde qui est utile pour prédire. Rien de superflu, tout de fonctionnel.

Le risque principal de cette architecture s'appelle l'effondrement de représentation : si l'encodeur projette tout sur le même vecteur, la loss tombe à zéro sans rien apprendre. LeWM résout ce problème avec un terme de régularisation appelé SIGReg, qui force les représentations latentes à suivre une distribution gaussienne.

Ce projet

Quatre actes pour comprendre de l'intérieur

Ce projet implémente une version minimale de LeWM sur un monde simulé : une grille 10×10 avec un agent, une boîte, des murs et une cible. Pas de reward, pas d'étiquettes — le modèle observe des transitions et en déduit les lois du monde.

Le projet se déroule en quatre actes, chacun explorant une question distincte. Le code source est disponible sur GitHub ; ici, on s'intéresse aux résultats, aux visualisations, et à ce qu'ils nous apprennent.

Conclusion — ce que j'ai appris  →