Conclusion
Ce que j'ai appris
Ce projet est né d'une curiosité. Il s'est transformé en quelque chose de plus grand que prévu — pas par son ampleur technique, mais par ce qu'il m'a obligé à comprendre.
Tout a commencé, comme souvent ces derniers temps, par des algorithmes de réseaux sociaux bien trop efficaces. Mon fil d'actualité s'est rempli de contenus autour d'AMI Labs et de Yann LeCun — et j'avoue que le sujet m'a immédiatement accroché. L'idée qu'on pourrait construire une intelligence artificielle fondamentalement différente des LLMs, une IA capable de comprendre son environnement plutôt que de prédire le prochain token, ça méritait qu'on s'y arrête.
Utilisateur émerveillé des LLMs depuis quelques années, fasciné par l'informatique depuis ma plus tendre enfance, je garde toujours un œil curieux sur ce qui bouge dans le domaine. Mon parcours m'a mené d'un côté assez inattendu : après plusieurs années d'enseignement des mathématiques — au collège et au lycée — j'ai suivi une formation diplômante, un master Expert en Data Science. Ce projet s'inscrit dans cette continuité : apprendre en faisant, et partager ce qu'on a compris.
Pour creuser le sujet JEPA et World Models, j'ai commencé par lire les papiers LeWM et V-JEPA 2. De sacrés pavés. J'ai rapidement fait appel à mes deux coworkers préférés — Claude et ChatGPT — avec qui j'ai eu de longs échanges, posant des questions éclairantes, testant des intuitions, démêlant les concepts. Et de ces conversations est née l'idée d'un petit projet de Data Science sur notebook, pour ancrer tout ça dans quelque chose de concret et de mesurable.
Plusieurs versions ont été nécessaires pour arriver à quelque chose de cohérent. Chaque itération m'a appris quelque chose : sur la façon dont on définit un "monde" pour un modèle, sur l'importance des règles physiques, sur ce qu'on demande exactement au réseau d'apprendre. La notion la plus importante que j'en retiens :
On lui montre le jeu. Il apprend des choses à son sujet. Et nous essayons de lire cette imagination, pour vérifier qu'il a bien compris quelque chose de réel. C'est ça, la sonde linéaire de l'Acte 3 : une tentative de décoder ce que le modèle a retenu, sans lui avoir rien expliqué explicitement.
Le résultat est honnête : le modèle a appris des choses, certaines très clairement (l'adjacence agent-boîte à 94%), d'autres à peine (la position de la cible à 59%). Et surtout — comme le montre l'Acte 4 — ce qu'il a appris ne suffit pas pour planifier. Il comprend la dynamique locale, mais pas l'espace global. Il sait ce qui se passe au prochain pas, pas où il en est sur la carte.
On ne comprend pas tout ce qu'il a appris. Et ce qu'il a appris, dans l'état, ne sert pas à grand-chose pour un vrai agent autonome. Mais l'aventure valait le coup quand même.
Je veux être transparent sur quelque chose : je n'ai pas écrit beaucoup de lignes de code à la main dans ce projet. Claude et ChatGPT ont écrit l'essentiel — les notebooks, le site que vous lisez en ce moment, les visualisations interactives. Mais il a quand même fallu lire ce code, le comprendre, le déboguer, parfois l'expliquer et le contester. Ce n'est pas rien.
J'espère aussi que mes interprétations ne sont pas trop foireuses. Je suis data scientist en formation, pas chercheur en apprentissage profond. Si vous repérez une erreur ou une approximation, je suis preneur.
L'IA est une chose fabuleuse, qui m'émerveille à chaque fois qu'une réponse arrive à un prompt que j'ai posé. Je sais qu'elle suscite beaucoup de craintes — et certaines sont légitimes. Personnellement, je me dis qu'on n'arrête pas le progrès. Alors si elle vous fait peur : intéressez-vous-y. Vous ne serez pas déçu.
Ce qui me frappe le plus, c'est que les LLMs — qui nous émerveillent déjà — sont entraînés sur du texte uniquement. Ils n'ont jamais vu le monde. Ils ne savent pas ce que c'est que tomber, pousser un objet, sentir la résistance d'une matière. Ils raisonnent par analogie linguistique.
Alors quand je pense à ce que pourrait être un modèle monde à grande échelle — une architecture fondamentalement différente, encodant directement une représentation de sa réalité, une compréhension de son environnement, capable de planifier dans cet espace — je n'ose pas imaginer ce qui nous attend.
Merci d'être arrivé jusqu'ici. Je reste disponible pour en discuter — que ce soit sur les concepts, les choix techniques, ou juste pour échanger sur ce domaine qui me passionne.