Du plateau en bois au jeu vidéo : quand les enfants deviennent créateurs de niveaux
Étude de cas
Et si un enfant pouvait concevoir un niveau de jeu vidéo sans écrire une ligne de code ? Pas en glissant des blocs sur un écran, mais en posant de vraies pièces en bois sur un plateau, comme on assemblerait un puzzle. Un cœur pour symboliser une vie. Un petit bonhomme pour indiquer le point de départ. Des plateformes de couleurs, des pièges, des ressorts, des pièces à collecter. Puis une photo, et le niveau prend vie à l'écran : un personnage qui saute, récupère des objets, évite les dangers, perd des vies.
C'est le cœur d'un projet que nous avons mené récemment pour Copotato, studio parisien de création d'expériences numériques et ludiques, avec qui nous collaborons depuis plusieurs années. Copotato a conçu le dispositif ; Improba en a pris en charge la partie informatique : une expérience interactive destinée aux enfants et à leurs parents, présentée sur des salons et des événements. Pas un simple jeu vidéo développé sur ordinateur : un système qui mêle manipulation physique, vision par ordinateur et moteur de jeu. Nous en sommes fiers. Voici ce que ce chantier nous a appris.
L'enfant ne joue pas seulement au jeu. Il en invente le niveau, avec ses mains, avant même d'appuyer sur un bouton.
Une idée simple, une chaîne technique exigeante
Le principe tient en une phrase : les enfants disposent des pièces en bois sur un plateau perforé, chaque pièce correspondant à un élément de jeu (plateforme, obstacle, vie, ennemi, point de départ…). Un dispositif composé d'une tablette et d'une caméra photographie le plateau. Le logiciel analyse la scène, reconstruit le niveau tel que l'enfant l'a imaginé, et lance un jeu de plateforme en 2D où un personnage saute d'une plateforme à l'autre, collecte des objets et gère ses vies.
Derrière cette apparente simplicité, quatre briques techniques doivent fonctionner ensemble :
- Le dispositif physique : plateau, pièces, caméra, éclairage stable, cadrage reproductible.
- L'application tablette : capture de l'image, lancement de l'analyse, affichage du jeu.
- Le moteur de vision : détection et localisation de chaque pièce sur le plateau.
- Le jeu vidéo : traduction des éléments détectés en niveau jouable, avec physique, collisions et règles de jeu.
Ce qui rend le projet intéressant, ce n'est pas l'une de ces briques prise isolément. C'est leur enchaînement en temps réel, dans un contexte de salon où des dizaines d'enfants vont enchaîner les essais, avec des niveaux différents à chaque fois, sans intervention technique entre deux parties.
Le plateau : un level editor en bois
Chaque pièce en bois a une signification précise dans le jeu. Les enfants (souvent accompagnés de leurs parents) les disposent librement sur le plateau pour composer leur niveau.
- Plateformes de différents types : solides, avec pics, avec trous, avec ressort pour sauter plus haut.
- Vies, symbolisées par des cœurs : le personnage en dispose un nombre limité.
- Point de départ : un petit bonhomme indique où le joueur commence.
- Collectibles : pièces, étoiles, gemmes à récupérer en sautant.
- Ennemis : des créatures à éviter ou à contourner.
- Arrivée : une maison ou un drapeau pour terminer le niveau.
Le vocabulaire est volontairement concret. Un enfant de six ans comprend qu'un bloc orange dentelé, c'est dangereux. Un cœur rouge, c'est une vie en plus. Pas besoin de tutoriel : la matérialité des pièces fait le travail pédagogique.
YOLO : voir le plateau comme un humain (en plus rapide)
Comment passer d'une photo du plateau à une liste structurée d'éléments de jeu ? Nous avons choisi YOLO (You Only Look Once), une famille de modèles de détection d'objets en temps réel largement utilisée en vision par ordinateur depuis 2015.
Le principe de YOLO, contrairement aux détecteurs « en deux temps » qui proposent d'abord des régions puis les classifient, est de traiter l'image en un seul passage dans le réseau de neurones. L'image est découpée en grille ; chaque cellule prédit des boîtes englobantes, des scores de confiance et des classes d'objets. Un post-traitement (non-maximum suppression) élimine les détections redondantes. Résultat : en une fraction de seconde, le système sait qu'il y a un cœur en haut à gauche, deux fantômes ennemis au centre, des plateformes roses et grises, des pièces jaunes, un point de départ marqué par un bonhomme bleu.
YOLO est déjà entraîné sur des millions d'images génériques (personnes, voitures, animaux…). Mais nos pièces en bois peintes, sur un plateau blanc perforé, dans l'éclairage d'un salon, ne ressemblent à rien de ce que le modèle a vu à l'origine. Il fallait donc le personnaliser.
Un modèle léger, réentraîné sur nos propres données
Nous sommes partis d'une version compacte de YOLO, adaptée à un déploiement sur tablette sans serveur distant. Puis nous l'avons réentraînée (fine-tuning) sur un jeu de données que nous avons constitué nous-mêmes :
- Des centaines de photos de plateaux, avec des combinaisons variées de pièces, des angles et des éclairages différents.
- Un étiquetage manuel de chaque pièce sur chaque photo : type d'objet, position, dimensions. Un travail long, méticuleux, indispensable.
- Un outil interne : Label Studio, que nous avons déployé en interne pour annoter les images et exporter les jeux d'entraînement.
L'étiquetage est la partie la moins spectaculaire du projet, et pourtant la plus déterminante. Un modèle mal entraîné sur des annotations approximatives produira des niveaux incohérents : une plateforme confondue avec un piège, un point de départ manquant, une vie comptée deux fois. Sur le terrain, avec des enfants qui attendent devant l'écran, la marge d'erreur est faible.
Après entraînement, les résultats sur nos plateaux sont convaincants : la plupart des pièces sont détectées avec des scores de confiance supérieurs à 0,80, suffisamment fiables pour générer un niveau jouable sans retouche manuelle.
De la détection au niveau jouable
Une fois les pièces détectées et classifiées, il reste à les traduire en jeu. Chaque type de pièce correspond à un élément du moteur de jeu : une plateforme solide devient un bloc sur lequel le personnage peut atterrir ; un bloc à pics inflige des dégâts ; un ressort modifie la hauteur de saut ; un cœur ajoute une vie au compteur ; le bonhomme de départ fixe la position initiale du joueur.
La correspondance entre coordonnées image (où la caméra voit la pièce) et coordonnées jeu (où le personnage interagit) repose sur un calibrage du plateau : la grille de perforations sert de repère pour aligner le monde physique et le monde numérique. C'est ce qui permet à un enfant de placer un bloc « un peu à gauche » et de retrouver, à l'écran, une plateforme au même endroit relatif.
Le jeu lui-même est un platformer 2D classique : le personnage se déplace, saute, collecte des objets, perd des vies en tombant ou en touchant un piège. Les parents peuvent jouer à leur tour, comparer leur parcours à celui de leur enfant, recommencer avec un plateau réorganisé. Chaque partie est différente, parce que chaque plateau l'est.
Ce que ce projet change dans la façon de penser l'IA
Sur nos chantiers habituels, l'IA intervient souvent en amont (analyse, génération de code) ou en aval (assistant conversationnel, RAG). Ici, elle est au centre du produit : sans détection fiable, pas de jeu. L'utilisateur ne « utilise pas l'IA » : il crée quelque chose de physique, et l'IA rend cette création jouable.
Plusieurs enseignements nous restent :
- La donnée fait le modèle. Un YOLO pré-entraîné sur COCO ne reconnaît pas des pièces en bois peintes. Le sur-apprentissage sur nos propres annotations a été le travail le plus structurant du projet.
- Le terrain impose des contraintes que le labo ignore. Éclairage variable, mains qui bougent encore le plateau, enfants impatients : le système doit être tolérant et rapide, pas parfait dans des conditions idéales.
- Vision + jeu + hardware = un seul produit. Isoler ces briques en silos aurait produit un prototype de détection impeccable… et un jeu déconnecté. L'intégration bout en bout est ce qui fait la magie pour l'utilisateur final.
Sur les salons, la magie opère
Le dispositif est conçu pour être présenté en événements publics : salons, forums, journées portes ouvertes, aux côtés des équipes Copotato. Un enfant s'approche, dispose quelques pièces, appuie sur un bouton. Quelques secondes plus tard, il joue à son niveau. Ses parents photographient. Il recommence avec une autre configuration.
C'est ce moment, quand l'enfant reconnaît sa création à l'écran, qui justifie tout le travail en amont : l'étiquetage dans Label Studio, les itérations sur le modèle, le calibrage caméra-plateau, les ajustements de gameplay. La technologie disparaît au profit de l'expérience.
Le meilleur retour utilisateur, ce n'est pas un score de détection. C'est un enfant qui dit : « C'est mon niveau ! »
Ce que nous en retenons
Ce projet nous a rappelé pourquoi nous aimons ce métier : prendre une idée qui mêle le tangible et le numérique, et la faire tenir sur le terrain, devant un public exigeant et imprévisible. Pas de démo PowerPoint : un plateau, des blocs, une caméra, un écran, et des enfants qui inventent.
Pour Copotato, partenaire de longue date, c'était aussi l'occasion de montrer qu'Improba ne se limite pas aux plateformes web et aux modèles scientifiques. Vision par ordinateur, entraînement de modèles sur mesure, applications embarquées, jeu vidéo : nous savons assembler ces compétences quand un projet le demande — et les mettre au service d'une idée ludique portée par un studio qui maîtrise le terrain autant que la création.
Et si vous avez un projet qui mêle hardware, IA et expérience utilisateur ? C'est exactement le type de chantier où nous nous sentons chez nous.