Waymo, filiale d'Alphabet dédiée à la conduite autonome, a récemment dévoilé "Emma" (End-to-End Multimodal Model for Autonomous Driving), un modèle sophistiqué pour améliorer la performance de ses véhicules autonomes. Développé avec l’aide des modèles Gemini de Google, ce modèle multimodal combine des données de capteurs, comme les caméras et la cartographie, pour générer des trajectoires de conduite et anticiper les obstacles sur la route.
Une technologie inspirée du raisonnement humain
L’objectif principal d’Emma est de dépasser les limitations des modèles traditionnels en intégrant différents types de données : images, textes, instructions de navigation. Contrairement aux systèmes isolés focalisés sur des fonctions spécifiques, cette approche holistique permet de mieux percevoir et anticiper les situations complexes de la route. Par exemple, le modèle Emma est capable de traiter les données de la route, comme les obstacles imprévus, de manière similaire à un raisonnement humain. Cette caractéristique est cruciale pour améliorer la Sécurité routière en conditions urbaines, où les surprises sont fréquentes, comme la traversée soudaine d’un chien dans la rue.
Des capacités de prévision avancées pour s’adapter aux imprévus
Emma repose sur des techniques de "chaîne de pensée", décomposant les tâches en étapes logiques, ce qui améliore la précision des décisions de conduite. En utilisant des modèles de langage multimodaux, Waymo peut ainsi regrouper et interpréter un vaste ensemble de données de conduite pour une précision accrue. En situation réelle, Emma a déjà montré qu’elle pouvait éviter des obstacles inattendus grâce à cette technologie, comme lors de la rencontre imprévue avec un animal en pleine ville.

Vers une expansion des fonctionnalités de la conduite autonome
Waymo explore encore d’autres fonctionnalités pour Emma, comme la capacité de compréhension de l’environnement routier, le Raisonnement spatial, et l’interprétation des comportements d'autres usagers de la route (Piétons, Cyclistes, etc.). À terme, ces avancées pourraient permettre à la filiale d’Alphabet de déployer ses taxis autonomes dans davantage de villes. Actuellement, ces services sont proposés à Los Angeles, San Francisco, Phoenix, et bientôt à Austin et Atlanta.
Des défis technologiques persistants
Malgré ses prouesses, le modèle Emma présente encore quelques limitations avant une application généralisée. En effet, il ne peut gérer qu’un nombre limité de séquences vidéo simultanées et n’intègre pas encore les données des capteurs LiDAR et Radar 3D, très coûteux en calcul. Par ailleurs, le modèle peut également présenter des "Hallucinations" similaires à celles observées sur Gemini, qui pourraient créer des erreurs dangereuses en pleine conduite.
Une course technologique avec d’autres acteurs
Waymo n’est pas la seule entreprise à s'engager dans cette direction. Tesla, par exemple, prévoit l’intégration d’un Réseau neuronal de bout en bout pour son système FSD (Full-Self Driving).