Microsoft, connu pour son engagement dans l'intégration de l'intelligence artificielle, rejoint désormais le rang des acteurs multimodaux avec Bing AI. Suite à l'annonce de Mikhail Parakhin, directeur de la publicité et des services de Microsoft, sur Twitter, la société de Redmond franchit une étape cruciale en matière de compréhension multimodale, alliant texte et image.
Un pas vers la multimodalité
Si Microsoft était déjà en pointe dans l'innovation en matière d'intégration de l'IA, l'évolution constante du secteur et l'apparition d'IA de plus en plus performantes et accessibles ont incité l'entreprise à repousser les limites. Alors que Bard, l'IA de Google, s'est déjà imposée comme une solution multimodale sur le marché, Microsoft ne compte pas rester en retrait. Mikhail Parakhin a déclaré ce matin sur Twitter : « OK, nous avons finalement déployé la compréhension multimodale/image partout (enfin, presque — le déploiement sera terminé demain, mais à 99 % aujourd'hui) ».
L'intégration du modèle GPT-4 d'OpenAI
En mars 2023, OpenAI lançait GPT-4, le dernier-né de ses modèles de langage profond. La particularité de ce modèle réside dans sa capacité à comprendre non seulement les textes, mais aussi les images. Fort de cette nouvelle capacité, Bing AI est désormais capable d'écrire un poème en fonction d'une image ou de générer une mélodie en fonction d'une description textuelle.
L'implémentation dans les produits Microsoft
Quatre mois après l'officialisation du LLM (Large Language Model) d'OpenAI, les ingénieurs de Microsoft travaillent activement à l'implémentation de cette technologie dans les produits de la compagnie. La recherche par image dans Bing Chat et/ou Edge est prévue pour un lancement prochain, représentant une véritable révolution dans l'expérience utilisateur.
Des défis à relever
Bien que l'annonce suscite un enthousiasme certain, quelques problèmes subsistent et pourraient nécessiter des ajustements. Un membre de Twitter ayant eu l'occasion de tester la nouvelle IA multimodale a ainsi soulevé une plainte auprès du représentant de la compagnie : « le seul gros problème est que si je télécharge une image et que j'utilise ensuite le microphone pour poser ma question, Bing dit qu'il n'y a pas d'image. L'image et le micro ne fonctionnent donc pas ensemble, je suppose ».
Vers une nouvelle ère d'intelligence artificielle
Malgré ces défis, l'évolution de Bing AI vers une compréhension multimodale représente une avancée significative dans le domaine de l'intelligence artificielle. Microsoft se positionne désormais aux côtés des acteurs majeurs de l'IA multimodale, ouvrant ainsi de nouvelles perspectives pour des interactions homme-machine plus riches et diversifiées. Reste à voir comment Microsoft adressera les problèmes signalés et comment les utilisateurs accueilleront cette nouvelle capacité prometteuse de Bing AI.