L'utilisation des données dans le développement des technologies d'intelligence artificielle est de plus en plus cruciale. Google a récemment mis à jour sa politique de confidentialité pour spécifier que ses services d'intelligence artificielle, tels que Bard et Cloud AI, peuvent être formés à partir de données publiques extraites du web. Cette décision suscite des interrogations d'ordre juridique et éthique. La mise à jour, entrée en vigueur le 1er juillet, indique que le moteur de recherche peut "utiliser des informations pour améliorer nos services et développer de nouveaux produits, fonctionnalités et technologies qui profitent à nos utilisateurs et au public".
Google précise également qu'il peut "utiliser des informations publiquement disponibles pour aider à former les modèles d'IA de Google et construire des produits et des fonctionnalités comme Google Translate, Bard et les capacités de Cloud AI". Un porte-parole de Google a déclaré à The Verge que "notre politique de confidentialité a toujours été transparente sur le fait que Google utilise des informations publiquement disponibles sur le web ouvert pour former des modèles de langage". La mise à jour récente précise simplement que de nouveaux services tels que Bard sont également inclus. Nous intégrons des principes de confidentialité et des garanties dans le développement de nos technologies d'IA, conformément à nos principes d'IA".
Les conditions d'utilisation mises à jour indiquent que les "informations publiquement disponibles" sont utilisées pour former les produits d'IA de Google, mais elles ne précisent pas comment (ou si) l'entreprise évitera d'inclure du contenu protégé par le droit d'auteur dans cet ensemble de données.
De nombreux sites web accessibles au public ont des politiques interdisant la collecte de données ou le "scraping web" à des fins de formation de modèles de langage volumineux et d'autres outils d'intelligence artificielle. Comment ces interdictions s'alignent-elles avec l'approche de Google d'une part, et avec les différentes réglementations mondiales telles que le RGPD d'autre part ? Ces réglementations visent à protéger les individus contre une utilisation abusive de leurs données sans leur consentement explicite.
La concurrence accrue dans le secteur des chatbots, ainsi que ces nouvelles réglementations, ont incité les fabricants de systèmes d'intelligence générative populaires, comme le GPT-4 d'OpenAI, à être très prudents quant à l'origine des données utilisées pour former ces modèles. La question de savoir si la doctrine du "fair use" s'applique à ce type d'utilisation est actuellement sujette à débat juridique. Cette incertitude a donné lieu à des litiges et a poussé les législateurs de certains pays à introduire des lois plus strictes régissant la collecte et l'utilisation des données d'entraînement par les entreprises d'IA.