Google a récemment procédé à une mise à jour de sa politique de confidentialité, lui permettant d’utiliser désormais des données disponibles publiquement pour l’apprentissage de ses modèles d’intelligence artificielle (IA). Le géant de la technologie a modifié les termes de ses conditions, remplaçant notamment l’expression “modèles IA” par “modèles de langage”.
Selon les nouvelles règles, Google peut utiliser les données publiques non seulement pour améliorer les fonctionnalités existantes, mais également pour créer des produits complets tels que “Google Translate, Bard et Cloud AI”. Cette décision a pour effet de clarifier de manière explicite que tout ce qui est publié en public peut être utilisé par Google pour entraîner ses futurs modèles de langage, y compris Bard et d’autres produits d’IA générative. Google a rendu ces modifications accessibles au public dans ses archives afin de garantir une transparence totale.
Cependant, cette utilisation des données publiques par les entreprises d’IA n’est pas sans susciter des critiques. Récemment, une action collective a été intentée contre OpenAI, l’accusant de collecter “d’énormes quantités de données personnelles sur Internet”, y compris des “informations privées volées”, pour entraîner ses modèles GPT sans avoir obtenu le consentement préalable. Cette affaire pourrait ne pas être la dernière, car de plus en plus d’entreprises développent leurs propres produits d’IA générative et pourraient être confrontées à des poursuites similaires.
Face à cette situation, les propriétaires de sites considérés comme faisant partie de l’espace public numérique prennent des mesures pour empêcher ou tirer parti de l’essor de l’IA générative. Reddit a commencé à facturer l’accès à son API, ce qui a conduit à la fermeture de plusieurs clients tiers ce week-end. De son côté, Twitter a récemment imposé des restrictions sur le nombre de tweets qu’un utilisateur peut consulter par jour afin de faire face à des problèmes de récupération excessive de données et de manipulation du système.