La revue de presse IA/ML – février 2024 Blog Devoteam Revolve

Temps de lecture : 8 minutes

Troisième édition de notre revue de presse sur les sujets d’IA et de ML. Ici, vous trouverez une sélection commentée d’articles qualitatifs, issus de la veille et du partage menés par notre communauté interne, autour de tous les sujets qui peuvent toucher de près ou de loin à notre sujet favori : l’IA / ML.

News & Release

Releases OpenIA

Depuis le début d’année, Open IA a annoncé plusieurs nouvelles features et améliorations. Au programme :

Un nouveau modèle d’embedding text-embedding-3-small et text-embedding-3-large surpassant ses prédécesseurs sur les benchmarks MIRACL et MTEB
Une réduction du prix des tokens d’entrée de 50 % et de 25 % de ceux de sortie de l’API pour GPT 3.5 TURBO
Une nouvelle version de GPT4 (gpt-4-0125-preview), annonçant une réduction de la paresse du modèle
Un nouveau modèle de modération text-moderation-007 pour tenter d’identifier de promptes injections
Nouvelle gestion des clés d’API pour améliorer le monitoring des coûts
SORA, détaillé ci-dessous.

SORA

SORA est un modèle text-to-video permettant de générer des vidéos d’une durée allant jusqu’à 60 secondes, et des images photoréalistes en 2048×2048. Détails, mouvements de caméras, nombre de personnages … les premières vidéos laissent présager d’une qualité bluffante, et une évolution spectaculaire, et certainement un peu effrayante, en comparaison avec les premières vidéos générées par IA il y a moins de deux ans. Est-ce que SORA annonce une nouvelle définition du réel ?

SORA est actuellement accessible aux membres red chargés d’évaluer ses risques, ainsi qu’à des artistes, designers et réalisateurs. La question des fake news a en effet immédiatement été soulevée à l’annonce de SORA, et OpenAI assure prendre les précautions nécessaires en matière de sécurité avant de rendre son modèle disponible. L’équipe met notamment en œuvre des techniques d’exemples contradictoires (attaques adversarial), et inclut des spécialistes de la désinformation et des contenus haineux. OpenAI annonce également développer des outils de détection des contenus trompeurs qui seraient générés par SORA.

La question de l’impact environnemental de ce nouveau modèle est également soulevée par certains spécialistes, comme Sasha Luccioni :

Also, please don't get me started on the environmental impacts of this shiny new toy.
How much kWh of energy does each frame take? ⚡
How many hyperscale datacenters are running 24/7 just so we can generate some fancy b-roll? 🏭
What are their carbon emissions? 💨 https://t.co/nSeltdmhoI
— Sasha Luccioni, PhD 💻🌎🦋✨🤗 (@SashaMTL) February 16, 2024

D’autres s’interrogent sur l’origine des vidéos ayant servi à entraîner SORA (Twitch, TikTok, Youtube…?), et sur le consentement de leurs auteurs.

Release de Mistral

Pour l’instant uniquement en accès Beta, Mistral vient de sortir leur tout premier chatbot appelé “Le chat” ! Leur objectif ? Démontrer qu’Open IA et Google ne sont pas intouchables et que leurs nouveaux modèles peuvent égaler les TOP déjà existant.

En effet, Mistral en a également profité pour release leur dernier-né Mistral Large. Permettant d’avoir une grande fenêtre d’inputs (avec ces 32K de tokens) Mistral Large vient bousculer le leardoard MMLU (Measuring massive multitask language understanding), où il vient se placer 2ᵉ à seulement quelques points de GPT4. Disponible via leur API, Mistral annonce de plus un partenariat avec Azure où seront disponibles tous leurs modèles.

Enfin, Mixtral-8x7B, de la famille des modèles MISTRAL, est disponible sur Hugging face et bientôt disponible via Amazon Bedrock. Sous licence Apache2.0, il est, pour le moment, le meilleur modèle Open Source. Ce qui est aussi impressionnant avec ce modèle, c’est que du haut de ses seulement 32k de tokens d’entrée (contre 128k pour GPT4) il se place 12ᵉ dans le LMSYS Chatbot Arena Leaderboard.

Vous voulez essayer ? Venez par ailleurs découvrir la nouvelle fonctionnalité Hugging face chat Mistral.

Utilisable via la librairie Python Transformer (à partir de la version 4.36), Mixtral-8x7B demande quand même d’être bien équipé. Les inférences pourront vous demander pas moins de 90 GB VRAM en précision float16 et plus de 23 GB en prévision 4-bit. Il est également possible de faire du “fine-tuning” en utilisant l’algorithme de QLoRA ou GPTQ comme l’explique très bien cet article.

Release de Gemma

Google sort une nouvelle série de LLM open Source : Gemma.

Disponible sous deux versions (7 et 2 milliards de paramètres), ces modèles sont basés sur le modèle Gemini de Google. Comme nous pouvons déjà l’observer dans ce LLM leaderboard, la performance du modèle 7b surpasse ceux déjà présents dans le paysage (avec des nombres de paramètres équivalents). Le modèle 2b, quant à lui, est moins performant, mais il reste intéressant vis-à-vis de son faible nombre de paramètres et pourrait être utilisé sur des systèmes en huit-clos n’ayant pas une très grande capacité de calcul.

Vous voulez essayer ? Venez par ailleurs découvrir la nouvelle fonctionnalité Hugging face chat Gemma.

De même que pour Mixtral-8x7b, son utilisation est simple via la librairie Transformer (> 4.38) et l’est encore plus si vous souhaitez déployer le modèle sur GCP. En quelques clics, vous pourrez choisir entre le déployer sur Vertex IA et Google Kubernetes Engine.

Pour le Fine-Tuning, c’est toujours possible via la librairie TRL (Transformer Reinforcement Learning) et comme l’exemple tiré de l’article de release l’indique, il suffirait d’une dizaine d’heures pour le réaliser (contre 48 avec Mixtral-8x7b). Bien évidemment, ce temps d’entraînement est subjectif, car il dépend des paramètres sélectionnés, du dataset utilisé et des caractéristiques techniques de la (ou des) machines utilisées.

Culture IA

En route vers l’infini ?

15 milliards d’images générées par l’IA en 1 an : c’est autant que le nombre de photos prises au cours des 150 dernières années. Un chiffre qui illustre bien l’accélération folle du marché de l’IA.

Vous n’avez pas encore le tournis ? Sam Altman, le président d’Open AI, souhaite lever entre 5 et 7 billions de dollars (soit 2 à 3 fois le PIB français) pour régler le problème de composants qui ralentit l’essor de l’IA.

UE AI Act

Quel sera l’impact de l’EU AI Act ? Si vous n’avez pas le courage d’éplucher les 108 pages du rapport, cet article vous propose une version tldr. Comme le RGPD en son temps, ce règlement s’applique à la plupart des entreprises, et les sanctions en cas de non-conformité ne sont pas à prendre à la légère.

À noter que le règlement s’applique non seulement aux systèmes d’IA, mais aussi aux données qui les alimentent : les entreprises devront s’assurer de la qualité et de l’intégrité des données, fournir une documentation approfondie et une traçabilité claire des données, et assurer des mesures de confidentialité et de sécurité pour tous les systèmes d’IA déployés.

Et comme toujours en matière réglementaire, le diable est dans les détails…

Use case IA

Voici trois cas d’utilisation remarquables de l’IA observés récemment dans la presse

AlphaGeometry de DeepMind : une IA qui résout des problèmes de géométrie dignes d’un finaliste de l’Olympiade Internationale de Mathématiques
Sing Song : génération automatique d’accompagnements musicaux à partir de la voix
Résoudre les problèmes d’obsolescence des programmes via du Gen IA

ML Ops

Voici un condensé des news qui ont été partagés sur le sujet du ML Ops.

WhatOps now ?

Vous aussi vous êtes perdu entre DevOps, MLOps, FMOps et GenIA DevAppOps ? Non seulement le post LinkedIn de Eordax les résume très bien, mais il insiste et met en avant leurs complémentarités.

Hugging Face

Le partenariat entre Hugging Face et Google annonce une accélération des modèles Open Source.

Ce partenariat est aussi une très bonne chose pour les utilisateurs de GCP qui auront accès aux modèles Hugging Face et pourront facilement les déployer sur GKE (Google Kubernetes Engine) ou encore Vertex AI. La release de Gemma est la première brique de cette collaboration.

Tonic Validate

En “Ops” les tests d’intégration permettent de s’assurer que le code mis en production ne viendra pas altérer la qualité de ce qui est déjà en production.

Avec l’arrivée du Machine Learning et des LLM, des librairies comme Tonic Validate ont été développées pour pouvoir faire de même. Si vous vous demandez comment cela fonctionne, nous vous conseillons la lecture de cet article, petit tutoriel sur la mise en place de Tonic Validate avec LlamaIndex et Github Actions.

Embedding

L’embedding est la base de tous les modèles LLM. Son concept est de représenter le texte soumis sous la forme d’un vecteur (tableau) de float. La dimension du vecteur et sa représentation est propre à chaque modèle d’embedding. Mais comme tout modèle de ML, il est possible que celui-ci dérive. C’est-à-dire que la représentation d’un même texte change dans le temps …

L’article Monitor embedding drift for LLMs deployed from Amazon SageMaker JumpStart propose une méthode pour détecter ces dérives et ainsi s’assurer que les données utilisées pour l’inférence aient la même représentation que celle utilisée lors du training.

Sécurité

Prompt Injection

Déclaré par OWASP comme étant l’une des 10 failles majeures des modèles de LLM, l’injection dans les prompts consiste à venir ajouter des informations supplémentaires juste avant que ces données soient envoyées aux modèles.

This manipulates a large language model (LLM) through crafty inputs, causing unintended actions by the LLM. Direct injections overwrite system prompts, while indirect ones manipulate inputs from external sources.

Abordées par Micode dans sa vidéo sur le sujet, les injections peuvent être réalisées totalement à l’insu de l’utilisateur (par exemple caché dans une page web crawlée) et ainsi créer des résultats… inattendus.

Pour répondre à ces différentes failles de sécurité, Meta a annoncé, en décembre 2023, Purple LLama. Une initiative pour le développement d’IA sécurisée et responsable. Le nom du projet venant du mélange des deux couleurs Rouge (Attaquant) et Bleu (Défenseur). Le projet s’inspire donc des concepts de la cybersécurité.

C’est dans ce cadre que s’inscrit Llama Guard, un outil permettant de sécuriser l’input et l’output des modèles. Si vous souhaitez voir un exemple d’implémentation via LlamaIndex, nous vous conseillons la lecture de cet article :

Safeguarding Your RAG Pipelines: A Step-by-Step Guide to Implementing Llama Guard with LlamaIndex

Protéger les œuvres contre leur exploitation par l’IA

La démocratisation des modèles de génération d’images a rapidement soulevé la question des droits des œuvres utilisées pour nourrir les modèles.

OpenAI a d’ailleurs estimé récemment qu’il lui serait impossible de développer des LLM sans exploiter des œuvres protégées. Dans le même temps, la société proposerait aux éditeurs de presse de 1 à 5 millions de dollars par an pour entraîner ses modèles sur leurs articles. Ici, on estime que le montant proposé est une misère.

Côté créateurs, la riposte s’organise. Les chercheurs de l’Université de Chicago ont développé Nightshade, un outil gratuit destiné à prévenir l’exploitation non consentie de leurs images. Avec 250 000 téléchargements en 5 jours, la demande est visiblement au rendez-vous. Concrètement, NightShade agit comme un “poison”, puisqu’il trompe les modèles en altérant les œuvres au niveau du pixel. Autrement dit, il fait passer l’image pour ce qu’elle n’est pas, la conséquence étant que le modèle ainsi entraîné pourrait générer des images qui ne répondent pas au prompt.

L’équipe derrière NightShade a également développé Glaze, un outil qui empêche les modèles de copier le style d’un artiste. Glaze a été téléchargé 2,2 millions de fois depuis sa sortie en avril 2023.