Quelque chose à espérer: Des géants de la technologie comme Microsoft et Google, aux côtés d’OpenAI, ont fait la une des journaux avec leurs recherches et leurs progrès innovants en matière d’IA. Jamais en reste, Mark Zuckerberg et Meta ont jeté leur chapeau dans le ring de l’IA avec la sortie de leur nouveau modèle de langage naturel, LLaMA. Le modèle surpasserait GPT-3 dans la plupart des benchmarks, ne représentant qu’un dixième de la taille totale de GPT-3.
Annoncé dans un article de blog Vendredi, le Large Language Model Meta AI (LLaMA) de Meta est conçu pour les équipes de recherche de toutes tailles. À seulement 10% de la taille du GPT-3 (transformateur génératif pré-formé de troisième génération), le modèle LLaMA fournit une ressource petite mais très performante qui peut être exploitée même par les plus petites équipes de recherche, selon Meta.
Cette taille de modèle garantit que les petites équipes aux ressources limitées peuvent toujours utiliser le modèle et contribuer aux avancées globales de l’IA et de l’apprentissage automatique.
Aujourd’hui, nous publions LLaMA, 4 modèles de fondation allant des paramètres 7B à 65B.
LLaMA-13B surpasse OPT et GPT-3 175B sur la plupart des benchmarks. LLaMA-65B est compétitif avec Chinchilla 70B et PaLM 540B.
Les poids pour tous les modèles sont ouverts et disponibles sur https://t.co/q51f2oPZlE
1/n pic.twitter.com/DPyJFBfWEq— Guillaume Lample (@GuillaumeLample) 24 février 2023
L’approche de Meta avec LLaMA est nettement différente de celle d’OpenAI ChatGPTGoogle Bardeou Microsoft Prométhée. La société lance le nouveau modèle sous une licence non commerciale, réitérant son engagement déclaré à Équité et transparence de l’IA. L’accès pour les chercheurs d’organisations gouvernementales, universitaires et de recherche de l’industrie intéressés à tirer parti du modèle devra demander une licence et un accès accordé au cas par cas.
Les chercheurs qui obtiennent avec succès une licence auront accès au petit modèle de fondation hautement accessible de LLaMA. Meta rend LLaMA disponible dans plusieurs paramètres de taille, notamment 7B, 13B, 33B et 65B. La société a également publié la carte de modèle LLaMA sur GitHub, qui fournit des détails supplémentaires sur le modèle lui-même et les sources de données de formation publiques de Meta.
Selon la carte, le modèle a été formé à l’aide de CCNet (67 %), C4 (15 %), GitHub (4,5 %), Wikipedia (4,5 %), Books (4,5 %), ArXiv (2,5 %) et Stack Exchange ( 2 %).
Meta était plus que franc sur l’état de LLaMA et leur intention de faire évoluer davantage le modèle. Bien qu’il s’agisse d’un modèle de base pouvant être adapté à un certain nombre de cas d’utilisation différents, la société a reconnu que les inconnues liées aux biais intentionnels et aux commentaires toxiques constituent toujours une menace qui doit être gérée. L’entreprise espère que le partage de ce modèle petit mais flexible conduira à de nouvelles approches qui peuvent limiter, ou dans certains cas éliminer, les voies potentielles d’exploitation du modèle.
Le LLaMA complet document de recherche est disponible en téléchargement et en révision sur le blog Meta Research. Les personnes intéressées à demander l’accès peuvent le faire sur Meta formulaire de demande en ligne.