Les grands modèles de langages (LLM) sont incroyablement gourmands en mémoires et cela constitue un défi majeur à surmonter pour les entreprises. Mais une étude publiée récemment par les chercheurs d'Apple évoque des pistes de solution pour une inférence efficace des modèles d'IA sur les appareils à mémoire limitée, dont les smartphones. Elle suggère qu'Apple a l'intention d'offrir la possibilité aux utilisateurs d'exécuter les modèles d'IA directement sur leurs appareils iOS plutôt que sur le cloud. Apple est en retard par rapport à ses rivaux dans le domaine de l'IA générative, mais les analystes considèrent cette trouvaille comme une percée qui pourrait l'aider à réduire l'écart.Les chatbots basés sur de grands modèles de langage, comme ChatGPT et Claude, nécessitent généralement de grandes quantités de mémoire pour fonctionner, ce qui représente un défi pour les appareils avec une capacité de mémoire limitée. Les chercheurs en tentent depuis quelques années de relever le défi, mais peu de progrès ont été réalisés, du moins jusque-là. Pour résoudre ce problème, les chercheurs d'Apple ont mis au point une nouvelle technique qui utilise la mémoire flash - la même mémoire que celle où se trouvent vos applications et vos photos - pour stocker les données du modèle d'IA. Ils ont publié un rapport d'étude au début du mois.
L'article a été publié le 12 décembre, mais il a attiré l'attention après avoir été mis en évidence mercredi en fin de journée sur Hugging Face, une plateforme populaire sur laquelle les chercheurs en IA présentent leurs travaux pour des discussions. Il s'agit du deuxième article d'Apple sur l'IA générative ce mois-ci, et il fait suite à des initiatives antérieures visant à permettre à des modèles de génération d'images tels que Stable Diffusion de fonctionner sur ses processeurs personnalisés. Apple, tout comme les autres fabricants d'équipements et de processeurs, espère que les nouvelles fonctions d'IA contribueront à relancer le marché des smartphones.
L'article de recherche est intitulé "LLM in a flash : Efficient Large Language Model Inference with Limited Memory". Dedans, les auteurs notent que la mémoire flash est plus abondante dans les appareils mobiles que la mémoire vive traditionnellement utilisée pour l'exécution des modèles. Ainsi, leur méthode contourne astucieusement cette limitation en utilisant deux techniques clés qui minimisent le transfert de données et maximisent le débit de la mémoire flash :
- le fenêtrage : il s'agit d'une méthode de recyclage. Au lieu de charger de nouvelles données chaque fois, le modèle d'IA réutilise une partie des données qu'il a déjà traitées. Cela réduit la nécessité d'aller constamment chercher des données en mémoire, ce qui rend le processus plus rapide et plus fluide ;
- regroupement lignes-colonnes : cette technique revient à lire un livre par morceaux plutôt qu'un mot à la fois. En regroupant les données plus efficacement, elles peuvent être lues plus rapidement à partir de la mémoire flash, ce qui accélère la capacité de l'IA à comprendre et à générer du langage.
Selon l'article, la combinaison de ces méthodes permet aux modèles d'IA de fonctionner jusqu'à deux fois la taille de la mémoire disponible de l'iPhone. Cela se traduit par une augmentation de la vitesse de 4 à 5 fois sur les processeurs standard (CPU) et de 20 à 25 fois sur les processeurs graphiques (GPU). Les auteurs ont écrit : « cette avancée est particulièrement cruciale pour le déploiement de modèles avancés dans des environnements à ressources limitées, ce qui élargit leur applicabilité et leur accessibilité ». Les analystes affirment qu'il s'agit d'une avancée majeure qui ouvre la voie à de nouvelles possibilités pour les futurs appareils d'Apple.
Les travaux d'Apple sur l'IA générative pourraient éventuellement être intégrés à son assistant vocal Siri. Les possibilités comprennent de nouvelles fonctionnalités plus avancées sur Siri, la traduction en temps réel et des fonctions sophistiquées basées...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.



