Les LLM sont des systèmes d’intelligence artificielle capables de comprendre et de générer du langage naturel à partir de grandes quantités de données textuelles. Des exemples de LLM sont GPT-3 et GPT-4 d’OpenAI, qui peuvent produire des textes cohérents et variés sur n’importe quel sujet, allant des articles de presse aux poèmes en passant par les codes informatiques. Ces modèles sont très puissants, mais aussi très gourmands en mémoire et en ressources de calcul, ce qui pose un défi pour les déployer sur des appareils mobiles comme les iPhone, qui ont une capacité de mémoire limitée.
Pour relever ce défi, les chercheurs d’Apple ont développé une technique innovante qui utilise la mémoire flash - la même mémoire où sont stockées vos applications et vos photos - pour stocker les données du modèle de langage. Cette technique permet de réduire le transfert de données entre la mémoire flash et la mémoire vive (RAM), et d’augmenter le débit de la mémoire flash, ce qui accélère le processus d’inférence du modèle de langage. C'est en tout cas ce qu'a suggéré une étude publiée le mois dernier.
L'article de recherche est intitulé "LLM in a flash : Efficient Large Language Model Inference with Limited Memory". Les auteurs y notent que la mémoire flash est plus abondante dans les appareils mobiles que la mémoire vive traditionnellement utilisée pour l'exécution des modèles. Ainsi, leur méthode contourne astucieusement cette limitation en utilisant deux techniques clés qui minimisent le transfert de données et maximisent le débit de la mémoire flash :
- le fenêtrage : il s'agit d'une méthode de recyclage. Au lieu de charger de nouvelles données chaque fois, le modèle d'IA réutilise une partie des données qu'il a déjà traitées. Cela réduit la nécessité d'aller constamment chercher des données en mémoire, ce qui rend le processus plus rapide et plus fluide ;
- regroupement lignes-colonnes : cette technique revient à lire un livre par morceaux plutôt qu'un mot à la fois. En regroupant les données plus efficacement, elles peuvent être lues plus rapidement à partir de la mémoire flash, ce qui accélère la capacité de l'IA à comprendre et à générer du langage.
Selon l'article, la combinaison de ces méthodes permet aux modèles d'IA de fonctionner jusqu'à deux fois la taille de la mémoire disponible de l'iPhone. Cela se traduit par une augmentation de la vitesse de 4 à 5 fois sur les processeurs standard (CPU) et de 20 à 25 fois sur les processeurs graphiques (GPU). Les auteurs ont écrit : « cette avancée est particulièrement cruciale pour le déploiement de modèles avancés dans des environnements à ressources limitées, ce qui élargit leur applicabilité et leur accessibilité ». Les analystes affirment qu'il s'agit d'une avancée majeure qui ouvre la voie à de nouvelles possibilités pour les futurs appareils d'Apple.
Selon le code d’iOS 17.4, Apple teste actuellement quatre modèles de langage différents.
Selon le code d’iOS 17.4, la mise à jour de l'OS de l'iPhone inclut un nouveau framework privé SiriSummarization qui fait appel à l'API ChatGPT d'OpenAI. Il semble qu'Apple l'utilise pour tester en interne ses nouvelles fonctionnalités d'IA.
Il existe également de nombreux exemples d'invites système pour le framework SiriSummarization dans iOS 17.4. Il s'agit notamment de messages tels que « résume s'il-te-plaît », « réponds à cette question s'il-te-plaît » et « résume le texte donné s'il-te-plaît ».
Les messages-guides du système indiquent également ce qu'il faut faire lorsqu'il reçoit des données sous la forme d'un iMessage ou d'un SMS. Cela correspond à un rapport précédent de Bloomberg, qui a déclaré qu'Apple travaillait sur l'intégration de l'IA dans l'application Messages qui peut « répondre à des questions et compléter automatiquement des phrases ».
Compte tenu des SMS reçus par l'utilisateur et contenant les champs expéditeur, contenu et heure d'envoi, proposer une action appropriée à un assistant vocal, y compris le type d'action, la valeur de l'action, le type de valeur de l'action et l'indice de confiance au format JSON. Les types d'action possibles sont MessageReply, GetDirection, Call, SaveContact, Remind, MessageContact et None. Les types de valeur d'action possibles sont message, adresse, numéro de téléphone, contact, rappel. La valeur possible du score est comprise entre 0 et 1, ce qui représente le score de confiance de l'action suggérée.
Par exemple, le framework SiriSummarization peut effectuer des résumés à l'aide de modèles sur l'appareil. Apple semble utiliser ses propres modèles d'intelligence artificielle pour alimenter ce framework, puis comparer en interne ses résultats à ceux de ChatGPT.
Selon le code d’iOS 17.4, Apple teste actuellement quatre modèles de langage différents. L’un d’entre eux est le modèle interne d’Apple appelé “Ajax”, qui fonctionne sur 200 milliards de paramètres, ce qui suggère un haut niveau de complexité et de capacité en matière de compréhension et de génération du langage. iOS 17.4 montre qu’il existe deux versions d’AjaxGPT, dont une qui est traitée sur l’appareil et une qui ne l’est pas.
Parmi les autres modèles référencés par iOS 17.4 figurent le ChatGPT susmentionné ainsi que le FLAN-T5. La principale conclusion à tirer de ces résultats est qu'Apple redouble d'efforts pour intégrer de grands modèles de langage dans iOS. Il est également intéressant de constater qu'Apple développe simultanément son propre système et compare les résultats de ce système à des outils tels que ChatGPT et FLAN-T5.
Cette percée est particulièrement importante pour déployer des LLM avancés dans des environnements à ressources limitées, ce qui élargit leur applicabilité et leur accessibilité. Elle ouvre également de nouvelles possibilités pour les futurs iPhone, comme des fonctionnalités de Siri plus avancées, la traduction en temps réel, et des fonctionnalités basées sur l’intelligence artificielle dans la photographie et la réalité augmentée. La technologie prépare également le terrain pour que les iPhone puissent exécuter des assistants et des chatbots complexes sur l’appareil, quelque chose sur lequel Apple travaillerait déjà.
Apple devrait dévoiler de nouvelles fonctionnalités d’intelligence artificielle avec iOS 18 en juin. En attendant, les utilisateurs peuvent tester les capacités de Siri dans iOS 17.4, qui est actuellement en version bêta pour les développeurs et les testeurs publics.
Déjà des critiques sur cette approche
L'ambition d'Apple de faire fonctionner des modèles d'IA directement sur les iPhone est critiquée pour ses limites matérielles évidentes, pouvant compromettre l'expérience utilisateur. Intégrer des modèles d'IA sur des appareils mobiles avec des capacités de stockage limitées soulève des préoccupations d'espace pour les utilisateurs.
Certains critiques estiment qu'Apple dépend trop des acquisitions pour stimuler l'innovation. Plutôt que de développer en interne, la société a tendance à acquérir des startups technologiques, soulevant des questions sur sa capacité à innover de manière autonome. Il faut dire que la société californienne a acquis 21 startups spécialisées dans l'IA depuis 2017, mettant l'accent sur la résolution des défis technologiques liés à l'utilisation de l'IA sur les appareils mobiles, notamment les iPhone.
Conclusion
Plusieurs analystes estiment qu'Apple est à la traîne par rapport à ses rivaux, bien qu'il ait embauché le plus haut responsable de l'IA de Google, John Giannandrea, en 2018. Alors que Microsoft et Google se sont largement concentrés sur la fourniture de chatbots et d'autres services d'IA générative sur Internet à partir de leurs vastes plateformes de cloud, les recherches d'Apple suggèrent qu'elle se concentrera plutôt sur une IA qui peut fonctionner directement sur un iPhone. Une initiative qui peut faire une grande différence. Certains rivaux d'Apple, tels que Samsung, se prépareraient à lancer un nouveau type de smartphone IA cette année.
Counterpoint Research s'attend à ce que plus de 100 millions de smartphones axés sur l'IA soient livrés en 2024, et que 40 % des nouveaux appareils offrent de telles capacités d'ici à 2027. De son côté, Cristiano Amon, PDG de Qualcomm, le plus grand fabricant de puces mobiles au monde, note que l'introduction de l'IA dans les smartphones créerait de nouvelles expériences pour les consommateurs et inverserait la tendance baissière des ventes de téléphones portables. « Vous verrez des appareils lancés au début de 2024 avec un certain nombre de cas d'utilisation de l'IA générative », a déclaré Amon lors d'une récente interview.
Quoiqu'il en soit, l'ambition d'Apple de faire fonctionner des modèles d'IA directement sur les iPhones est confrontée à des limites matérielles évidentes. Les capacités de calcul et de mémoire des smartphones sont notoirement restreintes par rapport aux serveurs sur le cloud. Cette démarche risque de sacrifier la performance globale des iPhones au profit de fonctionnalités d'IA locales, compromettant ainsi l'expérience utilisateur.
Les modèles d'IA, en particulier ceux nécessaires pour des tâches avancées, sont volumineux. L'idée d'intégrer ces modèles sur des appareils mobiles avec des capacités de stockage limitées soulève des préoccupations sérieuses. Les utilisateurs pourraient être confrontés à des problèmes d'espace, ce qui pourrait rendre cette fonctionnalité peu pratique pour un grand nombre d'utilisateurs.
Sources : FLAN-T5, Bloomberg
Et vous ?
Que pensez-vous de la nouvelle technique d’Apple pour utiliser la mémoire flash pour stocker les données du modèle de langage ?
Quelles sont les fonctionnalités de Siri que vous aimeriez voir améliorées grâce aux grands modèles de langage ?
Quels sont les risques et les opportunités liés à l’utilisation des grands modèles de langage sur les appareils mobiles ?
Comprenez-vous les critiques qui envisagent déjà un problème d'espace pour cette fonctionnalité ?