Aussi passionnants que soient les outils d’IA comme ChatGPT, Google’s Bard et les nombreux copilotes de Microsoft, ils sont tous actuellement confrontés à la même restriction : vous devez être connecté à Internet pour les utiliser. Pour la plupart des gens et dans la plupart des situations, ce n’est pas un gros problème, mais imaginez à quel point ce serait génial si vous pouviez les utiliser sur vos ordinateurs et téléphones même si vous avez une mauvaise connexion ou pas du tout ?

Non seulement cela augmente les situations dans lesquelles vous pourriez tirer parti de ces fonctionnalités, mais cela peut avoir un certain nombre d’autres avantages importants mais pas nécessairement évidents.

Premièrement, il s’avère que la puissance de calcul – et la puissance électrique requise – pour faire fonctionner ces outils d’IA générative est actuellement énorme. Cela signifie que les entreprises qui offrent ces services dépensent beaucoup d’argent pour les activer et, à terme, cela pourrait se traduire par la répercussion de ces coûts sur les utilisateurs et les entreprises qui les utilisent.

Deuxièmement, il y a des avantages en matière de sécurité et de confidentialité à ne pas tout exécuter dans le cloud. Dans bon nombre des premières versions de ces outils d’IA générative, tout ce que vous y saisissez est suivi et intégré aux grands modèles de langage (LLM) qui alimentent ces services. Cela fait partie de ce qu’on appelle le processus de formation du modèle. Ils utilisent également ces informations pour mieux personnaliser les informations que ces outils génèrent pour vous.

En fait, certains des outils d’IA générative les plus avancés vont probablement évoluer vers quelque chose qui s’apparente à des assistants personnels numériques qui peuvent vous aider à planifier et à organiser des tâches et des réunions pour vous. Contrairement aux outils de première génération comme Cortana et Siri, cependant, ces outils alimentés par l’IA pourront le faire avec plus de contexte et de connaissances sur vous (si vous les laissez, bien sûr).

2023 06 01 image 35

Tout comme un assistant personnel dans le monde réel doit en savoir beaucoup sur l’emploi du temps et le travail d’un patron, un assistant numérique doit également connaître votre travail et votre emploi du temps pour être aussi efficace que possible. Comme une plus grande partie du travail alimentant ces modèles d’IA se déplace sur les appareils, cependant, moins de ces informations doivent être transférées vers le cloud, offrant ainsi une solution plus privée.

La façon de résoudre à la fois les problèmes de puissance et de confidentialité avec l’IA générative consiste à tirer parti d’un concept appelé informatique distribuée, où vous divisez et distribuez essentiellement le « travail » informatique sur le cloud et les appareils.

En ce qui concerne l’alimentation, si certains des calculs qui n’avaient lieu que dans le cloud peuvent être effectués sur des appareils, il est alors moins coûteux pour l’entreprise d’exécuter ces services dans le cloud. Du côté de la confidentialité, si vos données, votre emploi du temps, etc. peuvent rester sur votre appareil, mais que des services qui savent comment utiliser ces informations pour une expérience d’assistant personnel personnalisée s’exécutent sur votre appareil, alors peu ou pas de vos informations iront au nuage.

Récemment, un certain nombre d’entreprises ont évoqué cette idée d’informatique distribuée pour l’IA générative. Par exemple, lors de la récente conférence des développeurs Build de Microsoft, ils ont discuté de ce qu’ils appellent l’IA hybride. Considérez-le comme la prochaine génération d’outils d’IA générative. La version de Microsoft s’appelle Hybrid Loop et exploite une plate-forme de développement logiciel appelée Exécution ONNX que les développeurs peuvent utiliser pour tirer parti des ressources informatiques de l’appareil local ainsi que du cloud computing d’Azure. En d’autres termes, il offre un ensemble d’outils aux développeurs de logiciels pour faire de l’informatique distribuée.

Le fabricant de puces Qualcomm, dont les puces et les modems se retrouvent dans la plupart des smartphones vendus aux États-Unis, a également parlé sur le concept d’IA hybride et ses autres avantages. La société a créé un ensemble de services logiciels appelé Qualcomm AI Stack qui facilite l’exécution d’outils d’IA génératifs sur les smartphones. En fait, la société a montré Stable Diffusion fonctionnant sur des téléphones utilisant ses puces.

En parlant de semi-conducteurs, aussi formidable que puisse paraître le concept d’IA hybride et d’informatique distribuée, la seule façon de le rendre possible est de suralimenter les capacités de nos appareils. Afin d’exécuter les modèles d’IA de base qui alimentent les applications et les services d’IA générative sur vos appareils, nous allons voir une toute nouvelle gamme de puces accélératrices d’IA arriver sur les PC et les smartphones au cours de la prochaine année.

Les sociétés de systèmes d’exploitation telles que Microsoft et Google doivent également développer davantage de support pour ces puces. Lors de l’événement Build, Microsoft souligné que certains de ses travaux sous-jacents pour l’IA hybride pourront exploiter le CPU, le GPU, le NPU (unité de traitement neuronal) et potentiellement d’autres accélérateurs d’IA spécialisés trouvés sur les PC modernes. Cela signifie que les nouveaux processeurs d’Intel, AMD et Qualcomm, ainsi que les GPU de Nvidia et AMD, vont commencer à être plus importants que jamais.

De nombreuses grandes sociétés de puces ont fait des annonces dans ce domaine. AMD a annoncé le Ryzen 7040 qui intègre un accélérateur d’IA dédié. De même, la gamme de processeurs de nouvelle génération d’Intel, dont le nom de code est Meteor Lake, serait la première à inclure un accélérateur d’IA dédié. Ces deux puces sont attendues plus tard cette année.

Les processeurs 8cx basés sur Arm de Qualcomm pour PC incluent également une accélération IA dédiée et ils devraient également avoir une nouvelle version plus tard cette année. Qualcomm a également démontré que certains de ses nouveaux processeurs Snapdragon 8 Gen 2 pour téléphones haut de gamme – trouvés dans les téléphones Android de Samsung et Motorola – ont la capacité d’exécuter des modèles et des applications d’IA génératifs directement sur le téléphone.

Pour être clair, à l’heure actuelle, la grande majorité des logiciels et services d’IA générative fonctionnent toujours sur le cloud. Les exigences informatiques dont ont besoin des outils comme ChatGPT ne peuvent être satisfaites qu’avec d’énormes quantités de serveurs basés sur le cloud. Au fil du temps, cependant, nous allons voir de nouveaux types de modèles d’IA plus petits et des moyens intelligents de transférer les charges de travail informatiques que l’IA exige sur nos appareils. Lorsque nous le ferons, des capacités encore plus époustouflantes alimentées par l’IA commenceront à être disponibles.

Le monde de l’IA générative provoque des perturbations massives dans l’ensemble du monde de la technologie, et ses implications vont bien plus loin qu’il n’y paraît. Bien que cela puisse être un peu écrasant, il est important de se rappeler que nous entrons dans l’une des nouvelles ères les plus excitantes de l’informatique, sur les PC, les mobiles et tous les autres appareils, dans un certain temps. Accrochez-vous et profitez de la balade.

Bob O’Donnell est le fondateur et analyste en chef de TECHnalysis Research, LLC une société de conseil en technologie qui fournit des services de conseil stratégique et d’étude de marché à l’industrie technologique et à la communauté financière professionnelle. Vous pouvez le suivre sur Twitter @bobodtech

Titre : Tyler Lastovitch