
Vous souhaitez exécuter une IA en local sur votre ordinateur, mais vous ne savez pas quel LLM choisir ? Inutile de les tester un par un pour identifier ceux qui ne mettent pas à genoux votre PC. Il existe un outil en ligne, gratuit, qui scanne votre PC et fait tout ce travail à votre place : CanIRun.ai. Un second outil open source dans le même style sera aussi évoqué : LLMfit.
Pour exécuter une IA en local, il y a l’embarras du choix puisqu’il existe plusieurs outils gratuits et open source, comme LM Studio et Ollama. Le problème se situe ailleurs : choisir un grand modèle de langage (LLM) capable de tourner de façon confortable sur la machine locale. S’il faut attendre 30 minutes pour obtenir la réponse à un prompt, cela ne présente aucun intérêt.
Finalement, il n’est pas si évident de savoir quel LLM peut réellement encaisser une machine. Cela dépend de plusieurs critères, notamment le processeur, la mémoire vive, et surtout la VRAM, c’est-à-dire la mémoire vive vidéo utilisée initialement pour les tâches liées aux graphiques. Autrement dit, la mémoire de votre carte graphique va jouer un rôle clé. Plus il y en a, mieux c’est, mais plus il y en a, plus la carte graphique est onéreuse.
CanIRun.ai vous aide à choisir le bon modèle pour votre PC
Un outil nommé CanIRun.ai est là pour vous aider à bien choisir le LLM capable de tourner confortablement sur votre machine. Pas celle du voisin, la vôtre. Et, c’est ça qui est intéressant avec cet outil, en plus du fait qu’il s’exécute directement dans votre navigateur Web.
Pour tester votre machine, c’est très simple :
1 – Accédez à CanIRun.ai depuis un navigateur Web basé sur Chromium (Edge, Chrome, Brave, par exemple)
2 – Le site va alors détecter et analyser la configuration matérielle de votre machine. Il va détecter la référence du GPU, la quantité de RAM, etc.
3 – L’outil va alors comparer ces informations à sa base de connaissance. Par exemple, s’il détecte un GPU “NVIDIA GeForce RTX 3060 Ti”, il ira vérifier quelles sont ses caractéristiques.
4 – Les modèles IA seront alors listés et vous pourrez identifier facilement ceux que vous pouvez utiliser sur votre machine. Il ne vous reste plus qu’à installer le modèle que vous souhaitez utiliser à partir de LM Studio ou de l’outil que vous utilisez.
Vous avez le tableau devant les yeux, mais comment l’interpréter ? À quoi correspondent tous ces modèles ? Et surtout, comment sont évaluées les performances ?
Vous ne trouverez pas Gemini 3 Pro ou Claude Opus 4.6 dans cette liste. Déjà parce qu’ils sont trop gourmands pour tourner sur votre machine, mais surtout parce qu’ils ne sont pas disponibles pour tout le monde.
CanIRun.ai concentre son analyse sur les modèles LLM que vous pouvez auto-héberger en local, ce qui comprend notamment un ensemble de modèles open source. Vous verrez donc des noms comme Qwen, Gemma, Llama ou encore les modèles de Mistral.
Note : vous pouvez aussi consulter ce site pour sélectionner un GPU ou une configuration dans la liste et voir ce que ça peut donner au niveau des résultats. Cela peut être intéressant avant l’achat de matériel.
L’interprétation des résultats
Ici, nous pouvons voir qu’un GPU NVIDIA GeForce RTX 3060 Ti a été identifié sur mon ordinateur. C’est correct, tout comme la quantité de VRAM : 8 Go. C’est l’information la plus importante. Par contre, la quantité de RAM est approximative, car c’est précisé “> 8 Go”, alors qu’en réalité, ma machine dispose de 64 Go de RAM. Qu’est-ce que cela change ?
Il est question d’un mécanisme appelé : CPU offloading. Pour fonctionner de manière fluide, un modèle d’IA doit idéalement être chargé dans son intégralité au sein de la VRAM (la mémoire vidéo) de votre carte graphique. C’est cette mémoire qui offre la bande passante suffisante requise pour les calculs d’inférence.
Si vous tentez de charger un modèle de 12 Go alors que votre GPU (comme une RTX 3060 Ti) plafonne à 8 Go, que se passe-t-il ? Le moteur d’IA va utiliser une solution de repli, et cette solution, c’est votre RAM (la mémoire vive classique). Il va donc saturer les 8 Go de votre carte graphique, puis “décharger” (offload) les 4 Go manquants directement dans votre RAM.
L’avantage de cette technique, c’est qu’elle vous permet de faire tourner des LLM (Large Language Models) plus gros sur votre machine locale en tirant profit de la RAM. Le problème, c’est que cette RAM est nettement moins performante que la VRAM du GPU, ce qui va créer une sorte de goulot d’étranglement matériel. Le modèle fonctionnera correctement, mais le nombre de tokens générés par seconde va chuter.
Grâce à l’association de la VRAM et de la RAM, vous augmentez la capacité de traitement en sacrifiant les performances pures. C’est un équilibre à trouver.
Selon cet outil en ligne, 16 LLM peuvent tourner sans difficulté sur ma machine grâce à la présence de 8 Go de VRAM. Il y a d’ailleurs un premier tableau avec les modèles les plus populaires, puis un second tableau avec tous les modèles.
Voici les points à regarder en priorité :
Dans le nom du modèle, vous remarquerez une mention comme 1.5B, 2B, 3B… Ces mentions où le “B” signifie Billions (milliards en anglais) indiquent le nombre de paramètres du modèle, ce qui représente concrètement la taille et la complexité de son “réseau neuronal”. Cette mention a un impact direct sur la quantité de mémoire dont vous aurez besoin pour le faire tourner.
La quantité de VRAM nécessaire est spécifiée, comme “1.3GB” ce qui est confortable vis-à-vis des 8 Go de VRAM de ma machine.
Le nombre de tokens par seconde (tok/s) est l’indicateur clé : plus c’est élevé, mieux c’est. Plus c’est faible, plus les réponses seront longues à être générées. C’est la vitesse à laquelle votre machine est capable de calculer et d’afficher les jetons à l’écran lors de la génération de la réponse. C’est votre “débit” de texte, puisqu’un mot pourra représenter un ou plusieurs jetons (selon sa longueur).
Note : si on devait faire une analogie avec l’univers du jeu vidéo, le “tok/s” est à l’IA ce que les FPS (Images par seconde) sont au gaming.
Il est important de comprendre que certains LLM sont optimisés pour certaines tâches, par exemple le code. Chaque tâche n’a pas les mêmes besoins, et cela dépend des modèles, c’est pour cette raison que cet outil permet d’y voir plus clair.
D’après le classement effectué par CanIRun.ai, ces trois modèles sont ceux qui ont le meilleur “fit” vis-à-vis de ma configuration. Autrement dit, c’est eux qui devraient permettre d’obtenir les meilleurs résultats en terme de pertinence/polyvalence VS performances.
Si vous cliquez sur un modèle, vous pouvez obtenir des informations supplémentaires à son sujet.
Utiliser l’outil CanIRun.ai avec un Mac
Les Mac mis sur le marché par Apple ces dernières années ont une particularité matérielle : ils ont une mémoire unifiée. Grâce à l’architecture Apple Silicon, il n’y a pas de VRAM et de RAM, tout est regroupé ensemble et exploité en fonction des besoins. Ainsi, cette RAM est susceptible d’être utilisée par le système, par vos applications et par le modèle IA. Si un Mac est détecté, l’outil CanIRun.ai grise la section dédiée à la RAM, en regroupant tout dans la VRAM.
Voici le résultat obtenu avec un MacBook Pro M5 équipé de 32 Go de RAM :
Ce qu’il faut comprendre, c’est que le modèle IA ne pourra pas exploiter 100% de la RAM, sinon le système et les applications n’auront plus rien pour eux. L’avantage, c’est qu’il y a une limite flexible. Je n’ai pas encore fait de test, mais j’en parlerai surement prochainement.
Comparer les résultats avec LLMFit
Si vous souhaitez avoir un autre avis en plus de celui proposé par CanIRun.ai, sachez qu’il existe un outil open source qui peut vous aider : LLMfit. C’est un logiciel en ligne de commande développé en langage Rust. Il est conçu pour analyser la configuration matérielle de votre ordinateur ou serveur afin d’identifier les modèles de langage (LLM) qui s’exécuteront de la manière la plus performante possible sur votre équipement.
Comme l’explique le dépôt GitHub, il s’installe directement sur la machine (Windows, Mac, Linux) et permet d’avoir un résultat dans le terminal.
LLMFit intègre un plus grand nombre de modèles dans son analyse (530 à l’heure actuelle), notamment en fonction du fournisseur (LM Studio, DeepSeek, Nvidia, etc.). Tout se passe dans le terminal, mais grâce à différents raccourcis, vous pouvez filtrer et trier les résultats.
Sur MacBook Pro M5, voici le résultat obtenu :
Le test CanIRun.ai donnait 22 tokens par seconde avec le modèle Llama 3.1 8B. De son côté, LLMfit affiche 29.1 tokens par seconde. Il y a donc une petite différence entre les deux outils, même si cela reste assez proche. Sur le modèle IA Qwen 3.5-9B, CanIRun.ai annonce 20 tokens par seconde, tandis que LLMfit annonce 24.2 tokens par seconde.
Conclusion
CanIRun.ai et LLMfit sont deux outils très intéressants, car ils permettent d’y voir plus clair dans toute cette quantité de modèles IA. Une fois ce test effectué, la prochaine étape consiste à déployer le modèle IA sur votre PC. J’en profite pour vous remettre les liens vers deux tutoriels qui pourront vous aider à démarrer avec Ollama et LM Studio.
Ingénieur système et réseau, cofondateur d’IT-Connect et Microsoft MVP “Cloud and Datacenter Management”. Je souhaite partager mon expérience et mes découvertes au travers de mes articles. Généraliste avec une attirance particulière pour les solutions Microsoft et le scripting. Bonne lecture.
