Les 8 meilleures apps pour exécuter l’IA locale sur Android en 2026

PocketPal AI, une application LLM sur l’appareil

Un modèle de langage à 7 milliards de paramètres tient désormais dans 4 Go de RAM, tourne à 8 à 12 tokens par seconde sur un Snapdragon 8 Gen 3 et répond sans jamais toucher le réseau. Voilà à quoi ressemble l’IA locale sur Android en 2026 — et pourquoi une vague d’applications a débarqué ces 12 derniers mois pour mettre un chatbot sur votre téléphone sans compte, sans abonnement et sans télémétrie.

Nous avons testé huit des meilleures apps pour exécuter l’IA locale sur Android en 2026. Chacune a été jugée sur la sélection de modèles, les tokens par seconde sur un appareil milieu de gamme, l’utilisation RAM, la prise en charge GGUF ou MLC, la fiabilité hors ligne et la quantité réelle de configuration avant la première question. Des choix gratuits, open source et payants sont inclus.

Ce qu’il faut chercher dans une app d’IA locale

Les apps LLM locales ne se valent pas toutes. Avant d’en installer une demi-douzaine, il aide de savoir ce qui distingue un outil utilisable d’une démo technique.

Prise en charge des formats de modèle. GGUF est le format dominant sur appareil en 2026, utilisé par llama.cpp et la plupart des modèles communautaires. Certaines apps ne prennent en charge que leurs modèles fournis — signal d’alarme.
Empreinte mémoire. Un modèle 3B quantifié sur 4 bits demande environ 2 Go de RAM. Un modèle 7B veut 4 à 6 Go. Si votre téléphone totalise 6 Go de RAM, tout ce qui dépasse 7B basculera en swap et plantera.
Accélération matérielle. Cherchez le déchargement GPU OpenCL ou Vulkan, ou la prise en charge du NPU sur Pixel 8/9 et smartphones Snapdragon 8 Gen 3. Les apps CPU uniquement fonctionnent, mais les tokens arrivent plus lentement.
Bibliothèque de modèles dans l’app. Un explorateur de modèles intégré qui télécharge depuis Hugging Face est bien moins pénible que le chargement manuel de fichiers .gguf.
Posture confidentialité. Le principe est le fonctionnement hors ligne. Vérifiez si l’app envoie des analyses à distance, exige un compte ou télécharge les invites pour des « améliorations ».
Fonctions expert. Prompts système personnalisés, préréglages de persona, RAG sur documents locaux et points de terminaison API compatibles OpenAI comptent une fois la nouveauté passée.

Comparaison rapide

Application	Idéal pour	Plateformes	Offre gratuite	Prix de départ	Téléchargements Aptoide
PocketPal AI	Le meilleur équilibre, GGUF simple	Android, iOS	Oui	Gratuit	1M+
Google AI Edge Gallery	Modèles officiels Google	Android	Oui	Gratuit	100K+
MLC Chat	Vitesse via modèles MLC compilés	Android, iOS, bureau	Oui	Gratuit	n/a (GitHub)
Maid	Enveloppe FOSS llama.cpp	Android, bureau	Oui	Gratuit	10K+
ChatterUI	Chat de personnages, jeu de rôle	Android	Oui	Gratuit	n/a (GitHub)
Layla	Chat de personnages premium	Android, iOS, bureau	Essai 7 jours	5,99 $/mois	5K
Termux + Ollama	Chaîne d’outils Linux complète	Android	Oui	Gratuit	10M+
SmolChat	Modèles légers 1B–3B	Android	Oui	Gratuit	n/a (GitHub)

Les 8 meilleures apps pour l’IA locale sur Android en 2026

1. PocketPal AI — la meilleure pour une première expérience de LLM local

PocketPal AI est l’app qui a enfin donné aux LLM sur appareil l’impression d’une application Android ordinaire. La build Aptoide est en version 1.14.0 avec plus d’un million d’installations, et l’explorateur de modèles intégré tire les fichiers GGUF directement depuis Hugging Face sans passer par le gestionnaire de fichiers. Dès l’installation : quantifications par défaut raisonnables, une interface de chat avec prompts système personnalisés et des benchmarks affichant les tokens par seconde par appareil. Pour l’usage de LLM locaux, PocketPal AI est la rampe d’accès la plus propre sur Android.

Limites : Pas d’entrée vocale native. Les modèles à long contexte au-delà de 8K tokens ralentissent fortement sur les téléphones avec moins de 8 Go de RAM. Pas encore de mode serveur API pour connecter d’autres apps.

Tarification :

Gratuit : toutes les fonctionnalités, entièrement open source sous licence MIT
Payant : parrainage GitHub facultatif pour soutenir le développeur

Plateformes : Android, iOS

Télécharger :

En bref : Choisissez PocketPal AI si c’est votre première tentative de faire tourner un LLM sur téléphone. Nous la recommandons en premier à toute personne sous Android.

2. Google AI Edge Gallery — la meilleure option officielle gratuite

Google AI Edge Gallery est la vitrine de recherche de Google pour Gemma et d’autres modèles sur appareil, et de loin l’option gratuite la plus aboutie d’un grand éditeur. La build Aptoide fait 30,7 Mo, le paquet est signé Research at Google et inclut des démos prêtes pour le chat, le résumé, la classification d’images et la génération d’images par invite — le tout avec accélération matérielle sur les téléphones pris en charge. Les Pixel 8 Pro et Pixel 9 exploitent le NPU intégré via le framework AICore, ce qui se traduit par des tokens par seconde nettement plus rapides.

Limites : Le catalogue de modèles est curé par Google : vous ne pouvez pas déposer des fichiers GGUF arbitraires. Certaines démos supposent un Pixel et basculent silencieusement vers un mode CPU plus lent sur d’autres appareils.

Tarification :

Gratuit : toutes les fonctionnalités, sans compte
Payant : aucun

Plateformes : Android uniquement

Télécharger :

En bref : Choisissez Google AI Edge Gallery si vous avez un Pixel 8 ou 9 et voulez l’expérience Gemma officielle. Passez votre chemin si vous voulez charger des modèles communautaires personnalisés.

3. MLC Chat — la meilleure pour la vitesse brute

MLC Chat est l’application Android de référence du projet MLC LLM, la pile compilatrice open source qui prend les poids Llama, Mistral et Qwen et les compile en noyaux accélérés GPU via TVM. Le résultat affiche systématiquement les meilleurs débits de tokens par seconde sur le même matériel Snapdragon face à toute app basée sur GGUF, souvent 2 à 3 fois plus vite, et le projet a été mis à jour régulièrement en 2025-2026 avec la prise en charge de Qwen 2.5 et des builds Llama 3.3. MLC Chat pour les charges LLM locales est le choix lorsque le débit compte vraiment.

Limites : Pas sur Aptoide ni Google Play. On l’installe depuis la page des releases GitHub — étape de sideload que certains refuseront. La sélection de modèles est limitée au catalogue MLC précompilé ; ajouter un nouveau modèle implique de recompiler les poids vous-même.

Tarification :

Gratuit : toutes les fonctionnalités, licence Apache-2.0
Payant : aucun

Plateformes : Android, iOS, Windows, macOS, Linux

Télécharger :

En bref : Choisissez MLC Chat si les chiffres de benchmark comptent pour vous. Passez votre chemin si installer des APK depuis GitHub vous met mal à l’aise.

4. Maid — la meilleure enveloppe FOSS llama.cpp

Maid est une interface Flutter pour llama.cpp qui propose une build Android sur Aptoide et une build bureau sur la plupart des plateformes. La version 2.1.51 ajoute les cartes de personnage, un panneau de réglages pour longueur de contexte et température, et des boutons de téléchargement direct pour les modèles recommandés par la communauté. Maid pour l’usage de LLM locaux est l’app FOSS la plus tranchée de cette liste, avec une ambiance application de chat plutôt que démo de laboratoire.

Limites : Pas d’accélération GPU sur Android, donc les tokens par seconde restent largement derrière MLC Chat. Les premiers téléchargements de modèles sont lents car la liste curée puise sur les miroirs Hugging Face avec limitation sur les offres gratuites.

Tarification :

Gratuit : toutes les fonctionnalités, licence MIT
Payant : aucun

Plateformes : Android, Windows, macOS, Linux

Télécharger :

En bref : Choisissez Maid si la pureté FOSS compte et que vous voulez aussi un client bureau qui parle aux mêmes modèles. Passez votre chemin si seule la vitesse sur téléphone vous importe.

5. ChatterUI — la meilleure pour le chat de personnages et le jeu de rôle

ChatterUI est le pendant Android de SillyTavern, le frontal de chat de personnages open source. Il exécute llama.cpp sur l’appareil, prend en charge les cartes de personnage au format JSON SillyTavern standard, et ajoute des hooks de recherche web, du RAG sur fichiers locaux et des prompts système par personnage. La communauté r/LocalLLaMA recommande systématiquement ChatterUI sur Android lorsqu’on demande par où commencer avec les modèles de jeu de rôle locaux.

Limites : Pas sur Aptoide. L’interface est plus dense que PocketPal et suppose que vous maîtrisez les réglages d’échantillonneur, la pénalité de répétition et la longueur de contexte. Les nouveaux utilisateurs abandonnent souvent au premier lancement.

Tarification :

Gratuit : toutes les fonctionnalités, licence AGPL-3.0
Payant : aucun

Plateformes : Android uniquement

Télécharger :

En bref : Choisissez ChatterUI si les cartes SillyTavern font partie de votre flux. Passez votre chemin si « réglages d’échantillonneur » ne vous dit rien.

6. Layla — la meilleure app payante pour les cartes de personnage

Layla est l’option commerciale soignée de cette catégorie, construite autour du chat de personnages avec un compagnon Wear OS, un client bureau et une synchro cloud facultative que vous pouvez désactiver pour un mode hors ligne complet. La build 6.5.1 sur Aptoide regroupe une sélection curée de modèles communautaires optimisés pour le jeu de rôle, et le développeur livre des mises à jour fréquentes, dont la prise en charge de Qwen 2.5 et Llama 3.3 ces deux derniers mois. Layla pour les charges LLM locales est l’une des rares apps payantes qui tiennent la route parce que les modèles tournent vraiment sans accroc.

Limites : Un abonnement dans une catégorie dominée par le gratuit est difficile à défendre. Certains utilisateurs signalent des fonctions cloud facultatives comme la synchro de modèles : vérifiez le basculement mode hors ligne au premier lancement.

Tarification :

Gratuit : essai de 7 jours
Payant : 5,99 $/mois ou 39,99 $/an

Plateformes : Android, iOS, Windows, macOS, Linux

Télécharger :

En bref : Choisissez Layla si le chat de personnages est votre usage principal et que vous voulez une app payante réellement maintenue. Passez votre chemin si vous refusez en principe de payer une interface de chat.

7. Termux + Ollama — la meilleure pour les utilisateurs Linux avancés

Termux avec Ollama installé à l’intérieur est la configuration d’IA locale la plus flexible sur Android, et c’est la voie empruntée par de nombreux développeurs lorsqu’ils veulent des points de terminaison API compatibles OpenAI, des bibliothèques de modèles au-delà du GGUF Hugging Face et la possibilité de tout scripter. La build Termux sur Aptoide est la sortie Google Play officielle du 11 février 2026 empaquetée pour Aptoide, avec plus de 10M d’installations. Une fois installé, pkg install ollama suivi de ollama serve fournit une API locale sur le port 11434 à laquelle tout client de chat (y compris Open WebUI sur le même téléphone) peut se connecter.

Limites : La configuration est un vrai parcours Linux. L’inférence CPU uniquement est le défaut, donc les tokens sont plus lents que sur MLC Chat. La batterie sur les longues sessions souffre plus que sur les apps dédiées.

Tarification :

Gratuit : toutes les fonctionnalités, licence GPL-3.0
Payant : aucun

Plateformes : Android uniquement (Termux), les scripts Ollama tournent partout où Linux tourne

Télécharger :

En bref : Choisissez Termux + Ollama si vous utilisez déjà le terminal sans effort et voulez un contrôle total. Passez votre chemin si « modifier un fichier de configuration » n’est pas votre idée d’une bonne soirée.

8. SmolChat — la plus légère sur ancien matériel

SmolChat est une application de chat Android native construite autour de la famille SmolLM de Hugging Face, des modèles de 135M à 3 milliards de paramètres qui tournent correctement sur des téléphones avec aussi peu que 3 Go de RAM. L’app est open source sur GitHub, prend en charge les importations GGUF personnalisées, et c’est la seule entrée de cette liste à rester confortable sur un Android milieu de gamme de 2022. SmolChat pour l’usage de LLM locales est la réponse lorsque le matériel est une contrainte réelle.

Limites : Pas sur Aptoide ni Google Play, uniquement GitHub. Les petits modèles hallucinent plus que les alternatives 7B et 8B, donc la précision factuelle chute nettement. L’interface est fonctionnelle plutôt que polie.

Tarification :

Gratuit : toutes les fonctionnalités, licence Apache-2.0
Payant : aucun

Plateformes : Android uniquement

Télécharger :

En bref : Choisissez SmolChat si votre téléphone est ancien ou à RAM limitée. Passez votre chemin si vous disposez de 8 ou 12 Go et pouvez faire tourner un modèle plus gros.

Comment choisir la bonne option

La plupart des lecteurs seront satisfaits par le premier ou le deuxième choix de cette liste, mais la bonne réponse dépend de ce que vous voulez vraiment.

Si vous voulez l’option la plus simple : PocketPal AI.
Si vous avez un Pixel 8 ou 9 et voulez les modèles Google maison : Google AI Edge Gallery.
Si les tokens bruts par seconde comptent : MLC Chat.
Si vous vivez sous Linux et voulez une vraie API : Termux + Ollama.
Si vous voulez une app FOSS avec une vraie interface de chat : Maid.
Si vous écrivez des personnages et utilisez les cartes SillyTavern : ChatterUI.
Si vous êtes prêt à payer pour un chat de personnages stable et soigné : Layla.
Si votre téléphone a 4 Go de RAM ou moins : SmolChat.

Si vous avez essayé PocketPal et abandonné parce que c’était trop basique, passez à ChatterUI ou MLC Chat. Si vous avez essayé Termux et renoncé, revenez directement à PocketPal et oubliez que le terminal existe.

FAQ

Un téléphone peut-il vraiment faire tourner un LLM utile hors ligne ?

Oui, s’il dispose d’au moins 6 Go de RAM et d’une puce de la série Snapdragon 8, d’un Tensor récent ou d’Apple A16 ou plus récent. Un modèle 7B quantifié sur 4 bits tient confortablement et répond à vitesse conversationnelle. Les anciens téléphones avec 3 à 4 Go de RAM devraient rester sur des modèles 1B-3B comme SmolLM 2 ou Phi-3 Mini.

Quelle est la meilleure app d’IA locale gratuite pour Android ?

PocketPal AI est le choix le plus polyvalent en 2026. Elle est open source, propose un explorateur de modèles Hugging Face intégré, des valeurs par défaut sensées et fonctionne sur tout téléphone récent sans configuration. Google AI Edge Gallery est un très bon second sur matériel Pixel.

Les apps d’IA locale sont-elles vraiment privées ?

Un modèle exécuté localement n’envoie jamais les invites à un serveur — c’est le principe. L’application peut toutefois encore appeler la maison pour l’analytique ou les rapports de plantage : vérifiez les réglages au premier lancement et désactivez ce que vous ne voulez pas. PocketPal, Maid, MLC Chat, ChatterUI et SmolChat sont open source et auditable.

Pourquoi utiliser un LLM local plutôt que ChatGPT ou Gemini ?

Trois raisons souvent citées : confidentialité (les invites restent sur l’appareil), usage hors ligne (avions, trains, pas de signal) et coût nul (pas d’abonnement à 20 $/mois). La contrepartie : des modèles plus petits, moins forts en raisonnement et avec des dates de coupure d’entraînement plus anciennes.

Quel modèle est le plus logique à télécharger en premier ?

Commencez par Llama 3.2 3B Instruct ou Phi-3.5 Mini si vous avez 6 Go de RAM. Passez à Llama 3.3 8B ou Qwen 2.5 7B si vous avez 8 Go ou plus. L’explorateur intégré de PocketPal indique déjà les besoins mémoire pour chaque modèle afin de choisir en sécurité.

Ces apps fonctionnent-elles sur iPhone ?

PocketPal AI, MLC Chat et Layla ont des builds iOS. ChatterUI, Maid, SmolChat, Termux et Google AI Edge Gallery sont Android uniquement en mai 2026.

Les 8 meilleures apps pour exécuter l’IA locale sur Android en 2026

Ce qu’il faut chercher dans une app d’IA locale

Comparaison rapide

Les 8 meilleures apps pour l’IA locale sur Android en 2026

1. PocketPal AI — la meilleure pour une première expérience de LLM local

2. Google AI Edge Gallery — la meilleure option officielle gratuite

3. MLC Chat — la meilleure pour la vitesse brute

4. Maid — la meilleure enveloppe FOSS llama.cpp

5. ChatterUI — la meilleure pour le chat de personnages et le jeu de rôle

6. Layla — la meilleure app payante pour les cartes de personnage

7. Termux + Ollama — la meilleure pour les utilisateurs Linux avancés

8. SmolChat — la plus légère sur ancien matériel

Comment choisir la bonne option

FAQ

Vous aimerez aussi

8 best apps for running local AI on Android in 2026

Discover Apps Not on Google Play – Install Anything (2026)

Best AI Apps for Android That Aren't ChatGPT (2026)