PocketPal AI, une application LLM sur l’appareil

Un modèle de langage à 7 milliards de paramètres tient désormais dans 4 Go de RAM, tourne à 8 à 12 tokens par seconde sur un Snapdragon 8 Gen 3 et répond sans jamais toucher le réseau. Voilà à quoi ressemble l’IA locale sur Android en 2026 — et pourquoi une vague d’applications a débarqué ces 12 derniers mois pour mettre un chatbot sur votre téléphone sans compte, sans abonnement et sans télémétrie.

Nous avons testé huit des meilleures apps pour exécuter l’IA locale sur Android en 2026. Chacune a été jugée sur la sélection de modèles, les tokens par seconde sur un appareil milieu de gamme, l’utilisation RAM, la prise en charge GGUF ou MLC, la fiabilité hors ligne et la quantité réelle de configuration avant la première question. Des choix gratuits, open source et payants sont inclus.

Ce qu’il faut chercher dans une app d’IA locale

Les apps LLM locales ne se valent pas toutes. Avant d’en installer une demi-douzaine, il aide de savoir ce qui distingue un outil utilisable d’une démo technique.

Comparaison rapide

ApplicationIdéal pourPlateformesOffre gratuitePrix de départTéléchargements Aptoide
PocketPal AILe meilleur équilibre, GGUF simpleAndroid, iOSOuiGratuit1M+
Google AI Edge GalleryModèles officiels GoogleAndroidOuiGratuit100K+
MLC ChatVitesse via modèles MLC compilésAndroid, iOS, bureauOuiGratuitn/a (GitHub)
MaidEnveloppe FOSS llama.cppAndroid, bureauOuiGratuit10K+
ChatterUIChat de personnages, jeu de rôleAndroidOuiGratuitn/a (GitHub)
LaylaChat de personnages premiumAndroid, iOS, bureauEssai 7 jours5,99 $/mois5K
Termux + OllamaChaîne d’outils Linux complèteAndroidOuiGratuit10M+
SmolChatModèles légers 1B–3BAndroidOuiGratuitn/a (GitHub)

Les 8 meilleures apps pour l’IA locale sur Android en 2026

1. PocketPal AI — la meilleure pour une première expérience de LLM local

PocketPal AI

PocketPal AI est l’app qui a enfin donné aux LLM sur appareil l’impression d’une application Android ordinaire. La build Aptoide est en version 1.14.0 avec plus d’un million d’installations, et l’explorateur de modèles intégré tire les fichiers GGUF directement depuis Hugging Face sans passer par le gestionnaire de fichiers. Dès l’installation : quantifications par défaut raisonnables, une interface de chat avec prompts système personnalisés et des benchmarks affichant les tokens par seconde par appareil. Pour l’usage de LLM locaux, PocketPal AI est la rampe d’accès la plus propre sur Android.

Limites : Pas d’entrée vocale native. Les modèles à long contexte au-delà de 8K tokens ralentissent fortement sur les téléphones avec moins de 8 Go de RAM. Pas encore de mode serveur API pour connecter d’autres apps.

Tarification :

Plateformes : Android, iOS

Télécharger : AptoideGoogle PlayApp Store

En bref : Choisissez PocketPal AI si c’est votre première tentative de faire tourner un LLM sur téléphone. Nous la recommandons en premier à toute personne sous Android.

Google AI Edge Gallery

Google AI Edge Gallery est la vitrine de recherche de Google pour Gemma et d’autres modèles sur appareil, et de loin l’option gratuite la plus aboutie d’un grand éditeur. La build Aptoide fait 30,7 Mo, le paquet est signé Research at Google et inclut des démos prêtes pour le chat, le résumé, la classification d’images et la génération d’images par invite — le tout avec accélération matérielle sur les téléphones pris en charge. Les Pixel 8 Pro et Pixel 9 exploitent le NPU intégré via le framework AICore, ce qui se traduit par des tokens par seconde nettement plus rapides.

Limites : Le catalogue de modèles est curé par Google : vous ne pouvez pas déposer des fichiers GGUF arbitraires. Certaines démos supposent un Pixel et basculent silencieusement vers un mode CPU plus lent sur d’autres appareils.

Tarification :

Plateformes : Android uniquement

Télécharger : Aptoide

En bref : Choisissez Google AI Edge Gallery si vous avez un Pixel 8 ou 9 et voulez l’expérience Gemma officielle. Passez votre chemin si vous voulez charger des modèles communautaires personnalisés.

3. MLC Chat — la meilleure pour la vitesse brute

MLC Chat est l’application Android de référence du projet MLC LLM, la pile compilatrice open source qui prend les poids Llama, Mistral et Qwen et les compile en noyaux accélérés GPU via TVM. Le résultat affiche systématiquement les meilleurs débits de tokens par seconde sur le même matériel Snapdragon face à toute app basée sur GGUF, souvent 2 à 3 fois plus vite, et le projet a été mis à jour régulièrement en 2025-2026 avec la prise en charge de Qwen 2.5 et des builds Llama 3.3. MLC Chat pour les charges LLM locales est le choix lorsque le débit compte vraiment.

Limites : Pas sur Aptoide ni Google Play. On l’installe depuis la page des releases GitHub — étape de sideload que certains refuseront. La sélection de modèles est limitée au catalogue MLC précompilé ; ajouter un nouveau modèle implique de recompiler les poids vous-même.

Tarification :

Plateformes : Android, iOS, Windows, macOS, Linux

Télécharger : GitHub

En bref : Choisissez MLC Chat si les chiffres de benchmark comptent pour vous. Passez votre chemin si installer des APK depuis GitHub vous met mal à l’aise.

4. Maid — la meilleure enveloppe FOSS llama.cpp

Maid est une interface Flutter pour llama.cpp qui propose une build Android sur Aptoide et une build bureau sur la plupart des plateformes. La version 2.1.51 ajoute les cartes de personnage, un panneau de réglages pour longueur de contexte et température, et des boutons de téléchargement direct pour les modèles recommandés par la communauté. Maid pour l’usage de LLM locaux est l’app FOSS la plus tranchée de cette liste, avec une ambiance application de chat plutôt que démo de laboratoire.

Limites : Pas d’accélération GPU sur Android, donc les tokens par seconde restent largement derrière MLC Chat. Les premiers téléchargements de modèles sont lents car la liste curée puise sur les miroirs Hugging Face avec limitation sur les offres gratuites.

Tarification :

Plateformes : Android, Windows, macOS, Linux

Télécharger : AptoideGitHub

En bref : Choisissez Maid si la pureté FOSS compte et que vous voulez aussi un client bureau qui parle aux mêmes modèles. Passez votre chemin si seule la vitesse sur téléphone vous importe.

5. ChatterUI — la meilleure pour le chat de personnages et le jeu de rôle

ChatterUI est le pendant Android de SillyTavern, le frontal de chat de personnages open source. Il exécute llama.cpp sur l’appareil, prend en charge les cartes de personnage au format JSON SillyTavern standard, et ajoute des hooks de recherche web, du RAG sur fichiers locaux et des prompts système par personnage. La communauté r/LocalLLaMA recommande systématiquement ChatterUI sur Android lorsqu’on demande par où commencer avec les modèles de jeu de rôle locaux.

Limites : Pas sur Aptoide. L’interface est plus dense que PocketPal et suppose que vous maîtrisez les réglages d’échantillonneur, la pénalité de répétition et la longueur de contexte. Les nouveaux utilisateurs abandonnent souvent au premier lancement.

Tarification :

Plateformes : Android uniquement

Télécharger : GitHub

En bref : Choisissez ChatterUI si les cartes SillyTavern font partie de votre flux. Passez votre chemin si « réglages d’échantillonneur » ne vous dit rien.

6. Layla — la meilleure app payante pour les cartes de personnage

Layla est l’option commerciale soignée de cette catégorie, construite autour du chat de personnages avec un compagnon Wear OS, un client bureau et une synchro cloud facultative que vous pouvez désactiver pour un mode hors ligne complet. La build 6.5.1 sur Aptoide regroupe une sélection curée de modèles communautaires optimisés pour le jeu de rôle, et le développeur livre des mises à jour fréquentes, dont la prise en charge de Qwen 2.5 et Llama 3.3 ces deux derniers mois. Layla pour les charges LLM locales est l’une des rares apps payantes qui tiennent la route parce que les modèles tournent vraiment sans accroc.

Limites : Un abonnement dans une catégorie dominée par le gratuit est difficile à défendre. Certains utilisateurs signalent des fonctions cloud facultatives comme la synchro de modèles : vérifiez le basculement mode hors ligne au premier lancement.

Tarification :

Plateformes : Android, iOS, Windows, macOS, Linux

Télécharger : Aptoide

En bref : Choisissez Layla si le chat de personnages est votre usage principal et que vous voulez une app payante réellement maintenue. Passez votre chemin si vous refusez en principe de payer une interface de chat.

7. Termux + Ollama — la meilleure pour les utilisateurs Linux avancés

Termux, terminal Linux pour Android

Termux avec Ollama installé à l’intérieur est la configuration d’IA locale la plus flexible sur Android, et c’est la voie empruntée par de nombreux développeurs lorsqu’ils veulent des points de terminaison API compatibles OpenAI, des bibliothèques de modèles au-delà du GGUF Hugging Face et la possibilité de tout scripter. La build Termux sur Aptoide est la sortie Google Play officielle du 11 février 2026 empaquetée pour Aptoide, avec plus de 10M d’installations. Une fois installé, pkg install ollama suivi de ollama serve fournit une API locale sur le port 11434 à laquelle tout client de chat (y compris Open WebUI sur le même téléphone) peut se connecter.

Limites : La configuration est un vrai parcours Linux. L’inférence CPU uniquement est le défaut, donc les tokens sont plus lents que sur MLC Chat. La batterie sur les longues sessions souffre plus que sur les apps dédiées.

Tarification :

Plateformes : Android uniquement (Termux), les scripts Ollama tournent partout où Linux tourne

Télécharger : AptoideF-Droid

En bref : Choisissez Termux + Ollama si vous utilisez déjà le terminal sans effort et voulez un contrôle total. Passez votre chemin si « modifier un fichier de configuration » n’est pas votre idée d’une bonne soirée.

8. SmolChat — la plus légère sur ancien matériel

SmolChat est une application de chat Android native construite autour de la famille SmolLM de Hugging Face, des modèles de 135M à 3 milliards de paramètres qui tournent correctement sur des téléphones avec aussi peu que 3 Go de RAM. L’app est open source sur GitHub, prend en charge les importations GGUF personnalisées, et c’est la seule entrée de cette liste à rester confortable sur un Android milieu de gamme de 2022. SmolChat pour l’usage de LLM locales est la réponse lorsque le matériel est une contrainte réelle.

Limites : Pas sur Aptoide ni Google Play, uniquement GitHub. Les petits modèles hallucinent plus que les alternatives 7B et 8B, donc la précision factuelle chute nettement. L’interface est fonctionnelle plutôt que polie.

Tarification :

Plateformes : Android uniquement

Télécharger : GitHub

En bref : Choisissez SmolChat si votre téléphone est ancien ou à RAM limitée. Passez votre chemin si vous disposez de 8 ou 12 Go et pouvez faire tourner un modèle plus gros.

Comment choisir la bonne option

La plupart des lecteurs seront satisfaits par le premier ou le deuxième choix de cette liste, mais la bonne réponse dépend de ce que vous voulez vraiment.

Si vous avez essayé PocketPal et abandonné parce que c’était trop basique, passez à ChatterUI ou MLC Chat. Si vous avez essayé Termux et renoncé, revenez directement à PocketPal et oubliez que le terminal existe.

FAQ

Un téléphone peut-il vraiment faire tourner un LLM utile hors ligne ?

Oui, s’il dispose d’au moins 6 Go de RAM et d’une puce de la série Snapdragon 8, d’un Tensor récent ou d’Apple A16 ou plus récent. Un modèle 7B quantifié sur 4 bits tient confortablement et répond à vitesse conversationnelle. Les anciens téléphones avec 3 à 4 Go de RAM devraient rester sur des modèles 1B-3B comme SmolLM 2 ou Phi-3 Mini.

Quelle est la meilleure app d’IA locale gratuite pour Android ?

PocketPal AI est le choix le plus polyvalent en 2026. Elle est open source, propose un explorateur de modèles Hugging Face intégré, des valeurs par défaut sensées et fonctionne sur tout téléphone récent sans configuration. Google AI Edge Gallery est un très bon second sur matériel Pixel.

Les apps d’IA locale sont-elles vraiment privées ?

Un modèle exécuté localement n’envoie jamais les invites à un serveur — c’est le principe. L’application peut toutefois encore appeler la maison pour l’analytique ou les rapports de plantage : vérifiez les réglages au premier lancement et désactivez ce que vous ne voulez pas. PocketPal, Maid, MLC Chat, ChatterUI et SmolChat sont open source et auditable.

Pourquoi utiliser un LLM local plutôt que ChatGPT ou Gemini ?

Trois raisons souvent citées : confidentialité (les invites restent sur l’appareil), usage hors ligne (avions, trains, pas de signal) et coût nul (pas d’abonnement à 20 $/mois). La contrepartie : des modèles plus petits, moins forts en raisonnement et avec des dates de coupure d’entraînement plus anciennes.

Quel modèle est le plus logique à télécharger en premier ?

Commencez par Llama 3.2 3B Instruct ou Phi-3.5 Mini si vous avez 6 Go de RAM. Passez à Llama 3.3 8B ou Qwen 2.5 7B si vous avez 8 Go ou plus. L’explorateur intégré de PocketPal indique déjà les besoins mémoire pour chaque modèle afin de choisir en sécurité.

Ces apps fonctionnent-elles sur iPhone ?

PocketPal AI, MLC Chat et Layla ont des builds iOS. ChatterUI, Maid, SmolChat, Termux et Google AI Edge Gallery sont Android uniquement en mai 2026.