Un modelo de lenguaje de 7B parámetros cabe ahora en 4 GB de RAM, rinde entre 8 y 12 tokens por segundo en un Snapdragon 8 Gen 3 y responde sin tocar la red. Así es la IA local en Android en 2026, y es la razón por la que ha llegado una ola de apps en los últimos 12 meses que ponen un chatbot en el teléfono sin cuenta, sin suscripción y sin telemetría.
Probamos ocho de las mejores apps para ejecutar IA local en Android en 2026. Cada una se valoró por selección de modelos, tokens por segundo en un dispositivo de gama media, uso de RAM, compatibilidad con GGUF o MLC, fiabilidad sin conexión y cuánta configuración exige la app antes de poder preguntar algo. Incluimos opciones gratuitas, de código abierto y de pago.
Qué buscar en una app de IA local
Las apps de LLM locales no son iguales. Antes de instalar media docena, conviene saber qué separa una herramienta usable de una demo técnica.
- Compatibilidad de formatos de modelo. GGUF es el formato dominante en dispositivo en 2026; lo usan llama.cpp y la mayoría de modelos de la comunidad. Si una app solo admite sus modelos empaquetados, es una señal de alerta.
- Huella de memoria. Un modelo 3B cuantizado a 4 bits necesita unos 2 GB de RAM. Un modelo 7B quiere entre 4 y 6 GB. Si el teléfono tiene 6 GB de RAM en total, cualquier cosa mayor que 7B hará swap y se bloqueará.
- Aceleración por hardware. Busca descarga a GPU con OpenCL o Vulkan, o soporte de NPU en Pixel 8/9 y móviles Snapdragon 8 Gen 3. Las apps solo CPU funcionan, pero los tokens llegan más despacio.
- Biblioteca de modelos dentro de la app. Un explorador de modelos integrado que descarga desde Hugging Face es mucho menos engorroso que cargar archivos .gguf a mano.
- Postura de privacidad. El objetivo es funcionar sin conexión. Comprueba si la app llama a casa por analítica, pide cuenta o sube prompts para «mejoras».
- Funciones avanzadas. Prompts de sistema personalizados, perfiles de persona, RAG sobre documentos locales y endpoints API compatibles con OpenAI importan cuando la novedad pasa.
Comparativa rápida
| App | Ideal para | Plataformas | Plan gratuito | Precio inicial | Descargas en Aptoide |
|---|---|---|---|---|---|
| PocketPal AI | Lo mejor en conjunto, GGUF fácil | Android, iOS | Sí | Gratis | 1M+ |
| Google AI Edge Gallery | Modelos oficiales de Google | Android | Sí | Gratis | 100K+ |
| MLC Chat | Velocidad con modelos MLC compilados | Android, iOS, escritorio | Sí | Gratis | n/a (GitHub) |
| Maid | Envoltorio FOSS de llama.cpp | Android, escritorio | Sí | Gratis | 10K+ |
| ChatterUI | Chat de personajes, rol | Android | Sí | Gratis | n/a (GitHub) |
| Layla | Chat de personajes premium | Android, iOS, escritorio | Prueba 7 días | $5.99/mes | 5K |
| Termux + Ollama | Cadena de herramientas Linux completa | Android | Sí | Gratis | 10M+ |
| SmolChat | Modelos ligeros 1B–3B | Android | Sí | Gratis | n/a (GitHub) |
Las 8 mejores apps para IA local en Android en 2026
1. PocketPal AI — la mejor para quien prueba un LLM local por primera vez
PocketPal AI es la app que por fin hizo que los LLM en dispositivo se sintieran como una app Android normal. La build de Aptoide está en la versión 1.14.0 con más de un millón de instalaciones, y el explorador de modelos integrado descarga archivos GGUF directamente desde Hugging Face sin pasar por el gestor de archivos. De serie trae cuantizaciones razonables por defecto, una interfaz de chat con prompts de sistema personalizados y pruebas que muestran tokens por segundo por dispositivo. Para usar LLM locales, PocketPal AI es la puerta de entrada más limpia en Android.
Dónde flojea: Sin entrada de voz nativa. Los modelos de contexto largo por encima de 8K tokens se ralentizan mucho en móviles con menos de 8 GB de RAM. Aún no hay modo servidor API para conectar otras apps.
Precios:
- Gratis: todas las funciones, totalmente de código abierto bajo MIT
- De pago: patrocinio opcional en GitHub para apoyar al desarrollador
Plataformas: Android, iOS
Conclusión: Elige PocketPal AI si es tu primer intento de ejecutar un LLM en el móvil. La recomendamos como primera prueba a cualquier conocido con Android.
2. Google AI Edge Gallery — la mejor opción oficial gratuita
Google AI Edge Gallery es el escaparate de investigación de Google para Gemma y otros modelos en dispositivo, y de lejos la opción gratuita más pulida de un gran proveedor. La build de Aptoide tiene 30,7 MB, firma el paquete como Research at Google e incluye demos listas para chat, resumen, clasificación de imágenes y generación de imágenes por prompt, todo con aceleración por hardware en móviles compatibles. Pixel 8 Pro y Pixel 9 activan la NPU del dispositivo mediante el marco AICore, lo que se traduce en tokens por segundo notablemente más rápidos.
Dónde flojea: El catálogo de modelos lo cura Google, así que no puedes meter archivos GGUF arbitrarios. Algunas demos esperan un Pixel y en otros dispositivos vuelven en silencio a un modo CPU más lento.
Precios:
- Gratis: todas las funciones, sin cuenta
- De pago: nada
Plataformas: solo Android
Conclusión: Elige Google AI Edge Gallery si tienes un Pixel 8 o 9 y quieres la experiencia oficial de Gemma. Evítala si quieres cargar modelos comunitarios personalizados.
3. MLC Chat — la mejor para velocidad cruda
MLC Chat es la app Android de referencia del proyecto MLC LLM, la pila compiladora de código abierto que toma pesos de Llama, Mistral y Qwen y los compila en núcleos acelerados por GPU vía TVM. El resultado son de forma constante los números más altos de tokens por segundo en el mismo hardware Snapdragon frente a cualquier app basada en GGUF, a menudo el doble o el triple, y el proyecto se ha actualizado de forma constante en 2025-2026 con soporte para Qwen 2.5 y builds de Llama 3.3. MLC Chat para cargas de LLM locales es la opción cuando te importa el rendimiento.
Dónde flojea: No está en Aptoide ni en Google Play. Se instala desde la página de releases de GitHub, un paso de instalación lateral que muchos usuarios no darán. La selección de modelos está limitada al catálogo MLC precompilado, y añadir un modelo nuevo implica recompilar pesos tú mismo.
Precios:
- Gratis: todas las funciones, licencia Apache-2.0
- De pago: nada
Plataformas: Android, iOS, Windows, macOS, Linux
Conclusión: Elige MLC Chat si te importan los números de benchmark. Evítala si no te sientes cómodo instalando APK desde GitHub.
4. Maid — el mejor envoltorio FOSS de llama.cpp
Maid es un front-end Flutter para llama.cpp que publica una build de Android en Aptoide y una de escritorio en la mayoría de plataformas. La versión 2.1.51 añade tarjetas de personaje, un panel de ajustes para longitud de contexto y temperatura, y botones de descarga directa para modelos recomendados por la comunidad. Maid para uso de LLM locales es la app FOSS con más carácter de la lista, con sensación de app de chat en lugar de demo de laboratorio.
Dónde flojea: Sin aceleración GPU en Android, así que los tokens por segundo van muy por detrás de MLC Chat. Las descargas iniciales de modelos son lentas porque la lista curada tira de mirrors de Hugging Face con limitación en los niveles gratuitos.
Precios:
- Gratis: todas las funciones, licencia MIT
- De pago: nada
Plataformas: Android, Windows, macOS, Linux
Conclusión: Elige Maid si te importa la pureza FOSS y quieres también un cliente de escritorio que use los mismos modelos. Evítala si solo te importa la velocidad en el móvil.
5. ChatterUI — la mejor para chat de personajes y rol
ChatterUI es la contrapartida Android de SillyTavern, el front-end de chat de personajes de código abierto. Ejecuta llama.cpp en dispositivo, admite tarjetas de personaje en el formato JSON estándar de SillyTavern, y añade hooks de búsqueda web, RAG sobre archivos locales y prompts de sistema por personaje. La comunidad en r/LocalLLaMA recomienda ChatterUI para Android de forma constante cuando alguien pregunta por dónde empezar con modelos de rol locales.
Dónde flojea: No está en Aptoide. La interfaz es más densa que PocketPal y asume que entiendes ajustes del sampler, penalización de repetición y longitud de contexto. Los usuarios nuevos suelen abandonar al primer arranque.
Precios:
- Gratis: todas las funciones, licencia AGPL-3.0
- De pago: nada
Plataformas: solo Android
Conclusión: Elige ChatterUI si las tarjetas de SillyTavern forman parte de tu flujo. Evítala si «ajustes del sampler» te suena a idioma extranjero.
6. Layla — la mejor app de pago para tarjetas de personaje
Layla es la opción comercial pulida de esta categoría, centrada en chat de personajes con un compañero Wear OS, cliente de escritorio y sincronización en la nube opcional que puedes desactivar para un modo sin conexión completo. La build 6.5.1 en Aptoide incluye una selección curada de modelos comunitarios afinados para rol, y el desarrollador publica actualizaciones frecuentes, incluido soporte para Qwen 2.5 y Llama 3.3 en los dos últimos meses. Layla para cargas de LLM locales es una de las pocas apps que cobra y se lo merece porque los modelos se ejecutan de verdad con fluidez.
Dónde flojea: Un precio por suscripción en una categoría dominada por apps gratis cuesta vender. Algunos usuarios indican que la app incluye funciones opcionales en la nube como sincronización de modelos, así que el interruptor de modo sin conexión conviene revisarlo al primer arranque.
Precios:
- Gratis: prueba de 7 días
- De pago: $5.99/mes o $39.99/año
Plataformas: Android, iOS, Windows, macOS, Linux
Conclusión: Elige Layla si el chat de personajes es tu caso principal y quieres una app de pago que alguien mantenga de verdad. Evítala si no pagarías por una interfaz de chat por principios.
7. Termux + Ollama — la mejor para usuarios avanzados de Linux
Termux con Ollama instalado dentro es la configuración de IA local más flexible en Android, y es el camino que siguen muchos desarrolladores cuando quieren endpoints API compatibles con OpenAI, bibliotecas de modelos más allá del GGUF de Hugging Face y la capacidad de automatizar todo con scripts. La build de Termux en Aptoide es la versión oficial de Google Play 2026.02.11 empaquetada para Aptoide, con más de 10M de instalaciones. Una vez instalado, pkg install ollama seguido de ollama serve te da una API local en el puerto 11434 a la que puede conectarse cualquier cliente de chat (incluido Open WebUI en el mismo teléfono).
Dónde flojea: La configuración es un viaje Linux de verdad. La inferencia solo CPU es la predeterminada, así que los tokens van más despacio que en MLC Chat. El consumo de batería en sesiones largas es mayor que en apps dedicadas.
Precios:
- Gratis: todas las funciones, licencia GPL-3.0
- De pago: nada
Plataformas: solo Android (Termux), con scripts de Ollama donde Linux funcione
Conclusión: Elige Termux + Ollama si ya usas la terminal con soltura y quieres control total. Evítala si «editar un archivo de configuración» no es cómo quieres pasar la tarde.
8. SmolChat — la más ligera en hardware antiguo
SmolChat es una app de chat nativa de Android construida en torno a la familia SmolLM de Hugging Face, modelos de entre 135M y 3B parámetros que funcionan bien en móviles con tan solo 3 GB de RAM. La app es de código abierto en GitHub, admite importaciones GGUF personalizadas y es la única entrada de esta lista que resulta cómoda en un Android de gama media de 2022. SmolChat para uso de LLM locales es la respuesta cuando el hardware es una restricción real.
Dónde flojea: No está en Aptoide ni en Google Play, solo en GitHub. Los modelos pequeños alucinan más que las alternativas de 7B y 8B, así que la precisión fáctica baja de forma notable. La interfaz es funcional más que pulida.
Precios:
- Gratis: todas las funciones, licencia Apache-2.0
- De pago: nada
Plataformas: solo Android
Conclusión: Elige SmolChat si tu móvil es antiguo o tiene poca RAM. Evítala si tienes un dispositivo de 8 o 12 GB que puede ejecutar algo más grande.
Cómo elegir la adecuada
La mayoría de lectores estarán contentos con la primera o segunda opción de la lista, pero la respuesta correcta depende de lo que realmente quieras.
- Si quieres la opción más sencilla: PocketPal AI.
- Si tienes un Pixel 8 o 9 y quieres modelos oficiales de Google: Google AI Edge Gallery.
- Si te importan los tokens brutos por segundo: MLC Chat.
- Si vives en Linux y quieres una API de verdad: Termux + Ollama.
- Si quieres una app FOSS con una interfaz de chat real: Maid.
- Si escribes personajes y usas tarjetas SillyTavern: ChatterUI.
- Si pagarías por un chat de personajes estable y pulido: Layla.
- Si tu móvil tiene 4 GB de RAM o menos: SmolChat.
Si probaste PocketPal y lo dejaste porque era demasiado básico, salta a ChatterUI o MLC Chat. Si probaste Termux y abandonaste, vuelve directamente a PocketPal y olvida que el terminal existe.
Preguntas frecuentes
¿Puede un móvil ejecutar un LLM útil sin conexión?
Sí, si tiene al menos 6 GB de RAM y un chip de la serie Snapdragon 8, Tensor reciente o Apple A16 en adelante. Un modelo 7B cuantizado a 4 bits cabe bien y responde a velocidad conversacional. Los móviles antiguos con 3-4 GB de RAM deberían quedarse en modelos de 1B-3B como SmolLM 2 o Phi-3 Mini.
¿Cuál es la mejor app gratuita de IA local para Android?
PocketPal AI es la opción más equilibrada en 2026. Es de código abierto, incluye un explorador de modelos de Hugging Face integrado, trae valores por defecto razonables y funciona en cualquier móvil moderno sin configuración. Google AI Edge Gallery es un segundo muy cercano en hardware Pixel.
¿Las apps de IA local son realmente privadas?
Un modelo ejecutado localmente nunca envía prompts a un servidor; de eso se trata. La app en sí aún puede llamar a casa por analítica o informes de fallos, así que revisa los ajustes al primer arranque y desactiva lo que no quieras. PocketPal, Maid, MLC Chat, ChatterUI y SmolChat son de código abierto y auditables.
¿Por qué usar un LLM local en lugar de ChatGPT o Gemini?
Tres razones que la gente suele citar: privacidad (los prompts permanecen en el dispositivo), uso sin conexión (funciona en vuelos, trenes, sin señal) y coste cero (sin suscripción de 20 $/mes). La contrapartida son modelos más pequeños, más débiles en razonamiento y con cortes de entrenamiento más antiguos.
¿Qué modelo conviene descargar primero?
Empieza con Llama 3.2 3B Instruct o Phi-3.5 Mini si tienes 6 GB de RAM. Pasa a Llama 3.3 8B o Qwen 2.5 7B si tienes 8 GB o más. El explorador integrado de PocketPal ya etiqueta cada modelo con sus requisitos de memoria para que elijas con seguridad.
¿Funcionan estas apps en iPhone?
PocketPal AI, MLC Chat y Layla tienen builds para iOS. ChatterUI, Maid, SmolChat, Termux y Google AI Edge Gallery son solo Android en mayo de 2026.
