PocketPal AI, una app LLM en el dispositivo

Un modelo de lenguaje de 7B parámetros cabe ahora en 4 GB de RAM, rinde entre 8 y 12 tokens por segundo en un Snapdragon 8 Gen 3 y responde sin tocar la red. Así es la IA local en Android en 2026, y es la razón por la que ha llegado una ola de apps en los últimos 12 meses que ponen un chatbot en el teléfono sin cuenta, sin suscripción y sin telemetría.

Probamos ocho de las mejores apps para ejecutar IA local en Android en 2026. Cada una se valoró por selección de modelos, tokens por segundo en un dispositivo de gama media, uso de RAM, compatibilidad con GGUF o MLC, fiabilidad sin conexión y cuánta configuración exige la app antes de poder preguntar algo. Incluimos opciones gratuitas, de código abierto y de pago.

Qué buscar en una app de IA local

Las apps de LLM locales no son iguales. Antes de instalar media docena, conviene saber qué separa una herramienta usable de una demo técnica.

Comparativa rápida

AppIdeal paraPlataformasPlan gratuitoPrecio inicialDescargas en Aptoide
PocketPal AILo mejor en conjunto, GGUF fácilAndroid, iOSGratis1M+
Google AI Edge GalleryModelos oficiales de GoogleAndroidGratis100K+
MLC ChatVelocidad con modelos MLC compiladosAndroid, iOS, escritorioGratisn/a (GitHub)
MaidEnvoltorio FOSS de llama.cppAndroid, escritorioGratis10K+
ChatterUIChat de personajes, rolAndroidGratisn/a (GitHub)
LaylaChat de personajes premiumAndroid, iOS, escritorioPrueba 7 días$5.99/mes5K
Termux + OllamaCadena de herramientas Linux completaAndroidGratis10M+
SmolChatModelos ligeros 1B–3BAndroidGratisn/a (GitHub)

Las 8 mejores apps para IA local en Android en 2026

1. PocketPal AI — la mejor para quien prueba un LLM local por primera vez

PocketPal AI

PocketPal AI es la app que por fin hizo que los LLM en dispositivo se sintieran como una app Android normal. La build de Aptoide está en la versión 1.14.0 con más de un millón de instalaciones, y el explorador de modelos integrado descarga archivos GGUF directamente desde Hugging Face sin pasar por el gestor de archivos. De serie trae cuantizaciones razonables por defecto, una interfaz de chat con prompts de sistema personalizados y pruebas que muestran tokens por segundo por dispositivo. Para usar LLM locales, PocketPal AI es la puerta de entrada más limpia en Android.

Dónde flojea: Sin entrada de voz nativa. Los modelos de contexto largo por encima de 8K tokens se ralentizan mucho en móviles con menos de 8 GB de RAM. Aún no hay modo servidor API para conectar otras apps.

Precios:

Plataformas: Android, iOS

Descarga: AptoideGoogle PlayApp Store

Conclusión: Elige PocketPal AI si es tu primer intento de ejecutar un LLM en el móvil. La recomendamos como primera prueba a cualquier conocido con Android.

Google AI Edge Gallery

Google AI Edge Gallery es el escaparate de investigación de Google para Gemma y otros modelos en dispositivo, y de lejos la opción gratuita más pulida de un gran proveedor. La build de Aptoide tiene 30,7 MB, firma el paquete como Research at Google e incluye demos listas para chat, resumen, clasificación de imágenes y generación de imágenes por prompt, todo con aceleración por hardware en móviles compatibles. Pixel 8 Pro y Pixel 9 activan la NPU del dispositivo mediante el marco AICore, lo que se traduce en tokens por segundo notablemente más rápidos.

Dónde flojea: El catálogo de modelos lo cura Google, así que no puedes meter archivos GGUF arbitrarios. Algunas demos esperan un Pixel y en otros dispositivos vuelven en silencio a un modo CPU más lento.

Precios:

Plataformas: solo Android

Descarga: Aptoide

Conclusión: Elige Google AI Edge Gallery si tienes un Pixel 8 o 9 y quieres la experiencia oficial de Gemma. Evítala si quieres cargar modelos comunitarios personalizados.

3. MLC Chat — la mejor para velocidad cruda

MLC Chat es la app Android de referencia del proyecto MLC LLM, la pila compiladora de código abierto que toma pesos de Llama, Mistral y Qwen y los compila en núcleos acelerados por GPU vía TVM. El resultado son de forma constante los números más altos de tokens por segundo en el mismo hardware Snapdragon frente a cualquier app basada en GGUF, a menudo el doble o el triple, y el proyecto se ha actualizado de forma constante en 2025-2026 con soporte para Qwen 2.5 y builds de Llama 3.3. MLC Chat para cargas de LLM locales es la opción cuando te importa el rendimiento.

Dónde flojea: No está en Aptoide ni en Google Play. Se instala desde la página de releases de GitHub, un paso de instalación lateral que muchos usuarios no darán. La selección de modelos está limitada al catálogo MLC precompilado, y añadir un modelo nuevo implica recompilar pesos tú mismo.

Precios:

Plataformas: Android, iOS, Windows, macOS, Linux

Descarga: GitHub

Conclusión: Elige MLC Chat si te importan los números de benchmark. Evítala si no te sientes cómodo instalando APK desde GitHub.

4. Maid — el mejor envoltorio FOSS de llama.cpp

Maid es un front-end Flutter para llama.cpp que publica una build de Android en Aptoide y una de escritorio en la mayoría de plataformas. La versión 2.1.51 añade tarjetas de personaje, un panel de ajustes para longitud de contexto y temperatura, y botones de descarga directa para modelos recomendados por la comunidad. Maid para uso de LLM locales es la app FOSS con más carácter de la lista, con sensación de app de chat en lugar de demo de laboratorio.

Dónde flojea: Sin aceleración GPU en Android, así que los tokens por segundo van muy por detrás de MLC Chat. Las descargas iniciales de modelos son lentas porque la lista curada tira de mirrors de Hugging Face con limitación en los niveles gratuitos.

Precios:

Plataformas: Android, Windows, macOS, Linux

Descarga: AptoideGitHub

Conclusión: Elige Maid si te importa la pureza FOSS y quieres también un cliente de escritorio que use los mismos modelos. Evítala si solo te importa la velocidad en el móvil.

5. ChatterUI — la mejor para chat de personajes y rol

ChatterUI es la contrapartida Android de SillyTavern, el front-end de chat de personajes de código abierto. Ejecuta llama.cpp en dispositivo, admite tarjetas de personaje en el formato JSON estándar de SillyTavern, y añade hooks de búsqueda web, RAG sobre archivos locales y prompts de sistema por personaje. La comunidad en r/LocalLLaMA recomienda ChatterUI para Android de forma constante cuando alguien pregunta por dónde empezar con modelos de rol locales.

Dónde flojea: No está en Aptoide. La interfaz es más densa que PocketPal y asume que entiendes ajustes del sampler, penalización de repetición y longitud de contexto. Los usuarios nuevos suelen abandonar al primer arranque.

Precios:

Plataformas: solo Android

Descarga: GitHub

Conclusión: Elige ChatterUI si las tarjetas de SillyTavern forman parte de tu flujo. Evítala si «ajustes del sampler» te suena a idioma extranjero.

6. Layla — la mejor app de pago para tarjetas de personaje

Layla es la opción comercial pulida de esta categoría, centrada en chat de personajes con un compañero Wear OS, cliente de escritorio y sincronización en la nube opcional que puedes desactivar para un modo sin conexión completo. La build 6.5.1 en Aptoide incluye una selección curada de modelos comunitarios afinados para rol, y el desarrollador publica actualizaciones frecuentes, incluido soporte para Qwen 2.5 y Llama 3.3 en los dos últimos meses. Layla para cargas de LLM locales es una de las pocas apps que cobra y se lo merece porque los modelos se ejecutan de verdad con fluidez.

Dónde flojea: Un precio por suscripción en una categoría dominada por apps gratis cuesta vender. Algunos usuarios indican que la app incluye funciones opcionales en la nube como sincronización de modelos, así que el interruptor de modo sin conexión conviene revisarlo al primer arranque.

Precios:

Plataformas: Android, iOS, Windows, macOS, Linux

Descarga: Aptoide

Conclusión: Elige Layla si el chat de personajes es tu caso principal y quieres una app de pago que alguien mantenga de verdad. Evítala si no pagarías por una interfaz de chat por principios.

7. Termux + Ollama — la mejor para usuarios avanzados de Linux

Termux, terminal Linux para Android

Termux con Ollama instalado dentro es la configuración de IA local más flexible en Android, y es el camino que siguen muchos desarrolladores cuando quieren endpoints API compatibles con OpenAI, bibliotecas de modelos más allá del GGUF de Hugging Face y la capacidad de automatizar todo con scripts. La build de Termux en Aptoide es la versión oficial de Google Play 2026.02.11 empaquetada para Aptoide, con más de 10M de instalaciones. Una vez instalado, pkg install ollama seguido de ollama serve te da una API local en el puerto 11434 a la que puede conectarse cualquier cliente de chat (incluido Open WebUI en el mismo teléfono).

Dónde flojea: La configuración es un viaje Linux de verdad. La inferencia solo CPU es la predeterminada, así que los tokens van más despacio que en MLC Chat. El consumo de batería en sesiones largas es mayor que en apps dedicadas.

Precios:

Plataformas: solo Android (Termux), con scripts de Ollama donde Linux funcione

Descarga: AptoideF-Droid

Conclusión: Elige Termux + Ollama si ya usas la terminal con soltura y quieres control total. Evítala si «editar un archivo de configuración» no es cómo quieres pasar la tarde.

8. SmolChat — la más ligera en hardware antiguo

SmolChat es una app de chat nativa de Android construida en torno a la familia SmolLM de Hugging Face, modelos de entre 135M y 3B parámetros que funcionan bien en móviles con tan solo 3 GB de RAM. La app es de código abierto en GitHub, admite importaciones GGUF personalizadas y es la única entrada de esta lista que resulta cómoda en un Android de gama media de 2022. SmolChat para uso de LLM locales es la respuesta cuando el hardware es una restricción real.

Dónde flojea: No está en Aptoide ni en Google Play, solo en GitHub. Los modelos pequeños alucinan más que las alternativas de 7B y 8B, así que la precisión fáctica baja de forma notable. La interfaz es funcional más que pulida.

Precios:

Plataformas: solo Android

Descarga: GitHub

Conclusión: Elige SmolChat si tu móvil es antiguo o tiene poca RAM. Evítala si tienes un dispositivo de 8 o 12 GB que puede ejecutar algo más grande.

Cómo elegir la adecuada

La mayoría de lectores estarán contentos con la primera o segunda opción de la lista, pero la respuesta correcta depende de lo que realmente quieras.

Si probaste PocketPal y lo dejaste porque era demasiado básico, salta a ChatterUI o MLC Chat. Si probaste Termux y abandonaste, vuelve directamente a PocketPal y olvida que el terminal existe.

Preguntas frecuentes

¿Puede un móvil ejecutar un LLM útil sin conexión?

Sí, si tiene al menos 6 GB de RAM y un chip de la serie Snapdragon 8, Tensor reciente o Apple A16 en adelante. Un modelo 7B cuantizado a 4 bits cabe bien y responde a velocidad conversacional. Los móviles antiguos con 3-4 GB de RAM deberían quedarse en modelos de 1B-3B como SmolLM 2 o Phi-3 Mini.

¿Cuál es la mejor app gratuita de IA local para Android?

PocketPal AI es la opción más equilibrada en 2026. Es de código abierto, incluye un explorador de modelos de Hugging Face integrado, trae valores por defecto razonables y funciona en cualquier móvil moderno sin configuración. Google AI Edge Gallery es un segundo muy cercano en hardware Pixel.

¿Las apps de IA local son realmente privadas?

Un modelo ejecutado localmente nunca envía prompts a un servidor; de eso se trata. La app en sí aún puede llamar a casa por analítica o informes de fallos, así que revisa los ajustes al primer arranque y desactiva lo que no quieras. PocketPal, Maid, MLC Chat, ChatterUI y SmolChat son de código abierto y auditables.

¿Por qué usar un LLM local en lugar de ChatGPT o Gemini?

Tres razones que la gente suele citar: privacidad (los prompts permanecen en el dispositivo), uso sin conexión (funciona en vuelos, trenes, sin señal) y coste cero (sin suscripción de 20 $/mes). La contrapartida son modelos más pequeños, más débiles en razonamiento y con cortes de entrenamiento más antiguos.

¿Qué modelo conviene descargar primero?

Empieza con Llama 3.2 3B Instruct o Phi-3.5 Mini si tienes 6 GB de RAM. Pasa a Llama 3.3 8B o Qwen 2.5 7B si tienes 8 GB o más. El explorador integrado de PocketPal ya etiqueta cada modelo con sus requisitos de memoria para que elijas con seguridad.

¿Funcionan estas apps en iPhone?

PocketPal AI, MLC Chat y Layla tienen builds para iOS. ChatterUI, Maid, SmolChat, Termux y Google AI Edge Gallery son solo Android en mayo de 2026.