70億パラメータの言語モデルは、いまや4 GBのRAMに収まり、Snapdragon 8 Gen 3では毎秒8〜12トークンで動き、ネットワークに一度も触れずに応答する。これが2026年におけるAndroidでのローカルAIの実態であり、過去12か月にアカウントもサブスクもテレメトリもなくスマホにチャットボットを置くアプリが続々と出てきた理由でもある。
ここでは2026年版として、AndroidでローカルAIを動かすためのおすすめアプリ8つを検証した。それぞれをモデル選択、ミドルレンジ端末での秒間トークン数、RAM使用量、GGUFまたはMLC対応、オフラインでの安定性、そして最初に質問するまでに実際に必要なセットアップ量で評価した。無料・オープンソース・有料の例をすべて含む。
ローカルAIアプリで見るべきポイント
ローカルLLMアプリはどれも同じではない。いくつも入れる前に、実用ツールと技術デモを分ける要素を押さえておくとよい。
- モデル形式の対応。 2026年、オンデバイスではGGUFが主流で、llama.cppやコミュニティモデルの多くがこれを使う。バンドルモデルしか扱えないアプリには注意が必要だ。
- メモリ使用量。 4ビット量子化の3Bモデルは約2 GBのRAMが必要。7Bモデルは4〜6 GBほど。端末のRAMが合計6 GBなら、7Bを超えるモデルはスワップして落ちる。
- ハードウェア加速。 Pixel 8/9やSnapdragon 8 Gen 3端末では、OpenCLやVulkanによるGPUオフロード、またはNPU対応を確認する。CPUのみでも動くが、トークンは遅くなる。
- アプリ内モデルライブラリ。 Hugging Faceから取得できる組み込みブラウザは、自分で.ggufを読み込むよりずっと楽だ。
- プライバシーの姿勢。 本来はオフライン運用が目的だ。アプリが解析のためにホームに電話しないか、アカウントを要求しないか、「改善」の名目でプロンプトを送っていないか確認する。
- パワーユーザー向け機能。 カスタムシステムプロンプト、ペルソナプリセット、ローカル文書へのRAG、OpenAI互換APIエンドポイントは、新鮮さが薄れたあとに効いてくる。
簡易比較
| アプリ | 向いている用途 | プラットフォーム | 無料プラン | 開始価格 | Aptoide DL数 |
|---|---|---|---|---|---|
| PocketPal AI | 総合的に最適、GGUFが簡単 | Android、iOS | あり | 無料 | 1M+ |
| Google AI Edge Gallery | Google公式モデル | Android | あり | 無料 | 100K+ |
| MLC Chat | MLCコンパイルモデルによる速度 | Android、iOS、デスクトップ | あり | 無料 | n/a (GitHub) |
| Maid | FOSSのllama.cppラッパー | Android、デスクトップ | あり | 無料 | 10K+ |
| ChatterUI | キャラチャット、ロールプレイ | Android | あり | 無料 | n/a (GitHub) |
| Layla | プレミアムキャラチャット | Android、iOS、デスクトップ | 7日間トライアル | $5.99/月 | 5K |
| Termux + Ollama | フルLinuxツールチェーン | Android | あり | 無料 | 10M+ |
| SmolChat | 軽量1B〜3Bモデル | Android | あり | 無料 | n/a (GitHub) |
2026年、AndroidでローカルAIを動かすおすすめアプリ8選
1. PocketPal AI — ローカルLLM初心者に最適
PocketPal AIは、オンデバイスLLMをようやく普通のAndroidアプリのように感じさせたアプリだ。Aptoide版は1.14.0で、インストール数は100万以上。アプリ内モデルブラウザがHugging Faceから直接GGUFを取得するので、ファイルマネージャは不要。初期状態から妥当な量子化デフォルト、カスタムシステムプロンプト付きのチャットUI、端末ごとの秒間トークンを示すベンチマークが揃う。ローカルLLM用途では、PocketPal AIがAndroidでいちばんすっきりした入口だ。
不足している点: ネイティブの音声入力がない。8Kトークンを超える長文コンテキストモデルは、RAMが8 GB未満の端末では著しく遅くなる。他アプリをつなぐAPIサーバーモードはまだない。
料金:
- 無料: 機能はすべて、MITのもと完全オープンソース
- 有料: 開発者支援の任意のGitHubスポンサー
プラットフォーム: Android、iOS
結論: スマホでLLMを動かすのが初めてならPocketPal AIを選ぶ。Androidユーザーにはまずこれを試すことをおすすめする。
2. Google AI Edge Gallery — 無料の公式オプションとして最適
Google AI Edge Galleryは、Gemmaなどオンデバイスモデル向けのGoogleの研究ショーケースであり、大手ベンダーからの無料選択肢としてはいちばん磨かれている。Aptoideビルドは30.7 MBで、パッケージはResearch at Google署名。対応端末ではチャット、要約、画像分類、プロンプトによる画像生成など、ハードウェア加速付きのすぐ使えるデモが揃う。Pixel 8 ProとPixel 9はAICoreフレームワーク経由でオンデバイスNPUを活かし、秒間トークンがはっきり速くなる。
不足している点: モデルカタログはGoogleがキュレーションしており、任意のGGUFは入れられない。一部デモはPixel前提で、他端末では静かに遅いCPUモードに落ちる。
料金:
- 無料: 機能はすべて、アカウント不要
- 有料: なし
プラットフォーム: Androidのみ
結論: Pixel 8または9があり、公式のGemma体験が欲しいならGoogle AI Edge Galleryを選ぶ。コミュニティ製のカスタムモデルを読み込みたいなら見送る。
3. MLC Chat — 生の速度重視なら最適
MLC ChatはMLC LLMプロジェクトのリファレンスAndroidアプリだ。このオープンソースのコンパイラスタックは、Llama、Mistral、Qwenの重みを取り込み、TVM経由でGPU加速カーネルにコンパイルする。同じSnapdragonハードウェアでは、GGUFベースのアプリと比べて一貫して秒間トークン数が最も高く、多くの場合2〜3倍速い。2025〜2026年もQwen 2.5やLlama 3.3ビルドのサポートなどで着実に更新されている。スループットが本当に重要なローカルLLM用途では、MLC Chatが選択肢になる。
不足している点: AptoideにもGoogle Playにもない。GitHubのリリースページから入れるサイドロードの一手間があり、拒むユーザーもいる。モデル選択は事前コンパイル済みのMLCカタログに限られ、新しいモデルは自分で重みを再コンパイルする必要がある。
料金:
- 無料: 機能はすべて、Apache-2.0ライセンス
- 有料: なし
プラットフォーム: Android、iOS、Windows、macOS、Linux
結論: ベンチマークの数字が重要ならMLC Chatを選ぶ。GitHubからAPKを入れることに抵抗があるなら見送る。
4. Maid — FOSSのllama.cppラッパーとして最適
Maidはllama.cpp向けのFlutterフロントエンドで、AptoideにAndroidビルド、ほとんどのプラットフォームにデスクトップビルドがある。2.1.51ではキャラクターカード、コンテキスト長と温度の設定パネル、コミュニティ推奨モデルへの直接ダウンロードボタンが追加された。ローカルLLM用途では、Maidがこのリストでもっとも個性の強いFOSSアプリで、研究デモよりチャットアプリの感触だ。
不足している点: AndroidではGPU加速がないため、秒間トークンはMLC Chatに大きく劣る。初回のモデルダウンロードは遅い。キュレーション済みリストが無料枠でスロットルされるHugging Faceミラーから取得するためだ。
料金:
- 無料: 機能はすべて、MITライセンス
- 有料: なし
プラットフォーム: Android、Windows、macOS、Linux
結論: FOSSの純度が重要で、同じモデルを話すデスクトップクライアントも欲しいならMaidを選ぶ。スマホの速度だけが気になるなら見送る。
5. ChatterUI — キャラチャットとロールプレイ向けに最適
ChatterUIは、オープンソースのキャラチャットフロントエンドSillyTavernのAndroid版だ。オンデバイスでllama.cppを動かし、標準のSillyTavern JSON形式のキャラクターカードをサポートし、Web検索フック、ローカルファイルへのRAG、キャラごとのシステムプロンプトを追加する。r/LocalLLaMAでは、ローカルでのロールプレイモデルをAndroidで始める場所を聞かれると、ChatterUIが一貫して勧められる。
不足している点: Aptoideにない。UIはPocketPalより密度が高く、サンプラー設定、繰り返しペナルティ、コンテキスト長を理解している前提だ。新規ユーザーは初回起動で離れがちだ。
料金:
- 無料: 機能はすべて、AGPL-3.0ライセンス
- 有料: なし
プラットフォーム: Androidのみ
結論: SillyTavernのキャラカードがワークフローに含まれるならChatterUIを選ぶ。「サンプラー設定」が聞きなれないなら見送る。
6. Layla — キャラカード向けの有料アプリとして最適
Laylaはこのカテゴリーの洗練された商用オプションで、キャラチャットを中心にWear OSコンパニオン、デスクトップクライアント、完全オフラインモードのために切れるオプションのクラウド同期がある。Aptoideの6.5.1ビルドにはロールプレイ向けに調整されたキュレーション済みコミュニティモデルが含まれ、開発者は頻繁に更新しており、過去2か月ではQwen 2.5とLlama 3.3のサポートも入った。ローカルLLM負荷の観点では、Laylaは課金しても納得できる数少ないアプリの一つで、モデルが実際に滑らかに動くからだ。
不足している点: 無料アプリだらけの分野でサブスク料金は売りにくい。一部ユーザーはモデル同期などオプションのクラウド機能を指摘しており、初回起動時にオフラインモードのトグルを確認した方がよい。
料金:
- 無料: 7日間トライアル
- 有料: 月額$5.99または年額$39.99
プラットフォーム: Android、iOS、Windows、macOS、Linux
結論: メイン用途がキャラチャットで、きちんとメンテされている有料アプリが欲しいならLaylaを選ぶ。チャットUIにお金を払うことに原則として反対なら見送る。
7. Termux + Ollama — Linuxパワーユーザー向けに最適
内側にOllamaを入れたTermuxは、Androidでもっとも柔軟なローカルAI構成であり、OpenAI互換APIエンドポイント、Hugging FaceのGGUFを超えたモデルライブラリ、すべてをスクリプト化したい開発者がよく選ぶ道だ。AptoideのTermuxビルドは、Aptoide向けにパッケージされた公式の2026.02.11 Google Playリリースで、インストール数は1000万以上。インストール後、pkg install ollamaのあとollama serveを実行すると、任意のチャットクライアント(同じ端末上のOpen WebUIを含む)がつなげる11434番ポートのローカルAPIが得られる。
不足している点: セットアップは本物のLinuxの旅だ。デフォルトはCPU推論のみなので、トークンはMLC Chatより遅い。長時間セッションでは、専用アプリよりバッテリー消費が大きい。
料金:
- 無料: 機能はすべて、GPL-3.0ライセンス
- 有料: なし
プラットフォーム: Androidのみ(Termux)。OllamaスクリプトはLinuxが動くところならどこでも動く
結論: ターミナルを問題なく使い、フルコントロールが欲しいならTermux + Ollamaを選ぶ。夜を「設定ファイルを編集する」ことに費やしたくないなら見送る。
8. SmolChat — 古い端末でもっとも軽い
SmolChatは、Hugging FaceのSmolLMファミリーを中心にしたネイティブAndroidチャットアプリで、135M〜30億パラメータのモデルがRAMがわずか3 GBの端末でも快適に動く。GitHubでオープンソース化されており、カスタムGGUFのインポートも可能。このリストで2022年頃のミドルレンジAndroidでも無理なく使えるのはこれだけだ。ハードウェアが本当の制約なら、ローカルLLM用途の答えはSmolChatになる。
不足している点: AptoideもGoogle Playもなく、GitHubのみ。小型モデルは7Bや8Bの選択肢より幻覚が多く、事実精度は目に見えて落ちる。UIは磨きより実用だ。
料金:
- 無料: 機能はすべて、Apache-2.0ライセンス
- 有料: なし
プラットフォーム: Androidのみ
結論: 端末が古いかRAMが厳しいならSmolChatを選ぶ。8 GBや12 GBあり、もっと大きなモデルが動くなら見送る。
適したものの選び方
多くの読者はリストの1番目か2番目で満足するが、正解は本当に欲しいもの次第だ。
- いちばんシンプルな選択がよければ: PocketPal AI。
- Pixel 8または9があり、Google純正モデルが欲しければ: Google AI Edge Gallery。
- 生の秒間トークンが重要なら: MLC Chat。
- Linuxに慣れており、本物のAPIが欲しければ: Termux + Ollama。
- ちゃんとしたチャットUIのあるFOSSが欲しければ: Maid。
- キャラを書き、SillyTavernカードを使うなら: ChatterUI。
- 安定した洗練されたキャラチャットに支払うなら: Layla。
- 端末のRAMが4 GB以下なら: SmolChat。
PocketPalが物足りなくてやめたならChatterUIかMLC Chatへ。Termuxで挫折したならすぐPocketPalに戻り、ターミナルは忘れる。
よくある質問
オフラインで実用的なLLMは本当に動く?
はい。RAMが少なくとも6 GBあり、Snapdragon 8シリーズ、比較的新しいTensor、またはApple A16世代以降のチップなら可能だ。4ビット量子化の7Bモデルは余裕で収まり、会話の速度で応答する。3〜4 GB RAMの古い端末はSmolLM 2やPhi-3 Miniのような1B〜3Bモデルに留まるのがよい。
Android向け無料のローカルAIアプリでいちばんなのは?
2026年ならPocketPal AIがもっともバランスがよい。オープンソースで、組み込みのHugging Faceモデルブラウザがあり、妥当なデフォルトがあり、設定なしで最新の端末なら動く。Google AI Edge GalleryはPixelハードウェアではほぼ同等の2番手だ。
ローカルAIアプリは本当にプライベート?
ローカルで動かすモデルはプロンプトをサーバーに送らない。それが要点だ。アプリ自体は解析やクラッシュ報告でホームに電話する可能性がある。初回起動時に設定を確認し、不要なものは切る。PocketPal、Maid、MLC Chat、ChatterUI、SmolChatはすべてオープンソースで監査可能だ。
ChatGPTやGeminiではなくローカルLLMを使う理由は?
よく挙がる三つの理由は、プライバシー(プロンプトは端末に留まる)、オフライン利用(フライト、電車、圏外でも動く)、コストゼロ(月額20ドルのサブスクがない)だ。代わりに推論は弱く、学習カットオフも古い小型モデルになる。
最初にどのモデルをダウンロードすべき?
RAMが6 GBならLlama 3.2 3B InstructかPhi-3.5 Miniから。8 GB以上ならLlama 3.3 8BかQwen 2.5 7Bへ。PocketPalの組み込みブラウザは各モデルにメモリ要件を表示しているので、安全に選べる。
これらのアプリはiPhoneで動く?
PocketPal AI、MLC Chat、LaylaにはiOSビルドがある。ChatterUI、Maid、SmolChat、Termux、Google AI Edge Galleryは2026年5月時点でAndroidのみだ。