はじめに:どのモデルを動かすべき?
Llama 4には複数のサイズがありますが、一般家庭のPCで動かせるのは主に以下の2つです。まずは自分のハードウェアに合わせて目標を決めましょう。
| モデル | VRAM要件 (4bit) | 推奨GPU / 環境 |
|---|---|---|
| Llama 4 12B (Scout) | 8GB - 10GB | RTX 3060/4060 Ti (12GB/16GB) 推奨。 ※8GB VRAMでもギリギリ動作可能だが余裕なし。 |
| Llama 4 70B | 24GB - 48GB | RTX 3090/4090 (24GB) × 1枚 (4bit GGUF) または Mac Studio (M2/M3 Max 64GB〜) |
| Llama 4 405B | 250GB+ | 一般PCでは動作不可 (H100 x 4〜8が必要) |
手法A:Ollamaで最速セットアップ
黒い画面(ターミナル)を使いますが、実はこれが一番簡単です。WebUIも後から追加できます。
Ollama のインストール
公式サイト (ollama.com) から "Download for Windows" をクリックしてインストーラーを実行します。
インストールが完了したら、タスクバーの右下に🦙アイコンが出ていることを確認してください。
Llama 4 の実行
PowerShell または コマンドプロンプトを開き、以下のコマンドを入力するだけで、モデルのダウンロードと実行が自動で行われます。
12Bモデル (一般向け)
※ 70Bを動かせるハイスペックPCをお持ちの場合はこちら:
70Bモデル (ハイエンド向け)
>>>
というプロンプトが出るので、日本語で話しかけてみてください。
手法B:LM Studioで視覚的に操作
コマンド操作が苦手な方や、GPUの設定などを細かく調整したい方はこちらがおすすめです。
モデルの検索とダウンロード
左側の虫眼鏡アイコン(Search)をクリックし、llama 4 と入力します。
検索結果から、左側のフィルタで「Compatibility (互換性)」の良いもの(緑色)を選びます。
- Q4_K_M という量子化形式がバランスが良くおすすめです。
- ダウンロードボタンを押すと、画面下部に進行状況が表示されます。
チャットの開始
左側の吹き出しアイコン(AI Chat)をクリックし、上部の中央にあるモデル選択プルダウンから、先ほどダウンロードした Llama 4 を選択します。
これでチャットの準備完了です。右側の設定パネルで GPU Offload をMAXにすると、GPUをフル活用して高速化できます。
トラブルシューティング
Q. 動作が非常に重い / クラッシュする
VRAM不足の可能性が高いです。
- タスクマネージャーの「パフォーマンス」タブでGPUの専用メモリ使用量を確認してください。
- 溢れている場合は、より小さいモデル(12B → 8Bなど)や、量子化レベルの低いもの(Q4 → Q2)を試す必要があります。
- LM Studioの場合、
GPU Offloadのスライダーを少し下げて、メインメモリ(RAM)に逃がすことで動作する場合もあります(速度は落ちます)。
Q. 日本語がおかしい
Llama 4は英語ベースのモデルですが、日本語能力も高いです。それでも違和感がある場合は、システムプロンプトに以下を追加してみてください。


