Llama 4 ローカル環境構築ガイド

はじめに：どのモデルを動かすべき？

Llama 4には複数のサイズがありますが、一般家庭のPCで動かせるのは主に以下の2つです。まずは自分のハードウェアに合わせて目標を決めましょう。

モデル	VRAM要件 (4bit)	推奨GPU / 環境
Llama 4 12B (Scout)	8GB - 10GB	RTX 3060/4060 Ti (12GB/16GB) 推奨。 ※8GB VRAMでもギリギリ動作可能だが余裕なし。
Llama 4 70B	24GB - 48GB	RTX 3090/4090 (24GB) × 1枚 (4bit GGUF) または Mac Studio (M2/M3 Max 64GB〜)
Llama 4 405B	250GB+	一般PCでは動作不可 (H100 x 4〜8が必要)

Method A: Ollama (推奨)

黒い画面（ターミナル）を使いますが、実はこれが一番簡単です。WebUIも後から追加できます。

Step 1

公式サイト (ollama.com) から "Download for Windows" をクリックしてインストーラーを実行します。

インストールが完了したら、タスクバーの右下に🦙アイコンが出ていることを確認してください。

Step 2

PowerShell またはコマンドプロンプトを開き、以下のコマンドを入力するだけで、モデルのダウンロードと実行が自動で行われます。

ollama run llama4

※ 70Bを動かせるハイスペックPCをお持ちの場合はこちら：

ollama run llama4:70b

💡 Hint: 初回は数GBのダウンロードが入るため時間がかかります。完了すると >>> というプロンプトが出るので、日本語で話しかけてみてください。

Method B: LM Studio (GUI)

コマンド操作が苦手な方や、GPUの設定などを細かく調整したい方はこちらがおすすめです。

Step 1

公式サイト (lmstudio.ai) から "Download LM Studio for Windows" をクリックしてインストールします。

Step 2

左側の虫眼鏡アイコン（Search）をクリックし、llama 4 と入力します。

検索結果から、左側のフィルタで「Compatibility (互換性)」の良いもの（緑色）を選びます。

Step 3

左側の吹き出しアイコン（AI Chat）をクリックし、上部の中央にあるモデル選択プルダウンから、先ほどダウンロードした Llama 4 を選択します。

これでチャットの準備完了です。右側の設定パネルで GPU Offload をMAXにすると、GPUをフル活用して高速化できます。

VRAM不足の可能性が高いです。

Llama 4は英語ベースのモデルですが、日本語能力も高いです。それでも違和感がある場合は、システムプロンプトに以下を追加してみてください。

You are a helpful AI assistant. Answer in detailed and natural Japanese.