Llama 4 (Maverick/Scout) - 詳細レビュー＆分析

📝 エグゼクティブサマリー

Metaが2025年4月にリリースした「Llama 4」シリーズは、オープンソースAIの新たなマイルストーンとなるはずでした。

特に「Scout」モデルは1000万トークンのコンテキストウィンドウを実現し、MoEアーキテクチャによる効率化で運用コストを劇的に下げました。

しかし、肝心の推論能力、特にコーディングにおいては前世代のLlama 3.3や競合のQwenに劣る場面が目立ち、コミュニティからは厳しい評価を受けています。真のフラッグシップ「Behemoth (2兆パラメータ)」の登場が待たれます。

💰 料金体系の詳細

価格モデル

ダウンロード: 無料 (Meta公式サイト / Hugging Face)
API利用: GroqやTogether AI等のプロバイダ経由で、GPT-4oの数十分の1の価格で利用可能。
セルフホスト: H100 GPU 1枚で動作可能なScoutなど、ハードウェア要件も緩和。

🎯 主要ベンチマーク結果

ベンチマーク	結果	評価
Context Window	10M (Scout)	世界最大級
Coding Benchmarks	Mixed	3.3 70Bより低い場合あり
Inference Speed	Ultra Fast	MoEの恩恵で爆速

✅ 長所と短所

👍 長所

Scoutの10Mコンテキストで本1万冊分を一度に読める
推論コストが非常に安く、大量処理に向く
完全にオープンで、企業のオンプレミス利用に最適

👎 短所

コーディング能力が期待外れ (Llama 3.3以下)
ハルシネーション（嘘）の発生率が高い
「Behemoth」が出るまで真の実力が分からない

💭 Reddit ユーザー評価

ポジティブな意見 TOP3

「Scoutに大量のログを食わせて分析させたが、このコンテキスト量は魔法だ」
— r/LocalLLaMA ユーザー

「自宅のサーバでこのクラスのモデルがサクサク動くのは感動的」
— r/SelfHosted ユーザー

「ファインチューニングのベースとしては最高。素の性能はともかく、素材として優秀」
— AI Researcher

ネガティブな意見 TOP3

「コーディングに使ってみたが、Llama 3.3の方がマシだった。なぜ退化した？」
— r/LocalLLaMA ユーザー

「ハルシネーションが酷い。自信満々に嘘をつくので、仕事では使えない」
— r/MachineLearning ユーザー

「QwenやDeepSeekに追い抜かれている。Metaの覇権は終わったのかもしれない」
— X (Twitter) ユーザー

🎯 推奨使用例

最適な用途 TOP3

ローカル環境での機密データ処理 - 社外に出せないデータを安全に分析
超長文ドキュメントの要約・検索 - Scoutモデルの特性を活かしたRAG代替
コストを抑えた大規模バッチ処理 - 精度より量と速度が求められるタスク

推奨しない用途 TOP3

高精度なコーディング支援 - バグを生む可能性が高いため、Claude等を推奨
複雑な論理推論・数学 - 3.3 70Bの方が安定している
最新のWeb情報検索 - 単体では検索機能を持たないため不向き

📊 結論と総合評価

総合評価: ⭐⭐⭐ (3.0/5.0)

Llama 4は「期待外れの優等生」です。スペック上の数値（コンテキスト長やパラメータ数）は立派ですが、実務で求められる「勘の良さ」や「正確性」において、前世代や競合他社に見劣りします。

ただし、無料で利用できるオープンモデルとしての価値は依然として巨大です。「とにかく安く、大量に、自社環境で」というニーズには、これ以上の選択肢はありません。

個人の開発パートナーとしては不向きですが、システムの一部品としては優秀な働きをするでしょう。

🔮 今後の展望

全ての希望は、現在トレーニング中の最大モデル「Behemoth (2兆パラメータ)」に託されています。これがリリースされれば、評価は一変する可能性がありますが、それまではLlama 3.3 70BやQwenを使い続けるのが賢明かもしれません。

🦙 Llama 4 (Maverick / Scout)

Llama 4

📊 主要スペック

👤 AI Persona

"世界を旅する自由な探検家"

⭐ 総合評価

✨ ユニーク機能

📈 ベンチマーク比較

🆚 vs Llama 3.3 70B

🆚 vs Qwen-QwQ-32B

💬 ユーザー評価 (Reddit分析)