📝 エグゼクティブサマリー
Metaが2025年4月にリリースした「Llama 4」シリーズは、オープンソースAIの新たなマイルストーンとなるはずでした。
特に「Scout」モデルは1000万トークンのコンテキストウィンドウを実現し、MoEアーキテクチャによる効率化で運用コストを劇的に下げました。
しかし、肝心の推論能力、特にコーディングにおいては前世代のLlama 3.3や競合のQwenに劣る場面が目立ち、コミュニティからは厳しい評価を受けています。真のフラッグシップ「Behemoth
(2兆パラメータ)」の登場が待たれます。
💰 料金体系の詳細
価格モデル
- ダウンロード: 無料 (Meta公式サイト / Hugging Face)
- API利用: GroqやTogether AI等のプロバイダ経由で、GPT-4oの数十分の1の価格で利用可能。
- セルフホスト: H100 GPU 1枚で動作可能なScoutなど、ハードウェア要件も緩和。
🎯 主要ベンチマーク結果
| ベンチマーク | 結果 | 評価 |
|---|---|---|
| Context Window | 10M (Scout) | 世界最大級 |
| Coding Benchmarks | Mixed | 3.3 70Bより低い場合あり |
| Inference Speed | Ultra Fast | MoEの恩恵で爆速 |
✅ 長所と短所
👍 長所
- Scoutの10Mコンテキストで本1万冊分を一度に読める
- 推論コストが非常に安く、大量処理に向く
- 完全にオープンで、企業のオンプレミス利用に最適
👎 短所
- コーディング能力が期待外れ (Llama 3.3以下)
- ハルシネーション(嘘)の発生率が高い
- 「Behemoth」が出るまで真の実力が分からない
💭 Reddit ユーザー評価
ポジティブな意見 TOP3
「Scoutに大量のログを食わせて分析させたが、このコンテキスト量は魔法だ」
— r/LocalLLaMA ユーザー
「自宅のサーバでこのクラスのモデルがサクサク動くのは感動的」
— r/SelfHosted ユーザー
「ファインチューニングのベースとしては最高。素の性能はともかく、素材として優秀」
— AI Researcher
ネガティブな意見 TOP3
「コーディングに使ってみたが、Llama 3.3の方がマシだった。なぜ退化した?」
— r/LocalLLaMA ユーザー
「ハルシネーションが酷い。自信満々に嘘をつくので、仕事では使えない」
— r/MachineLearning ユーザー
「QwenやDeepSeekに追い抜かれている。Metaの覇権は終わったのかもしれない」
— X (Twitter) ユーザー
🎯 推奨使用例
最適な用途 TOP3
- ローカル環境での機密データ処理 - 社外に出せないデータを安全に分析
- 超長文ドキュメントの要約・検索 - Scoutモデルの特性を活かしたRAG代替
- コストを抑えた大規模バッチ処理 - 精度より量と速度が求められるタスク
推奨しない用途 TOP3
- 高精度なコーディング支援 - バグを生む可能性が高いため、Claude等を推奨
- 複雑な論理推論・数学 - 3.3 70Bの方が安定している
- 最新のWeb情報検索 - 単体では検索機能を持たないため不向き
📊 結論と総合評価
総合評価: ⭐⭐⭐ (3.0/5.0)
Llama 4は「期待外れの優等生」です。スペック上の数値(コンテキスト長やパラメータ数)は立派ですが、実務で求められる「勘の良さ」や「正確性」において、前世代や競合他社に見劣りします。
ただし、無料で利用できるオープンモデルとしての価値は依然として巨大です。「とにかく安く、大量に、自社環境で」というニーズには、これ以上の選択肢はありません。
個人の開発パートナーとしては不向きですが、システムの一部品としては優秀な働きをするでしょう。
🔮 今後の展望
全ての希望は、現在トレーニング中の最大モデル「Behemoth (2兆パラメータ)」に託されています。これがリリースされれば、評価は一変する可能性がありますが、それまではLlama 3.3 70BやQwenを使い続けるのが賢明かもしれません。