【2026年最新】オープンソースLLM徹底比較:Llama 3・Mistral・Gemma・Qwenの性能と選び方

Tech Trends AI
- 5 minutes read - 999 wordsはじめに:オープンソースLLMが変えるAI活用の選択肢
2026年、オープンソースLLMの性能は商用モデルに急速に迫っており、多くのユースケースにおいてコスト効率の高い代替手段として選択されるようになっています。Meta、Google、Alibaba、Mistral AIなどの組織が競うように高性能モデルを公開し、エコシステムも急速に成熟しています。
しかし、選択肢が増えた分、どのモデルを選ぶべきかの判断は複雑になっています。本記事では、2026年現在の主要オープンソースLLMを、性能ベンチマーク、日本語対応、商用ライセンス、デプロイ容易性など多角的に比較し、プロジェクトに最適なモデルを選定するための実践的な指針を提供します。
主要オープンソースLLMの全体比較
モデルファミリー一覧(2026年2月時点)
| モデル | 開発元 | パラメータ数 | コンテキスト長 | ライセンス | 日本語対応 |
|---|---|---|---|---|---|
| Llama 3.1 | Meta | 8B / 70B / 405B | 128K | Llama 3.1 Community | 良好 |
| Llama 3.2 | Meta | 1B / 3B / 11B / 90B | 128K | Llama 3.2 Community | 良好 |
| Mistral Large | Mistral AI | 123B | 128K | Apache 2.0(一部) | 中程度 |
| Mistral Small | Mistral AI | 22B | 32K | Apache 2.0 | 中程度 |
| Mixtral 8x22B | Mistral AI | 176B(MoE) | 64K | Apache 2.0 | 中程度 |
| Gemma 2 | 2B / 9B / 27B | 8K | Gemma License | 中程度 | |
| Qwen 2.5 | Alibaba | 0.5B〜72B | 128K | Apache 2.0(一部) | 非常に良好 |
| DeepSeek-V3 | DeepSeek | 671B(MoE) | 128K | DeepSeek License | 良好 |
| Phi-3 | Microsoft | 3.8B / 7B / 14B | 128K | MIT | 限定的 |
| Command R+ | Cohere | 104B | 128K | CC-BY-NC-4.0 | 良好 |
ベンチマーク性能比較
以下は主要なベンチマークでの性能比較です(2026年2月時点の公開データに基づく)。
| モデル | MMLU | HumanEval | GSM8K | MT-Bench | 日本語MT-Bench |
|---|---|---|---|---|---|
| Llama 3.1 70B | 82.0 | 80.5 | 83.7 | 8.5 | 7.2 |
| Llama 3.1 8B | 69.4 | 62.2 | 56.4 | 7.8 | 6.5 |
| Mistral Large | 84.0 | 81.1 | 91.2 | 8.7 | 6.8 |
| Mixtral 8x22B | 77.8 | 75.0 | 78.6 | 8.3 | 6.5 |
| Gemma 2 27B | 75.2 | 68.4 | 74.0 | 8.1 | 6.3 |
| Gemma 2 9B | 71.3 | 54.0 | 68.6 | 7.6 | 5.8 |
| Qwen 2.5 72B | 83.5 | 82.3 | 90.4 | 8.6 | 8.1 |
| Qwen 2.5 7B | 71.0 | 65.5 | 82.0 | 7.9 | 7.3 |
| DeepSeek-V3 | 87.1 | 82.6 | 92.3 | 8.9 | 7.8 |
| Phi-3 14B | 78.0 | 67.8 | 86.2 | 8.0 | 5.5 |
各モデルファミリーの詳細分析
Llama 3(Meta)
Meta が公開する LLM ファミリーで、オープンソース LLM の事実上の標準です。
強み:
- 幅広いサイズバリエーション(1B〜405B)
- 豊富なファインチューニング済みバリアント
- コミュニティエコシステムが最も充実
- マルチモーダル対応(Llama 3.2 Vision)
弱み:
- Llama Community Licenseは純粋なオープンソースではない
- 月間アクティブユーザー7億以上の場合は別途ライセンスが必要
- 日本語はQwenに比べるとやや劣る
# vLLMでLlama 3.1を起動する例
from vllm import LLM, SamplingParams
llm = LLM(
model="meta-llama/Llama-3.1-8B-Instruct",
tensor_parallel_size=1,
max_model_len=8192,
gpu_memory_utilization=0.9,
)
sampling_params = SamplingParams(
temperature=0.7,
top_p=0.9,
max_tokens=512,
)
prompts = ["日本の首都について教えてください。"]
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
print(output.outputs[0].text)
Mistral(Mistral AI)
フランスのMistral AIが開発する高性能LLMファミリーです。
強み:
- MoE(Mixture of Experts)アーキテクチャによる高い効率性
- 推論速度が高速(アクティベーションパラメータが少ない)
- Function Calling対応が優秀
- Apache 2.0ライセンス(一部モデル)
弱み:
- 日本語対応は他モデルと比較して中程度
- 大規模モデルはライセンスが制限的
- コミュニティの規模がLlamaに比べて小さい
# Mistralモデルのロード例
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "mistralai/Mistral-Small-Instruct-2409"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain the concept of MoE in LLMs."},
]
input_ids = tokenizer.apply_chat_template(
messages, return_tensors="pt"
).to(model.device)
outputs = model.generate(
input_ids,
max_new_tokens=512,
temperature=0.7,
do_sample=True,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Gemma 2(Google)
Googleが公開する軽量高性能モデルです。
強み:
- サイズに対して非常に高い性能(特に9Bモデル)
- Googleのインフラとの親和性が高い
- 安全性・有害性対策が充実
- 学術研究での利用が広い
弱み:
- コンテキスト長が短い(8K)
- 大規模モデルのラインナップが限定的
- 日本語対応は中程度
- Gemma Licenseは商用利用に一部制限あり
Qwen 2.5(Alibaba)
Alibabaが開発する多言語対応に優れたLLMファミリーです。
強み:
- 日本語性能がトップクラス
- 幅広いサイズバリエーション(0.5B〜72B)
- 長いコンテキスト(128K)
- Apache 2.0ライセンス(多くのモデル)
- コーディング能力が高い(Qwen-Coder)
弱み:
- 中国企業開発のため、利用を制限する組織がある
- 一部モデルのライセンスが複雑
- 安全性チューニングが他モデルと異なる場合がある
# Qwen 2.5のロード例
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen2.5-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "あなたは優秀な日本語AIアシスタントです。"},
{"role": "user", "content": "機械学習とディープラーニングの違いを説明してください。"},
]
text = tokenizer.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.7,
top_p=0.9,
)
response = tokenizer.decode(
outputs[0][len(inputs.input_ids[0]):],
skip_special_tokens=True
)
print(response)
DeepSeek-V3
DeepSeekが開発した大規模MoEモデルで、商用モデルに匹敵する性能を実現しています。
強み:
- ベンチマークでトップクラスの性能
- MoEアーキテクチャにより推論効率が高い
- 数学・コーディング能力が非常に高い
- 日本語対応も良好
弱み:
- モデルサイズが非常に大きい(671B)
- ローカル実行にはハイエンドGPU環境が必要
- ライセンスに一部制限がある
用途別の最適モデル選定ガイド
ユースケース別推奨モデル
| ユースケース | 推奨モデル | 理由 |
|---|---|---|
| 日本語チャットボット | Qwen 2.5 7B/72B | 日本語性能トップクラス |
| コード生成・補完 | DeepSeek-Coder / Qwen-Coder | コーディング特化 |
| 文書要約・翻訳 | Llama 3.1 70B | バランスの良い汎用性能 |
| ローカル実行(軽量) | Gemma 2 9B / Phi-3 3.8B | 軽量で高性能 |
| エッジデバイス | Llama 3.2 1B/3B | 超軽量モデル |
| RAG | Qwen 2.5 7B + 埋め込みモデル | 長コンテキスト + 高精度 |
| Function Calling | Mistral Small / Llama 3.1 | ツール使用に最適化 |
| マルチモーダル | Llama 3.2 Vision 11B/90B | 画像理解対応 |
| 商用利用(ライセンスフリー) | Mistral Small / Qwen 2.5 | Apache 2.0 |
ハードウェア要件別の選択
| GPU環境 | 推奨モデル | 量子化 | VRAM使用量目安 |
|---|---|---|---|
| RTX 3060 12GB | Gemma 2 9B / Phi-3 3.8B | 4bit (GGUF Q4_K_M) | 6〜10GB |
| RTX 4070 12GB | Llama 3.1 8B / Qwen 2.5 7B | 4bit (GPTQ/AWQ) | 6〜10GB |
| RTX 4090 24GB | Llama 3.1 8B / Qwen 2.5 14B | FP16 / 8bit | 16〜22GB |
| A100 40GB | Llama 3.1 70B / Qwen 2.5 72B | 4bit (AWQ) | 35〜38GB |
| A100 80GB | Llama 3.1 70B / Qwen 2.5 72B | 8bit | 70〜75GB |
| A100 80GB x2 | Llama 3.1 70B | FP16 | 140GB |
| A100 80GB x8 | DeepSeek-V3 / Llama 3.1 405B | 4bit | 640GB |
デプロイ方法の比較
主要な推論フレームワーク
| フレームワーク | 特徴 | スループット | レイテンシ | 対応モデル |
|---|---|---|---|---|
| vLLM | PagedAttention、高スループット | 非常に高 | 低 | 幅広い |
| TGI | HuggingFace公式、本番向け | 高 | 低 | HF Hub全般 |
| llama.cpp | CPU推論可、量子化対応 | 中 | 中 | GGUF形式 |
| Ollama | 簡単セットアップ | 中 | 中 | 主要モデル |
| TensorRT-LLM | NVIDIA最適化 | 非常に高 | 非常に低 | NVIDIA GPU |
| SGLang | 高速推論エンジン | 非常に高 | 低 | 主要モデル |
vLLMによるデプロイ例
# vLLMサーバーの起動
pip install vllm
# OpenAI互換APIサーバーとして起動
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-7B-Instruct \
--host 0.0.0.0 \
--port 8000 \
--max-model-len 8192 \
--gpu-memory-utilization 0.9 \
--tensor-parallel-size 1
# OpenAI SDKで接続
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="dummy",
)
response = client.chat.completions.create(
model="Qwen/Qwen2.5-7B-Instruct",
messages=[
{"role": "system", "content": "あなたは優秀なAIアシスタントです。"},
{"role": "user", "content": "Pythonでフィボナッチ数列を生成する関数を書いてください。"},
],
temperature=0.7,
max_tokens=512,
)
print(response.choices[0].message.content)
Ollamaによるローカル実行
# Ollamaのインストール(Linux)
curl -fsSL https://ollama.ai/install.sh | sh
# モデルのダウンロードと実行
ollama pull qwen2.5:7b
ollama run qwen2.5:7b
# API経由で利用
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5:7b",
"messages": [
{
"role": "user",
"content": "日本の四季について教えてください。"
}
],
"stream": false
}'
Docker Composeによる本番デプロイ
version: '3.8'
services:
vllm:
image: vllm/vllm-openai:latest
ports:
- "8000:8000"
volumes:
- ./models:/models
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: 1
capabilities: [gpu]
command: >
--model Qwen/Qwen2.5-7B-Instruct
--host 0.0.0.0
--port 8000
--max-model-len 8192
--gpu-memory-utilization 0.9
nginx:
image: nginx:alpine
ports:
- "80:80"
- "443:443"
volumes:
- ./nginx.conf:/etc/nginx/nginx.conf
depends_on:
- vllm
prometheus:
image: prom/prometheus:latest
ports:
- "9090:9090"
volumes:
- ./prometheus.yml:/etc/prometheus/prometheus.yml
grafana:
image: grafana/grafana:latest
ports:
- "3000:3000"
environment:
- GF_SECURITY_ADMIN_PASSWORD=admin
ファインチューニングの実践
LoRAによる効率的なファインチューニング
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, TaskType
from trl import SFTTrainer, SFTConfig
# ベースモデルのロード
model_name = "Qwen/Qwen2.5-7B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# LoRA設定
lora_config = LoraConfig(
task_type=TaskType.CAUSAL_LM,
r=16,
lora_alpha=32,
lora_dropout=0.05,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
)
# PEFTモデルの作成
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# 出力例: trainable params: 13,631,488 || all params: 7,628,000,000 || trainable%: 0.18%
# トレーニング設定
training_config = SFTConfig(
output_dir="./output",
num_train_epochs=3,
per_device_train_batch_size=4,
gradient_accumulation_steps=4,
learning_rate=2e-4,
warmup_ratio=0.1,
logging_steps=10,
save_strategy="epoch",
fp16=True,
max_seq_length=2048,
)
# トレーナーの作成と実行
trainer = SFTTrainer(
model=model,
args=training_config,
train_dataset=train_dataset,
eval_dataset=eval_dataset,
tokenizer=tokenizer,
)
trainer.train()
trainer.save_model("./finetuned-model")
ライセンス比較と商用利用の注意点
ライセンス詳細比較
| モデル | ライセンス | 商用利用 | 改変・再配布 | 主な制約 |
|---|---|---|---|---|
| Llama 3.1/3.2 | Llama Community | 可 | 可 | MAU 7億超は別途契約 |
| Mistral (Apache) | Apache 2.0 | 完全自由 | 完全自由 | なし |
| Gemma 2 | Gemma License | 可(条件付き) | 可(条件付き) | 利用規約への同意 |
| Qwen 2.5 | Apache 2.0(大半) | 完全自由 | 完全自由 | なし(一部モデル除く) |
| DeepSeek | DeepSeek License | 可 | 可 | 特定用途の制限 |
| Phi-3 | MIT | 完全自由 | 完全自由 | なし |
| Command R+ | CC-BY-NC-4.0 | 不可 | 非商用のみ | 商用利用不可 |
商用利用時のチェックリスト
商用利用前のチェック項目:
├── □ ライセンス条件を法務部門で確認済み
├── □ 出力コンテンツの利用範囲を確認済み
├── □ データプライバシーの要件を満たしている
├── □ モデルの安全性フィルターを確認済み
├── □ コンプライアンス要件との整合性を確認
├── □ 出力の品質保証プロセスを策定済み
└── □ 利用規約の変更を追跡する体制がある
今後のトレンド予測
2026年後半に注目すべき動向
| トレンド | 概要 | 影響度 |
|---|---|---|
| 小規模高性能モデル | 3B以下で実用的な性能を実現 | 高 |
| MoEの一般化 | Mixture of Expertsが標準アーキテクチャに | 高 |
| マルチモーダル統合 | テキスト+画像+音声+動画の統合モデル | 中〜高 |
| 長コンテキスト | 100万トークン以上のコンテキスト | 中 |
| 推論時スケーリング | 推論時の計算量を動的に調整 | 高 |
| 特化型モデル | ドメイン特化のファインチューニング済みモデル | 中 |
| オンデバイスAI | スマートフォン・PCでのローカル実行 | 高 |
まとめ
2026年のオープンソースLLMは選択肢が豊富で、多くのユースケースにおいて商用モデルの代替として十分な性能を発揮します。モデル選定の際は以下のポイントを考慮してください。
- 日本語重視ならQwen 2.5が最有力候補
- 汎用性・エコシステムではLlama 3.1/3.2が最も充実
- 推論効率を重視するならMistralのMoEモデル
- 軽量・ローカル実行にはGemma 2 9BやPhi-3が適している
- 最高性能を追求するならDeepSeek-V3を検討
- ライセンスフリーならApache 2.0のMistralやQwenを選択
- ファインチューニングはLoRA + vLLMの組み合わせが効率的
オープンソースLLMの進化速度は極めて速いため、定期的なベンチマーク比較と新モデルの評価を継続することが重要です。本記事の情報を出発点として、実際のユースケースでの評価を行い、最適なモデルを選定してください。