FLUX.2 klein 4B で 12カ国の料理を描かせて見えたもの
本記事は AI が描く各国料理 — 8モデル × 12カ国で比較してみた のスピンオフ、各モデル単独レビューの v2。
母艦記事では 8モデル × 12カ国 = 96 国別評価セルの全体俯瞰を扱う。本記事はその中の FLUX.2 klein 4B だけを 60 プロンプト全部について Gemini 2.5 Pro Vision で評価した詳細を載せる。
TL;DR
- FLUX.2 klein 4B は Flux 系列の超軽量蒸留版 4B。4-step で高速、Apache 2.0 で商用利用も可。観光地メジャー料理では健闘するが、形状特定要件で崩れやすい。
- 60 プロンプト (12カ国 × 5料理) を生成、Gemini API 出力を 現地正解基準として比較評価
- 文化的再現度 (cultural_accuracy): 平均 1.30 / 3.0
- 観光客目線の見栄え (visual_appeal): 平均 4.18 / 5.0
- 失敗型の主成分: 視覚的に似た別カテゴリの料理に引き寄せられる (beta 27件)
- 強い国: Germany, Japan
- 弱い国: Italy, Korea, Lebanon
- 推奨用途: 高速プロトタイピング、観光地メジャー料理
- 避けたい用途: 形状の厳密さが要る料理 (Italy の risotto / osso buco / cannoli)
1. 生成環境
| 項目 | 値 |
|---|---|
| アーキテクチャ | DiT (FLUX.2 family, Black Forest Labs) |
| サイズ | 4B (10 GB bf16) |
| ステップ数 | 4 |
| 蒸留 | ✅ (4-step 蒸留) |
| 1枚あたり生成時間 (M1 Max 64GB / MPS) | 約 1.5 分 (4 step / 1024px / MPS) |
| HF gated repo | ❌ 申請不要 (HuggingFace で誰でも DL 可) |
| ライセンス | Apache 2.0 (商用利用可) |
from diffusers import Flux2KleinPipeline
import torch
pipe = Flux2KleinPipeline.from_pretrained(
"black-forest-labs/FLUX.2-klein-4B",
torch_dtype=torch.bfloat16,
).to("mps")
image = pipe(prompt="...", num_inference_steps=4,
height=1024, width=1024).images[0]
wired_limit: Mac で MPS バックエンドを使い大型モデルを動かす場合、
sudo sysctl iogpu.wired_limit_mb=61440(60GB) を毎回設定する (再起動でリセット)。
2. 12カ国比較グリッド
参考画像 (最上段、緑帯) が Gemini API、その下が FLUX.2 klein 4B + 他 6 ローカルモデル。本記事の対象は FLUX.2 klein 4B 行。クリックで原寸表示。
母艦記事の結果マトリックス で、このモデルが全体のどこに位置するかを確認できる。
3. 国別の挙動 (Gemini 2.5 Pro Vision 評価ベース)
3.1 強い国 (cultural_accuracy 平均 ≥ 2.0)
- Japan — CA 2.40 (
aabbb) - Germany — CA 2.00 (
bbbbb)
3.2 中庸の国 (1.0 ≤ ca < 2.0)
- USA — CA 1.40 (
bbccc) - Mexico — CA 1.40 (
bbccc) - Brazil — CA 1.40 (
bbccc) - Vietnam — CA 1.40 (
bbccc) - Thailand — CA 1.20 (
bcccc) - Nigeria — CA 1.20 (
bcccc) - India — CA 1.00 (
ccccc)
3.3 弱い国 (ca < 1.0)
- Korea — CA 0.80 (
ccccd) - Lebanon — CA 0.80 (
ccccd) - Italy — CA 0.60 (
bcddd)
4. 失敗型の特徴
このモデルの 60 件評価で観察された失敗型の分布:
| 型 | 件数 | 特徴 |
|---|---|---|
| α 異文化 garnish ライブラリ混入 | 6 | 異文化のハーブ・ソース・食器を混入 |
| β 視覚類似カテゴリ引き寄せ | 27 | 視覚的に似た別カテゴリへ統計的に引き寄せ |
| γ 整列癖 (パレイドリア) | 2 | 要素が幾何学的に整いすぎる |
| mixed 複合 | 14 | 複数の失敗型が複合 |
| none 大きな失敗なし | 11 | — |
代表的な失敗事例
Italy / risotto Milanese (d/2, beta) — 「主原料が米ではなく、松の実やパスタのような全く別の食材に置き換わっており、参考画像とは根本的に異なる料理になっているため。」

Korea / japchae (d/4, beta) — 「チャプチェの最も本質的な要素であるサツマイモのでんぷん麺がスパゲッティのような全く別の麺に置き換わっており、これはもはやチャプチェではなく、別の創作炒め麺料理です。」

Lebanon / kibbeh (d/4, beta) — 「ひき肉と穀物という構成要素は共通していますが、参考画像にあるようなペースト状の生地ではなく、ミートボールとクスクスのサラダという完全に別ジャンルの料理になってしまっています。」

Italy / osso buco (d/5, beta) — 「オッソ・ブーコ(仔牛すね肉の輪切り煮込み)をリクエストしたにもかかわらず、ラムシャンク(仔羊すね肉の煮込み)のような視覚的に類似した別の料理を生成してしまった。参考画像にあるべき「骨の穴」が完全に欠落している。」

5. 観光客目線 vs 現地目線の逆転事例
「見た目は美味しそう (visual_appeal ≥ 4) なのに、現地目線では文化的にキメラ (cultural_accuracy = c/d)」というギャップの大きい事例:
Italy / osso buco (見栄え 5/5、文化的再現度 d) — 「オッソ・ブーコ(仔牛すね肉の輪切り煮込み)をリクエストしたにもかかわらず、ラムシャンク(仔羊すね肉の煮込み)のような視覚的に類似した別の料理を生成してしまった。参考画像にあるべき「骨の穴」が完全に欠落している。」

Italy / Sicilian cannoli (見栄え 5/5、文化的再現度 d) — 「カンノーロの最も本質的な特徴である「筒状の揚げ菓子」という形状が完全に失われ、リング状のタルトレットという全く別の菓子になっているため。」

USA / Texas BBQ brisket (見栄え 5/5、文化的再現度 c) — 「メインのブリスケットが、参考画像にあるようなスモーク調理ではなくグリル調理されたステーキのように見え、本質的な特徴を欠いている。また、付け合わせもピクルスではなくキュウリであるなど、細部に違いが見られる。」

6. 推奨用途・避けたい用途
✅ 推奨
- 高速・軽量: 4-step / 10GB で 1.5 分/枚。試行錯誤に向く
- 観光地メジャー料理: Japan ramen / katsu curry など描きやすい題材では a/b 域
- 商用利用可: Apache 2.0
⛔ 避けたい
- 形状特定要件の厳しい料理: 4-step の極端な圧縮で、Italy で本検証唯一の 🔴 (完全失敗) — risotto の米粒 / osso buco の骨の穴 / cannoli の筒状が崩壊
- 同じ蒸留でも 8-step の Z-Image Turbo は耐える。4-step は崩壊する境界線
モデル選択の早見表
母艦記事 ch.5.1 のモデル選択表と合わせて読む。本モデルの位置づけ:
- 蒸留率が極端 (4-step) — 速いが形状特定で破綻するリスク
- 観光地メジャー料理なら蒸留版で十分、というユースケースの代表
7. 関連記事
- 母艦: AI が描く各国料理 — 8モデル × 12カ国で比較してみた
- 他モデルの単独レビュー: v1 Flux.1 dev / v2 FLUX.2 klein 4B / v3 Z-Image Turbo / v4 Z-Image Base / v5 Qwen-Image Lightning / v6 ERNIE-Image Turbo / v7 ERNIE-Image Full (各記事末尾の母艦記事からたどれる)
- 前作: note/07 — Mac でローカル画像生成 10モデル比較したら、最強候補が裏返った
