Flux.1 dev で 12カ国の料理を描かせて見えたもの

本記事は AI が描く各国料理 — 8モデル × 12カ国で比較してみた のスピンオフ、各モデル単独レビューの v1

母艦記事では 8モデル × 12カ国 = 96 国別評価セルの全体俯瞰を扱う。本記事はその中の Flux.1 dev だけを 60 プロンプト全部について Gemini 2.5 Pro Vision で評価した詳細を載せる。

TL;DR

  • Flux.1 dev は Black Forest Labs 🇩🇪 の DiT 系 12B。写実度はローカルトップクラス (note/07 でも検証済み) だが、文化的再現度は本検証で最下位。
  • 60 プロンプト (12カ国 × 5料理) を生成、Gemini API 出力を 現地正解基準として比較評価
  • 文化的再現度 (cultural_accuracy): 平均 1.12 / 3.0
  • 観光客目線の見栄え (visual_appeal): 平均 4.03 / 5.0
  • 失敗型の主成分: 視覚的に似た別カテゴリの料理に引き寄せられる (beta 32件)
  • 強い国: (該当なし)
  • 弱い国: Korea, Thailand, India, Lebanon
  • 推奨用途: 写実的な欧米メジャー料理、note/07 系の用途
  • 避けたい用途: 観光メディアの薄い文化圏 (東南アジア / 西アフリカ / 中東)

1. 生成環境

項目
アーキテクチャ DiT (Flux family, Black Forest Labs)
サイズ 12B (23 GB bf16)
ステップ数 28
蒸留 ❌ (ベース版)
1枚あたり生成時間 (M1 Max 64GB / MPS) 約 12 分 (28 step / 1024px / MPS)
HF gated repo ✅ 要申請 (HuggingFace black-forest-labs/FLUX.1-dev の access 申請)
ライセンス Flux Non-Commercial
from diffusers import FluxPipeline
import torch

pipe = FluxPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-dev",
    torch_dtype=torch.bfloat16,
).to("mps")

image = pipe(prompt="...", num_inference_steps=28,
             guidance_scale=3.5, height=1024, width=1024).images[0]

wired_limit: Mac で MPS バックエンドを使い大型モデルを動かす場合、sudo sysctl iogpu.wired_limit_mb=61440 (60GB) を毎回設定する (再起動でリセット)。

2. 12カ国比較グリッド

参考画像 (最上段、緑帯) が Gemini API、その下が Flux.1 dev + 他 6 ローカルモデル。本記事の対象は Flux.1 dev 行。クリックで原寸表示。

Flux.1 dev — 12カ国 × 5料理 (Gemini reference 行つき)

母艦記事の結果マトリックス で、このモデルが全体のどこに位置するかを確認できる。

3. 国別の挙動 (Gemini 2.5 Pro Vision 評価ベース)

3.1 強い国 (cultural_accuracy 平均 ≥ 2.0)

  • (該当国なし)

3.2 中庸の国 (1.0 ≤ ca < 2.0)

  • Germany — CA 1.80 (bbbbc)
  • USA — CA 1.40 (bbccc)
  • Italy — CA 1.40 (bbbcd)
  • Brazil — CA 1.40 (bbccc)
  • Japan — CA 1.20 (bbccd)
  • Vietnam — CA 1.20 (bcccc)
  • Mexico — CA 1.00 (ccccc)
  • Nigeria — CA 1.00 (ccccc)

3.3 弱い国 (ca < 1.0)

  • Korea — CA 0.80 (ccccd)
  • Thailand — CA 0.80 (ccccd)
  • Lebanon — CA 0.80 (ccccd)
  • India — CA 0.60 (cccdd)

4. 失敗型の特徴

このモデルの 60 件評価で観察された失敗型の分布:

件数 特徴
α 異文化 garnish ライブラリ混入 4 異文化のハーブ・ソース・食器を混入
β 視覚類似カテゴリ引き寄せ 32 視覚的に似た別カテゴリへ統計的に引き寄せ
γ 整列癖 (パレイドリア) 1 要素が幾何学的に整いすぎる
mixed 複合 22 複数の失敗型が複合
none 大きな失敗なし 1

代表的な失敗事例

Japan / onigiri (d/4, mixed) — 「おにぎりの必須要素であるご飯が見当たらず、生の魚介を海苔で巻いた寿司のような全く別の料理になっているため。参考画像のような「ご飯と具材でできた軽食」という本質から外れている。」

Gemini reference Flux.1 dev output

Korea / japchae (d/4, beta) — 「チャプチェの最も重要な特徴である半透明の春雨(タンミョン)が、オレンジ色の太い麺に置き換わっており、参考画像とは全く異なる別の麺料理になってしまっている。」

Gemini reference Flux.1 dev output

Thailand / mango sticky rice (d/4, beta) — 「料理の根幹をなす「もち米」が全く別の穀物に置き換わっており、マンゴー・スティッキーライスとは呼べない別ジャンルの料理になっています。」

Gemini reference Flux.1 dev output

India / masala dosa (d/4, beta) — 「参考画像にあるような薄くクリスピーな生地を巻いた「マサラ・ドーサ」ではなく、パラタやウッタパムのような別の種類のインドのパンを描いており、完全に別ジャンルの料理になっている。」

Gemini reference Flux.1 dev output

5. 観光客目線 vs 現地目線の逆転事例

見た目は美味しそう (visual_appeal ≥ 4) なのに、現地目線では文化的にキメラ (cultural_accuracy = c/d)」というギャップの大きい事例:

Lebanon / kibbeh (見栄え 5/5、文化的再現度 d) — 「料理の主体が、参考画像にあるようなペースト状のキッベとは全く異なる、平たいパティ状の別の料理(コフタなど)に完全に変化してしまっているため。」

Gemini reference Flux.1 dev output

Lebanon / fattoush salad (見栄え 5/5、文化的再現度 c) — 「野菜の構成は概ね正しいものの、最も特徴的な揚げパンが、参考画像にあるピタパンではなく、視覚的に類似したトルティーヤチップスに置き換わっており、別文化の要素が混入しているため。」

Gemini reference Flux.1 dev output

Nigeria / suya (見栄え 5/5、文化的再現度 c) — 「スヤの構成要素である串肉、玉ねぎ、新聞紙は描かれているものの、最も重要な肉の形状(薄切り)と味付け(乾燥スパイス)が完全に異なり、肉団子のような別の料理になっているため。」

Gemini reference Flux.1 dev output

6. 推奨用途・避けたい用途

✅ 推奨

  • 欧米のメジャー料理: USA / Italy のホームタウン圏では b 域に届く
  • 写実度・質感重視: visual_appeal は安定して高い (note/07 でも実証)

⛔ 避けたい

  • 観光メディアの薄い文化圏: 全モデル中最下位 (CA 1.12)。India / Korea / Thailand / Vietnam で c/d 多発
  • 形状特定要件の厳しい料理: β 型 (視覚類似カテゴリ引き寄せ) が突出 (29/60)

モデル選択の早見表

母艦記事 ch.5.1 のモデル選択表と合わせて読む。本モデルの位置づけ:

  • 写実度は高いが文化的再現度は最下位 — 「綺麗だが間違っている」の典型
  • ベース版 (非蒸留) だが、訓練データの欧米偏重が他の中系ベース版より強い

7. 関連記事