ERNIE-Image Full で 12カ国の料理を描かせて見えたもの

本記事は AI が描く各国料理 — 8モデル × 12カ国で比較してみた のスピンオフ、各モデル単独レビューの v7

母艦記事では 8モデル × 12カ国 = 96 国別評価セルの全体俯瞰を扱う。本記事はその中の ERNIE-Image Full だけを 60 プロンプト全部について Gemini 2.5 Pro Vision で評価した詳細を載せる。

TL;DR

  • ERNIE-Image Full は ERNIE-Image の非蒸留版 8B。50-step で生成は遅い (約 45 分/枚) が、蒸留版の Turbo を上回る。
  • 60 プロンプト (12カ国 × 5料理) を生成、Gemini API 出力を 現地正解基準として比較評価
  • 文化的再現度 (cultural_accuracy): 平均 1.33 / 3.0
  • 観光客目線の見栄え (visual_appeal): 平均 4.47 / 5.0
  • 失敗型の主成分: 複数の失敗型が複合 (mixed 22件)
  • 強い国: Japan
  • 弱い国: Nigeria
  • 推奨用途: ERNIE 系でクオリティ優先するなら
  • 避けたい用途: 速度が要る用途 (45 分/枚は実用上かなり重い)

1. 生成環境

項目
アーキテクチャ DiT (ERNIE-Image, Baidu)
サイズ 8B DiT (30 GB)
ステップ数 50
蒸留 ❌ (ベース版)
1枚あたり生成時間 (M1 Max 64GB / MPS) 約 45 分 (50 step / 1024px / MPS)
HF gated repo ❌ 申請不要
ライセンス open weights
from diffusers import ErnieImagePipeline
import torch

pipe = ErnieImagePipeline.from_pretrained(
    "baidu/ERNIE-Image",
    torch_dtype=torch.bfloat16,
).to("mps")

image = pipe(prompt="...", num_inference_steps=50,
             height=1024, width=1024).images[0]

wired_limit: Mac で MPS バックエンドを使い大型モデルを動かす場合、sudo sysctl iogpu.wired_limit_mb=61440 (60GB) を毎回設定する (再起動でリセット)。

2. 12カ国比較グリッド

参考画像 (最上段、緑帯) が Gemini API、その下が ERNIE-Image Full + 他 6 ローカルモデル。本記事の対象は ERNIE-Image Full 行。クリックで原寸表示。

ERNIE-Image Full — 12カ国 × 5料理 (Gemini reference 行つき)

母艦記事の結果マトリックス で、このモデルが全体のどこに位置するかを確認できる。

3. 国別の挙動 (Gemini 2.5 Pro Vision 評価ベース)

3.1 強い国 (cultural_accuracy 平均 ≥ 2.0)

  • Japan — CA 2.40 (aabbb)

3.2 中庸の国 (1.0 ≤ ca < 2.0)

  • Germany — CA 1.60 (bbbcc)
  • USA — CA 1.40 (bbccc)
  • Mexico — CA 1.40 (bbccc)
  • Korea — CA 1.40 (bbccc)
  • Thailand — CA 1.40 (bbccc)
  • Italy — CA 1.20 (bbccd)
  • Vietnam — CA 1.20 (bbccd)
  • Lebanon — CA 1.20 (bcccc)
  • Brazil — CA 1.00 (ccccc)
  • India — CA 1.00 (ccccc)

3.3 弱い国 (ca < 1.0)

  • Nigeria — CA 0.80 (ccccd)

4. 失敗型の特徴

このモデルの 60 件評価で観察された失敗型の分布:

件数 特徴
α 異文化 garnish ライブラリ混入 17 異文化のハーブ・ソース・食器を混入
β 視覚類似カテゴリ引き寄せ 15 視覚的に似た別カテゴリへ統計的に引き寄せ
γ 整列癖 (パレイドリア) 1 要素が幾何学的に整いすぎる
mixed 複合 22 複数の失敗型が複合
none 大きな失敗なし 5

代表的な失敗事例

Vietnam / banh xeo (d/4, beta) — 「バインセオの特徴である「大きなクレープ」という形状を完全に失い、揚げ餃子という全く別のジャンルの料理に変化してしまっているため。」

Gemini reference ERNIE-Image Full output

Italy / osso buco (d/4, beta) — 「「骨付き肉とリゾット」という表層的な特徴は捉えているものの、オッソ・ブーコの本体である「仔牛すね肉の煮込み」ではなく、ラムチョップのローストのような完全に別の料理になってしまっている。」

Gemini reference ERNIE-Image Full output

Nigeria / egusi soup (d/5, beta) — 「エグシを「すり潰して」スープにするという調理法を理解できず、「種(seed)のスープ」という視覚的に類似した別カテゴリの料理(レンズ豆のスープなど)に引き寄せられてしまった。」

Gemini reference ERNIE-Image Full output

Brazil / coxinha (c/3, mixed) — 「コキーニャの基本形は保っているものの、ローズマリーという異文化のハーブが混入している。また、参考画像と比較して、衣の質感やフィリングのクリーミーさが全く異なり、別の料理に見える。」

Gemini reference ERNIE-Image Full output

5. 観光客目線 vs 現地目線の逆転事例

見た目は美味しそう (visual_appeal ≥ 4) なのに、現地目線では文化的にキメラ (cultural_accuracy = c/d)」というギャップの大きい事例:

Nigeria / egusi soup (見栄え 5/5、文化的再現度 d) — 「エグシを「すり潰して」スープにするという調理法を理解できず、「種(seed)のスープ」という視覚的に類似した別カテゴリの料理(レンズ豆のスープなど)に引き寄せられてしまった。」

Gemini reference ERNIE-Image Full output

USA / California Cobb salad (見栄え 5/5、文化的再現度 c) — 「ドライクランベリー等の非伝統的な食材が混入し、参考画像にあるような列状の盛り付けが再現されていないため、これは「コブサラダ」ではなく、別の創作アメリカンサラダ(キメラ)と見なせます。」

Gemini reference ERNIE-Image Full output

Korea / bulgogi (見栄え 5/5、文化的再現度 c) — 「ブルゴギの基本要素である「タレで焼いた牛肉」は表現できているが、肉の切り方や、フラットブレッド、コリアンダー、西洋風のソースなど、多国籍な要素が混入しており、参考画像のような伝統的な韓国料理とは言い難い。」

Gemini reference ERNIE-Image Full output

6. 推奨用途・避けたい用途

✅ 推奨

  • ERNIE 系での品質優先: 蒸留版 Turbo より CA で上回る (1.33 > Turbo 1.18)
  • visual_appeal も高い (4.47)

⛔ 避けたい

  • 速度: 50-step / 約 45 分/枚。本検証で最も遅い。実用上のバッチ生成には厳しい
  • 非蒸留でも中華圏 garnish の混入癖 (α 型 17/60) は残る — Turbo より α が多いのは「訓練データに忠実」な裏返し

モデル選択の早見表

母艦記事 ch.5.1 のモデル選択表と合わせて読む。本モデルの位置づけ:

  • 非蒸留 > 蒸留が ERNIE 系でも確認できる (Full 1.31 > Turbo 1.18)
  • ただし速度コストが極端 — 品質差 +0.13 のために 5 倍以上の時間

7. 関連記事