ERNIE-Image Turbo で 12カ国の料理を描かせて見えたもの

本記事は AI が描く各国料理 — 8モデル × 12カ国で比較してみた のスピンオフ、各モデル単独レビューの v6

母艦記事では 8モデル × 12カ国 = 96 国別評価セルの全体俯瞰を扱う。本記事はその中の ERNIE-Image Turbo だけを 60 プロンプト全部について Gemini 2.5 Pro Vision で評価した詳細を載せる。

TL;DR

  • ERNIE-Image Turbo は Baidu 🇨🇳 の 8B DiT 蒸留版。8-step。中華圏の garnish (緑ソース・生キャベツ等) を他国料理に混入する癖がある。
  • 60 プロンプト (12カ国 × 5料理) を生成、Gemini API 出力を 現地正解基準として比較評価
  • 文化的再現度 (cultural_accuracy): 平均 1.18 / 3.0
  • 観光客目線の見栄え (visual_appeal): 平均 4.53 / 5.0
  • 失敗型の主成分: 複数の失敗型が複合 (mixed 33件)
  • 強い国: Japan
  • 弱い国: Lebanon, Nigeria
  • 推奨用途: visual_appeal 重視のラフ生成
  • 避けたい用途: 非中華圏の料理 (中華 garnish 混入)

1. 生成環境

項目
アーキテクチャ DiT (ERNIE-Image, Baidu)
サイズ 8B DiT (30 GB)
ステップ数 8
蒸留 ✅ (8-step 蒸留)
1枚あたり生成時間 (M1 Max 64GB / MPS) 約 8 分 (8 step / 1024px / MPS)
HF gated repo ❌ 申請不要
ライセンス open weights
from diffusers import ErnieImagePipeline
import torch

pipe = ErnieImagePipeline.from_pretrained(
    "baidu/ERNIE-Image-Turbo",
    torch_dtype=torch.bfloat16,
).to("mps")

image = pipe(prompt="...", num_inference_steps=8,
             height=1024, width=1024).images[0]

wired_limit: Mac で MPS バックエンドを使い大型モデルを動かす場合、sudo sysctl iogpu.wired_limit_mb=61440 (60GB) を毎回設定する (再起動でリセット)。

2. 12カ国比較グリッド

参考画像 (最上段、緑帯) が Gemini API、その下が ERNIE-Image Turbo + 他 6 ローカルモデル。本記事の対象は ERNIE-Image Turbo 行。クリックで原寸表示。

ERNIE-Image Turbo — 12カ国 × 5料理 (Gemini reference 行つき)

母艦記事の結果マトリックス で、このモデルが全体のどこに位置するかを確認できる。

3. 国別の挙動 (Gemini 2.5 Pro Vision 評価ベース)

3.1 強い国 (cultural_accuracy 平均 ≥ 2.0)

  • Japan — CA 2.00 (abbbc)

3.2 中庸の国 (1.0 ≤ ca < 2.0)

  • Italy — CA 1.60 (bbbcc)
  • USA — CA 1.40 (bbccc)
  • Germany — CA 1.40 (bbccc)
  • India — CA 1.20 (bcccc)
  • Mexico — CA 1.00 (ccccc)
  • Brazil — CA 1.00 (ccccc)
  • Korea — CA 1.00 (ccccc)
  • Thailand — CA 1.00 (ccccc)
  • Vietnam — CA 1.00 (ccccc)

3.3 弱い国 (ca < 1.0)

  • Lebanon — CA 0.80 (ccccd)
  • Nigeria — CA 0.80 (ccccd)

4. 失敗型の特徴

このモデルの 60 件評価で観察された失敗型の分布:

件数 特徴
α 異文化 garnish ライブラリ混入 6 異文化のハーブ・ソース・食器を混入
β 視覚類似カテゴリ引き寄せ 16 視覚的に似た別カテゴリへ統計的に引き寄せ
γ 整列癖 (パレイドリア) 1 要素が幾何学的に整いすぎる
mixed 複合 33 複数の失敗型が複合
none 大きな失敗なし 4

代表的な失敗事例

Nigeria / egusi soup (d/4, mixed) — 「生成画像は黒豆のシチューであり、すり潰したメロンの種でつくる黄色いエグシスープ(参考画像)とは主材料、色、調理法すべてが異なる完全な別料理です。ラテンアメリカのフェイジョアーダなどに近いです。」

Gemini reference ERNIE-Image Turbo output

Lebanon / kibbeh (d/5, beta) — 「参考画像にあるような、挽き肉とブルグルを混ぜて作るキッベではなく、薄切りの生肉(カルパッチョ)が描かれており、料理のジャンルが完全に異なっているため。」

Gemini reference ERNIE-Image Turbo output

Korea / bibimbap (c/4, alpha) — 「ビビンバの基本的な形式は捉えているものの、韓国料理では通常用いないパクチーが加えられ、必須要素のコチュジャンが欠けているため、参考画像とは異なり、他文化と混ざったキメラ的な料理になっている。」

Gemini reference ERNIE-Image Turbo output

Thailand / pad thai (c/4, beta) — 「パッタイの最も重要な要素である平たい米麺ではなく、見た目が似た別種の細い中華麺のようなものが使われており、料理のアイデンティティが曖昧になっている。」

Gemini reference ERNIE-Image Turbo output

5. 観光客目線 vs 現地目線の逆転事例

見た目は美味しそう (visual_appeal ≥ 4) なのに、現地目線では文化的にキメラ (cultural_accuracy = c/d)」というギャップの大きい事例:

Lebanon / kibbeh (見栄え 5/5、文化的再現度 d) — 「参考画像にあるような、挽き肉とブルグルを混ぜて作るキッベではなく、薄切りの生肉(カルパッチョ)が描かれており、料理のジャンルが完全に異なっているため。」

Gemini reference ERNIE-Image Turbo output

USA / NY pizza (見栄え 5/5、文化的再現度 c) — 「生地が厚く焦げ目がある点や生のトマトを乗せる点など、NYピザではなくナポリピッツァやグルメピザの特徴が強く出てしまっている。参考画像のような薄い生地のシンプルなピザとはスタイルが異なる。」

Gemini reference ERNIE-Image Turbo output

USA / New England clam chowder (見栄え 5/5、文化的再現度 c) — 「ブレッドボウルという器は正しいものの、ニューイングランド・クラムチャウダーの最も重要な特徴であるクリームベースの白いスープが再現されておらず、茶色いスープと殻付きクラムという別料理の要素が混入している。」

Gemini reference ERNIE-Image Turbo output

6. 推奨用途・避けたい用途

✅ 推奨

  • 見栄え: visual_appeal は全モデル中最高クラス (4.53)
  • 中華圏の食卓表現は得意

⛔ 避けたい

  • 非中華圏の料理: mixed 型失敗が突出 (33/60)。パクチー・ゴマ・箸・緑ソースなど中華圏 garnish を他国料理に混入する典型癖
  • 蒸留版なので非蒸留の ERNIE Full より一段低い (CA 1.18)

モデル選択の早見表

母艦記事 ch.5.1 のモデル選択表と合わせて読む。本モデルの位置づけ:

  • 中華圏 garnish ライブラリの混入が α/mixed 型として頻発
  • 同じ ERNIE 系でも Full (非蒸留) に負ける — 蒸留で文化知識が削げる実例

7. 関連記事