Z-Image Base で 12カ国の料理を描かせて見えたもの

本記事は AI が描く各国料理 — 8モデル × 12カ国で比較してみた のスピンオフ、各モデル単独レビューの v4

母艦記事では 8モデル × 12カ国 = 96 国別評価セルの全体俯瞰を扱う。本記事はその中の Z-Image Base だけを 60 プロンプト全部について Gemini 2.5 Pro Vision で評価した詳細を載せる。

TL;DR

  • Z-Image Base は Z-Image の非蒸留版 6B。30-step で本検証の総合トップ。文化知識の保持力が全モデル中最強。
  • 60 プロンプト (12カ国 × 5料理) を生成、Gemini API 出力を 現地正解基準として比較評価
  • 文化的再現度 (cultural_accuracy): 平均 1.78 / 3.0
  • 観光客目線の見栄え (visual_appeal): 平均 4.05 / 5.0
  • 失敗型の主成分: 視覚的に似た別カテゴリの料理に引き寄せられる (beta 19件)
  • 強い国: USA, Italy, Germany, Mexico, Japan, Korea, Thailand, India
  • 弱い国: Nigeria
  • 推奨用途: 文化的正確性を最優先する用途、少数派カテゴリの料理
  • 避けたい用途: 速度最優先のバッチ生成 (5 分/枚)

1. 生成環境

項目
アーキテクチャ DiT (Z-Image family, Alibaba Tongyi Lab)
サイズ 6B (bf16)
ステップ数 30
蒸留 ❌ (ベース版)
1枚あたり生成時間 (M1 Max 64GB / MPS) 約 5 分 (30 step / 1024px / MPS)
HF gated repo ❌ 申請不要
ライセンス Apache 2.0 (商用利用可)
from diffusers import ZImagePipeline
import torch

pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
).to("mps")

image = pipe(prompt="...", num_inference_steps=30,
             height=1024, width=1024).images[0]

wired_limit: Mac で MPS バックエンドを使い大型モデルを動かす場合、sudo sysctl iogpu.wired_limit_mb=61440 (60GB) を毎回設定する (再起動でリセット)。

2. 12カ国比較グリッド

参考画像 (最上段、緑帯) が Gemini API、その下が Z-Image Base + 他 6 ローカルモデル。本記事の対象は Z-Image Base 行。クリックで原寸表示。

Z-Image Base — 12カ国 × 5料理 (Gemini reference 行つき)

母艦記事の結果マトリックス で、このモデルが全体のどこに位置するかを確認できる。

3. 国別の挙動 (Gemini 2.5 Pro Vision 評価ベース)

3.1 強い国 (cultural_accuracy 平均 ≥ 2.0)

  • USA — CA 2.00 (bbbbb)
  • Italy — CA 2.00 (abbbc)
  • Germany — CA 2.00 (abbbc)
  • Mexico — CA 2.00 (bbbbb)
  • Japan — CA 2.00 (abbbc)
  • Korea — CA 2.00 (abbbc)
  • Thailand — CA 2.00 (bbbbb)
  • India — CA 2.00 (bbbbb)

3.2 中庸の国 (1.0 ≤ ca < 2.0)

  • Vietnam — CA 1.80 (bbbbc)
  • Brazil — CA 1.60 (bbbcc)
  • Lebanon — CA 1.20 (bcccc)

3.3 弱い国 (ca < 1.0)

  • Nigeria — CA 0.80 (ccccd)

4. 失敗型の特徴

このモデルの 60 件評価で観察された失敗型の分布:

件数 特徴
α 異文化 garnish ライブラリ混入 13 異文化のハーブ・ソース・食器を混入
β 視覚類似カテゴリ引き寄せ 19 視覚的に似た別カテゴリへ統計的に引き寄せ
γ 整列癖 (パレイドリア) 3 要素が幾何学的に整いすぎる
mixed 複合 3 複数の失敗型が複合
none 大きな失敗なし 22

代表的な失敗事例

Nigeria / egusi soup (d/2, beta) — 「エグシ・スープの定義である「すり潰したメロンの種でとろみをつけたスープ」という本質が完全に失われています。参考画像とは異なり、これは全く別の種類の「肉と野菜のスープ」になってしまっています。」

Gemini reference Z-Image Base output

Japan / onigiri (c/2, alpha) — 「おにぎりの形状は正しいものの、中身の具材が日本の食文化では見られない奇妙な組み合わせであり、参考画像の伝統的な具材とは全く異なるためキメラ(合成獣)的な印象を与える。」

Gemini reference Z-Image Base output

Korea / bulgogi (c/3, alpha) — 「メインのプルコギは認識できているものの、メキシコ料理で使われるトルティーヤが添えられており、異文化要素が混入したキメラ状態になっている。参考画像のように、米飯や複数のパンチャン(おかず)と共に提供されるのが伝統的なスタイルである。」

Gemini reference Z-Image Base output

Nigeria / suya (c/3, mixed) — 「ナイジェリアの串焼き料理という大枠は正しいものの、肉が薄切りでなくひき肉状である点や、金属串の使用、粒状ピーナッツのトッピングなど、参考画像と比較して中東のコフタなど別文化のカバブの特徴が混入したキメラ状態になっている。」

Gemini reference Z-Image Base output

5. 観光客目線 vs 現地目線の逆転事例

見た目は美味しそう (visual_appeal ≥ 4) なのに、現地目線では文化的にキメラ (cultural_accuracy = c/d)」というギャップの大きい事例:

Vietnam / bun cha (見栄え 4/5、文化的再現度 c) — 「ブンチャーの構成要素は描けているものの、麺と具材をつけ汁につけて食べるという最も重要な食文化を理解しておらず、一般的なベトナムの麺料理(フォーなど)の形式に引きずられています。」

Gemini reference Z-Image Base output

Lebanon / mezze platter (見栄え 4/5、文化的再現度 c) — 「フムスやタブーリなど基本要素はレバノン料理として正しいですが、とびこ(魚卵)のような日本料理の食材がトッピングされており、異文化要素が明確に混入しています。参考画像ではザクロやスパイスが使われており、これが本来的です。」

Gemini reference Z-Image Base output

Lebanon / chicken shawarma (見栄え 4/5、文化的再現度 c) — 「参考画像にあるレバンティン料理特有のピンク色のピクルスや白いニンニクソース(トゥーム)がなく、代わりに赤玉ねぎのピクルスやフムスのようなディップが使われており、別地域の料理要素が混入したキメラ状態になっている。」

Gemini reference Z-Image Base output

6. 推奨用途・避けたい用途

✅ 推奨

  • 本検証の総合トップ (CA 1.78)。12 国中 7 国で平均 b 域
  • 少数派カテゴリに強い: おにぎり等の日常食でも崩れにくい
  • 商用利用可: Apache 2.0

⛔ 避けたい

  • 速度最優先用途: 30-step / 5 分/枚。大量バッチには向かない (その場合 Turbo)
  • 観光メディアの極端に薄い Lebanon / Nigeria はベース版でも c 域

モデル選択の早見表

母艦記事 ch.5.1 のモデル選択表と合わせて読む。本モデルの位置づけ:

  • 非蒸留ベース版が文化知識を保持する代表モデル
  • 「文化的正確性 vs 速度」のトレードオフで、正確性側の最適解

7. 関連記事