Z-Image Turbo で 12カ国の料理を描かせて見えたもの
本記事は AI が描く各国料理 — 8モデル × 12カ国で比較してみた のスピンオフ、各モデル単独レビューの v3。
母艦記事では 8モデル × 12カ国 = 96 国別評価セルの全体俯瞰を扱う。本記事はその中の Z-Image Turbo だけを 60 プロンプト全部について Gemini 2.5 Pro Vision で評価した詳細を載せる。
TL;DR
- Z-Image Turbo は Alibaba Tongyi Lab 🇨🇳 の 6B 蒸留版。8-step で高速かつバランスが良く、本検証で総合 2 位。
- 60 プロンプト (12カ国 × 5料理) を生成、Gemini API 出力を 現地正解基準として比較評価
- 文化的再現度 (cultural_accuracy): 平均 1.63 / 3.0
- 観光客目線の見栄え (visual_appeal): 平均 4.32 / 5.0
- 失敗型の主成分: 視覚的に似た別カテゴリの料理に引き寄せられる (beta 19件)
- 強い国: Germany, Japan, Korea, Thailand
- 弱い国: (該当なし)
- 推奨用途: 速度と文化的再現度のバランス型、東アジア料理
- 避けたい用途: 観光メディアの極端に薄い文化圏 (Lebanon / Nigeria)
1. 生成環境
| 項目 | 値 |
|---|---|
| アーキテクチャ | DiT (Z-Image family, Alibaba Tongyi Lab) |
| サイズ | 6B (bf16) |
| ステップ数 | 8 |
| 蒸留 | ✅ (8-step 蒸留) |
| 1枚あたり生成時間 (M1 Max 64GB / MPS) | 約 1 分 (8 step / 1024px / MPS) |
| HF gated repo | ❌ 申請不要 |
| ライセンス | Apache 2.0 (商用利用可) |
from diffusers import ZImagePipeline
import torch
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False,
).to("mps")
image = pipe(prompt="...", num_inference_steps=8,
height=1024, width=1024).images[0]
wired_limit: Mac で MPS バックエンドを使い大型モデルを動かす場合、
sudo sysctl iogpu.wired_limit_mb=61440(60GB) を毎回設定する (再起動でリセット)。
2. 12カ国比較グリッド
参考画像 (最上段、緑帯) が Gemini API、その下が Z-Image Turbo + 他 6 ローカルモデル。本記事の対象は Z-Image Turbo 行。クリックで原寸表示。
母艦記事の結果マトリックス で、このモデルが全体のどこに位置するかを確認できる。
3. 国別の挙動 (Gemini 2.5 Pro Vision 評価ベース)
3.1 強い国 (cultural_accuracy 平均 ≥ 2.0)
- Germany — CA 2.00 (
bbbbb) - Japan — CA 2.00 (
bbbbb) - Korea — CA 2.00 (
bbbbb) - Thailand — CA 2.00 (
bbbbb)
3.2 中庸の国 (1.0 ≤ ca < 2.0)
- USA — CA 1.80 (
bbbbc) - Mexico — CA 1.60 (
bbbcc) - Brazil — CA 1.60 (
bbbcc) - Vietnam — CA 1.60 (
bbbcc) - Italy — CA 1.40 (
bbccc) - India — CA 1.40 (
bbccc) - Lebanon — CA 1.20 (
bcccc) - Nigeria — CA 1.00 (
bcccd)
3.3 弱い国 (ca < 1.0)
- (該当国なし)
4. 失敗型の特徴
このモデルの 60 件評価で観察された失敗型の分布:
| 型 | 件数 | 特徴 |
|---|---|---|
| α 異文化 garnish ライブラリ混入 | 7 | 異文化のハーブ・ソース・食器を混入 |
| β 視覚類似カテゴリ引き寄せ | 19 | 視覚的に似た別カテゴリへ統計的に引き寄せ |
| γ 整列癖 (パレイドリア) | 0 | 要素が幾何学的に整いすぎる |
| mixed 複合 | 10 | 複数の失敗型が複合 |
| none 大きな失敗なし | 24 | — |
代表的な失敗事例
Nigeria / pounded yam with soup (d/4, beta) — 「料理の主役である「パウンデッドヤム」が、見た目が少し似ている黄色い粒状の炭水化物(クスクスなど)に置き換わっており、全く別の料理になってしまっている。」

India / samosa (c/3, beta) — 「サモサの形状が、参考画像のような閉じた三角形ではなく、上部が開いた円錐形になっており、文化的・調理的に不正確です。また、具材もマッシュされず大きな塊のままである点が異なります。」

Nigeria / akara (c/3, beta) — 「アカラの表面に調理前の豆が多数付着しており、本来の製法とは全く異なるキメラ的な料理になっている。参考画像のような滑らかな生地の質感とは大きく異なる。」

Brazil / pao de queijo (c/3, beta) — 「参考画像が持つ本来の「焼いたパン」の質感や不規則な形状とは異なり、揚げ菓子のような見た目になっているため、パン・デ・ケイジョとは別の料理に見える。」

5. 観光客目線 vs 現地目線の逆転事例
「見た目は美味しそう (visual_appeal ≥ 4) なのに、現地目線では文化的にキメラ (cultural_accuracy = c/d)」というギャップの大きい事例:
Lebanon / chicken shawarma (見栄え 5/5、文化的再現度 c) — 「参考画像にはあるレバン特有のピンク色のピクルスや、シンプルなニンニクソース(トゥーム)といった要素が欠けており、より一般的な地中海風ラップサンドイッチとのキメラ(混合体)になっている。」

Lebanon / knafeh (見栄え 5/5、文化的再現度 c) — 「レバノンのクナーファの最大の特徴である「熱くて伸びるチーズ」が欠落し、アシュタ(クリーム)を使った別の菓子や、チーズを使わないクナーファのバリエーションに変化してしまっているため。」

Nigeria / suya (見栄え 5/5、文化的再現度 c) — 「串焼き肉という基本は正しいものの、粒のままのピーナッツを振りかけるという不正確な表現が混入しており、本物のスヤとは異なるキメラ的な料理になっている。参考画像にあるような路上屋台の雰囲気も欠けている。」

6. 推奨用途・避けたい用途
✅ 推奨
- バランス型: 8-step / 6GB / 1 分で総合 2 位 (CA 1.63)。速度と質の両立
- 東アジア料理: Japan / Korea / Thailand で b 域安定
- 商用利用可: Apache 2.0
⛔ 避けたい
- 観光メディアの極端に薄い文化圏: Lebanon / Nigeria では c に落ちる
- 蒸留版なので、ベース版 (Z-Image Base) より少数派カテゴリの保持力は一段落ちる
モデル選択の早見表
母艦記事 ch.5.1 のモデル選択表と合わせて読む。本モデルの位置づけ:
- 8-step 蒸留の「ちょうどいい」点 — 4-step より崩れず、ベース版より速い
- 中系の Z-Image 系列は食文化保持力が高い (Qwen との対比)
7. 関連記事
- 母艦: AI が描く各国料理 — 8モデル × 12カ国で比較してみた
- 他モデルの単独レビュー: v1 Flux.1 dev / v2 FLUX.2 klein 4B / v3 Z-Image Turbo / v4 Z-Image Base / v5 Qwen-Image Lightning / v6 ERNIE-Image Turbo / v7 ERNIE-Image Full (各記事末尾の母艦記事からたどれる)
- 前作: note/07 — Mac でローカル画像生成 10モデル比較したら、最強候補が裏返った
