Qwen-Image Lightning で 12カ国の料理を描かせて見えたもの
本記事は AI が描く各国料理 — 8モデル × 12カ国で比較してみた のスピンオフ、各モデル単独レビューの v5。
母艦記事では 8モデル × 12カ国 = 96 国別評価セルの全体俯瞰を扱う。本記事はその中の Qwen-Image Lightning だけを 60 プロンプト全部について Gemini 2.5 Pro Vision で評価した詳細を載せる。
TL;DR
- Qwen-Image Lightning は Alibaba 🇨🇳 の Qwen-Image 20B + 8-step Lightning LoRA。漢字 OCR は業界トップ級だが、食文化の再現度は中位。
- 60 プロンプト (12カ国 × 5料理) を生成、Gemini API 出力を 現地正解基準として比較評価
- 文化的再現度 (cultural_accuracy): 平均 1.37 / 3.0
- 観光客目線の見栄え (visual_appeal): 平均 4.13 / 5.0
- 失敗型の主成分: 複数の失敗型が複合 (mixed 33件)
- 強い国: Germany
- 弱い国: Lebanon, Nigeria
- 推奨用途: 画像内に文字・看板を入れる用途
- 避けたい用途: 食文化の正確性が要る用途
1. 生成環境
| 項目 | 値 |
|---|---|
| アーキテクチャ | MMDiT + Qwen 2.5-VL ベース |
| サイズ | 20B (40 GB) + Lightning LoRA |
| ステップ数 | 8 |
| 蒸留 | ✅ (Lightning LoRA, 8-step) |
| 1枚あたり生成時間 (M1 Max 64GB / MPS) | 約 3 分 (8 step / 1024px / MPS) |
| HF gated repo | ❌ 申請不要 |
| ライセンス | Apache 2.0 (商用利用可) |
from diffusers import QwenImagePipeline
import torch
pipe = QwenImagePipeline.from_pretrained(
"Qwen/Qwen-Image", torch_dtype=torch.bfloat16,
).to("mps")
pipe.load_lora_weights(
"lightx2v/Qwen-Image-Lightning",
weight_name="Qwen-Image-Lightning-8steps-V1.0.safetensors",
)
image = pipe(prompt="...", num_inference_steps=8,
true_cfg_scale=1.0, height=1024, width=1024).images[0]
wired_limit: Mac で MPS バックエンドを使い大型モデルを動かす場合、
sudo sysctl iogpu.wired_limit_mb=61440(60GB) を毎回設定する (再起動でリセット)。
2. 12カ国比較グリッド
参考画像 (最上段、緑帯) が Gemini API、その下が Qwen-Image Lightning + 他 6 ローカルモデル。本記事の対象は Qwen-Image Lightning 行。クリックで原寸表示。
母艦記事の結果マトリックス で、このモデルが全体のどこに位置するかを確認できる。
3. 国別の挙動 (Gemini 2.5 Pro Vision 評価ベース)
3.1 強い国 (cultural_accuracy 平均 ≥ 2.0)
- Germany — CA 2.00 (
bbbbb)
3.2 中庸の国 (1.0 ≤ ca < 2.0)
- Japan — CA 1.60 (
bbbcc) - Thailand — CA 1.60 (
bbbcc) - India — CA 1.60 (
bbbcc) - USA — CA 1.40 (
bbccc) - Mexico — CA 1.40 (
bbccc) - Brazil — CA 1.40 (
bbccc) - Korea — CA 1.40 (
bbccc) - Vietnam — CA 1.40 (
bbccc) - Italy — CA 1.00 (
bcccd)
3.3 弱い国 (ca < 1.0)
- Lebanon — CA 0.80 (
ccccd) - Nigeria — CA 0.80 (
ccccd)
4. 失敗型の特徴
このモデルの 60 件評価で観察された失敗型の分布:
| 型 | 件数 | 特徴 |
|---|---|---|
| α 異文化 garnish ライブラリ混入 | 4 | 異文化のハーブ・ソース・食器を混入 |
| β 視覚類似カテゴリ引き寄せ | 13 | 視覚的に似た別カテゴリへ統計的に引き寄せ |
| γ 整列癖 (パレイドリア) | 5 | 要素が幾何学的に整いすぎる |
| mixed 複合 | 33 | 複数の失敗型が複合 |
| none 大きな失敗なし | 5 | — |
代表的な失敗事例
Italy / risotto Milanese (d/2, mixed) — 「サフランの色やバター、チーズといった構成要素は捉えているものの、料理の根幹である米の形状と食感を完全に誤認しており、参考画像とは全く異なる「黄色い豆料理」のような別ジャンルの食べ物になっている。」

Nigeria / pounded yam with soup (d/4, beta) — 「「Pounded yam (ついたヤムイモ)」という餅状の主食をリクエストしたにもかかわらず、角切りのヤムイモが入った「ヤムイモのスープ」という全く別の料理が生成されています。参考画像にある、この料理の最も重要な要素が欠落しています。」

Lebanon / knafeh (d/5, beta) — 「クナーファの特徴であるカダイフ生地と伸びるチーズではなく、フィロ生地とクリームを使った層状の菓子になっており、ワルバートなど同地域の別のデザートに完全に変化してしまっているため。」

Italy / osso buco (c/2, mixed) — 「オッソ・ブーコ最大の特徴である「仔牛すね肉の筒切り」が再現されず、別の料理(スティンコ)になってしまっている。また、参考画像にある伝統的な付け合わせとは全く異なる、緑色の粒など奇妙なガルニッシュが混入しているため。」

5. 観光客目線 vs 現地目線の逆転事例
「見た目は美味しそう (visual_appeal ≥ 4) なのに、現地目線では文化的にキメラ (cultural_accuracy = c/d)」というギャップの大きい事例:
Lebanon / knafeh (見栄え 5/5、文化的再現度 d) — 「クナーファの特徴であるカダイフ生地と伸びるチーズではなく、フィロ生地とクリームを使った層状の菓子になっており、ワルバートなど同地域の別のデザートに完全に変化してしまっているため。」

Thailand / mango sticky rice (見栄え 5/5、文化的再現度 c) — 「料理の本体はマンゴースティッキーライスと認識できるものの、参考画像にあるような伝統的な炒り緑豆の代わりに、枝豆のような異質な豆がトッピングされており、文化的に不正確なキメラ状態になっている。」

Lebanon / fattoush salad (見栄え 5/5、文化的再現度 c) — 「料理の主役である「揚げパン」を柔らかいパンで代用しており、ファットゥーシュの定義から外れています。また、ゴマのような不要なガーニッシュが加えられており、別の中東風サラダとのキメラになっています。」

6. 推奨用途・避けたい用途
✅ 推奨
- テキストレンダリング: 漢字 OCR / 看板生成は業界トップ級 (note/06 で実証)
- 画像にロゴ・メニュー・文字を入れたいなら第一候補
⛔ 避けたい
- 食文化の正確性: 同じ中系の Z-Image Base より明確に低い (CA 1.37 < Z-Image Turbo 1.60)
- 「中系 AI = 中華食文化に強い」は外れる。テキスト能力と食文化知識は orthogonal
- mixed 型失敗が突出 (32/60) — 複数文化要素が混ざるキメラ
モデル選択の早見表
母艦記事 ch.5.1 のモデル選択表と合わせて読む。本モデルの位置づけ:
- テキスト能力と食文化知識は別軸 — Qwen は前者特化
- 「中系 AI」と一括りにできない決定的な反例
7. 関連記事
- 母艦: AI が描く各国料理 — 8モデル × 12カ国で比較してみた
- 他モデルの単独レビュー: v1 Flux.1 dev / v2 FLUX.2 klein 4B / v3 Z-Image Turbo / v4 Z-Image Base / v5 Qwen-Image Lightning / v6 ERNIE-Image Turbo / v7 ERNIE-Image Full (各記事末尾の母艦記事からたどれる)
- 前作: note/07 — Mac でローカル画像生成 10モデル比較したら、最強候補が裏返った
