AI が描く各国料理 — 8モデル × 12カ国で比較してみた
1. TL;DR
AI 画像生成の文化的失敗は、一目で分かる大ミスではなく、現地の人間しか気づかない無数の小さな違和感の累積として現れる。そして、その失敗の出方は「訓練データに該当ドメインの現地コンテンツが豊富か」で決まり、prompt 選択の段階で評価の天井が既に決まっている。
12カ国 × 60プロンプト × 8モデル = 480画像を、Gemini API 出力を現地正解基準に置いて、Gemini 2.5 Pro Vision でローカル7モデルを評価した。観察された主要パターンは 5 つ:
- 「中系 AI」と一括りにできない — 同じ Alibaba 系の Qwen は漢字 OCR が強くて食文化は弱い (中位)、Z-Image Base は食文化保持力が強い (b 域トップ)。テキスト能力と食文化知識は orthogonal な訓練データ軸
- prompt 選択が評価の天井を決める — Japan が見かけ上の最上位 (1.94) なのは「ramen / sushi / katsu curry / okonomiyaki / onigiri」を選んだ結果。地方料理に置き換えれば Lebanon / Nigeria レベル (0.91) に落ちる構造
- 米国は weights を渡してくれない — DALL-E / Imagen / Gemini Nano Banana / Firefly / Midjourney は全部クラウド囲い込み。ローカルで触れる weights 公開モデルは独 Flux と中系 (Qwen / Z-Image / ERNIE) のみ
- 失敗には 2 つの系統的な型 — α 異文化 garnish ライブラリ混入 / β 視覚類似カテゴリへの統計的引き寄せ。蒸留版ほど β に陥りやすく、ベース版は文化スキーマを保持する
- 見栄え (観光客目線) と文化的正しさ (現地目線) は逆転する — pho の生肉や pad thai の生もやしのように、観光客が「間違い」と感じる方が現地の正解だったりする
実用的な結論: 少数派カテゴリの料理を描かせるならベース版・非蒸留 (Z-Image Base, Flux dev)。観光地の代表料理なら蒸留版で十分 (FLUX.2 klein, Qwen Lightning, ERNIE Turbo)。Japan の高スコアは観光メディアと prompt 選択の合算で、AI が日本食を特別に得意とする訳ではない (筆者個人のアカウントへのパーソナライズの影響もありうる)。
シリーズ前作: note/06「ローカル LLM 6モデル比較」、note/07「Mac でローカル画像生成 10モデル比較したら、最強候補が裏返った」。本作はその続編。
2. 検証構成
2.1 規模
12カ国 × 5料理 = 60プロンプト × 8モデル = 480画像。さらにおまけとして「各国の庶民派飲み屋(pub 相当)」12プロンプト × 8モデル = 96画像(後段、各国 pub 比較)。
12カ国の選定(地理的に分散):
| 地域 | 国 | 料理数 |
|---|---|---|
| 北米 | USA | 5 |
| 西欧 | Italy, Germany | 5 + 5 |
| 中南米 | Mexico, Brazil | 5 + 5 |
| 東アジア | Japan, Korea | 5 + 5 |
| 東南アジア | Thailand, Vietnam | 5 + 5 |
| 南アジア | India | 5 |
| 中東 | Lebanon | 5 |
| 西アフリカ | Nigeria | 5 |
2.2 8モデルの内訳
| # | モデル | サイズ | ステップ | ホームタウン | 蒸留 | 役割 |
|---|---|---|---|---|---|---|
| 1 | Flux dev | 12B | 28 | 🇩🇪 独 (US資本) | ❌ | 比較対象 |
| 2 | FLUX.2 klein 4B | 4B | 4 | 🇩🇪 独 | ✅ | 比較対象 |
| 3 | Z-Image Turbo | 6B | 8 | 🇨🇳 中 (Alibaba) | ✅ | 比較対象 |
| 4 | Z-Image Base | 6B | 30 | 🇨🇳 中 (Alibaba) | ❌ | 比較対象 |
| 5 | Qwen-Image Lightning | 20B | 8 | 🇨🇳 中 (Alibaba) | ✅ | 比較対象 |
| 6 | ERNIE-Image Turbo | 8B DiT | 8 | 🇨🇳 中 (Baidu) | ✅ | 比較対象 |
| 7 | ERNIE-Image Full | 8B DiT | 50 | 🇨🇳 中 (Baidu) | ❌ | 比較対象 |
| 8 | Gemini API (Nano Banana) | — | — | 🇺🇸 米 (Google) | — | 基準 |
1〜7 は Mac (M1 Max 64GB) ローカルで MPS バックエンドで生成。8 は Gemini API で、$0.47 / 60枚。
📝 追記: 記事をほぼ書き終わってから「Flux dev / FLUX.2 klein は 🇩🇪 Black Forest Labs (ドイツ) 発だから、独 5 料理も入れて『Flux 系列がドイツ料理で他モデルに圧勝するか』を検証すべきだった」と気付き、慌てて Germany 5 料理 (Bratwurst / Schnitzel / Sauerbraten / Pretzel / Black Forest cake) を追加検証した。結論を先取りすると Flux 系列が独料理で圧勝することはなく、中製 AI も同等に描ける (詳細は ch.4.3 Germany 検証)。
2.3 検証フロー — Gemini を「裏取り済の正解基準」にする 2 段階
ステップ 1: Gemini API 出力を「現地正解候補」として裏取り
- 現地語 Wikipedia で公式定義を確認(具材・盛り付け・容器)
- Wikipedia に細部の情報がない場合は Google 画像検索 / Web で現地の店舗・家庭・屋台の写真を 5〜10 枚見て叩き台
- 不確実なものは現地レストランの Instagram 位置情報タグや Reddit (r/JapaneseFood, r/Korean, r/IndianFood など) で確認
- アジア5国 (日韓越泰印) の細部は私自身の domain 知識で最終確認
→ 結果: Gemini API は 60/60 国レベル PASS、しかも baiana 衣装、雷紋丼、ハングルネオン、アラビア文字看板、Lagos 新聞紙、agege bread などの現地特有要素まで描けていた
Gemini API 生成 60 画像 — 本記事の「正解基準」全貌
以下が 12 カ国 × 5 料理 = 60 枚の Gemini API 出力。これらが本記事の検証における「現地正解基準」になる。第 4 章以降でローカルモデルと比較するときの答え合わせ用の答えとして、ここで一覧しておく(サムネイルをクリックでフルサイズ)。
USA (5 料理)
| NY pizza | Southern fried chicken | New England clam chowder | Texas BBQ brisket | California Cobb salad |
|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- NY pizza: 薄く大きい三角スライス、生地は折り曲げられる柔らかさ、モッツァレラ + シンプルなトマトソース、紙皿で提供
- Southern fried chicken: バターミルク漬け + 小麦粉 + スパイスで揚げた craggy な衣、付け合わせは grits (粗挽きトウモロコシ粥) や collard greens、コーンブレッド
- New England clam chowder: クリームベースの白い濃厚スープ、アサリ + ジャガイモ + ベーコン、オイスタークラッカー添え、sourdough bread bowl で提供されることも
- Texas BBQ brisket: 12 時間以上スモークした牛胸肉、黒い外皮 (bark) と pink smoke ring、ホワイトブレッド + ピクルス + 玉ねぎ + ハラペーニョ
- California Cobb salad: ロメインレタスの上に、グリルチキン・ベーコン・ゆで卵・アボカド・ブルーチーズを行ごとに並べる色彩重視のサラダ
Italy (5 料理)
| spaghetti carbonara | risotto Milanese | osso buco | Sicilian cannoli | pizza Margherita |
|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- spaghetti carbonara: グアンチャーレ + ペコリーノ + 卵黄 + 黒胡椒のみのローマ式、生クリーム不使用が正統
- risotto Milanese: サフランで黄色く染まったクリーミーな短粒米 (Carnaroli/Arborio)、骨髄とビーフブイヨンで仕上げ
- osso buco: 仔牛のすね肉骨付きをワインで煮込んだミラノ料理、骨の中の骨髄が珍味、グレモラータ (パセリ・レモン皮・ニンニク) を添える
- Sicilian cannoli: 揚げた筒状生地に、リコッタチーズクリームを詰める、両端にピスタチオ or チョコレートチップ、粉糖
- pizza Margherita: ナポリ式の薄い中央 + ふっくらした耳、トマトソース + フレッシュモッツァレラ + バジル (緑・白・赤 = イタリア国旗カラー)。USA の NY pizza との対比用 — 同じ「ピザ」でも国・地域で全く違う料理になる対比題材
Germany (5 料理)
| Nuremberg Bratwurst | Wiener Schnitzel | Rhenish Sauerbraten | Bavarian Pretzel | Schwarzwälder Kirschtorte |
|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- Bratwurst: ニュルンベルガー風の小ぶりなソーセージをグリル、ザワークラウト + ドイツ式マスタード + プレッツェルを添える、ミュンヘンのビアガーデンの長テーブル
- Schnitzel: 仔牛のカツレツ薄く叩いて衣付け揚げ、レモン + パセリ + パセリポテト、伝統的なドイツ/オーストリア食堂
- Sauerbraten: 酢漬けして煮込んだ牛肉をスライス、レーズン入り甘酸っぱいグレービー + 赤キャベツ煮 + ジャガイモ団子 (クネーデル)、ラインラント風
- Pretzel (Brezel): 深いマホガニー色の焼き色 + 表面に粗塩、白ソーセージ + 甘いマスタードと共にミュンヘン Hofbräuhaus で
- Schwarzwälder (Black Forest cake): チョコレートスポンジ + ホイップクリーム + モレロチェリー、削りチョコ + チェリートッピング
Mexico (5 料理)
| tacos al pastor | mole poblano | pozole rojo | chiles en nogada | churros with chocolate |
|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- tacos al pastor: コーントルティーヤ、スピットで焼いた豚肉 (al pastor)、パイナップル少量、コリアンダー + 玉ねぎ、ライムを絞る
- mole poblano: チョコレートを含む 20 種以上のスパイス・チリ・ナッツの濃厚な茶色いソース、鶏肉にかけて白ごま振り
- pozole rojo: ホミニー (大粒トウモロコシ) と豚肉の赤いスープ、千切りキャベツ・ラディッシュ・ライム・オレガノ・トスターダを各自で添える
- chiles en nogada: 8月終盤〜9月末の限定料理 — 主材料のザクロ (granada) が旬になる時期に合わせ、9月16日のメキシコ独立記念日に提供されるのが伝統。1821年プエブラの修道女がメキシコ独立を祝うために考案したと言われ、緑 (パセリ) ・白 (クルミの "ノガダ" ソース) ・赤 (ザクロ) のメキシコ国旗カラーで仕上げる。肉と果物を詰めたポブラノ唐辛子が主体
- churros with chocolate: 棒状の揚げパン (砂糖 + シナモン)、濃厚なホットチョコレートに浸して食べるメキシコの朝食 / おやつ
Brazil (5 料理)
| feijoada | pao de queijo | coxinha | acaraje | brigadeiro |
|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- feijoada: 黒いんげん豆と豚肉各部位 (ベーコン・耳・尻尾等) の煮込み、ファロファ (キャッサバ粉炒め) + 米 + オレンジスライス + ケール (couve) を添える
- pao de queijo: タピオカ粉とチーズで作る一口サイズのふわふわ・もちもちのチーズパン、ミナスジェライス州発祥
- coxinha: 涙滴型 (鶏もも肉を模した形) の揚げ物、中身はほぐした鶏肉 (frango desfiado) + クリーミーなカトゥピリチーズ
- acarajé: バイーア州の屋台料理、黒目豆をすり潰したフリッターを横に半分に開いて、vatapá ペースト + caruru (オクラペースト) + 干しエビをはさむ。売り子は伝統衣装の baiana (白いドレス・ターバン)
- brigadeiro: 練乳 + ココアパウダー + バターを煮詰めた一口チョコレート、表面に細かいチョコスプレー (granulado) をまぶす、誕生日定番
Japan (5 料理)
| ramen | sushi | katsu curry | okonomiyaki | onigiri |
|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- ramen: スープ (醤油・味噌・塩・豚骨) + 中華麺 + チャーシュー + 煮卵 + メンマ + 青ねぎ + 海苔。地域差あり (博多細直麺 / 札幌縮れ麺等)
- sushi: 酢飯の上に生魚 (握り寿司)、ネタは赤身マグロ・サーモン・イクラ軍艦巻き等、寿司カウンター + 板前の手元
- katsu curry: とんかつ + 黄色いカレールー + 白米、福神漬けが定番、洋食屋スタイル
- okonomiyaki: キャベツ + 生地を鉄板で焼く、上に鰹節 (薄削り、湯気で踊る) + 青のり粉 + 紅生姜 + マヨネーズ + お好みソース
- onigiri: 白米を三角形に握り、海苔で下半分巻き、具は米の中に内蔵 (梅干し中央、鮭フレーク、昆布、おかか等)。生ものはあまり使われない
Korea (5 料理)
| bibimbap | kimchi jjigae | bulgogi | japchae | tteokbokki |
|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- bibimbap: 石焼鍋 (dolsot) に米 + 各色ナムル (ほうれん草・もやし・ニンジン・ゼンマイ等) + 牛肉 + 卵黄 + コチュジャン、混ぜて食べる
- kimchi jjigae: 熟成キムチ + 豚バラ + 豆腐の赤い辛い鍋、土鍋 (ttukbaegi) で提供、白米と一緒に
- bulgogi: 醤油・砂糖・梨・ニンニクで漬けた薄切り牛肉を網焼き、サンチュ + ニンニク + サムジャンで巻いて食べる
- japchae: 韓国春雨 (タンミョン、サツマイモ澱粉) + 野菜 + 牛肉、醤油とごま油の炒め物、宴会・お祝い料理
- tteokbokki: 円柱状の餅 (tteok) + 魚練り物 + コチュジャン甘辛ソース、屋台料理、ハングル看板のネオンが現地識別の鍵
Thailand (5 料理)
| tom yum kung | pad thai | green curry | som tum | mango sticky rice |
|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- tom yum kung: エビ入り酸っぱ辛いスープ、レモングラス + ガランガル + コブミカン葉 + チリ + ライム + ナンプラー、真鍮ボウルで提供
- pad thai: 米麺 + エビ or 豆腐 + 卵 + もやし + ピーナッツ + ライム、もやしは別皿か皿の端に生のまま添える伝統スタイル
- green curry (gaeng keow wan): ココナッツミルク + 緑カレーペースト + 鶏肉 or タイ茄子、バナナ葉の上やバジル散らし
- som tum: 青いパパイヤを石臼 (krok) で叩いて作るサラダ、唐辛子 + ライム + 干しエビ + ナンプラー + ピーナッツ + 豆角
- mango sticky rice: 黄色いマンゴー + ココナッツミルクで炊いた紫または白のもち米 + ココナッツソース、ココナッツチップ振り
Vietnam (5 料理)
| pho bo | banh mi | bun cha | banh xeo | goi cuon spring rolls |
|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- pho bo: 牛骨スープ + フォー麺 + 薄切り牛肉 (生のまま乗せて余熱で火を通す)、別皿でハーブ (バジル・コリアンダー・ミント) + もやし + ライム + チリ
- banh mi: バゲット + パテ + 揚げ卵焼き + 大根&ニンジンのなます (đồ chua) + コリアンダー + チリ。フランス植民地時代の影響
- bun cha: ハノイ料理、炭火焼の豚肉団子 + 豚バラ + フォー麺 + 大根&ニンジンのなますを甘酸っぱい nước chấm に浸して食べる
- banh xeo: 米粉 + ターメリックの黄色いカリカリのクレープ、エビ + 豚肉 + もやし、レタスとハーブで包んで nước chấm
- goi cuon (spring rolls): ライスペーパーで巻いた生春巻き (揚げない)、エビ + 豚肉 + ハーブ + フォー麺、ピーナッツソース or nước chấm
India (5 料理)
| masala dosa | butter chicken | Hyderabadi biryani | samosa | pani puri chaat |
|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- masala dosa: 米と豆を発酵させた薄くパリパリしたクレープ、中にスパイスで和えたマッシュポテト (アル・マサラ)、ココナッツチャツネ + サンバル添え、バナナ葉で提供されることも
- butter chicken (Murgh Makhani): トマトベースのクリーミーオレンジ色のソース、タンドール風鶏肉、ナーンかバスマティ米と
- Hyderabadi biryani: バスマティ米 + マリネ肉 (羊・鶏)、サフラン + スパイス、米と肉を層に重ねて炊き上げ、銅製ハンディ (handi) で提供
- samosa: ジャガイモ + エンドウ豆 + スパイスを詰めた三角形の揚げ皮、ミントチャツネ + タマリンドチャツネ
- pani puri (golgappa): 一口サイズの中空揚げ皮、中にジャガイモ + ひよこ豆 + 香辛料水 (puri water)、屋台でベンダーが次々に出す
Lebanon (5 料理)
| mezze platter | chicken shawarma | fattoush salad | kibbeh | knafeh |
|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- mezze platter: 前菜の盛り合わせ、フムス + ババガヌーシュ + タブーレ + ピタパン + オリーブ + ピクルス、ファミリースタイルで皆でつまむ
- chicken shawarma: 縦回転スピットで焼いた鶏肉、ピタパン + ガーリックソース (toum) + ピクルス、アラビア文字の店看板
- fattoush salad: トマト + キュウリ + ラディッシュ + 玉ねぎ + ミント、揚げピタパン砕き + sumac (酸味の赤いスパイス)
- kibbeh: 挽き肉 + ブルガー + 玉ねぎを円錐型 (footballs) に揚げる or 焼く、中身に挽き肉と松の実
- knafeh: シュレッドフィロ生地 + 溶けるチーズ (akkawi)、表面はオレンジ色に焼いた 繊維状チーズ + ローズシロップ + ピスタチオ、温かいうちに食べる
Nigeria (5 料理)
| jollof rice | egusi soup | suya | pounded yam with soup | akara |
|---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- jollof rice: トマト + 唐辛子 + 玉ねぎでオレンジ色に炊いたスパイシー米、エナメル皿で提供、結婚式 / パーティ料理
- egusi soup: メロンシード (egusi) をすり潰したコク深い緑色 (オクラ + パームオイル) のスープ、肉や干し魚、フフ等のスワローフードと
- suya: 牛肉串 + ピーナッツパウダー + 唐辛子のスパイス (yaji)、Lagos の伝統で新聞紙にのせて提供
- pounded yam with soup: 茹でたヤム芋を木臼で叩いた白く滑らかな餅状、egusi soup や ogbono soup と一緒に
- akara: 黒目豆ペーストを揚げた fritter、agege bread (Lagos の Agege 区発祥のふわふわ食パン) と ogi (発酵トウモロコシ粥) と一緒に朝食
これら 60 枚はすべて、現地語 Wikipedia + Web 検索で一品ずつ裏取り済。例えば br_04 acarajé では「干しエビが落ちて見える」のが一見不潔そうだが、現地 Bahia の屋台ではむしろ豪華さの象徴として正統。Vietnam の pho に「生に見える牛肉」が乗っているのも、熱々スープの余熱で火を通すのが正解。
ステップ 2: ローカル7モデルを Gemini 2.5 Pro Vision で評価
ローカル各モデルの 56 出力を、ステップ 1 で裏取り済の Gemini API 出力(参考画像)と並べて Gemini 2.5 Pro Vision に判定させた。判定軸:
- cultural_accuracy (現地目線、4段階): a = Gemini同等 / b = 国レベルOK / c = キメラ / d = 完全失敗
- visual_appeal (観光客目線、5段階): 1〜5 の見栄え評価
- failure_type: α (異文化 garnish) / β (視覚類似カテゴリ) / γ (整列癖) / mixed / none
- strengths / weaknesses: 具体的な良かった点・違和感(リスト)
Mac の wired memory limit 拡張、HF gated repo の申請、生成チェーンの caffeinate 運用などの技術的詳細は、各モデルの深掘り派生記事 を参照。
3. 結果 — 国別 × モデルの文化的再現度マトリックス
実際に 12カ国 × 7ローカルモデル × 5 料理 = 420 セルを Gemini 2.5 Pro Vision で評価した。Gemini API は基準(左列)として全 a 固定、ローカル 7 モデルがどう逸脱するかを見る。
3.1 マトリックス (Gemini 2.5 Pro Vision 判定ベース、n=420)
行の並び: 地理順 (北米 → 西欧 → 中南米 → 東アジア → 東南アジア → 南アジア → 中東 → 西アフリカ)。列の並び: モデル平均 CA の高い順 (Z-Image Base 1.78 → Flux dev 1.12)。Gemini は基準なので左固定。
| 国 | Gemini | z_base | z_turbo | qwen_lt | ernie_f | flux2_kl | ernie_t | flux_dev |
|---|---|---|---|---|---|---|---|---|
| USA | 🟢 | 🟡 | 🟡 | 🟠 | 🟠 | 🟠 | 🟠 | 🟠 |
| Italy | 🟢 | 🟡 | 🟠 | 🟠 | 🟠 | 🔴 | 🟡 | 🟡 |
| Germany | 🟢 | 🟡 | 🟡 | 🟡 | 🟡 | 🟡 | 🟠 | 🟡 |
| Mexico | 🟢 | 🟡 | 🟡 | 🟠 | 🟠 | 🟠 | 🟠 | 🟠 |
| Brazil | 🟢 | 🟡 | 🟡 | 🟠 | 🟠 | 🟠 | 🟠 | 🟠 |
| Japan | 🟢 | 🟡 | 🟡 | 🟡 | 🟡 | 🟡 | 🟡 | 🟡 |
| Korea | 🟢 | 🟡 | 🟡 | 🟠 | 🟠 | 🟠 | 🟠 | 🟠 |
| Thailand | 🟢 | 🟡 | 🟡 | 🟡 | 🟠 | 🟠 | 🟠 | 🟠 |
| Vietnam | 🟢 | 🟡 | 🟡 | 🟠 | 🟠 | 🟠 | 🟠 | 🟠 |
| India | 🟢 | 🟡 | 🟠 | 🟡 | 🟠 | 🟠 | 🟠 | 🟠 |
| Lebanon | 🟢 | 🟠 | 🟠 | 🟠 | 🟠 | 🟠 | 🟠 | 🟠 |
| Nigeria | 🟢 | 🟠 | 🟠 | 🟠 | 🟠 | 🟠 | 🟠 | 🟠 |
凡例: 🟢 a = Gemini 同等 / 🟡 b = 国レベル OK / 🟠 c = キメラ / 🔴 d = 完全失敗
モデル別 全体平均 CA (a=3, d=0):
z_base 1.78 ★ ベース版がトップ
z_turbo 1.63
qwen_lt 1.37
ernie_f 1.33 ← ERNIE 非蒸留
flux2_kl 1.30 ← Flux 系列 (独)
ernie_t 1.18 ← ERNIE 蒸留版(Full より低い)
flux_dev 1.12 ← Flux 系列 (独)、最下位
このマトリックスから読み取れる構造:
-
観光メディアの薄い国ほど 🟠 で埋まる — Lebanon / Nigeria の行は z_base / z_turbo まで 🟠 に落ちる
-
ベース版 > 蒸留版(同系列内で確認)—
- Z-Image: Base 1.78 > Turbo 1.63 (差 0.15)
- ERNIE: Full 1.33 > Turbo 1.18 (差 0.15)
どちらの系列でも非蒸留が勝つ。
-
欧米メジャー料理ですら b 域止まり、観光メディアの薄い文化圏では c 落ち多発 — USA / Italy / Germany の行ですら 🟢 (Gemini 同等) はほぼ出ない (z_base × pizza Margherita の 1 例のみ)
-
Qwen Lightning は文字 OCR 強いのに食文化は弱い — 漢字レンダリング能力で知られる Qwen 系列だが、食文化評価では Z-Image (同じ中系の別系列) より明確に低い (Qwen 1.37 < Z-Image Turbo 1.63)。「テキスト能力」と「食文化知識」は orthogonal という発見
-
Flux dev が最下位 — 1.12 で全モデル中最下位。USA / Italy では b 域に届くが、観光メディアの薄い文化圏での c 落ちが他モデルより多発し、平均が引きずられる
-
84 セル中、唯一の 🔴 (完全失敗) は Italy × flux2_kl — 蒸留版の極端な圧縮 (4-step) が形状特定要件 (risotto の米粒、osso buco の骨の穴、cannoli の筒状) で崩れ、5 料理中 3 料理で d を出す。同じ蒸留でも Z-Image Turbo (8-step) は耐えるが、flux2_klein (4-step) は崩壊する境界線
-
「単一国優位」は実測で支持されなかった — Germany 行で flux2_kl (独製) は b 全揃いだが、z_turbo / qwen_lt (中製) も同等 b 全揃い、z_base もほぼ b。「独製 AI が独料理に圧勝する」は起きていない。実際に効いているのは「観光メディアに大量にある料理は AI 全般が描ける」という単純な構造
なぜこれが起きるか、を以降で構造的に紐解く。
4. 各国深掘り — どのモデルが Gemini に近づけるか
第 3 章のマトリックスを国ごとに分解する。各国で grid 画像 (Gemini基準を最上行 + ローカル 7 モデルを CA 高→低順) を見ながら、Gemini の判定で「最も近づけたケース」と「ズレたケース」を抜粋する。
読み方:
(a/5, none)のような表記はcultural_accuracy / visual_appeal, failure_type。ca は a (Gemini 同等) → b (国レベル OK) → c (キメラ) → d (完全失敗)、ftype は α (異文化 garnish 混入) / β (視覚類似カテゴリへの引き寄せ) / γ (細部のみズレ) / mixed / none。
4.1 USA (5 料理: NY pizza / Southern fried chicken / clam chowder / Texas BBQ / Cobb salad)
Gemini に最も近づけたケース:
flux2_kl × California Cobb salad (b/5, none) — 「コブサラダの構成要素は正しく国レベルでは正解だが、伝統的な固茹で卵ではなく半熟卵が使われている点や、具材を列に並べる典型的な盛り付けではない点で、参考画像と比較すると細部に違和感がある。」

ernie_f × NY pizza (b/5, beta) — 「アメリカのピザとしては正解だが、NYピザ特有の薄くて広い生地という点が再現されておらず、より職人風のピザに引き寄せられている。参考画像は、NYスライスの特徴を正確に捉えている。」

ernie_f × Southern fried chicken (b/5, alpha) — 「フライドチキンとコラードグリーンという要素は正しいものの、参考画像と比較して、量が少なく、付け合わせが曖昧で、パセリを添えるなど、南部料理特有の雰囲気よりも一般的なレストラン風の盛り付けになっている。」

flux_dev × Texas BBQ brisket (b/4, beta) — 「スライスした肉にパンとピクルスを添えるという大枠は正しいですが、テキサスBBQの象徴とも言える柔らかい白パンではなく、一般的なレストランで出されるような硬いパンが添えられており、現地の食文化の解像度が低いです。」

Gemini からズレたケース:
flux_dev × Southern fried chicken (c/2, mixed) — 「フライドチキン自体は描かれているものの、サザン料理のアイデンティティを構成する重要な要素である付け合わせが、参考画像のグリッツやコラードグリーンとは全く異なる正体不明の物体になっており、別文化の要素が混入したキメラ状態になっている。」

flux_dev × New England clam chowder (c/3, beta) — 「パンの器という提供形態は正しいものの、中身がパスタと野菜のスープになっており、ニューイングランド・クラムチャウダーとは別物です。参考画像にあるような、濃厚なチャウダーとオイスタークラッカーという重要な要素が欠けています。」

flux_dev × California Cobb salad (c/3, mixed) — 「参考画像にあるブルーチーズやゆで卵といったコブサラダの必須要素が、カッテージチーズ風の塊やアボカドと融合した卵のような奇妙な物体に置き換えられており、現地の料理とは異なるキメラ状態になっている。」

qwen_lt × Texas BBQ brisket (c/4, beta) — 「パンやピクルスといった付け合わせは正しいものの、主役のブリスケットが参考画像のようなドライラブのバークではなく、ウェットなグレイズで覆われており、ハムや別の肉料理のように見えるため。」

モデル別 (CA 平均高→低): z_base 3.00 (bbbbb) / z_turbo 2.80 (bcbbb) / flux_dev 2.40 (bccbc) / flux2_kl 2.40 (bcccb) / qwen_lt 2.40 (bcccb) / ernie_t 2.40 (cbccb) / ernie_f 2.40 (bbccc)
観察: 観光メディアに豊富な米国料理でも a (Gemini 同等) は誰も出せない。z_base のみ全 b 安定、Flux dev は Cobb salad / fried chicken / chowder で c に落ちる。Gemini 2.5 Pro Vision の要素レベル分解能力が、「米っぽい雰囲気はあるが細部が外れる」を拾っている。
4.2 Italy (5 料理: carbonara / risotto / osso buco / cannoli / pizza Margherita)
Gemini に最も近づけたケース:
z_base × pizza Margherita (a/5, none) — 「ナポリピッツァ・マルゲリータの特徴を、薪窯という背景も含めて極めて正確に再現している。参考画像とは焼き加減やバジルの量に違いがあるが、これらは本場でも見られる調理法やスタイルの差の範囲内である。」

z_turbo × Sicilian cannoli (b/5, none) — 「カンノーロという料理自体は正解だが、付け合わせが伝統的な砂糖漬けフルーツではなくモダンなオレンジピールになっており、現地の典型的な見た目とは細部で異なる。」

z_base × osso buco (b/5, none) — 「オッソ・ブーコとリゾット、グレモラータという基本要素は正しいが、参考画像と比較すると、骨の大きさやモダンすぎる盛り付け、リゾットの具材に若干の違和感があるため。」

flux_dev × spaghetti carbonara (b/4, beta) — 「カルボナーラとしては認識できるものの、最も重要な具材であるグアンチャーレ(またはパンチェッタ)が、加工肉のような均一な立方体に置き換わっており、参考画像のような本物らしさに欠ける。」

Gemini からズレたケース:
flux2_kl × risotto Milanese (d/2, beta) — 「主原料が米ではなく、松の実やパスタのような全く別の食材に置き換わっており、参考画像とは根本的に異なる料理になっているため。」

flux_dev × osso buco (d/4, beta) — 「料理の根幹をなす「骨髄の入った仔牛の骨付きすね肉」という要素が完全に抜け落ち、ラムシャンクのような全く別の料理に変化してしまっているため。」

flux2_kl × Sicilian cannoli (d/5, beta) — 「カンノーロの最も本質的な特徴である「筒状の揚げ菓子」という形状が完全に失われ、リング状のタルトレットという全く別の菓子になっているため。」

z_base × spaghetti carbonara (c/4, alpha) — 「パスタの上に生の卵黄を乗せる、唐辛子フレークを添えるといった描写は、伝統的なイタリアのレシピにはなく、他国のアレンジが混入したキメラ状態になっているため。」

モデル別 (CA 平均高→低): z_base 3.00 (cbbba) / ernie_t 2.60 (cbcbb) / flux_dev 2.40 (bbdcb) / z_turbo 2.40 (cccbb) / ernie_f 2.20 (ccdbb) / qwen_lt 2.00 (cdccb) / flux2_kl 1.60 (cdddb)
観察: 西洋古典なのに risotto / osso buco / cannoli の主構造が崩れる例多発。「米の形状」「骨髄付き仔牛骨」「筒状の生地」といった形状特定要件で蒸留版が崩れやすい。z_base のみ pizza で a を出す。
4.3 Germany (5 料理: Bratwurst / Schnitzel / Sauerbraten / Pretzel / Black Forest cake)
Gemini に最も近づけたケース (独 5 料理は欧州メジャー、ほぼ全モデルが b 域):
z_base × Bratwurst (a/5, none) — 「参考画像とはソーセージの種類が異なりますが、これもドイツで一般的に見られるブラートヴルストの形式であり、ビアガーデンでビールと共に食すという文化を正確に再現しているため。」

flux_dev × Pretzel (b/5, beta) — 「プレッツェル、ソーセージ、ビールという国レベルの組み合わせは正しいですが、参考画像が示すバイエルン地方特有のヴァイスヴルストと甘いマスタードという象徴的な組み合わせを再現できておらず、より一般的なソーセージに置き換わっています。」

flux_dev × Black Forest cake (b/5, beta) — 「シュヴァルツヴェルダー・キルシュトルテの構成要素は含まれていますが、参考画像のような伝統的なスタイルではなく、側面が露出したモダンな「ネイキッドケーキ」という別のスタイルに寄せられています。」

z_turbo × Schnitzel (b/5, none) — 「シュニッツェルとポテト、レモンという組み合わせは国レベルで正解だが、衣の質感がやや非典型的で、参考画像のような現地の食堂の雰囲気が欠けているため。」

Gemini からズレたケース:
z_base × Pretzel (c/4, beta) — 「プレッツェルに白ソーセージを添える点は正しいですが、参考画像にあるような粗塩ではなく、甘い菓子を連想させるパールシュガーのようなトッピングがされており、塩味のパンという本質から外れたキメラ状態になっています。」

ernie_t × Schnitzel (c/4, beta) — 「カツレツが分厚く、衣も粗いため、参考画像のような伝統的なドイツのシュニッツェルではなく、日本の「とんかつ」のような別の料理に見える。」

flux_dev × Sauerbraten (c/5, beta) — 「ザウアーブラーテン(ドイツ風煮込み)が、視覚的に類似した一般的なローストビーフに引き寄せられています。肉の中心がレアである点や、付け合わせが伝統的なクネーデルではなく絞り出しポテトである点が参考画像と大きく異なり、別文化の調理法が混入しています。」

ernie_t × Black Forest cake (c/5, mixed) — 「ブラックフォレストケーキの最も重要な要素であるチェリーがブラックベリーに置き換えられており、別種のケーキになっている。参考画像にあるようなチェリーと、ケーキ全体を覆うチョコレートシェービングが欠けている。」

モデル別 (CA 平均高→低): flux2_kl 3.00 (bbbbb) / z_turbo 3.00 (bbbbb) / z_base 3.00 (abbcb) / qwen_lt 3.00 (bbbbb) / flux_dev 2.80 (bbcbb) / ernie_f 2.60 (bbcbc) / ernie_t 2.40 (cbcbc)
観察: Flux 系列 (独製) が独料理で圧勝するわけではない点が最大の発見。flux2_kl は b 全揃いだが、z_turbo / z_base / qwen_lt (すべて中製) も同等の b 域。flux_dev も Bratwurst / Schnitzel / Pretzel / Black Forest cake で b、Sauerbraten のみ c。これは「同じ国の AI が同じ国の料理に圧勝する」という素朴な仮説を否定し、「観光メディアに大量にある料理は AI 全般が描ける」という構造を示す。一方 ernie_t は Bratwurst / Sauerbraten / Black Forest cake で c と苦戦 — 中華圏特有の garnish 混入 (緑ソース、生キャベツサラダなど) が出る ERNIE 系の典型癖がここでも見える。
4.4 Mexico (5 料理: tacos / mole / pozole / chiles en nogada / churros)
Gemini に最も近づけたケース:
z_turbo × tacos al pastor (b/5, beta) — 「「タコス・アル・パストール」の最も重要な特徴である、トロンポから削ぎ落とした薄切り肉が再現されておらず、カルニータスのような細切れ肉になってしまっているため。参考画像は肉の形状をより正確に捉えている。」

z_turbo × churros with chocolate (b/5, none) — 「チュロスとチョコレートという組み合わせは正しいですが、参考画像にあるような伝統的な土器のカップではなく、一般的な白いマグカップで提供されており、メキシコ特有の文化的な雰囲気が薄れています。」

ernie_f × pozole rojo (b/5, beta) — 「ポソレという料理の概念は捉えているものの、主役であるホミニーが普通のトウモロコシに置き換わっており、最も重要な要素が不正確です。」

z_turbo × mole poblano (b/4, none) — 「料理の基本要素は正しいが、伝統的には大きな塊で提供される鶏肉が細切れになっている点や、現代的な白い皿への盛り付けが、参考画像が示す伝統的なスタイルとは異なるため。」

Gemini からズレたケース:
flux_dev × tacos al pastor (c/4, beta) — 「タコス・アル・パストールの定義である「回転グリルで焼いた豚肉」と「パイナップル」という2大要素が欠落しています。参考画像とは異なり、煮込み肉とピクルスのような具材で構成された、別種のタコスになっています。」

flux_dev × mole poblano (c/4, mixed) — 「モレソースの色や質感、主役の鶏肉といった料理の核となる部分が参考画像と大きく異なり、ミートボールの煮込み料理のような別物に変化してしまっているため。」

flux_dev × pozole rojo (c/4, mixed) — 「参考画像にあるポソレの必須要素(ホミニー、豚のほぐし身、キャベツ)がなく、代わりにニンジンやチーズのような別の食材が混入しており、メキシコ風スープではあるがポソレとは言えないキメラ状態になっている。」

flux_dev × chiles en nogada (c/4, beta) — 「詰め物が伝統的なひき肉のピカディージョではなく穀物になっており、ソースの色も白くないため、参考画像とは根本的に異なる料理になっている。」

モデル別 (CA 平均高→低): z_base 3.00 (bbbbb) / z_turbo 2.60 (bbccb) / flux2_kl 2.40 (bcccb) / qwen_lt 2.40 (bcccb) / ernie_f 2.40 (ccbcb) / flux_dev 2.00 (ccccc) / ernie_t 2.00 (ccccc)
観察: 9 月限定の chiles en nogada が全モデルで苦戦。季節限定料理は訓練データでの存在量が少なく、視覚類似の別料理 (ハラペーニョ・ポッパー、グリーンチリ) に引き寄せられる典型例。Flux dev は全料理 c に均一に低い。
4.5 Brazil (5 料理: feijoada / pão de queijo / coxinha / acarajé / brigadeiro)
Gemini に最も近づけたケース:
flux_dev × feijoada (b/5, beta) — 「フェイジョアーダ自体は認識できるものの、参考画像にあるような一般的な長粒米ではなく、粒の丸い異なる穀物が描かれており、重要な付け合わせの表現に誤りがあるため。」

flux_dev × brigadeiro (b/5, beta) — 「ブリガデイロの最も象徴的な特徴であるチョコレートスプリンクルのコーティングが、クランブル状のものに置き換えられており、参考画像のような典型的な見た目とは異なるため。」

flux2_kl × coxinha (b/4, none) — 「料理の基本的な形状や主要な材料(鶏肉の揚げ物)は正しいですが、最も重要な中身のフィリングが異なります。参考画像のようなクリーミーでチーズが溶け込んだものではなく、パサついた鶏肉と分離したソースで表現されており、本物らしさに欠けます。」

z_base × pao de queijo (b/4, none) — 「料理自体はポン・デ・ケイジョとして正しく認識できるが、参考画像にあるような湯気や、割った断面を見せることで表現される「焼きたて」の魅力が欠けている。」

Gemini からズレたケース:
flux_dev × acaraje (c/2, beta) — 「参考画像にあるようなペースト状のヴァタパや小エビの代わりに、正体不明の球状の具材が詰められており、アカラジェの形式は保ちつつも中身が全くの別物(キメラ)になっているため。」

z_turbo × pao de queijo (c/3, beta) — 「参考画像が持つ本来の「焼いたパン」の質感や不規則な形状とは異なり、揚げ菓子のような見た目になっているため、パン・デ・ケイジョとは別の料理に見える。」

ernie_f × coxinha (c/3, mixed) — 「コキーニャの基本形は保っているものの、ローズマリーという異文化のハーブが混入している。また、参考画像と比較して、衣の質感やフィリングのクリーミーさが全く異なり、別の料理に見える。」

flux2_kl × feijoada (c/4, mixed) — 「参考画像と異なり、黒いんげん豆以外の豆が混入し、肉の部位や調理法、青菜の種類も不正確なため、ブラジル料理とは異なる創作料理(キメラ)になっています。」

モデル別 (CA 平均高→低): z_turbo 2.60 (bcbcb) / z_base 2.60 (cbbcb) / flux_dev 2.40 (bcccb) / flux2_kl 2.40 (ccbcb) / qwen_lt 2.40 (bcccb) / ernie_t 2.00 (ccccc) / ernie_f 2.00 (ccccc)
観察: acarajé (黒目豆をすり潰した揚げ団子に小エビペーストを挟む) は全モデルで構造誤認。Gemini reference は baiana 衣装まで描けるが、ローカルは料理本体すら正しく作れない。地理的偏向の典型例。
4.6 Japan (5 料理: ramen / sushi / katsu curry / okonomiyaki / onigiri)
Gemini に最も近づけたケース:
flux2_kl × ramen (a/5, none) — 「参考画像と同様に日本のラーメンを正確に描写しているだけでなく、「燕三条」系のラーメンという、より具体的で地域性の高い要素まで再現しており、文化的な正確性は非常に高い。」

flux2_kl × katsu curry (a/5, none) — 「料理そのものに加え、日本の大衆的な食堂の雰囲気を完璧に再現しており、現地特有の要素まで描けている。参考画像は料理の典型例だが、本作は「特定の店で提供されるカツカレー」という、より具体的な場面を捉えている点で同等以上に正確と言える。」

ernie_f × sushi (a/5, none) — 「日本の寿司店で提供される典型的な寿司の盛り合わせと、その店の雰囲気を非常に正確に再現している。参考画像がより格式の高いカウンターであるのに対し、こちらも同等に本物らしい、より一般的な寿司店の情景を描写できている。」

z_turbo × okonomiyaki (b/5, none) — 「お好み焼きとして正しく認識できるが、参考画像にあるような青のりではなく刻み海苔や謎の粒状トッピングが使われており、細部の正確性に欠ける。」

Gemini からズレたケース:
flux_dev × onigiri (d/4, mixed) — 「おにぎりの必須要素であるご飯が見当たらず、生の魚介を海苔で巻いた寿司のような全く別の料理になっているため。参考画像のような「ご飯と具材でできた軽食」という本質から外れている。」

flux_dev × katsu curry (c/3, beta) — 「参考画像は厚みのある日本のカレールーと切り分けられたカツが皿に盛られているが、評価画像はスープ状のカレーと切られていないカツが丼に入っており、日本のカツカレーとは異なる料理(キメラ)になっている。」

flux_dev × okonomiyaki (c/3, mixed) — 「日本のお好み焼きの基本形状に、スパゲッティやイタリアンパセリといったイタリア料理の要素が混入したキメラ(合成獣)になっている。参考画像にある鰹節や青のりといった本来のトッピングとは大きく異なる。」

qwen_lt × ramen (c/4, beta) — 「ラーメンとして認識はできるものの、主要な具材であるメンマがパスタのような別の食品に置き換わっている。また、チャーシューも参考画像とは異なる角煮のような形状であり、複数の日本料理の要素が不正確に混ざったキメラ状態になっている。」

モデル別 (CA 平均高→低): flux2_kl 3.40 (ababb) / ernie_f 3.40 (abbba) / z_turbo 3.00 (bbbbb) / z_base 3.00 (bbabc) / ernie_t 3.00 (abbbc) / qwen_lt 2.60 (cbbcb) / flux_dev 2.20 (bbccd)
観察: 観光地化された 5 料理という prompt 選択の偏りで全モデルが他国より明確に高い。flux2_kl が ramen / katsu curry の店内雰囲気で a 連発、z_base / ernie_t も a 域に到達。一方、Japan の 5 料理の中では onigiri (より日常的) が唯一の難所で、flux_dev は d 落ち。
4.7 Korea (5 料理: bibimbap / kimchi jjigae / bulgogi / japchae / tteokbokki)
Gemini に最も近づけたケース:
z_base × japchae (a/5, none) — 「チャプチェを構成する春雨、牛肉、ほうれん草、人参、椎茸といった主要な食材が正確に描かれており、参考画像と同様に韓国料理として非常に忠実な再現です。」

z_base × tteokbokki (b/5, gamma) — 「料理はトッポッキとして正しく認識できるが、参考画像と比較して盛り付けが幾何学的で整いすぎており、パプリカのような一般的でない具材も見られるため、本場の屋台料理の雰囲気とは少し異なる。」

ernie_f × bibimbap (b/5, alpha) — 「石鍋ビビンバの基本構成は正しいですが、目玉焼きに黒胡椒を多用したり、コールスローのような野菜を使ったりする点は、参考画像にある一般的なビビンバとは異なり、伝統的なスタイルから少し外れています。」

z_turbo × bulgogi (b/4, none) — 「プルコギという料理自体は正しく表現されていますが、玉ねぎが不自然に分厚いリング状で生に近いなど、参考画像と比較すると調理法や盛り付けに細かな違和感があります。」

Gemini からズレたケース:
flux_dev × japchae (d/4, beta) — 「チャプチェの最も重要な特徴である半透明の春雨(タンミョン)が、オレンジ色の太い麺に置き換わっており、参考画像とは全く異なる別の麺料理になってしまっている。」

flux_dev × kimchi jjigae (c/3, beta) — 「キムチチゲの主役であるキムチが見えず、スープや具材がトマトシチューのように別料理化しており、参考画像とは全く異なる内容になっています。」

z_base × bulgogi (c/3, alpha) — 「メインのプルコギは認識できているものの、メキシコ料理で使われるトルティーヤが添えられており、異文化要素が混入したキメラ状態になっている。参考画像のように、米飯や複数のパンチャン(おかず)と共に提供されるのが伝統的なスタイルである。」

flux_dev × bibimbap (c/4, mixed) — 「石鍋にご飯と具材を乗せるという基本は合っているが、参考画像にあるような数種類のナムルや細切れ肉、コチュジャンといったビビンバの必須要素が欠けており、インゲン豆など不自然な具材が使われているため。」

モデル別 (CA 平均高→低): z_turbo 3.00 (bbbbb) / z_base 3.00 (bbcab) / qwen_lt 2.40 (cccbb) / ernie_f 2.40 (bbccc) / ernie_t 2.00 (ccccc) / flux_dev 1.80 (cccdc) / flux2_kl 1.80 (cccdc)
観察: japchae の春雨 (サツマイモでんぷん) という非標準麺で蒸留版が崩れる。bulgogi のトルティーヤ混入はメキシコのファヒータとの混同 (α 型異文化 garnish の典型)。Japan より明確に低く、東アジア圏でも国別の差は大きい。
4.8 Thailand (5 料理: tom yum / pad thai / green curry / som tum / mango sticky rice)
Gemini に最も近づけたケース:
z_turbo × tom yum kung (b/5, alpha) — 「トムヤムクンであることは明確に認識できるが、参考画像にあるフクロタケではなくシイタケが使われ、箸が添えられるなど、東アジア料理の要素が混入しているため。」

z_turbo × pad thai (b/5, alpha) — 「料理はパッタイとして正しく認識できるものの、最も特徴的なトッピングである砕いたピーナッツが、松の実のような別のナッツに置き換えられており、本格性に欠ける。」

z_turbo × som tum (b/5, none) — 「ソムタムの主要な構成要素は正しく描かれているが、参考画像と比較してドレッシングの量が過剰である点や、より一般的な木製ではなく石製のすりこぎが使われている点に若干の違和感がある。」

z_turbo × mango sticky rice (b/5, alpha) — 「料理の本体はマンゴースティッキーライスとして正しく認識できるが、参考画像にある伝統的な炒り緑豆の代わりに、ビーポーレンのような粒や用途不明の豆が添えられており、付け合わせに違和感がある。」

Gemini からズレたケース:
flux_dev × mango sticky rice (d/4, beta) — 「料理の根幹をなす「もち米」が全く別の穀物に置き換わっており、マンゴー・スティッキーライスとは呼べない別ジャンルの料理になっています。」

flux_dev × tom yum kung (c/4, beta) — 「スープがトマトベースのように見え、参考画像にあるこぶみかんの葉やレモングラスといったトムヤムクンを特徴づけるハーブが欠落しているため、曖昧な「アジア風スパイシーシュリンプスープ」になっている。」

flux_dev × pad thai (c/4, mixed) — 「パッタイの根幹をなす平たい米麺と砕いたピーナッツを再現できず、それぞれスパゲッティ風の麺とアーモンドに置き換わっており、参考画像とは大きく異なるキメラ的な料理になっているため。」

flux_dev × green curry (c/4, mixed) — 「参考画像にあるタケノコやタイナスといった現地の特徴的な具材が、リーキやニンジンのような別の野菜に置き換えられており、文化的なキメラ状態になっている。また、ご飯をカレーに直接入れる盛り付けもタイの食文化とは異なる。」

モデル別 (CA 平均高→低): z_turbo 3.00 (bbbbb) / z_base 3.00 (bbbbb) / qwen_lt 2.60 (bbbcc) / ernie_f 2.40 (bcccb) / flux2_kl 2.20 (bcccc) / ernie_t 2.00 (ccccc) / flux_dev 1.80 (ccccd)
観察: z 系列が両方 b 5 連発で安定。蒸留版 (flux2_kl, flux_dev) は 米麺の太さ (pad thai)、もち米のテクスチャ (mango sticky rice) で形状特定の崩壊。こぶみかんの葉 という非標準食材が出るかで Thailand らしさが決まる。
4.9 Vietnam (5 料理: pho / bánh mì / bún chả / bánh xèo / spring rolls)
Gemini に最も近づけたケース:
flux_dev × goi cuon spring rolls (b/5, beta) — 「ベトナムの生春巻きとして認識できるものの、参考画像と比較すると、ライスペーパーの巻き方や具材の構成が不正確で、より一般的な「サラダラップ」のような曖昧な料理に引き寄せられている。」

flux2_kl × banh mi (b/5, none) — 「バインミーの基本的な構成要素は捉えているが、参考画像にあるようなパテが見られず、大根のピクルスの代わりに生のタマネギが使われている点で、本格的な再現度には及ばない。」

z_base × pho bo (b/5, none) — 「フォー・ボーの必須要素は揃っており国レベルでは正解だが、参考画像が2種の牛肉を乗せているのに対し1種のみで、ハーブの盛り付け方も一般的とは少し異なる。」

z_base × banh xeo (b/4, beta) — 「バインセオ自体は国レベルで正解だが、別の料理である生春巻き(ゴイクン)を同じ皿に盛り付けるという、現地では通常行われない不自然な提供方法になっている。」

Gemini からズレたケース:
ernie_f × banh xeo (d/4, beta) — 「バインセオの特徴である「大きなクレープ」という形状を完全に失い、揚げ餃子という全く別のジャンルの料理に変化してしまっているため。」

flux_dev × pho bo (c/4, beta) — 「麺がスパゲッティのような丸麺であり、スープも赤くスパイシーに見えるため、参考画像にあるような伝統的なフォーボーとは大きく異なるキメラ料理になっている。」

flux_dev × banh mi (c/4, alpha) — 「バインミーに必須のコリアンダーではなくパセリを使用しており、異文化の要素が混入している。また、参考画像にあるパテや特徴的なパンの質感も再現できていない。」

flux_dev × bun cha (c/4, mixed) — 「ブンチャーの構成要素である肉団子を描けているものの、参考画像とは全く異なり、日本のラーメンや他のベトナム麺料理のように一つの丼に盛り付けてしまっているため、別文化の要素が混入したキメラ状態になっている。」

モデル別 (CA 平均高→低): z_base 2.80 (bbcbb) / z_turbo 2.60 (bbccb) / flux2_kl 2.40 (cbccb) / qwen_lt 2.40 (cbcbc) / flux_dev 2.20 (ccccb) / ernie_f 2.20 (cbcdb) / ernie_t 2.00 (ccccc)
観察: 全モデルが b 域中心で団子状。失敗パターンは 提供形式の誤認 (bún chả がフォーに化ける、bánh xèo がタコス化、spring roll で具材外置き) が中心で、料理本体の構造誤認は少ない。
4.10 India (5 料理: dosa / butter chicken / biryani / samosa / pani puri)
Gemini に最も近づけたケース:
z_turbo × butter chicken (b/4, alpha) — 「インドのバターチキンとして正しく認識できるが、鶏肉に振りかけられたゴマは伝統的ではなく違和感がある。参考画像の方が、付け合わせや盛り付けの細部において、より典型的なバターチキンを再現している。」

z_turbo × pani puri chaat (b/4, mixed) — 「料理自体はパニプリとして認識できるものの、ミントの葉を使った装飾や幾何学的な盛り付けは現地の食文化から乖離しています。参考画像に見られるような、屋台での自然な提供スタイルとは大きく異なります。」

z_base × Hyderabadi biryani (b/4, beta) — 「インド料理としては正解だが、ハイデラバーディ・ビリヤニ特有の調理法(ダム)が反映されていない。参考画像と異なり、米が均一な黄色で、肉が米と混ぜられずに上に乗っている点が大きな違い。」

z_base × samosa (b/4, beta) — 「サモサであることは明確に認識できるが、フィリングがマッシュ状ではなく大きなジャガイモの塊である点や、ソースが一般的なタマリンドチャツネではない点で、参考画像と比較して細部の正確性に欠ける。」

Gemini からズレたケース:
flux_dev × masala dosa (d/4, beta) — 「参考画像にあるような薄くクリスピーな生地を巻いた「マサラ・ドーサ」ではなく、パラタやウッタパムのような別の種類のインドのパンを描いており、完全に別ジャンルの料理になっている。」

flux_dev × pani puri chaat (d/4, beta) — 「「小さく器状で中に詰め物がある料理」という視覚的特徴から、西洋のタルトレットやカナッペに引き寄せられており、インドのパニプリとは全く異なる料理になっている。」

z_turbo × samosa (c/3, beta) — 「サモサの形状が、参考画像のような閉じた三角形ではなく、上部が開いた円錐形になっており、文化的・調理的に不正確です。また、具材もマッシュされず大きな塊のままである点が異なります。」

flux_dev × butter chicken (c/4, mixed) — 「バターチキンの主材料である鶏肉がミートボールに置き換わっており、また参考画像で使われているコリアンダーではなく、西洋料理で使われるパセリが添えられているため、別文化の要素が混入している。」

モデル別 (CA 平均高→低): z_base 3.00 (bbbbb) / qwen_lt 2.60 (cbbcb) / z_turbo 2.40 (cbccb) / ernie_t 2.20 (ccbcc) / flux2_kl 2.00 (ccccc) / ernie_f 2.00 (ccccc) / flux_dev 1.60 (dcccd)
観察: dosa の薄さ と pani puri の小球形 という形状特定要件で蒸留版が崩壊。Flux dev は本記事で India で 1.60 と最低クラス、南アジア料理で大幅に弱い。
4.11 Lebanon (5 料理: mezze / shawarma / fattoush / kibbeh / knafeh)
Gemini に最も近づけたケース:
z_turbo × mezze platter (b/5, beta) — 「フムスやキッベなど国レベルの料理は正解だが、参考画像にあるレバノン特有のサラダ(タブーレ、ファットゥーシュ)が、より一般的な穀物サラダに引き寄せられており、細部に現地との差異が生じている。」

z_base × kibbeh (b/5, beta) — 「調理済みのキッベという点でレバノン料理として正解だが、参考画像の象徴的な生キッベとは異なる。また、クスクスの上に盛り付けるという現代的・西洋的な提供方法に違和感がある。」

ernie_f × knafeh (b/5, beta) — 「チーズではなくクリームを詰めた「鳥の巣」型のクナーファを描いており、これは現地に存在するバリエーションではあるものの、参考画像が示す最も象徴的なチーズのクナーファとは異なります。」

flux_dev × fattoush salad (c/5, beta) — 「野菜の構成は概ね正しいものの、最も特徴的な揚げパンが、参考画像にあるピタパンではなく、視覚的に類似したトルティーヤチップスに置き換わっており、別文化の要素が混入しているため。」

Gemini からズレたケース:
flux2_kl × kibbeh (d/4, beta) — 「ひき肉と穀物という構成要素は共通していますが、参考画像にあるようなペースト状の生地ではなく、ミートボールとクスクスのサラダという完全に別ジャンルの料理になってしまっています。」

qwen_lt × knafeh (d/5, beta) — 「クナーファの特徴であるカダイフ生地と伸びるチーズではなく、フィロ生地とクリームを使った層状の菓子になっており、ワルバートなど同地域の別のデザートに完全に変化してしまっているため。」

flux_dev × mezze platter (c/4, alpha) — 「メゼの主要な構成要素は捉えているものの、最も重要なパンがピタパンではなくイタリア料理のクロスティーニに置き換わっており、異文化の要素が混入したキメラ状態になっている。」

flux_dev × chicken shawarma (c/4, beta) — 「主役であるべきチキンがローストポテトに置き換わっており、料理の根幹が異なっています。また、参考画像に見られる薄いパンではなく、ギリシャのギロピタを彷彿とさせる厚いパンが使われており、別の中東・地中海料理との混同が見られます。」

モデル別 (CA 平均高→低): z_turbo 2.20 (bcccc) / z_base 2.20 (cccbc) / ernie_f 2.20 (ccccb) / flux_dev 1.80 (cccdc) / flux2_kl 1.80 (cccdc) / qwen_lt 1.80 (ccccd) / ernie_t 1.80 (cccdc)
観察: kibbeh のペースト形状 と knafeh のカダイフ生地 という、観光メディアにあまり出ない形状要件で全モデルが d 連発。Z 系も b 1 つ + c 4 つで、訓練データの薄さが如実に出る。
4.12 Nigeria (5 料理: jollof rice / egusi soup / suya / pounded yam / akara)
Gemini に最も近づけたケース:
z_turbo × jollof rice (b/5, none) — 「主要な構成要素はナイジェリア料理として正しいですが、参考画像と比較すると、ご飯の色がナイジェリア特有の濃い赤色ではなく、シチューを上からかける盛り付けも一般的とは言えません。」

flux2_kl × suya (b/4, alpha) — 「串焼き肉を新聞紙に乗せるというナイジェリアの「スヤ」の基本形式は捉えていますが、最も重要なヤジ・スパイスが、参考画像とは全く異なる異文化のトッピングに置き換わってしまっています。」

flux_dev × egusi soup (c/4, mixed) — 「エグシの種のペーストから生まれる独特の食感がなく、主食もクスクスのようなものに置き換わっているため、参考画像とは全く異なる料理に見えます。パセリのトッピングも異文化要素の混入です。」

flux_dev × pounded yam with soup (c/4, mixed) — 「主役であるパウンデッドヤムが、見た目の似た別文化の料理(ポレンタ等)に置き換わっており、致命的な間違いを犯している。参考画像にある白く滑らかな本来の姿とは全く異なる。」

Gemini からズレたケース:
z_base × egusi soup (d/2, beta) — 「エグシ・スープの定義である「すり潰したメロンの種でとろみをつけたスープ」という本質が完全に失われています。参考画像とは異なり、これは全く別の種類の「肉と野菜のスープ」になってしまっています。」

z_turbo × pounded yam with soup (d/4, beta) — 「料理の主役である「パウンデッドヤム」が、見た目が少し似ている黄色い粒状の炭水化物(クスクスなど)に置き換わっており、全く別の料理になってしまっている。」

z_turbo × akara (c/3, beta) — 「アカラの表面に調理前の豆が多数付着しており、本来の製法とは全く異なるキメラ的な料理になっている。参考画像のような滑らかな生地の質感とは大きく異なる。」

z_base × suya (c/3, mixed) — 「ナイジェリアの串焼き料理という大枠は正しいものの、肉が薄切りでなくひき肉状である点や、金属串の使用、粒状ピーナッツのトッピングなど、参考画像と比較して中東のコフタなど別文化のカバブの特徴が混入したキメラ状態になっている。」

モデル別 (CA 平均高→低): flux2_kl 2.20 (ccbcc) / flux_dev 2.00 (ccccc) / z_turbo 2.00 (bccdc) / z_base 1.80 (cdccc) / qwen_lt 1.80 (cccdc) / ernie_t 1.80 (cdccc) / ernie_f 1.80 (cdccc)
観察: egusi のすり潰しメロン種、pounded yam の餅状質感、akara の豆ペースト形状 という、訓練データに出ない要件で全モデルが d 連発。z_base が最下位 (1.80) という意外な結果は、egusi で d を取ったため。Nigeria で a を取ったモデルは存在しない。
4.13 全体観察
12 国 × 7 モデルで読み取れる共通構造:
- 全モデル共通の難所: 季節限定 (chiles en nogada)、提供形式 (bún chả のつけ麺、bánh xèo の大判クレープ)、形状特定 (kibbeh のペースト、akara の豆ペースト、pounded yam の餅状) — これらは観光メディアにほとんど出ないため訓練データが薄い
- a (Gemini 同等) を取れたモデル: flux2_kl (Japan ramen / katsu curry)、z_base (Italy pizza Margherita, Korea japchae, Japan katsu curry, Germany Bratwurst など)、ernie_t (Japan ramen)、ernie_f (Japan sushi)。Japan / Italy / Korea / Germany 以外で a を取ったケースは皆無
- Z-Image Base の安定性: 12 国中 7 国で平均 b 域 (3.00)、観光メディアの薄い文化圏でも崩れにくい
- Flux dev の弱さ: 全モデル中最下位 (1.12)。Italy / Korea / India / Thailand / Vietnam で d/c 多発。観光メディアの薄い文化圏での落差が他モデルより大きい
- Germany 検証で「単一国優位」は不在: Flux 系列 (独製) が独料理で圧勝するわけではなく、z_turbo / qwen_lt (中製) も同等の b 全揃いを出す。実際に効いているのは「観光メディアに大量にある料理は AI 全般が描ける」という構造
なぜこういう構造になるか、を以降で紐解く。
5. 使い方ガイド
本記事の検証から、AI で各国料理を描くときの実用的な判断材料を2つに絞る。
5.1 モデル選択は「描かせたい料理の地理性」で決まる
| 描きたいもの | 推奨モデル | 理由 |
|---|---|---|
| 観光地代表料理 (sushi, pizza Margherita, taco, butter chicken) | 蒸留版で十分 (FLUX.2 klein / Z-Image Turbo / Qwen Lightning / ERNIE Turbo) | 観光メディアに大量、4〜8 step でも崩れない |
| 地方/家庭料理 (おにぎり, jollof, bún chả, kibbeh) | ベース版必須 (Z-Image Base / ERNIE Full / Flux dev) | 少数派カテゴリは step を稼がないと近傍の頻出カテゴリに引きずられる |
| 写実度・質感最優先 | Flux dev | 文化的再現度は最下位だが、テクスチャは群を抜く (note/07 でも実証) |
| 画像内に文字を入れたい | Qwen Lightning | 食文化は弱いが OCR は業界トップ級 |
「中系 AI = 中華に強い」「独製 = 独料理に強い」のような 国 = 強み という素朴な仮説は支持されない (Germany 検証で flux2_kl 独製と z_turbo 中製が同点)。決まるのは「描かせたいドメインの訓練データが豊富かどうか」だけ。
プロンプト側の補正: モデルを変えずに精度を底上げしたい場合は、プロンプトに home-cooked / traditional / local を足す、現地語キーワードを混ぜる (おにぎり, feijoada caseira 等)、地方名を明示 ("Hakata-style ramen", "Bahia acarajé") のいずれかを試す。
5.2 AI に違和感を感じたら、現地ソースで裏取りしてから判断する
本記事の検証中、私が「これおかしい」と思った AI 出力の半分以上は、ツッコんだ私の方が観光客目線の偏見に乗っていた (Vietnam pho の生牛肉、Thailand pad thai の生もやし、Brazil acarajé の干しエビ「こぼれ落ち」など、全部現地では正解)。
実用的な切り分け手順:
- 現地語 Wikipedia の記事を開く (
vi.wikipedia.org/wiki/Phở等) - Google Maps で現地店を検索、位置情報フィルタでレビュー写真を 2〜3 枚見る
- Instagram の位置情報タグ付き投稿を 2〜3 枚
10 分以内に「自分の文化圏で見慣れないだけ」か「現地でも本当に間違っている」かが切り分けられる。
本記事は note/06「ローカル LLM 6モデル比較」、note/07「ローカル画像生成 10モデル比較」に続く 3 部作の最終話。3作を通じて「AI モデルは visually similar / semantically similar なカテゴリを混同する」という共通構造が、それぞれの軸 (日本語の地方方言、居酒屋 ↔ 京都茶屋、料理の地理的分布) で再現された。AI の弱点は地理的に分布する — この視点が、実用上の補正可能性 (本章の 2 ガイド) を生んでいる。
6. 関連記事 (モデル別深掘り)
各モデルの 60 プロンプト全結果と、強み・弱み・推奨用途・典型失敗パターンは、モデルごとの単独記事で深掘りしている:
- v1: Flux.1 dev — 独 Black Forest Labs 製、観光メディア圏でも b/c 域、最下位
- v2: FLUX.2 klein 4B — Flux 系列の蒸留版、4-step、観光地系で安定
- v3: Z-Image Turbo — 中系蒸留版、東アジア食文化に強め
- v4: Z-Image Base — 暫定トップ。ベース版の文化知識保持力
- v5: Qwen-Image Lightning — 蒸留版で文化キメラ多発の典型例
- v6: ERNIE-Image Turbo — Baidu 蒸留版、Prompt Enhancer 評価込み
- v7: ERNIE-Image Full — ERNIE 非蒸留版、生成時間が長い
各派生記事で、そのモデルが強い国・弱い国、典型的な失敗パターン、推奨用途・避けたい用途を、Gemini 2.5 Pro Vision の判定データと共に詳述している。
おまけ: 各国 pub 比較 (12プロンプト × 8モデル) — (pub benchmark 完了後に追加)
7. 番外編: 5歳の娘が見つけた「猫らーめん」
ここまで真面目に「文化的失敗」を分類してきたが、本記事の検証中で家族が一番盛り上がったのは、実はもっと素朴な発見だった。

5歳の娘が Qwen Lightning の jp_01_ramen を見て、ぱっと一言、
「これ猫らーめんだよ」
私は最初なんのことか分からなかった。よく見ると、海苔 2 枚が左右対称の三角形で立てかけられて猫の耳、ワカメとメンマが両目、ネギが鼻、卵とチャーシューがヒゲの位置に整っている。完璧なパレイドリア(顔錯覚)。
なぜ顔に見えるのかというと、AI の整列癖が原因:
- 海苔は本来、複数枚の場合は同じ方向で揃えて添えるのが一般的
- AI はそれを 2枚、左右対称の三角形でピンと立てた
- 結果、ワカメとメンマ(っぽいやつ)が目、ネギが目、卵とチャーシューがひげの位置にハマった
加えて、プロンプトで指定した tonkotsu(白濁スープ)が醤油寄りの澄んだ色になり、麺も博多系の細直麺ではなく縮れ麺。具材自体(チャーシュー、煮卵、メンマ、青ねぎ)は揃っているのに、盛り付けルールを学習していない。
この整列癖は寿司のシャリ粒が均一すぎる AI 出力とも同根。AI が「料理の表面要素は左右対称で幾何学的に整列していると見栄えが良い」という統計的バイアスを持っている結果、現実の料理ではあり得ない規則正しさが滲み出てしまう。
ただ、訓練データの地理的偏向から直接導かれる失敗とは少し別系統の問題で、本筋からは外して番外編にした。
それにしても、5歳児が一発で「猫」を見つけるのは流石だった。人間は顔錯覚に強く反応する生き物で、それは AI が一番見落としがちな評価軸でもある。
8. 注釈・参考リンク
シリーズ関連
- 前々作: note/06「Mac でローカル LLM 6モデル比較してみた」 — シリーズ第1作
- 前作: note/07「Mac でローカル画像生成 10モデル比較したら、最強候補が裏返った」
- 前作 EN: Local image generation on Mac: 10 models compared, my top pick flipped
モデル
- Flux dev / FLUX.2 klein: Black Forest Labs
- Z-Image Turbo / Base: Alibaba Tongyi Lab on Hugging Face
- Qwen-Image Lightning: Qwen on Hugging Face
- ERNIE-Image: Baidu PaddlePaddle
- Gemini API: Google AI Studio — pricing: ai.google.dev/gemini-api/docs/pricing
検証参考にした主な情報源
- 各料理の現地語 Wikipedia(ja/ko/vi/th/pt-BR/es-MX/ar/yo)
- Google 画像検索 + 現地店の Instagram 位置情報タグ
- Reddit r/AskCulinary, r/JapaneseFood, r/Korean, r/IndianFood, r/MexicanFood
用語
- 現地目線 / 観光客目線: 本記事の評価軸。学術用語では emic(イーミック、文化の内側からの視点)/ etic(イーティック、外側からの視点)。Kenneth Pike (1954) が文化人類学に導入
- ホームタウン (Hometown): 当初本記事で立てた仮説 — 「AI の出身国の料理に圧勝する」。Germany 検証で支持されず (ch.4.3)、実際は「観光メディアに豊富にある料理は AI が出身国を問わず描ける」という構造
- category conflation: 視覚的に似たカテゴリを混同する AI の癖。note/07 から引き継いだ用語
- cultural hallucination: AI が「描けない」のではなく自信を持って間違った文化のバージョンを生成する現象。LLM の事実誤認 hallucination の文化版。note/07 の Reddit r/LocalLLaMA 議論で One-Pain6799 が提唱
- 失敗の 2 型 (α / β): 本記事で提案。α = 異文化 garnish ライブラリの混入 / β = 視覚類似カテゴリへの統計的引き寄せ。整列癖 γ は番外編 (第 10 章)
検証データ
- 60 プロンプト × 8 モデル = 480 画像
- 評価 CSV: eval_gemini.csv (Gemini 2.5 Pro Vision 評価結果)
- 各派生記事で「そのモデルの 60 件全部」を国別・失敗型別に分解







































































