Gemini 2.5 Flash Image (Nano Banana) — クラウドが別格である理由

本記事は Mac でローカル画像生成 10モデル比較したら、最強候補が裏返ったのスピンオフ。各モデル単独レビューの v9。ローカル群 8モデルに対する「クラウド代表」枠。

TL;DR

Gemini 2.5 Flash Image (通称 Nano Banana) は Google のクラウド画像生成 API
同じ8プロンプトを試した結果、ローカル群とは別次元の品質が出た
漢字・文化文脈・解剖学・スタイル指定・対話編集すべて完璧
「テキスト → 画像」ではなく「テキスト → シーン全体」を生成する設計
弱点は固定費: API 課金 + クラウド依存。ローカルで完結したい個人開発者には毒

なぜこのモデルを試したか

ローカル群を 10系統試したあと、「クラウドだとどこまで違うのか」を1モデルだけ並べる必要があった。比較対象の上限を示すためのベンチマーク役。

選んだのは Google の Gemini 2.5 Flash Image (Nano Banana)。理由:

Imagen 系の血統: Google の研究系画像モデル
マルチモーダル設計: テキスト → 画像だけでなく 画像 + テキスト → 画像（編集）も同モデルで可能
API でアクセスしやすい: アカウント1つで Web からも使える

OpenAI の DALL·E 3 / Sora、Midjourney、Anthropic の Claude (画像生成は無し) なども候補だったが、「Imagen 系の血統 + 対話編集 + Web から無料で試せる」が決め手。

環境セットアップ

ローカル系と違って pip install 不要。本記事は aistudio.google.com の Gemini 3.1 Pro モードでプロンプトを貼り付けて生成した絵を中心に評価する。

Google アカウントでログイン
モデル選択で Gemini Pro を選ぶ（画像生成機能込み）
プロンプトを貼って Generate
生成画像 + その後の対話編集（追加指示）も可能
無料枠あり（モデルによって制限あり、画像生成は有料 / billing 紐付け前提）

API（gemini-2.5-flash-image）でも生成できるが、Web UI と API で品質に体系的な差があった。

[有料記事 ¥300] Gemini API 課金が最強だと思ってた、結果はいかに？（v9b）身銭を切って 8プロンプト + 対話編集を API で検証した記録。Web UI vs API の体系的な品質差、04 商標ガードレール、対話編集の限界、漢字描画の決定的な違いまで。Gemini に課金して API を使おうとしている人は読むべき内容。

ハード要件: 無し（クラウド処理）。Mac M1 Max 64GB のファンが回らない。これが最大の対比点。

項目	値
ローカルディスク	0GB
GPU メモリ	不要
1枚あたり	数秒（クラウド処理時間）
課金	Google AI Pro プラン ($19.99/月) 等の契約があれば追加料金なし
認証	Google アカウント

→ 月額固定の Google AI Pro プランに既に加入している人なら、Web UI 経由は追加料金なしで本記事と同じ品質の絵が出せる。本記事の検証も全て Web UI 経由（API 課金体系については v9b 有料記事で別途扱う）。

8プロンプト全結果

#	プロンプト	画像
01	a cute cat sitting on a wooden bench in a sunny park
02	a bowl of ramen with chashu and soft-boiled egg
03	a wooden sign with "LOCAL AI"
04	a developer's t-shirt with "M1 MAX 64GB" retro 80s style
05	a woman developer working at a laptop
06	a glowing AI brain made of circuits and neon
07	three robots playing chess in a sunlit library
08	a wooden izakaya sign with the kanji "居酒屋"

個別プロンプト評価

01 猫 — シーンとして完成している

ベンチに座る猫。Flux dev がアニメ調に流れ、Qwen Lightning が「ほぼ実写、若干イラスト感」に踏みとどまったのと比べて、Gemini は「猫の写真」として完成している。光の当たり方、背景の被写界深度、全部自然。

Flux dev (2024)	Qwen Lightning (2025)	Gemini (2025)

アニメ・イラスト調に流れる	ほぼ実写、若干イラスト感あり	「猫の写真」として完成、被写界深度・光の当たり方が自然

02 ラーメン — もはや「ラーメン屋の写真」

プロンプトに書いていない要素が正しく追加される：

チャーシュー4枚（プロンプトには複数枚指定なし）
海苔（ピーンと立てて配置）
半熟卵1個（断面が見える、プロンプト通り）
メンマ（穂先まで再現）
ナルト（渦巻き模様）
白ごま、青ねぎ
木箸、レンゲ
七味の小皿
水のグラス
古材の木製テーブル

Flux dev (2024)	Qwen Lightning (2025)	Gemini (2025)

パクチー入り（東南アジア混合）	緑の謎野菜だけ気になる	ラーメン屋の写真、小皿まで完璧

→ プロンプトを超えて「シーン全体のコンテクスト」を生成する設計。これは「テキスト → 画像」ではなく「テキスト → 撮影現場」と言うべき。

03 LOCAL AI — 文字描画も完璧、Flux dev と同等

夕陽、草原、木の看板、"LOCAL AI"。Flux dev とほぼ同等の品質で文字を綴る。Gemini が圧倒的に勝るのはこの後の04以降。

Flux dev (2024)	Qwen Lightning (2025)	Gemini (2025)

文字完璧、レンズフレアまで	文字完璧、Full の手癖は消える	文字完璧、シーン作り込みは Gemini が一段上

→ 英文字描画では3者横並び。Flux dev / Qwen Lightning / Gemini はすべて綴れる。差が出るのは「シーンとしての作り込み」（夕陽の質感・看板の素材感など）で、ここで Gemini がじわじわ抜ける。

04 M1 MAX 64GB Tシャツ — プロンプトを超えて開発者まで描く

「Tシャツに 'M1 MAX 64GB' を 80s 風で」と頼んだら、Tシャツを着た男性開発者の写真が返ってきた:

Tシャツに "M1 MAX 64GB" 完璧、シンセウェーブのグリッドと夕日のロゴ
背景にデュアルモニター（コードが表示されてる）
メカニカルキーボード、コーヒーマグ
Apple Watch、リストバンド、笑顔
暖色照明の自宅オフィス

Flux dev (2024)	Qwen Lightning (2025)	Gemini (2025)

Tシャツに完璧プリント、80s シンセウェーブ完全再現	Tシャツに完璧プリント	Tシャツを着た開発者本人、デュアルモニター・コード表示まで

→ Flux dev / Qwen Lightning は「Tシャツのデザイン画像」を作る。Gemini は「Tシャツが存在する世界」を作る。プロンプトに無い「人物」「環境」「文脈」を勝手に補完する設計思想の違い。

05 女性開発者 — 撮影現場レベルの作り込み

ローカル各モデルが「指消失」「PC が宙に浮く」「コップが PC 上」で苦戦したプロンプト。Gemini の出力:

指5本でセラミックカップを自然に握る
ラップトップ画面にコードが表示
横モニターにも別のコード画面
棚に "Clean Code" (Robert C. Martin の名著) の本
別の本（"Effective JavaScript" らしき表紙）
手書きノート、ボールペン
観葉植物
ヘッドホン、メカニカルキーボード
背景に他の開発者をぼかしで配置（共同オフィスの雰囲気）

Flux dev (2024)	Qwen Lightning (2025)	Gemini (2025)

自然構図、美人系イラスト寄り	ストック写真として OK	共同オフィスの撮影現場

→ Gemini は「ストック写真」ではなく「撮影現場」を作る。本のタイトルまで実在書を選んでくる作り込みは、ローカル系では到達できない領域。

06 AI brain — サイバーパンク調も Flux dev を超える

ネオン回路の脳、立体感、光の粒子。Flux dev で十分綺麗だったが、Gemini は更に上。これはもはや「キーアートとして即採用できる」レベル。

Flux dev (2024)	Qwen Lightning (2025)	Gemini (2025)

ローカル中トップ、ネオンの粒子・光の走り	実用域だが解像度感は Flux dev / Gemini に劣る	キーアート即採用レベル、立体感・光の粒子が桁違い

→ 抽象アート系プロンプトでも Gemini が頂点。Flux dev でローカルは天井に見えていたところを、さらに一段抜く品質。サイバーパンク・ネオン・グロー系のキービジュアルを作るなら、Gemini に課金できるなら Gemini 一択。

07 ロボとチェス — 世代の異なる3体、隠しストーリー付き

3体のロボット、図書館、チェス盤、暖色光、本棚、アーチ型の窓から差し込む光。ロボット同士の表情・視線・指の角度まで作り込まれている。

しかも、よく見るとこれは世代の異なる3体のロボットが対戦している:

左: 工業デザイン的アンドロイド、ディスプレイ型の顔 → レトロ世代
中央: 人間型ヒューマノイド、銀色のスマートな造形、目の表現が完璧 → 現代世代（人型進化系）
右: キャタピラ（無限軌道）足のお椀型ロボ → 別系統 / 産業ロボ系統

プロンプトには three robots playing chess としか書いていないのに、Gemini は「ロボット史の対話」とでも呼ぶべき隠しストーリーを勝手に組み立ててくる。背景には 観戦者らしき2人 がぼかしで配置され、テーブルには革表紙の古い本まで置かれている（チェスの古典書？）。

→ Gemini の「プロンプトを超えてシーン全体のコンテクスト・ストーリーを作る」の決定的な例。Qwen 系の漫画調表情とは別物どころか、「絵」ではなく「シナリオ」を出してくる。

Flux dev (2024)	Qwen Lightning (2025)	Gemini (2025)

3体ロボ + 図書館、表情・手のディテール充実	3体ロボ + 図書館、表情やや漫画調	3世代のロボット史対話、観戦者、古い革表紙の本

→ Flux dev / Qwen Lightning も「3体・図書館・チェス」というプロンプト要素は破綻なく描く。Gemini だけがプロンプトに無いストーリーを足してくるのが分かる。

08 居酒屋 — 漢字 + シーン全体、ローカル群との壁

「居酒屋」3文字、墨の刷毛感、提灯のネオン滲み、雨上がりの石畳の光の反射、暖色照明の店の中まで覗ける構図。

Flux dev (2024)	Qwen Lightning (2025)	Gemini (2025)

京都町家風（料亭の意匠、文化誤読）+ 架空字	漢字・店構え・暖色照明完璧	漢字 + 雨上がり + 周辺ストーリー

Qwen Lightning が「居酒屋として成立する」レベルなら、Gemini は「雨上がりの夕方、雨に濡れた石畳の路地、その奥にある居酒屋」というストーリーまで作る。

→ 本記事の比較で最大の差が出るプロンプト。ローカルでも Qwen Lightning なら戦えるが、Gemini は別の次元にいる。

対話型編集 — Gemini だけの強み

Gemini の真の強みは生成だけじゃない。生成された画像に対話で編集指示が出せる:

「居酒屋の看板の高さを下げて」 → 看板の位置だけ変わる、店構えはそのまま
「夜の路地を雨上がりにして」 → 路面が濡れた質感に変わる
「そんなところに看板あったらぶつかるよ？w」 → ボケて汗をかいて頭を抱える男性を画像内に追加してきた

これはローカル系にはできない:

系統	編集
ローカル系 (SD/Flux/Qwen)	テキスト → 画像の片道のみ
Gemini	画像 + テキスト指示 → 編集が同モデルで可能
Qwen-Image-Edit (別モデル)	一応可能、ただし Qwen-Image とは別 repo / 別 40GB

ローカルで対話編集をやるには Qwen-Image-Edit が必要だが、ベースモデル + Edit モデル両方で 80GB 占有。Gemini は1モデルで両方こなす。

良かった点

すべての評価軸でローカル群を超える: 物理的正確性・文字正確性・文化的再現度すべて
シーン全体のコンテクストを作る: プロンプトを超える要素が正しく追加される
対話型編集が同モデルで可能: 1モデルで生成 + 編集
ローカル不要: GPU・ディスク・電気代ゼロ
Web からすぐ試せる: pip install / モデルダウンロード不要

悪かった点

API 課金: 従量制、読者がつかない時期も払い続ける固定費リスク
クラウド依存: ネット接続必須、Google アカウント必須
プロンプト主導権が弱い: Tシャツのデザインだけ欲しいのに開発者まで描かれる
ローカルと違って細かい制御がしにくい: seed の固定や guidance_scale の調整は限定的
個人開発者の固定費許容度を超える: ブログ1記事に1ドルでも、月10記事 × 10画像で常時課金

このモデルが活きるユースケース

率直に言うと：本末転倒だけど、課金できるなら Gemini (Nano Banana) を使った方がいい w

本記事はローカル画像生成 10系統を比較する企画なのに、結論として「クラウド代表のGemini が圧倒的」という構図になった。ストック写真はローカル群で足りるが、「絵としての完成度」「シーンとしてのストーリー」「対話型編集」を求めると Gemini に勝るローカルは存在しない。個人開発者の固定費が許容できる範囲なら、Gemini を本命にして、ローカルは補助に回すのが合理的。

整理すると:

✅ 品質最優先のキービジュアル: ブログのアイキャッチ、SNS のカード画像、課金して作る価値あり
✅ 対話型編集が必要な制作: ラフから清書まで同モデルで完結、ローカルでは到達不可能
✅ 重要な漢字・文化記号を含む画像: ローカル群では出ない品質
✅ 記事の最初の1枚（ヘッダー）: 残りはローカルで埋める運用もアリ
✅ 試しに1〜2枚出してみるだけ: 無料枠 + Web UI
⚠️ 大量生成: プランごとに月間生成上限がある + AI 側が拒絶反応を示すことがある（同セッションで連続生成すると "Try again later" になる、ガードレール発動も体感的に厳しめ）
❌ ローカル完結したい用途・オフライン環境: 本記事のシリーズの哲学（固定費ゼロ）と逆 → ローカル群へ
❌ 記事の挿絵を全部 Gemini で: 月10記事 × 10画像で固定費が痛くなる、bulk はローカルへ

→ 「全部 Gemini で良くね」という結論になりかけるのを止めるのは、読者ゼロでも回り続ける記事制作パイプラインを作りたい個人開発者の経済的合理性だけ。それが本記事のシリーズの哲学（固定費ゼロ）。Gemini に課金できる人にはローカルを薦めない。Gemini に課金したくない / できない人のために、Flux dev (英語圏) と Qwen Lightning (アジア圏) が役に立つ。

ハマりポイント / Tips

1. Web UI で試してから API 化する

最初から API 叩くより、https://aistudio.google.com/ の Web UI で同じプロンプトを試して、品質感を確認してから API 化する方が無駄な課金を抑えられる。

2. 1プロンプトで複数候補を生成しない

GPT-4 系の "n=4" のような設定が無く、1リクエスト1画像。複数候補欲しければ複数回叩く。

3. プロンプトはシンプルめが効く

ローカル系で必要だった photorealistic, highly detailed, 8k, masterpiece のような呪文は逆効果。「a bowl of ramen」だけで日本のラーメンが出る。Gemini は学習データの密度が違うので、修飾語を減らす方が安定する。

4. アスペクト比は API パラメータで指定

config = {"aspect_ratio": "16:9"}  # SNS バナー用

デフォルトは 1:1。記事のヘッダー画像なら 16:9、Pinterest 系なら 2:3、X (Twitter) のサムネなら 16:9 がおすすめ。

5. プランの月間生成上限を把握しておく

Web UI 経由は Google AI Pro プラン ($19.99/月) の固定費で動くので、API のような従量課金は発生しない。代わりにプランごとに月間生成上限があり、上限に達すると 「生成できません」と表示されて止まるだけ（追加課金は発生しない）。月内のヘビーユース時は次月リセットを待つ運用。

API は別建てで従量課金なので、API を使う場合だけ Google Cloud Console で予算アラート設定が必要（詳細は v9b 有料記事）。

6. API を使うなら有料記事を先に読む

API 経由でも gemini-2.5-flash-image を呼べるが、Web UI と品質に体系的な差がある。billing 紐付けの罠、モデル名の罠、漢字描画の差、商標プロンプトのガードレールなど、API 特有の落とし穴は別記事に。

[有料記事 ¥300] Gemini API 課金が最強だと思ってた、結果はいかに？ (v9b) 月数千円〜数万円を Gemini API に課金しようとしているなら、まずこの300円の記事を読む方が安い。検証コストは身銭を切って払い済み。

個人ブログ用途なら Web UI で十分、というのが本記事の結論。

ローカル vs クラウドの哲学的対立

本記事のシリーズ（「個人が頑張れば手の届くローカル AI」）と、Gemini は対極にある。

ローカル: 電気代だけ、固定費ゼロ、読者がつかなくても損しない
クラウド: 従量課金、読者がつかない時期に固定費が痛い、ただし品質は別格

→ ストック写真レベルで足りるならローカル (Qwen Lightning / Flux dev)、撮影現場レベル必須ならクラウド (Gemini)。

「全部 Gemini で良くね」という結論は出ない。出ない理由が個人開発者の経済的合理性。読者ゼロでも回り続ける記事制作パイプラインを作るなら、ローカルで完結させた方が長期的に強い。

比較記事と次のモデルへ

まとめ記事: Mac でローカル画像生成 10モデル比較したら、最強候補が裏返った
前作 (LLM 6モデル比較): ローカルLLMで読める記事は書けるのか

シリーズ内の関連記事:

v6 Flux.1 [dev] — ローカル写実度トップ、ただし英語圏ネイティブの偏向
v8 Qwen-Image Lightning — 8-step に蒸留したらローカル最強候補に化けた
[有料記事 ¥300] v9b Gemini API 課金が最強だと思ってた、結果はいかに？（API 検討中なら必読）

次作 (構想):

第3弾: AI が描く各国料理 — 学習データの地理的偏向を可視化（draft）

検証環境: Gemini 3.1 Pro モードで 8プロンプト生成 作業ログ: 2026-04-29 〜 04-30、Gemini 2.5 Flash Image (Nano Banana)