最新”Qwen_image_edit_2511”のマルチ画像編集の威力と使い方【Runpod】

ComfyUI でマルチ画像編集を始める
Qwen-Image-Edit-2509 は Alibaba Qwen チームが 2025年9月 に公開した画像編集モデルです。
最大 3 枚の参照画像を受け取り、テキストプロンプトだけで自然なマルチ画像合成・編集が行えます。
こちらの進化もやはり凄まじく高精細で、もうい言う事なしの精度だと、今回感動しました。

この記事では 、最新版である”Qwen_image_edit_2511”を ComfyUI で動かし、マルチ画像編集をする手順と、精度について書いています。
目次
今回使用したモデルとサイズとモデルの配置場所
| モデル | ファイル | DL 元 | モデル配置フォルダ |
|---|---|---|---|
| Qwen Image Edit 2511 (BF16) | 40.9GB | Comfy-Org/Qwen-Image-Edit_ComfyUI | checkpoints/ |
| Qwen 2.5 VL 7B (FP8) | 9.38GB | Comfy-Org/Qwen-Image_ComfyUI | text_encoders |
| Lightning LoRA (BF16) | 850MB | lightx2v | loras/ |
| VAE (BF16) | 254MB | Comfy-Org/Qwen-Image_ComfyUI | vae/ |
モデルの合計サイズは約50GBです
環境によっては、GGUF 量子化版(Q4〜Q5 で 12〜15 GB 程度)を検討してください。
GGUF量子化版とは?
通常のAIモデルは、内部の数値(重み)を32bit や 16bit の高精度な浮動小数点で保存しています。これは精度は高いですが、ファイルが大きくVRAMも大量に必要です。
量子化とは、この数値の精度をあえて落として圧縮する技術です。
わかりやすく例えると
「3.14159265358979…」という数字を
「約3.14」と丸めて保存する
丸めても実用上ほぼ同じ結果が得られるなら、小さく保存した方が得、という発想です。
GGUFのQ数字の意味
Q5_K_M の 5 は「1つの数値を5bitで保存する」という意味です。
| 形式 | 1数値あたり | ファイルサイズ | 品質 |
|---|---|---|---|
| BF16 | 16bit | 大きい | 最高 |
| Q8 | 8bit | 中 | ほぼ同等 |
| Q5_K_M | 5bit | 小さい | 実用上十分 |
| Q4 | 4bit | より小さい | やや劣化 |
GGUFが便利な理由
- VRAMが少ないGPUでも動く
- VRAMに全部乗り切るのでオフロードが発生せず速い
- 画質の差はほぼ見た目でわからないレベル
Qwen Image Edit 2511の場合、BF16(41GB)がQ5_K_M(15GB)まで縮むので、32GB VRAMのRTX 5090でも余裕を持って動作します。
必要なGPUのVRAM
| GPU | VRAM | 速度(4step) | 備考 |
|---|---|---|---|
| A40 | 48GB | ~15秒 | 実測値・全乗せ可能 |
| 5090 | 32GB | おそらく30〜60秒? | 遅い(オフロード多発) |
| A100 80GB | 80GB | ~10秒以下? | 全乗せ+高帯域 |
A40(48GB)は実はこのモデルにとって優秀な選択
- 48GBあるので全モデルを余裕で全乗せ
- VRAM↔CPU転送ロスがない
- RunPodでの単価がH100より大幅に安い
GGUFでのGPU別の現実的な選択肢
ちなみにGGUFではカスタムノードも入れなくてはいけません。
| GPU | VRAM | おすすめ量子化 |
|---|---|---|
| RTX 4090 / 5090 | 24〜32GB | Q4_K_M〜Q5_K_M |
| A40 | 48GB | Q8_0でも余裕 |
| RTX 4080 | 16GB | Q4_K_Sギリギリ |
Runpodでの使用方法
Runpod 上でモデルをダウンロードして使う
Runpodの基本的な使い方はRunpodの使い方と料金で解説しています。
STEP
Runpod に接続
STEP
ワンクリックセットアップツール(ワークフロー付き)
ワンクリックセットアップツールを開いてセットアップ。
当サイト開発のツールを使用すると平均5分~10分でモデル入りノードセット済みのComfyUIがすぐに使用できます。
SAKASA AI
Runpod エラー回避/ワンクリックセットアップツール【超速時短】 | SAKASA AI RunPodで生成を始めるまでの面倒な作業を自動化 ✅ テンプレート探し不要✅ ノード探し不要✅ モデルを手動で配置する必要なし✅ ダウンロード設定不要✅ 推奨構成が自動で…
STEP
ComfyUIを開いて生成
ローカル Windows(CUDA GPU)での使用方法
ローカル Windows
前提条件
- NVIDIA GPU(VRAM 16 GB 以上推奨)
- CUDA ドライバーインストール済み
- ComfyUI がインストール済み(公式 GitHub 参照)
- Python 3.10 以上
STEP
huggingface-cli をインストールする
コマンドプロンプト(または PowerShell)を開き実行します。
STEP
ダウンロードフォルダを用意する
ComfyUI のインストール先を確認し、モデル用フォルダを作成します。
ここでは C:\ComfyUI にインストール済みの例を示します。
STEP
メインモデルをダウンロードして配置
ダウンロード後、ファイルが split_files\diffusion_models\ サブフォルダに入っている場合はC:\ComfyUI\models\diffusion_models\ 直下に移動します。
STEP
テキストエンコーダーをダウンロードして配置
STEP
VAE をダウンロードして配置
STEP
ComfyUI を起動する
--fp8_e4m3fn-unet オプションを付けると FP8 モデルを正しく読み込めます。
ブラウザで http://127.0.0.1:8188 を開きます。
画像編集
プロンプトの書き方
複数画像を参照するときは、プロンプト内で image 1、image 2 のように番号で指定。
例: Let the girl in image 1 replicate the pose from image 2.
例: Change and transfer the girl's top in image 2 from image 1.
例: image 1 の猫と image 2 の犬が草原で出会って挨拶している。ポイントは何をどの画像からどうしたいかを明確に書くことです。
個人的におもしろいと思ったのは、指示が少ないと
参考画像から大きく外れる点です。
曖昧なプロンプトだと意図した編集結果になりにくいため、具体的な動作・場所・スタイルを記述します。

プロンプト次第で真ん中の画像が、左の結果になったり、右の結果になったりする。
要は、プロンプトがめちゃくちゃ効く!
SAKASAやっぱりQwenサイコー!大好き!
未来さらに今回の特上モデルの組み合わせが本当によかったね!さすが、高精細版の贅沢な組み合わせでした。
これらの細かいコツや設定に関するコツはAtelier SAKASAで書いています。
Patreon

Atelier SAKASA — Narrative Artworks Get more from Atelier SAKASA on Patreon. Narrative Artworks. Support Atelier SAKASA and get exclusive access to their work.
推奨パラメータ
| パラメータ | 推奨値 |
|---|---|
| Steps | 4~5 |
| CFG Scale | 1.0~ |
| Sampler | dpmpp_, euler,euler_ancestral |
| 画像入力枚数 | 1〜3 枚(3 枚が最大) |
よくあるトラブルと対処法
画像にグリッド状のノイズが出る
FP8 の直接ダウンキャスト版でスケーリングなしの場合に発生することがあります。
Lightning LoRA を使う際は FP8 スケーリング済みの LoRA 専用バージョンを使用します。

