ComfyUI でマルチ画像編集を始める

Qwen-Image-Edit-2509 は Alibaba Qwen チームが 2025年9月に公開した画像編集モデルです。
最大 3 枚の参照画像を受け取り、テキストプロンプトだけで自然なマルチ画像合成・編集が行えます。

こちらの進化もやはり凄まじく高精細で、もうい言う事なしの精度だと、今回感動しました。

この記事では、最新版である”Qwen_image_edit_2511”を ComfyUI で動かし、マルチ画像編集をする手順と、精度について書いています。

今回使用したモデルとサイズとモデルの配置場所

モデル	ファイル	DL 元	モデル配置フォルダ
Qwen Image Edit 2511 (BF16)	40.9GB	Comfy-Org/Qwen-Image-Edit_ComfyUI	checkpoints/
Qwen 2.5 VL 7B (FP8)	9.38GB	Comfy-Org/Qwen-Image_ComfyUI	text_encoders
Lightning LoRA (BF16)	850MB	lightx2v	loras/
VAE (BF16)	254MB	Comfy-Org/Qwen-Image_ComfyUI	vae/

モデルの合計サイズは約50GBです

環境によっては、GGUF 量子化版（Q4〜Q5 で 12〜15 GB 程度）を検討してください。

GGUF量子化版とは？

通常のAIモデルは、内部の数値（重み）を32bit や 16bit の高精度な浮動小数点で保存しています。これは精度は高いですが、ファイルが大きくVRAMも大量に必要です。

量子化とは、この数値の精度をあえて落として圧縮する技術です。

わかりやすく例えると

「3.14159265358979…」という数字を
「約3.14」と丸めて保存する

丸めても実用上ほぼ同じ結果が得られるなら、小さく保存した方が得、という発想です。

GGUFのQ数字の意味

Q5_K_M の 5 は「1つの数値を5bitで保存する」という意味です。

形式	1数値あたり	ファイルサイズ	品質
BF16	16bit	大きい	最高
Q8	8bit	中	ほぼ同等
Q5_K_M	5bit	小さい	実用上十分
Q4	4bit	より小さい	やや劣化

GGUFが便利な理由

VRAMが少ないGPUでも動く
VRAMに全部乗り切るのでオフロードが発生せず速い
画質の差はほぼ見た目でわからないレベル

Qwen Image Edit 2511の場合、BF16（41GB）がQ5_K_M（15GB）まで縮むので、32GB VRAMのRTX 5090でも余裕を持って動作します。

必要なGPUのVRAM

GPU	VRAM	速度（4step）	備考
A40	48GB	~15秒	実測値・全乗せ可能
5090	32GB	おそらく30〜60秒？	遅い（オフロード多発）
A100 80GB	80GB	~10秒以下？	全乗せ＋高帯域

A40（48GB）は実はこのモデルにとって優秀な選択

48GBあるので全モデルを余裕で全乗せ
VRAM↔CPU転送ロスがない
RunPodでの単価がH100より大幅に安い

GGUFでのGPU別の現実的な選択肢

ちなみにGGUFではカスタムノードも入れなくてはいけません。

GPU	VRAM	おすすめ量子化
RTX 4090 / 5090	24〜32GB	Q4_K_M〜Q5_K_M
A40	48GB	Q8_0でも余裕
RTX 4080	16GB	Q4_K_Sギリギリ

Runpodでの使用方法

Runpod 上でモデルをダウンロードして使う

Runpodの基本的な使い方はRunpodの使い方と料金で解説しています。

STEP

Runpod に接続

STEP

ワンクリックセットアップツール（ワークフロー付き）

ワンクリックセットアップツールを開いてセットアップ。

当サイト開発のツールを使用すると平均5分～10分でモデル入りノードセット済みのComfyUIがすぐに使用できます。

SAKASA AI

Runpod エラー回避/ワンクリックセットアップツール【超速時短】 | SAKASA AI RunPodで生成を始めるまでの面倒な作業を自動化 ✅ テンプレート探し不要✅ ノード探し不要✅ モデルを手動で配置する必要なし✅ ダウンロード設定不要✅ 推奨構成が自動で…

STEP

ComfyUIを開いて生成

ローカル Windows（CUDA GPU）での使用方法

ローカル Windows

前提条件

NVIDIA GPU（VRAM 16 GB 以上推奨）
CUDA ドライバーインストール済み
ComfyUI がインストール済み（公式 GitHub 参照）
Python 3.10 以上

STEP

huggingface-cli をインストールする

コマンドプロンプト（または PowerShell）を開き実行します。

STEP

ダウンロードフォルダを用意する

ComfyUI のインストール先を確認し、モデル用フォルダを作成します。
ここでは C:\ComfyUI にインストール済みの例を示します。

STEP

メインモデルをダウンロードして配置

ダウンロード後、ファイルが split_files\diffusion_models\ サブフォルダに入っている場合は
C:\ComfyUI\models\diffusion_models\ 直下に移動します。

STEP

テキストエンコーダーをダウンロードして配置

STEP

VAE をダウンロードして配置

STEP

ComfyUI を起動する

--fp8_e4m3fn-unet オプションを付けると FP8 モデルを正しく読み込めます。

ブラウザで http://127.0.0.1:8188 を開きます。

STEP

ワークフローを読み込む

ComfyUI の画面に、公式サンプル画像の
“Edit Model v2509” セクションにある画像をドラッグ＆ドロップします。
ワークフローが自動でロードされます。

画像編集

プロンプトの書き方

複数画像を参照するときは、プロンプト内で image 1、image 2 のように番号で指定。

例: Let the girl in image 1 replicate the pose from image 2.
例: Change and transfer the girl's top in image 2 from image 1.
例: image 1 の猫と image 2 の犬が草原で出会って挨拶している。

ポイントは何をどの画像からどうしたいかを明確に書くことです。

個人的におもしろいと思ったのは、指示が少ないと
参考画像から大きく外れる点です。
曖昧なプロンプトだと意図した編集結果になりにくいため、具体的な動作・場所・スタイルを記述します。

プロンプト次第で真ん中の画像が、左の結果になったり、右の結果になったりする。

要は、プロンプトがめちゃくちゃ効く！

SAKASA

やっぱりQwenサイコー！大好き！

未来

さらに今回の特上モデルの組み合わせが本当によかったね！さすが、高精細版の贅沢な組み合わせでした。

これらの細かいコツや設定に関するコツはAtelier SAKASAで書いています。

Patreon

Atelier SAKASA — Narrative Artworks Get more from Atelier SAKASA on Patreon. Narrative Artworks. Support Atelier SAKASA and get exclusive access to their work.

推奨パラメータ

パラメータ	推奨値
Steps	4~5
CFG Scale	1.0~
Sampler	dpmpp_, euler,euler_ancestral
画像入力枚数	1〜3 枚（3 枚が最大）

よくあるトラブルと対処法

画像にグリッド状のノイズが出る

FP8 の直接ダウンキャスト版でスケーリングなしの場合に発生することがあります。
Lightning LoRA を使う際は FP8 スケーリング済みの LoRA 専用バージョンを使用します。

参考リンク

よかったらシェアしてね！

URLをコピーしました！

最新”Qwen_image_edit_2511”のマルチ画像編集の威力と使い方【Runpod】

ComfyUI でマルチ画像編集を始める

今回使用したモデルとサイズとモデルの配置場所

わかりやすく例えると

GGUFのQ数字の意味

GGUFが便利な理由

必要なGPUのVRAM

GGUFでのGPU別の現実的な選択肢

Runpodでの使用方法

ローカル Windows（CUDA GPU）での使用方法

前提条件

画像編集

プロンプトの書き方

推奨パラメータ

よくあるトラブルと対処法

画像にグリッド状のノイズが出る

参考リンク

【2026年】AI画像生成GPU おすすめ比較｜RTX4060〜5090・5060Ti【Stable Diffusion・ComfyUI・LoRA対応】