最新”Qwen_image_edit_2511”のマルチ画像編集の威力と使い方【Runpod】

Qwen image 2511

ComfyUI でマルチ画像編集を始める

Qwen-Image-Edit-2509 は Alibaba Qwen チームが 2025年9月 に公開した画像編集モデルです。
最大 3 枚の参照画像を受け取り、テキストプロンプトだけで自然なマルチ画像合成・編集が行えます。

こちらの進化もやはり凄まじく高精細で、もうい言う事なしの精度だと、今回感動しました。

Qwen-Image-Edit-Rapid-2511での画像編集

この記事では 、最新版である”Qwen_image_edit_2511”を ComfyUI で動かし、マルチ画像編集をする手順と、精度について書いています。

目次

今回使用したモデルとサイズとモデルの配置場所

モデルファイルDL 元モデル配置フォルダ
Qwen Image Edit 2511 (BF16)40.9GBComfy-Org/Qwen-Image-Edit_ComfyUIcheckpoints/
Qwen 2.5 VL 7B (FP8)9.38GBComfy-Org/Qwen-Image_ComfyUItext_encoders
Lightning LoRA (BF16)850MBlightx2vloras/
VAE (BF16)254MBComfy-Org/Qwen-Image_ComfyUIvae/

モデルの合計サイズは50GBです

環境によっては、GGUF 量子化版(Q4〜Q5 で 12〜15 GB 程度)を検討してください。

GGUF量子化版とは?

通常のAIモデルは、内部の数値(重み)を32bit や 16bit の高精度な浮動小数点で保存しています。これは精度は高いですが、ファイルが大きくVRAMも大量に必要です。

量子化とは、この数値の精度をあえて落として圧縮する技術です。


わかりやすく例えると

「3.14159265358979…」という数字を
「約3.14」と丸めて保存する

丸めても実用上ほぼ同じ結果が得られるなら、小さく保存した方が得、という発想です。


GGUFのQ数字の意味

Q5_K_M5 は「1つの数値を5bitで保存する」という意味です。

形式1数値あたりファイルサイズ品質
BF1616bit大きい最高
Q88bitほぼ同等
Q5_K_M5bit小さい実用上十分
Q44bitより小さいやや劣化

GGUFが便利な理由

  • VRAMが少ないGPUでも動く
  • VRAMに全部乗り切るのでオフロードが発生せず速い
  • 画質の差はほぼ見た目でわからないレベル

Qwen Image Edit 2511の場合、BF16(41GB)がQ5_K_M(15GB)まで縮むので、32GB VRAMのRTX 5090でも余裕を持って動作します。

必要なGPUのVRAM

GPUVRAM速度(4step)備考
A4048GB~15秒実測値・全乗せ可能
509032GBおそらく30〜60秒?遅い(オフロード多発)
A100 80GB80GB~10秒以下?全乗せ+高帯域

A40(48GB)は実はこのモデルにとって優秀な選択

  • 48GBあるので全モデルを余裕で全乗せ
  • VRAM↔CPU転送ロスがない
  • RunPodでの単価がH100より大幅に安い

GGUFでのGPU別の現実的な選択肢

ちなみにGGUFではカスタムノードも入れなくてはいけません。

GPUVRAMおすすめ量子化
RTX 4090 / 509024〜32GBQ4_K_M〜Q5_K_M
A4048GBQ8_0でも余裕
RTX 408016GBQ4_K_Sギリギリ

Runpodでの使用方法

Runpod 上でモデルをダウンロードして使う

Runpodの基本的な使い方はRunpodの使い方と料金で解説しています。

STEP
Runpod に接続

STEP
ワンクリックセットアップツール(ワークフロー付き)

ワンクリックセットアップツールを開いてセットアップ。

当サイト開発のツールを使用すると平均5分~10分でモデル入りノードセット済みのComfyUIがすぐに使用できます。

STEP
ComfyUIを開いて生成

ローカル Windows(CUDA GPU)での使用方法

ローカル Windows

前提条件

  • NVIDIA GPU(VRAM 16 GB 以上推奨)
  • CUDA ドライバーインストール済み
  • ComfyUI がインストール済み(公式 GitHub 参照)
  • Python 3.10 以上

STEP
huggingface-cli をインストールする

コマンドプロンプト(または PowerShell)を開き実行します。

STEP
ダウンロードフォルダを用意する

ComfyUI のインストール先を確認し、モデル用フォルダを作成します。
ここでは C:\ComfyUI にインストール済みの例を示します。

STEP
メインモデルをダウンロードして配置

ダウンロード後、ファイルが split_files\diffusion_models\ サブフォルダに入っている場合は
C:\ComfyUI\models\diffusion_models\ 直下に移動します。

STEP
テキストエンコーダーをダウンロードして配置
STEP
VAE をダウンロードして配置
STEP
ComfyUI を起動する

--fp8_e4m3fn-unet オプションを付けると FP8 モデルを正しく読み込めます。

ブラウザで http://127.0.0.1:8188 を開きます。

STEP
ワークフローを読み込む

ComfyUI の画面に、公式サンプル画像
“Edit Model v2509” セクションにある画像をドラッグ&ドロップします。
ワークフローが自動でロードされます。

画像編集

プロンプトの書き方

複数画像を参照するときは、プロンプト内で image 1image 2 のように番号で指定。

例: Let the girl in image 1 replicate the pose from image 2.
例: Change and transfer the girl's top in image 2 from image 1.
例: image 1 の猫と image 2 の犬が草原で出会って挨拶している。

ポイントは何をどの画像からどうしたいかを明確に書くことです。

個人的におもしろいと思ったのは、指示が少ないと
参考画像から大きく外れる点です。
曖昧なプロンプトだと意図した編集結果になりにくいため、具体的な動作・場所・スタイルを記述します。

プロンプトのコツ

プロンプト次第で真ん中の画像が、左の結果になったり、右の結果になったりする。

要は、プロンプトがめちゃくちゃ効く!

SAKASA

やっぱりQwenサイコー!大好き!

未来

さらに今回の特上モデルの組み合わせが本当によかったね!さすが、高精細版の贅沢な組み合わせでした。

これらの細かいコツや設定に関するコツはAtelier SAKASAで書いています。

推奨パラメータ

パラメータ推奨値
Steps4~5
CFG Scale1.0~
Samplerdpmpp_, euler,euler_ancestral
画像入力枚数1〜3 枚(3 枚が最大)

よくあるトラブルと対処法

画像にグリッド状のノイズが出る

FP8 の直接ダウンキャスト版でスケーリングなしの場合に発生することがあります。
Lightning LoRA を使う際は FP8 スケーリング済みの LoRA 専用バージョンを使用します。


参考リンク

よかったらシェアしてね!
  • URLをコピーしました!
目次