ComfyUI + Wanで動画生成!i2v(画像から)、flf2v(開始+終了)t2v,v2vをRunPodで簡単に使う方法

ComfyUIでWanを使う方法

i2vで”静止画キャラから動画生成”とt2vで”テキストから動画生成”

目次

WANとは?

Wanは、VACE内部で使われる 動画生成モデルで、
VACE(Video-Audio-Content Engine)は、中国の大手テック企業 Alibaba Group(阿里巴巴集団)の、AI研究部門「DAMO Academy(達摩院)」開発した 統合的な動画生成・編集モデル群です。

4Kクオリティの動画生成や、非常に自然な物理的動き・質感表現が可能で「映画級」と評されています。

  • 強み
    • 1080p〜4K 出力に対応
    • 実写に近い自然な動き
    • Apache 2.0 ライセンス(商用利用OK)
  • 注意点
    • モデルの重み(学習済みデータ)はまだ一般公開されていない
    • 現状は **公式クラウドサービス または ComfyUIの専用ノード経由(API利用) でのみ使用できます。
    • ローカルPC単体では実行できない(非常に高いGPU性能が必要になる為。)

※当サイトのトップページでもWANで作成した動画を使用しています。作成

商用利用も可能なライセンスで発表されていて
「最新のリアル志向AI動画」を試したいクリエイターに注目されています。

呼称意味・内容
VACEVideo-Audio-Content Engine の略称。動画生成・編集を1つのアーキテクチャで統合するAlibabaのフレームワーク全体を指す
WanVACE内部で使われる 動画生成モデルのシリーズ名。Stable Video Diffusionに近い役割
Wan2.1-VACE最新のVACE対応モデルの1つで、「統合エンジン(VACE)」に対応した動画生成モデル(2.1はバージョン番号)
Wan Video多くの場合、「WanモデルによるVideo生成機能」のことを指し、ComfyUIではi2v/t2vモードとして扱われる

WANの機能

ComfyUIでWANを使う
ComfyUIではWANのテンプレートを各種選択できます

1. I2V(画像→動画)

SAKASA 元画

右は、Runpodの
Public Endpoints内の
Wan 2.2 I2V 720pで
左の画像から、ワンクリック生成した8秒動画。
この、画像からの動画生成では、プロンプトのみを指定した。
生成時間は4分20秒

  • 自作イラストを読み込んで、動きやアニメーションを付けられます。

RunpodのPublic Endpointsに関しては後ほど、Runpodでの使用方法の欄にて解説しています。

Wan2.2 + i2v + high noise

ComfyUIでのWAN使用
ComfyUIでWANが簡単に使用できるテンプレート”wan-2.2_14B_i2v”

Wan2.2 の i2v の high noiseは本当に頼れる存在です。特に特定のキャラクタ―を使用した動画制作をしたい人にとって、今の所これ以上の選択肢はないかもしれません。

私も、KlingやLeonardなども好きですが、キャラクターの顔がなぜか微妙に変わってしまう事が度々あるからです。
その点、WANは違います。

美化もしてくれませんが、確実にキャラを再現してくれます

そして、

開始画像と終了画像から、間を補間して動きを生成する、flf2vも使いやすいモデルです。

2. MV2V(マスク付き動画編集)

  • 動画の一部(例:人物)だけ選んでカラー変更・モーション追加が可能です。
  • マスク付き入力で、選択範囲の「入れ替え」「加筆」「削除」など細かく編集できます。引用元:alibabacloud.com

3. V2V(動画→動画編集)

  • 既存の動画を別のスタイルに変換(例:アニメ調、サイバーパンク風など)。
  • 上書き変更、色調補正など、ComfyUIに搭載された動画編集ノードで実現できます。
  • 動画の拡張やトランスフォーメーション

4. T2V(テキスト→動画)

  • テキスト入力から動画生成。短いアニメーションクリップや動くロゴ作成に使えます。
  • 簡単な「猫がジャンプする」等のプロンプトで動きを生み出せる。

5. ハイブリッドワークフロー

  • たとえば「画像→動画」→「動画→ダイナミックカラー編集」という一連の処理を、すべて1つのノードフロー内で完結できます。

音声や字幕の生成・同期(Audio-aware)
その中に含まれる具体的な動画生成モデルが、最新版では Wan2.1‑VACE と呼ばれています。


AlibabaのAI”VACE”に関する深掘りはこちらをCLICK!

AlibabaがAIに力を入れている

Alibabaは単なるEC企業ではなく、近年では

  • 大規模言語モデル(ChatGPT的な)「Qwen」シリーズの開発
  • データセンター / クラウド(Alibaba Cloud)
  • AIアート、生成画像、翻訳などの研究

に非常に力を入れています。
VACEは、その中でも**「動画分野の戦略的技術」**として位置付けられていて、Stability AIやRunway、Pikaなどの生成系企業に対抗する動きと見られています。

VACE(Wan2.1‑VACE)の元論文要約

Wan2.1‑VACEは、AlibabaのTongyi Lab(DAMO Academy)が開発したマルチモーダル動画生成・編集統合モデルです。引用元:arxiv.org+5alibabacloud.com+5github.com+5。以下が主なポイントです

  1. マルチモーダル対応
    テキスト・画像・動画・マスクという複数モーダルを統一フォーマットで処理し、幅広い動画タスクに対応。引用元:hyper.ai+5arxiv.org+5linkedin.com+5
  2. Video Condition Unit(VCU)
    それぞれのモーダルをひとつの内部条件表現にまとめられるため、柔軟かつ簡潔なインターフェイス設計が可能。引用元:arxiv.org+4the-decoder.com+4arxiv.org+4
  3. 多様な動画タスクを統合処理
  4. 概念分離(Concept Decoupling)
    編集したい部分と固定したい部分をしっかり分けて処理できる仕組みを搭載。引用元:en.wikipedia.org+4the-decoder.com+4comfyui-wiki.com+4
  5. 応用範囲が広い
    短編動画、広告素材、映画向け効果・編集、教育用動画など、さまざまな用途に利用可能なユーティリティ性を持っています。

実際の表記例(GitHubや研究論文から)

  • Wan2.1-VACE achieves unified generation and editing…」(論文より)
  • 「We present VACE, a unified framework… powered by Wan models」(公式発表より)
  • ComfyUIテンプレートでは「Wan2.1」 or 「VACE」どちらも登場し、実質的に同じものを指しています。

研究論文や発表は以下のような名前で出ています



必要 VRAM から考える目安

正直、WANはとても重いモデルです。

現在主力のWan 2.2 / 14Bでは、正直RTX4090でもいっぱいいっぱいですので、私はクラウドGPUnoRunpod(※後ほど解説)で30GB以上のGPUを使用しています。

GPU 選択の際の目安

Wan モデル必要 VRAM目安RunPodで狙うGPU
Wan 2.1 / 1.3B (T2V, 480p)8GB〜RTX A4000 (16GB), RTX 3090 (24GB), RTX 4090 (24GB)
Wan 2.1 / 14B (480p~720p)16GB以上推奨(12GBでもギリ動く報告あり)RTX A4000 (16GB), RTX 3090, RTX 4090
Wan 2.2 / 5B (T2V/I2V)8GB〜(オフロード対応)A4000 (16GB) でもOK、余裕を見るなら 3090 / 4090
Wan 2.2 / 14B (I2V)約20GB必要(実例)RTX 3090 (24GB), RTX 4090 (24GB), H100/A100 40GBクラス

目的別おすすめ GPU

  • お試し・低コスト重視
    • RTX A4000 (16GB)
    • Wan 1.3B / Wan 2.2 5B なら十分。
    • ただし高解像度や14Bモデルは厳しい。
  • コスパと安定性のバランス
    • RTX 3090 (24GB)
    • 14Bモデルもある程度動かせる。
    • 720p動画や長めのシーケンスも可能。
  • ハイエンド・速度重視
    • RTX 4090 (24GB)
    • 3090より処理速度が速い。
    • 高解像度や大規模モデル向け。
  • 研究・プロ用途(大規模モデル狙い)
    • A100 / H100 / L40S (40GB以上)
    • Wan 2.2 の 14B など「VRAM 20GB超」モデルを快適に動かすならこのクラス。

動画生成の時間感覚

長尺 → 15秒以上(高VRAM GPU必須、生成時間が現実的でなくなる場合も)
中尺 → 8〜12秒(挑戦レベル、設定調整や工夫が必要)
短尺 → 3〜5秒(試し撮りサイズ、安定して動作)


コスパで中尺を狙う → RTX 4090
安定性と余裕で中尺をやる → L40S (48GB)
本格的に長尺・高解像度も → A100 / H100 (40GB以上)

公式ブログ情報(Wan 2.1 1.3Bモデル)

  • 480p 5秒で RTX 4090 使用時に 約4分
  • 14B モデルだとこの倍以上の時間がかかると見込まれる。

RunpodのPublic Endpointsで使用する方法

アカウントの作成などについてはこちらの記事をご覧ください【RunPodの使い方と料金】Stable Diffusionを使用して画像生成とLoRA学習をする方法【②実践編】

RunPod公式サイト お友達紹介特典付きリンク

こちらのリンクからサインアップすると、 5~500ドルの1回限りのクレジットが付与され、初回入金時に10ドルが追加されます。

Runpod公式ホームページのPublic EndpointsからWan 2.2 I2V 720p

WAN Wan 2.2 I2V 720p①
WAN Wan 2.2 I2V 720p②
WAN Wan 2.2 I2V 720p③
プロンプトを入力して画像をアップロードしてRun!
未来

RunpodのPublic Endpointsは、好きなツールを選択するだけで、すぐに生成できる手軽さがおすすめポイントです。

RunPodのテンプレート(ComfyUI + Wan)を使用する方法

アカウントの作成などについてはこちらの記事をご覧ください【RunPodの使い方と料金】Stable Diffusionを使用して画像生成とLoRA学習をする方法【②実践編】

RunPodでComfyUIを使う
ComfyやWANなどと検索

ComfyUでは、テキスト・画像・動画元素材から簡単に動画を生成できるテンプレートが沢山用意されています。

ComfyUIの画面を立ち上げるとノードのテンプレートがワンクリックで選択が出来るようになっています。

初期セットアップの手順

step
RunPodでテンプレをデプロイ

“ ComfyUI、Wan t2v i2v VACE、WAN” などを選び、Podを起動。

step
Podが起動

デプロイ後、Podのログで” Ready”などのメッセージを確認します。

Jupyter / SSH / WebUIに接続

step
ターミナルでモデルをダウンロード(wget / git clone / HF CLIなど)

/workspace に保存して使う

step
ComfyUIのUIにアクセス

Web ブラウザから指定URLにアクセスして、ComfyUIが表示される状態になっていればOK。


便利設定・Tips

  • モデルのダウンロード設定:テンプレートデプロイ時に「環境変数でモデルをダウンロードするよう設定」してください。さもないと、実行時にエラーになります 。
  • リアルタイムプレビューを有効に
    • ComfyUIの VHS設定で Advanced Previews を “Always”、Preview method を “Auto” にすると、動画生成途中でもプレビューが表示され、失敗パラメータに気づきやすいです。引用元: reddit.com

i2v(画像→動画)の基本手順

  1. ComfyUI内で i2vワークフロー を選択。
  2. 「Load Image」ノードに、自分の絵のファイルを接続。
  3. フレーム数・解像度・プロンプトなどを設定。
  4. 実行ボタン(▶)を押すと、一定時間後に ComfyUI/output/video に mp4 が出力されます。

t2v(テキスト→動画)の基本

  • プロンプトを「キャラが動いてる様子」など具体的に記述。
  • フレーム数や解像度を指定。
  • ▶を押せば動画が生成され、処理後は同じく output/video に保存されます 。

どのテンプレートを選んだ後も、ComfyUIの画面ではフローを編集できます。また、フロータブからいつでもテンプレートを変更できますので、気軽に選んでみまし

  • 解像度変更
  • フレーム数の増減
  • 動きのスムーズさの調整(interp系)

もカスタマイズ可能です!

「Start image」「End image」がある場合の設定

項目名意味役割
Start image開始フレーム(最初の画像)動画の1フレーム目をこの画像から生成
End image終了フレーム(最後の画像)動画の最終フレームをこの画像に近づけるよう補間生成

この2枚を指定すると、AIがその間の動きを「補完」して動画を生成します。

  • 例:
    • Start image → 女性が前を向いている絵
    • End image → 同じ人物が少し横を向いている絵

→ その間の動きを自然に繋いでくれるようなショート動画になります。


2つのCLIP Text Encode

ComfyUIフロー内に「CLIP Text Encode(Clipテキストエンコード)」ノードが 2つあります。

画像生成・動画生成系のAIでは、複数のプロンプト入力を使い分けるためにエンコードノードが複数使われます。

目的説明ノードの役割
正規のプロンプト(positive prompt)「こうしてほしい」方向の指示明るい・女性・水彩・幻想的など
ネガティブプロンプト(negative prompt)「こうならないでほしい」方向の指示ノイズ・崩れ・奇形・にじみ・extra limbs など

例:


CLIP Text Encode(Positive)  ← "a woman walking in the wind, smooth, cinematic"
CLIP Text Encode(Negative)  ← "blurry, deformed, extra limbs, low quality"

最低限の手順(i2vで Start / End を使う)

step
Start image を読み込む

自分の描いたイラストや写真などを設定

step
End image を読み込む(任意)

変化させたい目標フレーム(同じキャラの別ポーズなど)

step
プロンプトを入力する

例:a girl turns her head slightly, gentle lighting, smooth motion"

step
必要があればフレーム数・出力サイズの確認

例:16フレーム / 480p(初期値のままでもOK)

step
▶ 実行!
  • プロンプトは「動きの方向性」を示す程度にする。
    (例:「歩き出す」「振り返る」「風になびく」など)
  • StartとEndの絵が似すぎていると、あまり動かない。
    → ポーズや視線を少し変えてみる。
  • 出力がカクつく場合は、「interpolation(補間)」のオプションを増やしてみる。

Wan動画用プロンプト変換 β版

日本語で情景を書くと、Wan向けの英語タグ列に整形します。

ここに変換結果が表示されます

その他のオプション

項目名意味推奨値(初回)
Num Frames生成する動画の長さ(フレーム数)16〜24
Resolution出力解像度480p(初回は小さめでOK)
FPSフレームレート6〜12(後から調整可)

LoRAモデルをWanで使う方法

既に学習済みのLoRAモデルを使う場合、Wanでも特別な操作は不要です。基本は モデルを所定のフォルダに入れるだけ で利用可能です。

手順

step
モデルファイルを準備する

学習済みLoRAファイル(.safetensors または .ckpt など)を用意します。

step
WanのLoRAフォルダにコピー

Wanのインストールディレクトリ内の以下フォルダにモデルを入れます。


 models/LoRA/

step
Wanを再起動

起動時に新しいモデルが自動で認識されます。

step
プロンプトで呼び出す
  • LoRAモデルはプロンプトに以下の形式で指定します: <lora:モデル名:重み>
  • 例:<lora:MyLoRA:1.0>
  • 重みは0.5〜1.0程度で調整可能です。

注意点

  • 互換性
    • SD 2.x系モデル用のLoRAはWanでも問題なく使用可能
    • SD 1.x系の場合、精度や出力の雰囲気が微妙に変わることがあります
  • 精度
    • 重みによって生成結果が変化します。最初は1.0で試し、必要に応じて0.5なども試すとよいです
  • 出力の違い
    • Wanの独自処理(ノイズスケジューリングやサンプラーの違い)により、微妙に絵柄が変わることがある

エラー/トラブル

最近のトラブル”2つ目のKサンプラーでクラッシュする件”についてこちらで書いています

ComfyUIで動画の背景だけを再生成する方法3選

こちらの記事では、ComfyUIで動画の背景だけを再生成する方法について、3通りの方法を紹介しています。

動画の背景をComfyUIで削除(透明背景)する方法

動画の背景を消して高精度の背景透過動画を作りたい時に活躍!

よかったらシェアしてね!
  • URLをコピーしました!
目次