【RunPod+ComfyUI】キャラクターが崩れない最強動画AI「Wan2.2」完全攻略ガイド

ComfyUIでWanを使う方法

【i2vで”静止画キャラから動画生成”】【t2vで”テキストから動画生成”】

現在、動画生成AIの領域で「実写・アニメ問わず、キャラクターの再現性がズバ抜けて高い」と猛烈に注目を集めているのが、Alibaba(阿里巴巴集団)のAI研究部門「DAMO Academy(達摩院)」が開発したオープンウェイトモデル「Wan(ワン)」シリーズです。

従来の動画AI(KlingやLeonardo AIなど)で頻発していた「動かすとキャラの顔や服が別人になってしまう」という問題をクリアし、自作イラストを思い通りに動かせる時代が到来しました。

この記事では、最新のWan2.2を中心に、その圧倒的な機能と、クラウドGPUのRunpod「ComfyUI」を使って最高環境で動画を生成する方法を徹底解説します!

目次

WAN(VACE)とは?

Wanは、Alibabaが提唱する次世代の動画・音声統合フレームワーク「VACE(Video-Audio-Content Engine)」の核となる動画生成モデルシリーズです。

商用利用可能な Apache 2.0 ライセンスで公開されており、1080pから4Kクオリティの出力、そして極めて自然な物理挙動と質感を表現できることから「映画級のオープンソース動画AI」と評されています。

関連用語の整理

  • VACE (Video-Audio-Content Engine): 動画・音声・編集を1つのアーキテクチャで統合するAlibabaの全体フレームワーク。
  • Wan2.1 / Wan2.2: VACEに対応した具体的な動画生成モデルのバージョン。最新のWan2.2では、さらに高精細かつ意図通りの制御が可能になりました。

ComfyUIなどの環境では、以下の多彩なワークフロー(テンプレート)を選択して動画を生成・編集できます。

呼称意味・内容
VACEVideo-Audio-Content Engine の略称。動画生成・編集を1つのアーキテクチャで統合するAlibabaのフレームワーク全体を指す
WanVACE内部で使われる 動画生成モデルのシリーズ名。Stable Video Diffusionに近い役割
Wan2.1-VACE最新のVACE対応モデルの1つで、「統合エンジン(VACE)」に対応した動画生成モデル(2.1はバージョン番号)
Wan Video多くの場合、「WanモデルによるVideo生成機能」のことを指し、ComfyUIではi2v/t2vモードとして扱われる

1. I2V(Image-to-Video / 画像 → 動画)

一枚の静止画(イラストや写真)を原画として、プロンプトで指示した動きを与えます。

2. MV2V(マスク付き動画編集)

動画の特定部分(例:人物だけ)をマスクで指定し、衣装の入れ替え、カラー変更、モーションの追加などを部分修正します。

3. V2V(Video-to-Video / 動画 → 動画変換)

既存の動画の構図や動きを維持したまま、実写をアニメ風に、あるいはサイバーパンク風にスタイル変換します。

4. T2V(Text-to-Video / テキスト → 動画)

「ジャンプする猫」など、テキストプロンプトのみからゼロベースで動画を生み出します。

5. F2V(First-and-Last-to-Video / 前後画像補間)

「開始画像」と「終了画像」の2枚を入力し、AIがその間の「中割りの動き」を自然に補間生成します。


WANの機能

ComfyUIでWANを使う
ComfyUIではWANのテンプレートを各種選択できます
SAKASA 元画

右は、Runpodの
Public Endpoints内の
Wan 2.2 I2V 720pで
左の画像から、ワンクリック生成した8秒動画。
この、画像からの動画生成では、プロンプトのみを指定した。
生成時間は4分20秒

  • 自作イラストを読み込んで、動きやアニメーションを付けられます。

RunpodのPublic Endpointsに関しては後ほど、Runpodでの使用方法の欄にて解説しています。

Wan2.2 + i2v + high noise

ComfyUIでのWAN使用
ComfyUIでWANが簡単に使用できるテンプレート”wan-2.2_14B_i2v”

特定のキャラクターを固定して動画を作りたいクリエイターにとって、現状「Wan2.2 14B (I2V) + High Noise設定」以上の選択肢はありません。

他の商用動画AIでは、1フレームごとに顔の造形が微妙に変化して(モーフィング現象)美化されたり崩れたりしがちですが、Wanは「1枚目のキャラクターの顔、服装、特徴を頑なにキープ」して動かしてくれます。

最新の検証トレンド ComfyUI上では、GGUF形式(Q8_0など)に軽量化された14Bモデルを用い、Wan専用に開発されたLoRA(例: LightX2Vなど)を組み合わせることで、わずか数ステップの高速生成でも、驚異的なキャラクター再現性を維持した動画制作が可能になっています。

キャラクターの再現性

下の動画では、Wanのキャラクター再現性の高さが分かりやすいとおもいます。
他ツールで良く起こる、”キャラクターが変わってしまう”という問題が起こりにくいというのが特徴です。

AlibabaのAI”VACE”に関する深掘りはこちらをCLICK!

AlibabaがAIに力を入れている

Alibabaは単なるEC企業ではなく、近年では

  • 大規模言語モデル(ChatGPT的な)「Qwen」シリーズの開発
  • データセンター / クラウド(Alibaba Cloud)
  • AIアート、生成画像、翻訳などの研究

に非常に力を入れています。
VACEは、その中でも**「動画分野の戦略的技術」**として位置付けられていて、Stability AIやRunway、Pikaなどの生成系企業に対抗する動きと見られています。

VACE(Wan2.1‑VACE)の元論文要約

Wan2.1‑VACEは、AlibabaのTongyi Lab(DAMO Academy)が開発したマルチモーダル動画生成・編集統合モデルです。引用元:arxiv.org+5alibabacloud.com+5github.com+5。以下が主なポイントです

  1. マルチモーダル対応
    テキスト・画像・動画・マスクという複数モーダルを統一フォーマットで処理し、幅広い動画タスクに対応。引用元:hyper.ai+5arxiv.org+5linkedin.com+5
  2. Video Condition Unit(VCU)
    それぞれのモーダルをひとつの内部条件表現にまとめられるため、柔軟かつ簡潔なインターフェイス設計が可能。引用元:arxiv.org+4the-decoder.com+4arxiv.org+4
  3. 多様な動画タスクを統合処理
  4. 概念分離(Concept Decoupling)
    編集したい部分と固定したい部分をしっかり分けて処理できる仕組みを搭載。引用元:en.wikipedia.org+4the-decoder.com+4comfyui-wiki.com+4
  5. 応用範囲が広い
    短編動画、広告素材、映画向け効果・編集、教育用動画など、さまざまな用途に利用可能なユーティリティ性を持っています。

実際の表記例(GitHubや研究論文から)

  • Wan2.1-VACE achieves unified generation and editing…」(論文より)
  • 「We present VACE, a unified framework… powered by Wan models」(公式発表より)
  • ComfyUIテンプレートでは「Wan2.1」 or 「VACE」どちらも登場し、実質的に同じものを指しています。

研究論文や発表は以下のような名前で出ています



必要なVRAM目安と目的別おすすめGPU

主力である最高画質の「14B(140億パラメータ)」モデルは非常に巨大で、ローカルのRTX 4090(24GB)でもVRAMの限界に達します。そのため、多くのクリエイターがクラウドGPUサービス「RunPod」(※後ほど解説)などで大容量VRAMをレンタルして運用しています。

SAKASA

SAKASAはクラウドGPUのRunpodで30GB以上のGPUを使用しています。

GPU 選択の際の目安

Wan モデル必要 VRAM目安RunPodで狙うGPU
Wan 2.1 / 1.3B (T2V, 480p)8GB〜RTX A4000 (16GB)、RTX 3090 (24GB)
Wan 2.2 / 5B (T2V/I2V)8GB〜(オフロード対応)A4000 (16GB) でもOK、余裕を見るならRTX 3090 / 4090
Wan 2.2 / 14B (I2V / 720p)約20GB〜30GBL40S (48GB)、A100 / H100 (40GB/80GB)

動画生成の時間感覚

長尺 → 15秒以上(高VRAM GPU必須、生成時間が現実的でなくなる場合も)
中尺 → 8〜12秒(挑戦レベル、設定調整や工夫が必要)
短尺 → 3〜5秒(試し撮りサイズ、安定して動作)


コスパで中尺を狙う → RTX 4090
安定性と余裕で中尺をやる → L40S (48GB)
本格的に長尺・高解像度も → A100 / H100 (40GB以上)

公式ブログ情報(Wan 2.1 1.3Bモデル)
  • 480p 5秒で RTX 4090 使用時に 約4分
  • 14B モデルだとこの倍以上の時間がかかると見込まれる。

Runpodの使用方法

Runpodでの使用方法は、大きく三通りあります。

アカウントの作成などについてはこちらの記事で書いています【Runpodの使い方と料金】Stable Diffusionを使用して画像生成とLoRA学習をする方法【②実践編】

①RunpodのPublic Endpointsで使用する方法

Runpod公式ホームページのPublic EndpointsからWan 2.2 I2V 720p

WAN Wan 2.2 I2V 720p①
WAN Wan 2.2 I2V 720p②
WAN Wan 2.2 I2V 720p③
プロンプトを入力して画像をアップロードしてRun!
未来

RunpodのPublic Endpointsは、好きなツールを選択するだけで、すぐに生成できる手軽さがおすすめポイントです。

②Runpodのテンプレート(ComfyUI + Wan)を使用する方法

WanはRunpod内のComfyUIテンプレートを用いて使用できます。

時間をかけずに確実に動かしたい方へ

RunPodの最適なリージョン選びや、Templateの選び方・おすすめテンプレート
無駄な課金を防ぐ「コスト節約チェックリスト」、すぐに動くComfyUIの特製テンプレート設定は、SAKASAのnote記事【2026年最新版 Runpod使い方とコスト節約のコツ】にて限定公開中です。

試行錯誤の時間をショートカットしたい方はぜひチェックしてみてください!

アカウントの作成などについてはこちらの記事をご覧ください【RunPodの使い方と料金】Stable Diffusionを使用して画像生成とLoRA学習をする方法【②実践編】

RunPodでComfyUIを使う
ComfyやWANなどと検索

ComfyUでは、テキスト・画像・動画元素材から簡単に動画を生成できるテンプレートが沢山用意されています。

ComfyUIの画面を立ち上げるとノードのテンプレートがワンクリックで選択が出来るようになっています。

初期セットアップの手順

step
RunPodでテンプレートをデプロイ

“ ComfyUI、Wan t2v i2v VACE、WAN” などを選び、Podを起動。

step
Podが起動

デプロイ後、Podのログで” Ready”などのメッセージを確認します。

Jupyter / SSH / WebUIに接続

step
ターミナルでモデルをダウンロード(wget / git clone / HF CLIなど)

/workspace に保存して使う

step
ComfyUIのUIにアクセス

Web ブラウザから指定URLにアクセスして、ComfyUIが表示される状態になっていればOK。


便利設定・Tips

  • モデルのダウンロード設定:テンプレートデプロイ時に「環境変数でモデルをダウンロードするよう設定」してください。さもないと、実行時にエラーになります 。
  • リアルタイムプレビューを有効に
    • ComfyUIの VHS設定で Advanced Previews を “Always”、Preview method を “Auto” にすると、動画生成途中でもプレビューが表示され、失敗パラメータに気づきやすいです。引用元: reddit.com

i2v(画像→動画)の基本手順

  1. ComfyUI内で i2vワークフロー を選択。
  2. 「Load Image」ノードに、自分の絵のファイルを接続。
  3. フレーム数・解像度・プロンプトなどを設定。
  4. 実行ボタン(▶)を押すと、一定時間後に ComfyUI/output/video に mp4 が出力されます。

t2v(テキスト→動画)の基本

  • プロンプトを「キャラが動いてる様子」など具体的に記述。
  • フレーム数や解像度を指定。
  • ▶を押せば動画が生成され、処理後は同じく output/video に保存されます 。

どのテンプレートを選んだ後も、ComfyUIの画面ではフローを編集できます。また、フロータブからいつでもテンプレートを変更できますので、気軽に選んでみまし

  • 解像度変更
  • フレーム数の増減
  • 動きのスムーズさの調整(interp系)

もカスタマイズ可能です!

「Start image」「End image」がある場合の設定

項目名意味役割
Start image開始フレーム(最初の画像)動画の1フレーム目をこの画像から生成
End image終了フレーム(最後の画像)動画の最終フレームをこの画像に近づけるよう補間生成

この2枚を指定すると、AIがその間の動きを「補完」して動画を生成します。

  • 例:
    • Start image → 女性が前を向いている絵
    • End image → 同じ人物が少し横を向いている絵

→ その間の動きを自然に繋いでくれるようなショート動画になります。


2つのCLIP Text Encode

ComfyUIフロー内に「CLIP Text Encode(Clipテキストエンコード)」ノードが 2つあります。

画像生成・動画生成系のAIでは、複数のプロンプト入力を使い分けるためにエンコードノードが複数使われます。

目的説明ノードの役割
正規のプロンプト(positive prompt)「こうしてほしい」方向の指示明るい・女性・水彩・幻想的など
ネガティブプロンプト(negative prompt)「こうならないでほしい」方向の指示ノイズ・崩れ・奇形・にじみ・extra limbs など

例:

CLIP Text Encode(Positive)  ← "a woman walking in the wind, smooth, cinematic"
CLIP Text Encode(Negative)  ← "blurry, deformed, extra limbs, low quality"

最低限の手順(i2vで Start / End を使う)

step
Start image を読み込む

自分の描いたイラストや写真などを設定

step
End image を読み込む(任意)

変化させたい目標フレーム(同じキャラの別ポーズなど)

step
プロンプトを入力する

例:a girl turns her head slightly, gentle lighting, smooth motion"

step
必要があればフレーム数・出力サイズの確認

例:16フレーム / 480p(初期値のままでもOK)

step
▶ 実行!

  • プロンプトは「動きの方向性」を示す程度にする。
    (例:「歩き出す」「振り返る」「風になびく」など)
  • StartとEndの絵が似すぎていると、あまり動かない。
    → ポーズや視線を少し変えてみる。
  • 出力がカクつく場合は、「interpolation(補間)」のオプションを増やしてみる。

Wan動画用プロンプト変換 β版

日本語で情景を書くと、Wan向けの英語タグ列に整形します。

ここに変換結果が表示されます

その他のオプション

項目名意味推奨値(初回)
Num Frames生成する動画の長さ(フレーム数)16〜24
Resolution出力解像度480p(初回は小さめでOK)
FPSフレームレート6〜12(後から調整可)

LoRAモデルをWanで使う方法

既に学習済みのLoRAモデルを使う場合、Wanでも特別な操作は不要です。基本は モデルを所定のフォルダに入れるだけ で利用可能です。

手順

step
モデルファイルを準備する

学習済みLoRAファイル(.safetensors または .ckpt など)を用意します。

step
WanのLoRAフォルダにコピー

Wanのインストールディレクトリ内の以下フォルダにモデルを入れます。

 models/LoRA/
step
Wanを再起動

起動時に新しいモデルが自動で認識されます。

step
プロンプトで呼び出す
  • LoRAモデルはプロンプトに以下の形式で指定します: <lora:モデル名:重み>
  • 例:<lora:MyLoRA:1.0>
  • 重みは0.5〜1.0程度で調整可能です。

注意点

  • 互換性
    • SD 2.x系モデル用のLoRAはWanでも問題なく使用可能
    • SD 1.x系の場合、精度や出力の雰囲気が微妙に変わることがあります
  • 精度
    • 重みによって生成結果が変化します。最初は1.0で試し、必要に応じて0.5なども試すとよいです
  • 出力の違い
    • Wanの独自処理(ノイズスケジューリングやサンプラーの違い)により、微妙に絵柄が変わることがある

エラー/トラブル

最近のトラブル”2つ目のKサンプラーでクラッシュする件”についてこちらで書いています

ComfyUIで動画の背景だけを再生成する方法3選

こちらの記事では、ComfyUIで動画の背景だけを再生成する方法について、3通りの方法を紹介しています。

動画の背景をComfyUIで削除(透明背景)する方法

動画の背景を消して高精度の背景透過動画を作りたい時に活躍!

賢い運用のコツと使い方まとめ

こちらの記事では、Runpodの基本的な使い方から、お得な使用方法、確実に立ち上げるコツや最新情報をPDF付きで販売しています。

最速でお得にRunpodを使用したい方は是非ご活用ください!

2026年最新版

Qwenの画像理解ベースの再生成モデルで画像を思い通りの画質やポーズに変える方法
最短最速で思い通りの結果を出すコツとComfyUIの設定済みワークフローテンプレート&動画解説付き

Qwen-Image-Edit-Rapid-AIOでの高画質化

atelier SAKASA no catch
よかったらシェアしてね!
  • URLをコピーしました!
目次