Runpodで失敗しないテンプレート選定と不具合対策まとめ

Runpod テンプレートの選び方と不具合対策

テンプレートの選び方

こちらのページでは、Runpodでのテンプレート選定のコツと、不具合がある場合の確認方法について解説しています。

RunPodの基本的な使用方法に関しては、こちらの記事 をご覧ください。

目次

テンプレート選びのコツ

Runpodのテンプレート選び

公式テンプレートから試してみる

テンプレート選びで最も成功率の高い方法は、

運営が管理している公式テンプレートを選ぶ方法です。
Pod templates内で、Officialを選択して絞り込む事が出来ます。

公式テンプレートはRunpod側で最新の環境や依存関係が整備されていて安定している傾向にあります。


軽量モデルのテンプレートで立ち上げる

そして、もう一つのポイントは、
初回起動は軽量モデルのテンプレートで立ち上げるという事です。
→ 大容量モデルや拡張は後から読み込むと安定しやすいです。

※ただしこれは、ネットワークボリュームを使用する前提の話です。
SDXLのモデルや、Fluxのモデル、VAEや、ControlNetなどの容量の大きなモデルや、多数の拡張を同時に読み込むと、GPUメモリやコンテナ初期化処理に負荷がかかる為、トラブルが発生しやすいです。

その為、初回は軽量なPodsを**ネットワークボリュームをマウントして立上げ、Pods内でモデルをDLするか、
他のモデル入りのテンプレートを先ほどと同じ**ネットワークボリュームをマウントして立上げ直します。

最初の頃は特に、多くのモデルが入った至れり尽くせりなテンプレートを選びたくなってしまうのですが、これらはPodsの立ち上げに失敗しやすい上に、待てども待てども使用出来る状態に様にならない・・・という事態に陥りかねません。

もちろん、30分や1時間近く待っても、起動するテンプレートなら良いのですが、そのテンプレートが古く、メンテナンスの行き届いていないテンプレートである可能性もあるのです。
その場合には、そのテンプレートは何度立ち上げてもGPUを変えようが、何をしようが立ち上がる事はありません。

対策
シンプルな構成のテンプレートを選択➡ネットワークボリュームを使用して起動➡コンテナが安定して立ち上がった後➡必要なモデルや拡張をロード

Pods起動後に、必要なモデルや拡張をロードする方法はこちら で解説しています
https://sakasaai.com/huggingface-civitai-dl/

GPU選びのコツ

可用性が高いGPUをえらぶ。
GPUの選択画面では、GPU名、価格、VRAM,などが記載されており、右下端に現在の可用性が記載されています。

Network Strage
可用性を見る

可用性が高いGPUは、具体的に何が高いのか?

「High (高い)」と表示されているGPUは、比較的停止や不具合が少ないことを示唆している。

起動可能なGPU台数が多い

そのリージョン・種類のGPUが空いている数が多い
空きが少ないGPUだと、起動待ち(Queue)が発生する可能性がある

サーバー負荷が低い

Runpod内部で、そのGPUタイプの利用率が低い
高負荷だとコンテナ起動が遅くなる/ハングしやすい

障害や停止のリスクが低い

過去の稼働状況やメンテナンス情報から、安定して使える確率が高い

リージョンを変えるだけで起動する事がある。

コンテナの不具合の確認方法と対策

不具合(開かないなども含めて)が起きた場合は、先ずは、Discordで現状確認ができます。
PythonやPyTorchの欠落、依存関係の破損などが起きているなど、情報が出ている事があります。

Discordリンク
Discordリンク

個別コンテナの不具合の確認方法と対策

  • コンテナログを見る(A1111やComfyUIの起動ログ)
    • Container is READY! が出るか
    • start container ...: begin で止まっていないか
  • READY表示の有無をチェック
  • 他テンプレートやリージョンで比較する
    • 同ツールの別テンプレートを試す
    • 別リージョンで試す
未来

何度立ち上げても、使えないテンプレがあるから困るよね。
良かったら”押しテンプレート掲示板”も参考にして下さい!

Runpodの公式ステータスページの見方

コンテナの詳細な不具合は ログや挙動の観察が必須 です。
「全体の健康状態の目安」は、ステータスページで確認できます。

Runpodの公式ステータスページ

Runpodの公式ステータスページ

※ステータスページでは、Runpodの各コンポーネントやリージョンの稼働状況をリアルタイムで確認できます。

STEP
色の意味
  • 🟢 Operational → 問題なし
  • 🟡 Degraded Performance → パフォーマンス低下中
  • 🔴 Partial Outage / Major Outage → 部分停止 / 完全停止
STEP
コンポーネントごとに見る
Runpodの公式ステータスページServerless
  • Serverless
    • API呼び出しや軽量コンテナなど、サーバーレス系サービスの稼働状況
Runpodの公式ステータスページGPU
  • GPU Cloud
    • GPUコンテナ(A1111やComfyUIなど)やサーバー全体の稼働状況
    • 「Compute Instances」
Runpodの公式ステータスページ
  • Regional Health
    • 各リージョン(AP-JP-1、US-KS-2など)の全体的な健康状態
    • リージョン単位でサービスが稼働しているかの概観
STEP
障害履歴で確認
  • ページ下部の「History」や「Past Incidents」を見ると、過去24時間〜数週間の障害やメンテナンス情報が確認できる
よかったらシェアしてね!
  • URLをコピーしました!
目次