【LoRA学習用】画像とテキストタグ(キャプション)の準備からフォルダ構成まで徹底解説

LoRA(Low-Rank Adaptation)は、既存のAIモデルに対して、自分のイラストや作風を学習させられる技術です。
でもいざ始めようとすると──
「どの画像を選べばいいの?」
「タグってどうやるの?」
「フォルダ構成って好きにしていいの?」
といった疑問が次々と出てきますよね。
この記事では、自分の作品をもとにLoRAを学習させたい方のために、画像選定・タグ設計・フォルダ構成といった“学習セットの作り方”を徹底解説します。
専門的には「データセット」と呼ばれるこの工程こそ、AIがあなたの作風を正確に学ぶための“土台”になります。



「ただ学ばせる」だけでなく、あなたらしさをしっかり活かすために何が必要なのか、最初の一歩から順を追って見ていきましょう。
LoRA用 学習セット設計ガイド
1. 【画像選定】──LoRA学習の“核”になるステップ
まずは、AIに学ばせたい「自分らしい作品」を選びます。
このステップは、LoRA学習における“設計図”のようなもので、仕上がりを大きく左右します。
選定のポイントは以下のような観点です。
- 作風の一貫性(色使いや線のタッチが似ている)
- スタイルの特異性(他と明確に違う、独自の個性がある)
- 表現の代表性(「これぞ自分の絵」と言える代表作)
- ジャンル別の整理(例:抽象人物/異形/形のない存在など)
目安としては、最低15〜30枚程度から始めるとバランスが良く、学習効率も上がります。
Point:
同じキャラクターやモチーフが繰り返し登場する作品は特に強力。
また、色数が多すぎず、ある程度パターンがある作品は、AIにとっても学びやすい傾向にあります。
2. 【画像前処理】──AIに「作品の本質」を伝える
選んだ画像はそのまま使うのではなく、AIが学習しやすい形に整える必要があります。
LoRA学習では、正確な特徴抽出と一貫性のある学習がとても重要。前処理を丁寧に行うことで、精度の高い再現が期待できます。
- 解像度の統一
768px × 768px または 512px × 512px の正方形JPEGに統一します(どちらかに固定)。モデルによって推奨解像度が異なることもありますが、迷ったら768pxでOK。 - リサイズ方法
アスペクト比を維持しながらのリサイズ、または中心を基準にトリミングして正方形に整えます。全体のバランスが崩れないように注意しましょう。 - 明るさや色味の調整
作品ごとの見た目にバラつきが出ないように、明るさや色調を可能な範囲で調整します。
→ たとえば「夜の作品」と「昼の作品」を混ぜる場合も、光量や色温度を揃えると統一感が出ます。 - 歪み補正
カメラで撮影した場合などにありがちな「傾き」や「パースの歪み」は、可能な範囲で修正しておきましょう。 - ノイズ除去(軽くでもOK)
デジタル画像のザラつきやゴミは、AIの学習ノイズになることも。気になる場合は、軽くノイズ除去をしておくとより効果的です。
Point:
前処理の目的は「AIに余計な情報を与えず、本質だけを学ばせること」。
手間はかかりますが、後の学習精度に直結する重要な工程です。
例外的にPNGにしておくと良い場合
- 透過背景のあるデータ(後で使う予定がある)
- グラデーションや線が非常に細かく、画質を絶対に落としたくない
- 後で動画化や編集(切り抜き)に使うつもりがある
次のステップで使用できるツール
ツール | 特徴 |
---|---|
Adobe After Effects | モーショングラフィック・パペットツールに最適 |
Blender | 3D・2Dモーション、リギングも可能 |
EbSynth | キーフレームからの動き生成に最適(画像→動画) |
AnimateDiff + ControlNet | AIを使ったイラスト→動画化の最新手法 |
Live2D Cubism | パーツ分けイラストを動かすのに特化(顔・髪・体) |
3. 【タグ付け(caption)】
タグ付け(キャプショニング)はLoRA学習における最大の難関の一つで、感覚的な判断が入りやすいため、人によって精度や傾向が大きく分かれます。
LoRAは「特定の画像とテキストの対応関係」を学習する仕組みです。“視覚的な意味づけ”を補完する言語(タグ)で個性を際立たせることがLoRA成功の鍵です。
例:
画像:赤い帽子をかぶった少女 → テキスト:red hat, girl
この関係性を数百回繰り返して学習し、「red hat」とプロンプトに打てば赤い帽子を出せるようにします。
つまり、正確なタグ付けがLoRAの効果に直結します。
多くの人がツールを使う理由
- 一貫性を保てる:人力だと同じモチーフでも表現がブレやすい。ツールなら一定のロジックで出力される。
- 時短になる:大量の画像に手作業でタグ付けするのは現実的でない。
- ベースとして便利:自動タグ付け結果を「土台」として手動で修正していく使い方が多い。
自動タグ付けツールの例(Kohya_ss対応)
ツール名 | 概要 | 備考 |
---|---|---|
BLIP / BLIP2 | 画像の内容を自然文で説明する | caption by BLIP ボタンで実行可能 |
Caption Anything | 自然言語のキャプション向き | ChatGPT APIなどを活用し、柔軟な説明文生成が可能。 |
DeepDanbooru | 主にアニメ画像向けのタグ抽出 ※中級者〜上級者向け | 「tagファイル」形式で出力される(例:girl, long hair, smile など) |
WD 1.4 Tagger(DeepDanbooruベース) | DeepDanbooruベースの自動タグ付け拡張機能 | anime-style系に強い。AUTOMATIC1111拡張機能として利用可能。 |
使い分けのポイント
条件 | 自動ツール使用 | 手動補正の必要性 |
---|---|---|
データ数が多い(50枚以上) | ✅ 必須 | ✅ 高い(誤タグあり) |
データ数が少ない(〜20枚) | △ 時短に便利 | ✅ 手動でも可 |
リアル写真や作風重視のイラスト | ✅ BLIP向き | ✅ ニュアンス調整 |
アニメ・二次元系画像 | ✅ DeepDanbooruが最適 | ✅ 不要タグ除去など重要 |
キャラ・服装・ポーズなどを重点的に学習させたい | ✅ その情報を含める | ✅ 目的に合わせて追記 |
手動でのコツ
やること | 例 |
---|---|
見たままを丁寧に表現 | abstract, surreal, humanoid, faceless, glowing eyes |
自分の表現世界を言語化 | ethereal being, dreamlike space, floating shapes |
構図や色も含める | soft pastel colors, centered composition, minimal background |
英語での記述推奨(Stable Diffusionは英語ベース)」
タグ.txt
ファイルをメモ帳で作る手順
- メモ帳を開く
- スタートメニューで「メモ帳」と検索
- タグを入力する
例:abstract humanoid, glowing eyes, faceless being, surreal, dreamlike, soft colors
- 名前を付けて保存
- 保存時に「ファイルの種類」を「すべてのファイル」に変更
- ファイル名を「001.txt」のように入力(画像名と揃える)
- 文字コードはそのままでOK(UTF-8)
- 画像と同名のテキストファイル(.txt)を作成
例:
-image001.png
-image001.txt
→faceless humanoid, pastel color, dreamlike, soft light
タグ(caption)ファイルの扱い
.txt
ファイルの中身例
abstract humanoid, glowing eyes, faceless being, surreal, dreamlike, soft colors
このタグ情報が、AIに「どういう絵なのか」を伝える言葉になります。英語で、簡潔かつ視覚的に意味のある言葉を使用して、多くても10〜15ワード以内にまとめます。
データセットの構成イメージ
/train01/
├── 001.jpg
├── 001.txt ← タグを書いたテキストファイル
├── 002.jpg
├── 002.txt
...
lora_train01というフォルダに画像と、タグのタイトルをそろえて入れる。
4. 【データ拡張(あれば)】
学習枚数が少ない場合は、以下の方法で同じ画像の別バージョンを作成
- クロップ(中心以外を切り取ったバージョン)
- 彩度・明度・角度の微調整版
→ あくまで「別画像」として使える程度に調整
5. 【LoRA学習時の設定(概略)】
- base model:
Stable Diffusion 1.5
など(最初はこれで十分) - resolution:512 or 768(画像に合わせる)
- learning rate:
0.0001
〜0.0005
- dim/rank:
4
~16
(小さめスタート推奨) - epoch:10~20程度(枚数で調整)
LoRA学習時おすすめのフォルダ構成
C:\Users\Owner\kohya_ss\
├── kohya_data\ ← データ系(学習素材)
│ ├── lora_train01\
│ │ ├── img\
│ │ ├── txt\
│ │ └── reg\
│
├── outputs\ ← 出力ファイル(学習済LoRAなど)
│ ├── 10_loracat\
│ └── 15_loradog\
│
├── configs\ ← 設定ファイルの保存場所(任意)
│
├── venv\ ← 仮想環境(Anacondaなしで動かす場合)
├── GUI起動用のbatファイルやスクリプト
└── READMEなど
ここまで用意が出来たら、いよいよ実際にトレーニングをしていきましょう。続きはこちらのリンク記事で解説しています。

