【LoRA学習用】画像とテキストタグ(キャプション)の準備からフォルダ構成まで徹底解説

LoRA学習 画像とテキストタグ データセットの作成方法

LoRA(Low-Rank Adaptation)は、既存のAIモデルに対して、自分のイラストや作風を学習させられる技術です。
でもいざ始めようとすると──

「どの画像を選べばいいの?」
「タグってどうやるの?」
「フォルダ構成って好きにしていいの?」

といった疑問が次々と出てきますよね。

この記事では、自分の作品をもとにLoRAを学習させたい方のために、画像選定・タグ設計・フォルダ構成といった“学習セットの作り方”を徹底解説します。
専門的には「データセット」と呼ばれるこの工程こそ、AIがあなたの作風を正確に学ぶための“土台”になります。

未来

「ただ学ばせる」だけでなく、あなたらしさをしっかり活かすために何が必要なのか、最初の一歩から順を追って見ていきましょう。

目次

LoRA用 学習セット設計ガイド

1. 【画像選定】──LoRA学習の“核”になるステップ

まずは、AIに学ばせたい「自分らしい作品」を選びます。
このステップは、LoRA学習における“設計図”のようなもので、仕上がりを大きく左右します。

選定のポイントは以下のような観点です。

  • 作風の一貫性(色使いや線のタッチが似ている)
  • スタイルの特異性(他と明確に違う、独自の個性がある)
  • 表現の代表性(「これぞ自分の絵」と言える代表作)
  • ジャンル別の整理(例:抽象人物/異形/形のない存在など)

目安としては、最低15〜30枚程度から始めるとバランスが良く、学習効率も上がります。

Point
同じキャラクターやモチーフが繰り返し登場する作品は特に強力。
また、色数が多すぎず、ある程度パターンがある作品は、AIにとっても学びやすい傾向にあります。

2. 【画像前処理】──AIに「作品の本質」を伝える

選んだ画像はそのまま使うのではなく、AIが学習しやすい形に整える必要があります。
LoRA学習では、正確な特徴抽出一貫性のある学習がとても重要。前処理を丁寧に行うことで、精度の高い再現が期待できます。

  • 解像度の統一
    768px × 768px または 512px × 512px の正方形JPEGに統一します(どちらかに固定)。モデルによって推奨解像度が異なることもありますが、迷ったら768pxでOK。
  • リサイズ方法
    アスペクト比を維持しながらのリサイズ、または中心を基準にトリミングして正方形に整えます。全体のバランスが崩れないように注意しましょう。
  • 明るさや色味の調整
    作品ごとの見た目にバラつきが出ないように、明るさや色調を可能な範囲で調整します。
    → たとえば「夜の作品」と「昼の作品」を混ぜる場合も、光量や色温度を揃えると統一感が出ます。
  • 歪み補正
    カメラで撮影した場合などにありがちな「傾き」や「パースの歪み」は、可能な範囲で修正しておきましょう。
  • ノイズ除去(軽くでもOK)
    デジタル画像のザラつきやゴミは、AIの学習ノイズになることも。気になる場合は、軽くノイズ除去をしておくとより効果的です。

Point
前処理の目的は「AIに余計な情報を与えず、本質だけを学ばせること」。
手間はかかりますが、後の学習精度に直結する重要な工程です。

例外的にPNGにしておくと良い場合

  • 透過背景のあるデータ(後で使う予定がある)
  • グラデーションや線が非常に細かく、画質を絶対に落としたくない
  • 後で動画化や編集(切り抜き)に使うつもりがある

次のステップで使用できるツール

ツール特徴
Adobe After Effectsモーショングラフィック・パペットツールに最適
Blender3D・2Dモーション、リギングも可能
EbSynthキーフレームからの動き生成に最適(画像→動画)
AnimateDiff + ControlNetAIを使ったイラスト→動画化の最新手法
Live2D Cubismパーツ分けイラストを動かすのに特化(顔・髪・体)

3. 【タグ付け(caption)】

タグ付け(キャプショニング)はLoRA学習における最大の難関の一つで、感覚的な判断が入りやすいため、人によって精度や傾向が大きく分かれます。
LoRAは「特定の画像とテキストの対応関係」を学習する仕組みです。“視覚的な意味づけ”を補完する言語(タグ)で個性を際立たせることがLoRA成功の鍵です。

例:

画像:赤い帽子をかぶった少女 → テキスト:red hat, girl

この関係性を数百回繰り返して学習し、「red hat」とプロンプトに打てば赤い帽子を出せるようにします。
つまり、正確なタグ付けがLoRAの効果に直結します。

多くの人がツールを使う理由

  • 一貫性を保てる:人力だと同じモチーフでも表現がブレやすい。ツールなら一定のロジックで出力される。
  • 時短になる:大量の画像に手作業でタグ付けするのは現実的でない。
  • ベースとして便利:自動タグ付け結果を「土台」として手動で修正していく使い方が多い。

自動タグ付けツールの例(Kohya_ss対応)

ツール名概要備考
BLIP / BLIP2画像の内容を自然文で説明するcaption by BLIP ボタンで実行可能
Caption Anything自然言語のキャプション向きChatGPT APIなどを活用し、柔軟な説明文生成が可能。
DeepDanbooru主にアニメ画像向けのタグ抽出
中級者〜上級者向け
「tagファイル」形式で出力される(例:girl, long hair, smileなど)
WD 1.4 Tagger(DeepDanbooruベース)DeepDanbooruベースの自動タグ付け拡張機能anime-style系に強い。AUTOMATIC1111拡張機能として利用可能。

使い分けのポイント

条件自動ツール使用手動補正の必要性
データ数が多い(50枚以上)✅ 必須✅ 高い(誤タグあり)
データ数が少ない(〜20枚)△ 時短に便利✅ 手動でも可
リアル写真や作風重視のイラスト✅ BLIP向き✅ ニュアンス調整
アニメ・二次元系画像✅ DeepDanbooruが最適✅ 不要タグ除去など重要
キャラ・服装・ポーズなどを重点的に学習させたい✅ その情報を含める✅ 目的に合わせて追記

手動でのコツ

やること
見たままを丁寧に表現abstract, surreal, humanoid, faceless, glowing eyes
自分の表現世界を言語化ethereal being, dreamlike space, floating shapes
構図や色も含めるsoft pastel colors, centered composition, minimal background

英語での記述推奨(Stable Diffusionは英語ベース)」

タグ.txtファイルをメモ帳で作る手順

  1. メモ帳を開く
    • スタートメニューで「メモ帳」と検索
  2. タグを入力する
    例:abstract humanoid, glowing eyes, faceless being, surreal, dreamlike, soft colors
  3. 名前を付けて保存
    • 保存時に「ファイルの種類」を「すべてのファイル」に変更
    • ファイル名を「001.txt」のように入力(画像名と揃える)
    • 文字コードはそのままでOK(UTF-8)
  • 画像と同名のテキストファイル(.txt)を作成
     例:
     - image001.png
     - image001.txtfaceless humanoid, pastel color, dreamlike, soft light

タグ(caption)ファイルの扱い

.txtファイルの中身例

abstract humanoid, glowing eyes, faceless being, surreal, dreamlike, soft colors

このタグ情報が、AIに「どういう絵なのか」を伝える言葉になります。英語で、簡潔かつ視覚的に意味のある言葉を使用して、多くても10〜15ワード以内にまとめます。

データセットの構成イメージ

/train01/
├── 001.jpg
├── 001.txt ← タグを書いたテキストファイル
├── 002.jpg
├── 002.txt
...

lora_train01というフォルダに画像と、タグのタイトルをそろえて入れる。

4. 【データ拡張(あれば)】

学習枚数が少ない場合は、以下の方法で同じ画像の別バージョンを作成

  • クロップ(中心以外を切り取ったバージョン)
  • 彩度・明度・角度の微調整版

→ あくまで「別画像」として使える程度に調整

5. 【LoRA学習時の設定(概略)】

  • base model:Stable Diffusion 1.5 など(最初はこれで十分)
  • resolution:512 or 768(画像に合わせる)
  • learning rate:0.00010.0005
  • dim/rank:416(小さめスタート推奨)
  • epoch:10~20程度(枚数で調整)

LoRA学習時おすすめのフォルダ構成

C:\Users\Owner\kohya_ss\
        ├── kohya_data\      ← データ系(学習素材)
        │   ├── lora_train01\
        │   │   ├── img\
        │   │   ├── txt\
        │   │   └── reg\
        │
        ├── outputs\       ← 出力ファイル(学習済LoRAなど)
        │   ├── 10_loracat\
        │   └── 15_loradog\
        │
        ├── configs\       ← 設定ファイルの保存場所(任意)
        │
        ├── venv\        ← 仮想環境(Anacondaなしで動かす場合)
        ├── GUI起動用のbatファイルやスクリプト
        └── READMEなど

ここまで用意が出来たら、いよいよ実際にトレーニングをしていきましょう。続きはこちらのリンク記事で解説しています。

  • URLをコピーしました!
目次