【著作権とAI】LAIONやCommon Crawlはどこまで“自由”なのか?

「自由に使える」って、誰が決めた?
「AIはインターネット上の情報を学習している」──そんな説明を聞いたことはありませんか?
けれど、ふと立ち止まってみてください。
インターネットにある情報って、そもそも「自由に使えるもの」ばかりでしょうか?画像生成AIやチャットAIを支えている「LAION」や「Common Crawl」といった巨大データセットは、確かにオープンに使えるリソースとして知られています。
ですがその“自由さ”の裏には、曖昧な著作権のグレーゾーンが横たわっているのです。
この記事では、いつもAIを使わせてもらっている筆者が、著作権のグレーゾーンについて調べ、考察してみました。
LAIONとCommon Crawlとは?AIの「脳を作る」巨大素材
LAION(Large-scale AI Open Network)
- 主に画像とキャプション(文章)をセットにしたデータセット
- 代表的なのは「LAION-5B」:50億枚を超える画像を自動収集
- Stable Diffusionや他の画像生成AIの学習に利用されている
LAIONがスキャンしているのは、インターネット上に「あるもの」。つまり、“著作物かもしれないもの”が山ほど含まれているのです。
Common Crawl
- ウェブ全体をクロール(自動巡回)して、HTMLテキストデータを蓄積
- 月ごとのスナップショットで公開(10年以上のアーカイブも)
ChatGPTやClaudeなどの大規模言語モデルは、この膨大なテキストを「読む」ことで、驚くべき言語能力を獲得しています。
「学習だからOK」ってホント?フェアユースとその限界
AI開発者はよく言います。「これはフェアユースだ」と。
たしかに、アメリカには**Fair Use(公正利用)**という概念があります。
「学術目的・非営利・教育・引用」など、限られた条件で著作物を許可なく使える法律です。
しかし、AIの学習にこの考え方を当てはめるのはまだ議論の途中。
しかも、日本ではフェアユースのような概念は原則存在せず、著作物の利用には原則、許可が必要です。
ただし近年、日本でもAI学習については緩和の動きがあります。
2024年 文化庁の見解
「AIの学習のために著作物を使うことは、一部合法とみなせる」
※ただし、生成された作品の利用や商用化には慎重であるべき
つまり、
- 学習はセーフでも、生成はアウトになる可能性がある
- **個別の判断が必要な“グレーゾーン”**が広がっているという状況です。
「誰かの作品」が、いつの間にかAIに吸収されている?
実は、LAIONのデータセットには、有名な写真家の作品やアーティストの作品が無断で含まれていたという報告が複数あります。
肖像権のある人物写真、著名な画集、漫画の一コマまで——。
Common Crawlも例外ではなく、商用サイトのコピーや会員限定コンテンツが入り込んでいるケースも。
つまり、
「公開されている=使っていい」は成立しない。
という、ネットと著作権の原則的なルールが、AI時代には崩れかけているのです。
インターネットにある画像や文章は、「自由に使えるもの」と勘違いされがちですが、それは大きな誤解です。
実際、AIの学習に使われたとされるデータセットには、思わずギョッとするような内容が含まれていたケースも報告されているようです。
LAIONのデータセットに含まれていたもの
- 著名な写真家による作品(アート作品や報道写真など)
- 漫画家の描いた印象的な一コマ
- 肖像権のある人物の写真やアイドルグラビア
- イラスト投稿サイトPixivからの画像リンク(※現在は排除されつつあります)
LAIONは自動クロールにより画像とキャプションを集めているため、意図せず著作物が混入しているリスクがあります。
しかも、それらはAIによって「学習済み」なので、記録を消すことはできません。
Common Crawlも例外ではない
- 有料記事の一部が全文で収録されていた
- ログイン後にしか閲覧できないテキストデータが含まれていた
- 商用コンテンツ(ECサイトのコピーなど)が含まれていた
これらは、意図せず公開設定が甘かったページや、クロール制限を設定していなかったことが原因の場合もありますが、著作物であることには変わりありません。
インターネットの「公開=自由に使っていい」は誤解
「ネットに載ってたから」「検索で見つかるから」は、著作権上の自由利用の根拠にはなりません。
AI開発の世界では今、その「前提」が静かに崩れつつあります。
生成AIが生み出すものの中には、時に元ネタにあたる画像や文章に酷似したアウトプットが現れることもあり、
「これは偶然か?模倣か?」という新しい著作権問題が生まれています。
こうした問題は、「AIが悪い」のではなく、
どのようなデータを、どのように使うかを決める人間の側に責任があります。
だからこそ、
- 自分が使うAIがどんなデータセットで学習されたのか
- 出力結果が、誰かの著作物を侵害していないか
- 商用利用の際にライセンスの確認をしているか
こうした一つ一つの判断が、クリエイティブを“自由”に楽しむ未来につながるのかも知れません。
「真似ること」から始まる、創造への道
かつてピカソは、「優れた芸術家は真似をし、偉大な芸術家は盗む」と言いました。
この言葉が意味するのは、模倣から始まり、やがてそれを超える独自性へと進化するという、創作の本質です。
人間の学びも又、同じです。
赤ん坊は周囲の大人の言葉を“聞き真似”して言語を覚え、
画家は名画を模写しながら自分の筆致を磨いていきます。
真似は、学びの出発点。
そして、繰り返しの中で“個性”が生まれ、“創造”へと至る。
AIもまた、模倣から創造へ向かっているのか?
生成AIがデータセットを元に学ぶ様子は、人間の模倣に良く似ています。
たくさんの画像、文章、音声を吸収し、やがて“それっぽく”アウトプットできるようになる。
でもそこにはまだ、“自分らしさ”はない。
しかし、美人顔は平均顔と言われる様に美しい絵はどことなく美しい誰かに似ていたりします。
けれど、開発者やユーザーがAIの学習や出力を調整し続ける中で、
だんだんとユニークなスタイルや、新たな視点が見えてくることもあります。
それはまるで、写生に始まった芸術家が、自分のタッチを見つけていく過程のように。
問題はどこにあるのか?ー 問題は「模倣」ではなく、「無意識のまま使うこと」
人間が誰かの真似をする時、多くの場合には「敬意」や「学び」の意識があります。
けれどAIは、あらかじめ組まれたアルゴリズムによって、どこまでも淡々と吸収します。
だからこそ、私たち人間が、
- どんなデータを学ばせるか
- 何を目的に使うのか
- その出力は誰かを傷つけたり盗んだりしていないか
こうしたことを**意識的に問い直すことが、AI時代の“倫理”**なのかもしれません。
無意識の模倣が、危うさを生む理由
私たちは日常の中で、無数の「誰かのアイデア」「誰かの言葉」「誰かの作った仕組み」を知らず知らずのうちに使っています。
それ自体は人間らしい自然な営み。でも、AIはそれを指数関数的なスピードと量でやってのけます。
つまり、「人間なら気づけたはずの引用元」や「意識できたはずの境界線」が、AIには見えません。
そして、それを使う私たち人間が“気づかずに”その境界を越えてしまうと、著作権の問題だけでなく、文化的、倫理的な衝突が生まれてしまう。
気づけないなら、気づく仕組みをつくる
だからこそ今、求められているのは「禁止」や「拒否」ではなく、
**“気づけるようにするための仕組み”**なのではないかと思います。
たとえば
- 学習データの出典をより透明にする
- 生成物がどのような学習に基づいたかを可視化する
- ユーザーが出力に対して「これは誰かの影響を受けているか?」と考える習慣を持つ
これらが揃えば、模倣は「学び」や「リスペクト」に近づき、
無意識は「意識ある選択」へと変わっていくはずです。
訴訟と規制の嵐:AI学習の「裏側」が問われる時代
現実には、すでに訴訟も相次いでいます。
- Getty ImagesがStability AIを提訴(2023年)
- アーティスト集団によるクラスアクション(集団訴訟)
- 作家協会による、ChatGPT訓練データへの抗議
いずれも、「私たちの作品がAIに無断で学習されている」という主張です。
私たちクリエイター・運営者ができること
AI時代の今、Web制作者やブロガー、クリエイターとして私たちが意識すべきことは2つです。
①「学習元」に注目する癖をつける
- 使っているAIがどのようなデータで学習されているかを調べる
- LAIONやCommon Crawlなどの「出所」が明記されているか確認する
② 生成物の商用利用には注意する
- 著作権や肖像権の侵害がないか
- モデルの利用規約で「商用利用可」とされているか
AIの“自由さ”を見直すとき
AIは、私たちの想像を超える表現を可能にしました。
しかし、その表現の背後には、誰かの声・言葉・作品が静かに吸収されているかもしれません。
「これは誰のものか?」という問いに、AIは答えません。
AI時代の著作権、いまこそもう一度考えてみませんか?
著作権・肖像権の侵害がないかを調べる方法
① 画像・映像なら:逆画像検索
- Google画像検索(https://images.google.com)
- 生成された画像や気になる画像をアップロードして、似た画像・元画像を探せます。
- どこから引用されているか、過去に使われた実績があるかが確認できます。
- TinEye(https://tineye.com/)
- 著作権調査に特化した画像検索ツール。変形された画像でも高精度で検出されます。
利用例:「生成された画像に有名キャラっぽい顔があるけど…元があるのでは?」というときに便利。
② 文章なら:盗作・類似性チェックツール
- CopyLeaks(https://copyleaks.com/)
- Plagscan(https://www.plagscan.com/)
- Quetext(https://www.quetext.com/)
これらのツールは、生成された文章がインターネット上の他のテキストとどれほど類似しているかを検出できます。
利用例:ブログ記事や広告コピーなど、「似ている言い回しがあるかも」と気になるときに。
③ 肖像権の確認:写真の出典やモデルの特定
- 生成AIに人物画像を使う場合、その顔が誰かに似ていないか確認が必要です。
- 上記の逆画像検索ツールを活用
- 不安がある場合は人物を含まない構図にするか、フリーで使えるモデル写真の学習データを使ったAIを選ぶのが安全
④ データセットの出所を確認する(開発者向け)
- 使っているAIツールやAPIが、どのようなデータセットで学習しているかを調べましょう。
- **公開データセット名(例:LAION-5B、Common Crawlなど)**を確認
- その中に著作物が含まれていないか、訴訟例や報告が出ていないか調べる
参考:Have I Been Trained(https://haveibeentrained.com/)というサイトでは、**自分の画像が学習に使われたか調べることができます。**



SAKASA AIでは、AIツールのドロップダウンメニューに確認用テンプレートページが用意してあります。是非ご利用ください。