【2025年版】動画→文字起こし→要約をAIにおまかせ!最強の無料ツール紹介

録画した動画をAIで要約する方法を知っておくと、編集・文字起こし・マニュアル作成などを圧倒的に効率化できます。
まだ使った事が無いという方は是非、一度体験してみて下さい!
最初は少し戸惑うかも知れませんが、一度使うと「これ無料で使えるのすごい…!」と、驚ろかれると思います。
AIを使った動画→文字起こし→要約方法【録画データの活用術】
この記事では、録画した動画(例えばShadowPlayやOBSで保存したmp4など)を、
自動で「文字起こし」「要約」までしてくれる流れをご紹介します。



動画は出来上がっているものとして話を進めていきます。
Step1:動画をテキストに変換(音声
文字起こし)先ずは、音声入りの動画の音声をテキストに変換する作業から行っていきます。
よく使われている文字起こし用AIツール比較表(2025年版)
ツール名 | 特徴 | 対応言語 | 利用方法 | メリット | デメリット |
---|---|---|---|---|---|
Whisper(OpenAI) | 高精度な音声認識モデル。オープンソースで無料。 | 多言語対応(日本語OK) | 自己導入(PCにインストール)/ 組み込み型 | 無料で高精度、カスタマイズ可能 | 導入に技術的知識が必要、UIがない(別途ツールが必要) |
Vrew(ブリュー) | 文字起こし+動画編集が可能なアプリ。初心者にも使いやすい。 | 日本語含む多数 | デスクトップアプリ(Win/Mac) | UIが直感的、字幕編集も簡単、無料プランあり | 処理に時間がかかる場合あり、商用利用は有料プラン推奨 |
Adobe Premiere Pro | 高性能な動画編集ツールに文字起こし機能が内蔵。 | 日本語対応 | デスクトップアプリ(有料) | 編集と連携しやすい、業務用途向け、認識精度も安定 | 高額な月額料金(Creative Cloudサブスクリプション) |
Notta | Webアプリ中心のクラウド型文字起こしツール。録音・会議文字起こしに強い。 | 日本語含む104言語以上 | ブラウザ / モバイルアプリ | リアルタイム文字起こし、録音・ファイルアップロード対応、共有も簡単 | 無料プランは制限あり、有料プランでないと長時間は厳しい |
先ずは使用する文字起こしツールを選びます。
Vrewは、テロップ編集に音声吹き替えと、至れり尽くせりで、音声吹き替えをそのまま使用したい方にはおすすめです。しかし、無料プランには文字数の制限があります。
Adobe Premiere Proはご紹介するまでも無くは定番ですので今回はskipします。
OpenAI純正)は、無音部分は基本的に無視してテキスト化しますが、文脈から補間した言い回しを入れてくれたり、言い間違いの補完までしてくれる場合もあり、自然な流れに整えてくれるのが強みです。



・・・というわけで、今回はコストゼロで高度にカスタマイズしたい人向けのWhisperを使用していきたいと思います。
Whisperを使用する方法
Whisperを使用する実行環境には以下の方法があります。
実行環境 | コスト | 実行場所 | Whisperの使い方 | 備考 |
---|---|---|---|---|
ローカル(GitHub版) | 無料 | 自分のPC | GitHubのWhisperをPCにインストール(環境構築が必要) | 高スペックPCが必要(PCスペック次第(GPUがあれば高速)) |
Google Colab | 無料 | GoogleのクラウドPC上 | GitHubのWhisperをクラウドで実行(設定の手間が少なくテンプレが使える) | 自分のPCにインストール不要で、GPUなども一時的に使える(処理の速さ まあまあ) |
API版 | 有料(従量課金) | (OpenAI Whisper API) | Whisper APIに音声データを送る | プログラムやWebアプリ経由 |
拡張機能/Webアプリ | 無料〜有料 | 様々 | 各種様々 | Whisperをベースに作られた、誰でも使いやすいUI付きのアプリ |
Whisper関連ツールの料金比較
ツール名 | 無料プラン | 有料プランの内容と価格 |
---|---|---|
Whisper Transcription | あり | Pro版:3,500円または年額1,500円。高性能モデルやリアルタイム文字起こしに対応 |
SuperWhisper | あり | 有料版で高精度モデルの利用やクラウド・ローカルAIモデルの無制限使用が可能 |
writeout.ai | なし(現在) | 以前は無料でしたが、有料化されています |
WhisperをAPI経由で利用すると有料になります。 料金は1分ごとに0.006ドルで、日本円に換算すると1時間利用した場合約50〜60円(約0.86円)の料金が発生します。 コストをかけたくない方は、Google Colaboratoryで利用するかGitHubにあるオープンソースを使えば無料で利用できます。
日本語対応のWhisper系ツール(音声文字起こし)
*OpenAIが公開している「Whisper」という音声認識モデル(オープンソース)*をベースに作られた アプリケーションやツールは沢山あります。
以下に、ブラウザだけで使える or 導入しやすいツールをピックアップしましたこちらも参考にして下さい。
ツール名 | URL | 特徴 |
---|---|---|
Whisprr | https://whisprr.vercel.app/ | 無料、MP4対応、日本語OK。シンプルで高精度。 |
Whispy | https://whispy.ai/ | ファイルアップロード式、UIが直感的。文字起こし結果も綺麗。 |
Vrew(ダウンロード型) | https://vrew.voyagerx.com/ja/ | 編集・カット・テロップまで対応。PCにインストールして使用。 |
Notta | https://www.notta.ai/ja | 日本語に強い。スマホ対応、リアルタイム文字起こしも可。 |
補足ポイント
- Whisperはオフライン(ローカル)でも使えるCLI版(GitHub版)もあります。PC操作に慣れていれば導入可能です。
- ChatGPTの**Custom GPT(自分専用GPT)**に要約特化の指示を仕込んでおくと、もっと時短になります。
- 文字起こし結果は、NotionやGoogle Docsにまとめて整理すると運用しやすいです。
又、拡張機能「Scripsy(https://www.scripsy.ai)」は、特にブラウザ上のYouTube動画をその場で要約・文字起こしできるという点で、Whisper系ツールとは少し違った魅力があります。以下に比較表でわかりやすくまとめてみました。すでにYouTubeに上がっている動画の文字起こしと要約に使えます。
ちょっと脱線:Whisper系ツールとScripsyの比較表
YouTube動画を翻訳したいという方には、こちらのScripsyという選択肢もあります。
項目 | Scripsy | Whisper系(例:Whisprr / Notta / Vrew) |
---|---|---|
対象 | YouTube動画限定(基本はWeb上の動画) | 動画・音声ファイル(MP4/MP3など) |
インストール | Chrome拡張機能として追加するだけ | ブラウザ or ソフトを使用(Vrewはインストール必要) |
リアルタイム対応 | ◎(動画再生中に要約が出る) | △(アップロードや処理時間が必要) |
出力形式 | 文字起こし+要約+ChatGPT要約も可能 | 文字起こし(ツールによっては要約もあり) |
日本語対応 | ◯(やや翻訳精度に左右されることも) | ◎(Whisper系は日本語精度が高い) |
ファイル対応 | ×(ファイルアップロード不可) | ◎(動画・音声ファイルOK) |
AI連携 | ChatGPTと連携した要約可能(有料機能) | ChatGPTに貼って自分で要約が基本 |
料金 | 一部無料・一部有料(プロ版あり) | 多くが無料または有料版あり |
Scripsyはこんな方におすすめ
- YouTube動画の要点だけを素早く掴みたい
- ブラウザ内で完結するスマートな体験が好み
- ChatGPTによる要約を手軽に活用したい
- 検索→視聴→理解→メモを高速で済ませたい人
おすすめの使い分け
- Scripsy:YouTube上でサクッと要点確認。記事のネタ探しやリサーチに最適。
- Whisper系:手元の動画や録音音声をフルで文字起こししたいときに便利。
- Vrewなど:編集込みでYouTube動画を制作したいときのクリエイター向け。



今回はコストをかけずにWhisperを利用する方法のGoogle Colabに絞ってご紹介します。
Google Colab(Google Colaboratory)を使う理由
① 無料で高性能なGPUが使える
Whisperは音声ファイルの処理にかなりの計算リソースを必要とします。
特に動画ファイル(mp4)や長時間音声(30分以上など)を文字起こしするには、パソコンの性能が高くないと処理が遅い or 落ちることも。
→ そこでColabを使えば、GoogleのクラウドGPUで処理ができるので、ローカルPCが非力でも高速に処理できるんです。
② Whisperの本家(OpenAI公式)はAPIで有料
Whisper APIは、OpenAIの有料APIで、使うたびに課金されます。
- 少量の処理ならOK
- 頻繁に使う or 長時間音声ならコストがかさむ
一方、Colab + Whisperのオープンソース版を使えば、API料金なしで同じ精度の文字起こしが可能になります。
③ 拡張・カスタマイズがしやすい
Colabでは、Pythonコードを自由に編集できます。
- ノイズ除去や分割処理を加える
- タイムスタンプ付きの.srtファイルを出力する
- 要約処理を自動追加する
など、自分の目的に合わせて処理のカスタマイズができる点も人気の理由です。
④ Whisperのモデルの選択が可能(tiny〜large)
Colabを使えば、モデルサイズ(精度と処理速度のバランス)を自由に選べます。
- tiny:とても軽量。速いけど精度低い
- base / small:中くらい
- medium / large:高精度だけど処理が重い
手元のPCでは動かせない「large」モデルもColabなら動かせます。
方法 | 特徴 |
---|---|
Whisperアプリ(ツール) | 手軽・日本語対応あり・初心者向け |
Whisper API(OpenAI) | 高速・安定・有料 |
Colab+Whisper(オープンソース) | 高自由度・高性能GPU・無料で長時間対応 |
「Colabを使う人」はこんな人が多い
- 長時間音声を定期的に処理したい
- コストを抑えつつ高精度な結果が欲しい
- 自動化やカスタム処理もやってみたい
Google Colabの使い方
- Googleアカウントで Google Colab にアクセス
- 新しいノートブックを作成
- 上記のコードをコピー&ペースト
- 各セルを順に実行(Shift + Enter)
- 音声ファイルをアップロード(
.mp3
や.wav
など) - 自動で文字起こし結果が表示されます!
Whisper文字起こしテンプレート(日本語対応 / Google Colab用)
Google ColaboratoryでWhisperを使って日本語音声ファイルを文字起こしするためのテンプレートを作成しました。
初心者の方でもすぐに動かせるように、1ステップずつ丁寧に整理してありますのでトライしてみて下さい。
以下のコードをそのまま Colab に貼って使えます。
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
# Step 1: 環境の準備(Whisperと依存パッケージのインストール)
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
!pip install -q git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install -y ffmpeg
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
# Step 2: Whisperの読み込み
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
import whisper
model = whisper.load_model("base") # 精度を上げたい場合は "medium" や "large" に変更可
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
# Step 3: 音声ファイルのアップロード(.mp3, .mp4, .wavなど)
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
from google.colab import files
uploaded = files.upload()
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
# Step 4: ファイル名を確認し、Whisperで文字起こし
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
import os
audio_path = next(iter(uploaded)) # 最初のアップロードファイルを取得
# 日本語を自動で検出して文字起こし
result = model.transcribe(audio_path, language="ja")
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
# Step 5: テキストの表示
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
print(result["text"])
オプション(カスタマイズ)
カスタム項目 | 説明 |
---|---|
model = whisper.load_model("base") | "small" や "medium" にすると精度UP(処理は重くなる) |
language="ja" | "en" にすると英語文字起こし。自動判定も可能 |
.transcribe() の引数で fp16=False を追加 | 古いGPUでエラーになる場合に有効 |
出力結果を保存したい場合(テキストファイルに)
以下のコードを追加すると、文字起こし結果を.txt
に保存できます
with open("transcription.txt", "w", encoding="utf-8") as f:
f.write(result["text"])
files.download("transcription.txt")
Step2:無音の箇所への対応:AIによる補完
実際の音声からナレーション用スクリプトに整形するプロセスで、意外と重要なのが無音部分の処理だと感じます。
最近のAIツールには“無音の補完”や“文脈の補完”をしてくれる機能も増えてきています。
文字起こしツールを使用する前段階で、この機能について知っておくとスムーズですので、こちらを合わせてチェックしてみて下さい。
Whisperの場合
- Whisper(特に※OpenAI純正)は、無音部分は基本的に無視してテキスト化します。
- ただし、「…」や文脈から補間した言い回しを入れてくれる場合もあり、自然な流れに整えてくれるのが強みです。
- そして、高精度の音声認識で、なんと言い間違いの補完までしてくれる場合もあります。
※OpenAI純正…「純正」Whisperのオープンソースをそのまま使っている「派生」= UI付きのツール・Webアプリなどで、Whisperを内部で使っていたり、機能を追加していたりする(例:Vrew、Scripsy、Notta など)
VrewやNottaなどのUI付き文字起こしツール
- UI上で無音部分が**「空白行」や「(無音)」などとして表示**されることがあります。
- 編集モードで「補足コメント」や「ナレーション挿入文」を加えることが可能です。
最新の補完AI:ScripsyやDescriptなど
Scripsy(Chrome拡張)
- Web会議や録画内容から文字起こし→要約をしてくれます。
- 無音部分は「まとめの流れ」で自動的にスキップ or 意味合いをつなげる構成にする。
Descript
- 音声編集ツールなのですが、**「無音検出 → 自動トリム」**の機能あり。
- 「空白音を自動削除」「つなぎの言葉を提案」するなど、ナレーション素材として整えるのに強力。
ChatGPTで補完するプロンプト
この文字起こしデータには、ところどころ話が途切れている無音部分があります。
文脈を補完し、視聴者にとってわかりやすいスクリプトに書き直してください。
【目的別】無音補完プロンプト例
無音箇所を補うためには、プロンプトで「空白部分を補ってください」と指示することで、ChatGPTに自然なつなぎ文を作ってもらう事ができます。
基本プロンプト:無音の補完 + ナレーション整形
以下は、録音された音声からの文字起こしデータです。
一部に無音部分や不明瞭な表現があります。
これらを補完し、話の流れを崩さないように、ナレーションとして読みやすい文章に整えてください。
句読点やつなぎの言葉なども自然になるように修正してください。
【文字起こしデータ】
(ここに文字起こしテキストを貼り付け)
無音部分を明示的に補ってほしい場合(例:「……」が無音)
以下の文字起こしには「……」の部分に無音があります。
その部分を自然なつなぎの言葉や内容で補って、ナレーションとして使えるスクリプトにしてください。
視聴者が聞いても違和感がないよう、言葉の流れに注意してください。
【文字起こしデータ】
(ここにデータ)
補完+説明文の挿入(教育動画やYouTube向けに)
この文字起こしには無音部分がありますが、それらを適切に補完し、
かつ、初心者にも分かりやすいように、簡単な補足説明や前置きを加えて、
ナレーション用スクリプトとして整形してください。
【元のデータ】
(ここに文字起こし)
要望を明確に伝えるプロンプト例(よりAIに指示を細かくする)
以下のテキストは、録画された音声をWhisperで文字起こししたものです。
- 無音部分には「……」と記載しています。
- 文脈から自然なつなぎを補ってください。
- 曖昧な箇所は推測で構いません。
- 句読点、つなぎ語を整えて、読み上げに向く形にしてください。
最終的に「ナレーション台本」として使えるような形に整形をお願いします。
【文字起こし】
(ここに貼る)
小技:プロンプト冒頭に“ロール(役割)”を加えると精度アップ
あなたはプロの動画ナレーション台本ライターです。
これから渡す文字起こしには無音が多くありますが、自然に聞こえるように補完して、ナレーション原稿として仕上げてください
Step3:ChatGPTで要約
Whisperや他のツールで取得した「テキスト」を、ChatGPTに貼り付けて要約します。
ChatGPTプロンプト例(日本語)
以下の文字起こしされた内容を、要点をわかりやすく3〜5行に要約してください。
専門用語があれば補足説明も入れてください。
【貼り付けたテキスト】
ChatGPTは、ブログ用記事・手順書・ツイート要約など、形式に合わせた出力も可能です。
要約をさらに活かす応用術
- Notionに保存して自分だけのナレッジベースに
- 要約を元に記事構成やスライド資料を作成
- 対話形式に変換 → SNS投稿やスクリプトに応用
用途 | 方法 |
---|---|
YouTube動画の概要欄 | 要点を100文字で要約して挿入 |
ブログ記事化 | セクションごとに分割して見出し付きでまとめる |
マニュアル作成 | 作業ステップを箇条書きに変換 |
ナレーション作成 | ChatGPTで「ナレーション風にリライト」 |
ChatGPT用プロンプト例(動画の要約用)
基本的な要約プロンプト
以下は、動画の文字起こしです。
重要なポイントだけを簡潔にまとめてください。
初心者にもわかりやすく、3〜5行以内で要約してください。
---
(ここに文字起こしテキストを貼り付け)
セクションごとの構造にしたい場合
以下の文字起こしを、セクションごとに要点をまとめてください。
それぞれにタイトルをつけて、Markdown形式で見出しを入れてください。
---
(文字起こしテキスト)
ナレーション風に整えたいとき
以下の動画文字起こしを、YouTube用ナレーション風に書き直してください。
やさしい語り口で、話し言葉で自然にお願いします。
---
(文字起こしテキスト)
「録画 → テキスト → 要約」作業フローまとめ
ステップ | ツール例 | 作業内容 | ポイント |
---|---|---|---|
① 録画 | NVIDIA ShadowPlay OBS Studio Loom | PC画面や音声を録画 | ShadowPlayは軽量・高画質録画向き OBSは配信や細かい設定に強い |
② テキスト化(文字起こし) | Whisper系(Whisprr、Notta、Vrew) Audacity + Whisper Scripsy(YouTube限定) | 録音・録画データをテキストに変換 | Whisperは日本語精度が高く無料でも使えるものあり |
③ 要約 | ChatGPT Claude Notion AI Scripsy(要約機能あり) | 長文を短く要点を抽出 | ChatGPTはプロンプト次第で自由度が高い |