【2025年版】動画→文字起こし→要約をAIにおまかせ！最強の無料ツール紹介

AIを使った動画→文字起こし→要約方法【録画データの活用術】

録画した動画をAIで要約する方法を知っておくと、編集・文字起こし・マニュアル作成などを圧倒的に効率化できます。
まだ使った事が無いという方は是非、一度体験してみて下さい！
最初は少し戸惑うかも知れませんが、一度使うと「これ無料で使えるのすごい…！」と、驚ろかれると思います。

この記事では、録画した動画（例えばShadowPlayやOBSで保存したmp4など）を、
自動で「文字起こし」「要約」までしてくれる流れをご紹介します。

未来

動画は出来上がっているものとして話を進めていきますね。

Step1：動画をテキストに変換（音声文字起こし）

先ずは、音声入りの動画の音声をテキストに変換する作業から行っていきます。

よく使われている文字起こし用AIツール比較表（2025年版）

ツール名	特徴	対応言語	利用方法	メリット	デメリット
Whisper（OpenAI）	高精度な音声認識モデル。オープンソースで無料。	多言語対応（日本語OK）	自己導入（PCにインストール）/ 組み込み型	無料で高精度、カスタマイズ可能	導入に技術的知識が必要、UIがない（別途ツールが必要）
Vrew（ブリュー）	文字起こし＋動画編集が可能なアプリ。初心者にも使いやすい。	日本語含む多数	デスクトップアプリ（Win/Mac）	UIが直感的、字幕編集も簡単、無料プランあり	処理に時間がかかる場合あり、商用利用は有料プラン推奨
Adobe Premiere Pro	高性能な動画編集ツールに文字起こし機能が内蔵。	日本語対応	デスクトップアプリ（有料）	編集と連携しやすい、業務用途向け、認識精度も安定	高額な月額料金（Creative Cloudサブスクリプション）
Notta	Webアプリ中心のクラウド型文字起こしツール。録音・会議文字起こしに強い。	日本語含む104言語以上	ブラウザ / モバイルアプリ	リアルタイム文字起こし、録音・ファイルアップロード対応、共有も簡単	無料プランは制限あり、有料プランでないと長時間は厳しい

先ずは使用する文字起こしツールを選びます。
Vrewは、テロップ編集に音声吹き替えと、至れり尽くせりで、音声吹き替えをそのまま使用したい方にはおすすめです。しかし、無料プランには文字数の制限があります。
Adobe Premiere Proはご紹介するまでも無く定番ですので今回はskipします。

Whisper（特に※OpenAI純正）は、無音部分は基本的に無視してテキスト化しますが、文脈から補間した言い回しを入れてくれたり、言い間違いの補完までしてくれる場合もあり、自然な流れに整えてくれるのが強みです。

SAKASA

・・・というわけで、今回はコストゼロで高度にカスタマイズしたい人向けのWhisperを使用していきたいと思います。

Whisperを使用する方法

Whisperを使用する実行環境には以下の方法があります。

実行環境	コスト	実行場所	Whisperの使い方	備考
ローカル（GitHub版）	無料	自分のPC	GitHubのWhisperをPCにインストール（環境構築が必要） CLI版Whisperの導入方法	高スペックPCが必要（PCスペック次第（GPUがあれば高速））
Google Colab	無料	GoogleのクラウドPC上	GitHubのWhisperをクラウドで実行（設定の手間が少なくテンプレが使える）	自分のPCにインストール不要で、GPUなども一時的に使える（処理の速さまあまあ）
API版	有料（従量課金）	（OpenAI Whisper API）	Whisper APIに音声データを送る	プログラムやWebアプリ経由
拡張機能/Webアプリ	無料〜有料	様々	各種様々	Whisperをベースに作られた、誰でも使いやすいUI付きのアプリ

Whisper関連ツールの料金比較

ツール名	無料プラン	有料プランの内容と価格
Whisper Transcription	あり	Pro版：3,500円または年額1,500円。高性能モデルやリアルタイム文字起こしに対応
SuperWhisper	あり	有料版で高精度モデルの利用やクラウド・ローカルAIモデルの無制限使用が可能
writeout.ai	なし（現在）	以前は無料でしたが、有料化されています

WhisperをAPI経由で利用すると有料になります。料金は1分ごとに0.006ドルで、日本円に換算すると1時間利用した場合約50〜60円（約0.86円）の料金が発生します。コストをかけたくない方は、Google Colaboratoryで利用するかGitHubにあるオープンソースを使えば無料で利用できます。

日本語対応のWhisper系ツール（音声文字起こし）

*OpenAIが公開している「Whisper」という音声認識モデル（オープンソース）*をベースに作られた アプリケーションやツールは沢山あります。

以下に、ブラウザだけで使える or 導入しやすいツールをピックアップしましたこちらも参考にして下さい。

ツール名	URL	特徴
Whisprr	https://whisprr.vercel.app/	無料、MP4対応、日本語OK。シンプルで高精度。
Whispy	https://whispy.ai/	ファイルアップロード式、UIが直感的。文字起こし結果も綺麗。
Vrew（ダウンロード型）	https://vrew.voyagerx.com/ja/	編集・カット・テロップまで対応。PCにインストールして使用。
Notta	https://www.notta.ai/ja	日本語に強い。スマホ対応、リアルタイム文字起こしも可。

補足ポイント

Whisperはオフライン（ローカル）でも使えるCLI版（GitHub版）もあります。PC操作に慣れていれば導入可能です。CLI版Whisperの導入方法
ChatGPTの**Custom GPT（自分専用GPT）**に要約特化の指示を仕込んでおくと、もっと時短になります。
文字起こし結果は、NotionやGoogle Docsにまとめて整理すると運用しやすいです。

又、拡張機能「Scripsy（https://www.scripsy.ai）」は、特にブラウザ上のYouTube動画をその場で要約・文字起こしできるという点で、Whisper系ツールとは少し違った魅力があります。以下に比較表でわかりやすくまとめてみました。すでにYouTubeに上がっている動画の文字起こしと要約に使えます。

ちょっと脱線：Whisper系ツールとScripsyの比較表

YouTube動画を翻訳したいという方には、こちらのScripsyという選択肢もあります。

項目	Scripsy	Whisper系（例：Whisprr / Notta / Vrew）
対象	YouTube動画限定（基本はWeb上の動画）	動画・音声ファイル（MP4/MP3など）
インストール	Chrome拡張機能として追加するだけ	ブラウザ or ソフトを使用（Vrewはインストール必要）
リアルタイム対応	◎（動画再生中に要約が出る）	△（アップロードや処理時間が必要）
出力形式	文字起こし＋要約＋ChatGPT要約も可能	文字起こし（ツールによっては要約もあり）
日本語対応	◯（やや翻訳精度に左右されることも）	◎（Whisper系は日本語精度が高い）
ファイル対応	×（ファイルアップロード不可）	◎（動画・音声ファイルOK）
AI連携	ChatGPTと連携した要約可能（有料機能）	ChatGPTに貼って自分で要約が基本
料金	一部無料・一部有料（プロ版あり）	多くが無料または有料版あり

Scripsyはこんな方におすすめ

YouTube動画の要点だけを素早く掴みたい
ブラウザ内で完結するスマートな体験が好み
ChatGPTによる要約を手軽に活用したい
検索→視聴→理解→メモを高速で済ませたい人

Google Colab(Google Colaboratory)を使う理由

① 無料でGPUが使える

Whisperは音声ファイルの処理にかなりの計算リソースを必要とします。
特に動画ファイル（mp4）や長時間音声（30分以上など）を文字起こしするには、パソコンの性能が高くないと処理が遅い or 落ちることも。

→ そこでColabを使えば、GoogleのクラウドGPUで処理ができるのと、自分のPCへのダウンロード作業や、設定の手間無しに、PC環境を汚さず使用できます。

② Whisperの本家（OpenAI公式）はAPIで有料

Whisper APIは、OpenAIの有料APIで、使うたびに課金されます。

少量の処理ならOK
頻繁に使う or 長時間音声ならコストがかさむ

一方、Colab + Whisperのオープンソース版を使えば、API料金なしで同じ精度の文字起こしが可能になります。

③ 拡張・カスタマイズがしやすい

Colabでは、Pythonコードを自由に編集できます。

ノイズ除去や分割処理を加える
タイムスタンプ付きの.srtファイルを出力する
要約処理を自動追加する

など、自分の目的に合わせて処理のカスタマイズができる点も人気の理由です。

④ Whisperのモデルの選択が可能（tiny〜large）

Colabを使えば、モデルサイズ（精度と処理速度のバランス）を自由に選べます。

- tiny：とても軽量。速いけど精度低い
- base / small：中くらい
- medium / large：高精度だけど処理が重い

手元のPCでは動かせない「large」モデルも動かせます。

方法	特徴
Whisperアプリ（ツール）	手軽・日本語対応あり・初心者向け
Whisper API（OpenAI）	高速・安定・有料
Colab＋Whisper（オープンソース）	高自由度・高性能GPU・無料で長時間対応

Google Colabの使い方

Googleアカウントで Google Colab にアクセス
新しいノートブックを作成
下記のコードをコピー＆ペースト
各セルを順に実行（Shift + Enter）
音声ファイルをアップロード（.mp3 や .wav など）
自動で文字起こし結果が表示されます！

Google Colab

Google Colab

Whisper文字起こしテンプレート（日本語対応 / Google Colab用）

Google ColaboratoryでWhisperを使って日本語音声ファイルを文字起こしするためのテンプレートを作成しました。
初心者の方でもすぐに動かせるように、1ステップずつ丁寧に整理してありますのでトライしてみて下さい。

ノートブックを新規作成するをクリック。

以下のコードをそのまま Colab に貼って使えます。

# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
# Step 1: 環境の準備（Whisperと依存パッケージのインストール）
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
!pip install -q git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install -y ffmpeg

# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
# Step 2: Whisperの読み込み
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
import whisper
model = whisper.load_model("base")  # 精度を上げたい場合は "medium" や "large" に変更可

# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
# Step 3: 音声ファイルのアップロード（.mp3, .mp4, .wavなど）
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
from google.colab import files
uploaded = files.upload()

# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
# Step 4: ファイル名を確認し、Whisperで文字起こし
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
import os
audio_path = next(iter(uploaded))  # 最初のアップロードファイルを取得

# 日本語を自動で検出して文字起こし
result = model.transcribe(audio_path, language="ja")

# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
# Step 5: テキストの表示
# ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
print(result["text"])

ctrl ＋ vでペーストしてね。

ファイルの選択のタブをクリックしてファイルをアップロードする

オプション（カスタマイズ）

カスタム項目	説明
`model = whisper.load_model("base")`	`"small"` や `"medium"` にすると精度UP（処理は重くなる）
`language="ja"`	`"en"`にすると英語文字起こし。自動判定も可能
`.transcribe()` の引数で `fp16=False` を追加	古いGPUでエラーになる場合に有効

出力結果を保存したい場合（テキストファイルに）

以下のコードを追加すると、文字起こし結果を.txtに保存できます

with open("transcription.txt", "w", encoding="utf-8") as f:
    f.write(result["text"])

files.download("transcription.txt")

Step2:無音の箇所への対応：AIによる補完

実際の音声からナレーション用スクリプトに整形するプロセスで、意外と重要なのが無音部分の処理だと感じます。
最近のAIツールには“無音の補完”や“文脈の補完”をしてくれる機能も増えてきています。
文字起こしツールを使用する前段階で、この機能について知っておくとスムーズですので、こちらを合わせてチェックしてみて下さい。

Whisperの場合

Whisper（特に※OpenAI純正）は、無音部分は基本的に無視してテキスト化します。
ただし、「…」や文脈から補間した言い回しを入れてくれる場合もあり、自然な流れに整えてくれるのが強みです。
そして、高精度の音声認識で、なんと言い間違いの補完までしてくれる場合もあります。

※OpenAI純正…「純正」Whisperのオープンソースをそのまま使っている「派生」＝ UI付きのツール・Webアプリなどで、Whisperを内部で使っていたり、機能を追加していたりする（例：Vrew、Scripsy、Notta など）

VrewやNottaなどのUI付き文字起こしツール

UI上で無音部分が**「空白行」や「（無音）」などとして表示**されることがあります。
編集モードで「補足コメント」や「ナレーション挿入文」を加えることが可能です。

最新の補完AI：ScripsyやDescriptなど

Scripsy（Chrome拡張）

Web会議や録画内容から文字起こし→要約をしてくれます。
無音部分は「まとめの流れ」で自動的にスキップ or 意味合いをつなげる構成にする。

Descript

音声編集ツールなのですが、**「無音検出 → 自動トリム」**の機能あり。
「空白音を自動削除」「つなぎの言葉を提案」するなど、ナレーション素材として整えるのに強力。

ChatGPTで補完するプロンプト

この文字起こしデータには、ところどころ話が途切れている無音部分があります。
文脈を補完し、視聴者にとってわかりやすいスクリプトに書き直してください。

【目的別】無音補完プロンプト例

無音箇所を補うためには、プロンプトで「空白部分を補ってください」と指示することで、ChatGPTに自然なつなぎ文を作ってもらう事ができます。

基本プロンプト：無音の補完 + ナレーション整形

以下は、録音された音声からの文字起こしデータです。
一部に無音部分や不明瞭な表現があります。

これらを補完し、話の流れを崩さないように、ナレーションとして読みやすい文章に整えてください。
句読点やつなぎの言葉なども自然になるように修正してください。

【文字起こしデータ】
（ここに文字起こしテキストを貼り付け）

無音部分を明示的に補ってほしい場合（例：「……」が無音）

以下の文字起こしには「……」の部分に無音があります。
その部分を自然なつなぎの言葉や内容で補って、ナレーションとして使えるスクリプトにしてください。

視聴者が聞いても違和感がないよう、言葉の流れに注意してください。

【文字起こしデータ】
（ここにデータ）

補完＋説明文の挿入（教育動画やYouTube向けに）

この文字起こしには無音部分がありますが、それらを適切に補完し、
かつ、初心者にも分かりやすいように、簡単な補足説明や前置きを加えて、
ナレーション用スクリプトとして整形してください。

【元のデータ】
（ここに文字起こし）

要望を明確に伝えるプロンプト例（よりAIに指示を細かくする）

以下のテキストは、録画された音声をWhisperで文字起こししたものです。

- 無音部分には「……」と記載しています。
- 文脈から自然なつなぎを補ってください。
- 曖昧な箇所は推測で構いません。
- 句読点、つなぎ語を整えて、読み上げに向く形にしてください。

最終的に「ナレーション台本」として使えるような形に整形をお願いします。

【文字起こし】
（ここに貼る）

小技：プロンプト冒頭に“ロール（役割）”を加えると精度アップ

あなたはプロの動画ナレーション台本ライターです。
これから渡す文字起こしには無音が多くありますが、自然に聞こえるように補完して、ナレーション原稿として仕上げてください

Step3:ChatGPTで要約

Whisperや他のツールで取得した「テキスト」を、ChatGPTに貼り付けて要約します。

ChatGPTプロンプト例（日本語）

以下の文字起こしされた内容を、要点をわかりやすく3〜5行に要約してください。
専門用語があれば補足説明も入れてください。

【貼り付けたテキスト】

ChatGPTは、ブログ用記事・手順書・ツイート要約など、形式に合わせた出力も可能です。

要約をさらに活かす応用術

Notionに保存して自分だけのナレッジベースに
要約を元に記事構成やスライド資料を作成
対話形式に変換 → SNS投稿やスクリプトに応用

用途	方法
YouTube動画の概要欄	要点を100文字で要約して挿入
ブログ記事化	セクションごとに分割して見出し付きでまとめる
マニュアル作成	作業ステップを箇条書きに変換
ナレーション作成	ChatGPTで「ナレーション風にリライト」

ChatGPT用プロンプト例（動画の要約用）

基本的な要約プロンプト

以下は、動画の文字起こしです。
重要なポイントだけを簡潔にまとめてください。
初心者にもわかりやすく、3〜5行以内で要約してください。

---
（ここに文字起こしテキストを貼り付け）

セクションごとの構造にしたい場合

以下の文字起こしを、セクションごとに要点をまとめてください。
それぞれにタイトルをつけて、Markdown形式で見出しを入れてください。

---
（文字起こしテキスト）

ナレーション風に整えたいとき

以下の動画文字起こしを、YouTube用ナレーション風に書き直してください。
やさしい語り口で、話し言葉で自然にお願いします。

---
（文字起こしテキスト）

「録画 → テキスト → 要約」作業フローまとめ

ステップ	ツール例	作業内容	ポイント
① 録画	NVIDIA ShadowPlay OBS Studio Loom	PC画面や音声を録画	ShadowPlayは軽量・高画質録画向き OBSは配信や細かい設定に強い
② テキスト化（文字起こし）	Whisper系（Whisprr、Notta、Vrew） Audacity + Whisper Scripsy（YouTube限定）	録音・録画データをテキストに変換	Whisperは日本語精度が高く無料でも使えるものあり
③ 要約	ChatGPT Claude Notion AI Scripsy（要約機能あり）	長文を短く要点を抽出	ChatGPTはプロンプト次第で自由度が高い

おまけ：ガシェット系のAI文字起こしツールの紹介

今は、手軽な文字起こし機能付きのボイスレコーダーも出ているので、先日使ってみました。
一番右が、文字起こし機能付きの”AutoMemo S”です。音質は左から二番目のモノが最高なので、つい比べてしまって、音質は、やや落ちると感じました。とは言っても、一番左側のSONY”ICD-PX470F W”よりは良い。私の体感ではSONY”ICD-UX570F”位なのかな？？と思います。
ただし、文字起こしとしての使用メインされる方には非常に良い選択だと思います！

ガシェット系の”AI文字起こしツールで”最近使ってみた”AutoMemo S”。
データを文字起こしするひと手間を省きたい方には、録音、文字起こし機能が一つになった文字起こし機能付きボイスレコーダー”AutoMemo S”もおすすめです。ワンタップ操作の文字起こしツールで、何と言っても、この薄さと、軽さと、シンプル設計が気に入りました。

【エントリーで最大10万ポイント還元｜5/6迄】ソースネクスト｜SOURCENEXT AIボイスレコーダー AutoMemo（オートメモ） S ホワイト AMSWH [16GB /Bluetooth対応]

楽天ビック（ビックカメラ×楽天）

¥19,790 （2025/10/28 11:58時点 | 楽天市場調べ）

Amazon

楽天市場

ポチップ

AI技術ラボ

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！