【初心者向け】CLI版Whisperの導入ガイド|GitHubからのインストールと、PyPI(公式パッケージ) からのインストール【手順と使い方】

音声ファイルを文字起こししたいとき、精度の高いツールを無料で使えたら理想的ですよね。
この記事では、OpenAIが開発した音声認識モデル 「Whisper」 を、コマンドライン(CLI)で使う方法を初心者向けにわかりやすく解説しています。GitHubからのインストール方法から、実際の使い方、エラー対処法までをまとめました。
対象読者
音声ファイルをテキスト化したい初心者
コマンドラインは不慣れだけど挑戦したい人
オフライン環境で文字起こしをしたい人
Whisperとは?|無料で使える高精度な音声認識モデル
Whisperは、OpenAIが公開したオープンソースの音声認識AIです。
以下のような特徴があります。- 高精度な文字起こしが可能(英語・日本語含む多数の言語に対応)
- ローカルで動作するため、音声データを外部に送信する必要なし
- 完全無料で商用利用も可能(ライセンス:MIT)
CLI版Whisperとは?
CLI(Command Line Interface)とは、CLI(シー・エル・アイ)は、「文字で命令を入力する操作画面」のことです。
GUI(マウス操作でポチポチする画面)とは違い、ターミナルやコマンドプロンプトを使って操作する形式のソフトウェアです。
つまり、WhisperをPC上(ローカル)で、コマンドで動かすバージョンが「CLI版Whisper」です。
WhisperはOpenAIがオープンソースとしてGitHubで公開しており、これをPython環境で動かすことで、CLIとして使えるようになります。
GitHubで公開されているWhisperのソースコードを、ローカル環境にインストールして、ターミナルやコマンドプロンプトから使います。
CLI版は自由度が高く、オフラインでも動作するため、
「本格的に使いたい人」や「自動処理フローを組みたい人」に人気です。 Whisperには以下の種類が存在します。
種類 | 特徴 | 呼び方 |
---|---|---|
Whisper(CLI版) | ローカルで使う。GitHubからインストールして、ターミナルで実行 | ローカル版 / GitHub版 / CLI版(同じもの) |
Whisper API | OpenAIのサーバー経由で使う。課金制(文字数ごと) | API版 |
Webアプリ・拡張機能 | Whisperをベースに作られた、誰でも使いやすいUI付きのアプリ | Webアプリ版 / GUI版 / 拡張機能版 など UI付きアプリhttps://sakasaai.com/whisperui/ |
Google Colab版 | ブラウザ上で動作。ローカルに環境不要 | Colab版https://sakasaai.com/summarize-video/ |
RunPod版 | Whisper Web UIなどGUI版をGPU環境で動かせる。画像生成でよく使用されるRunPodだが、実は、WhisperのWebUIも揃っている。 | Colabでの制限が煩わしい方におすすめ。 RunPodの使用方法はこちらで紹介しています。 |


特徴
項目 | 内容 |
---|---|
実行環境 | PC(ローカル)上のターミナル(Mac/Linux)やコマンドプロンプト(Windows) |
インターネット接続 | 不要(モデルをダウンロード済みならオフラインで動作可能) |
利用コスト | 無料(GPUを使えば高速、CPUのみでも可) |
対応言語 | 多言語(もちろん日本語対応) |
出力 | .txt , .srt , .vtt などの書き起こしファイルを自動で生成可能 |
CLI版はこんな人向き
- 音声をたくさん処理したい
- オフラインで作業したい(セキュリティ的に安心)
- Pythonやコマンド操作に少し慣れている or 学びたい
- Whisperの処理精度を自分で試したい・調整したい
下の記事で、Pythonについて詳しく解説しています。


CLI版Whisperをインストールする方法
Whisperを使う前に準備するもの
WhisperのCLI版を使うには、以下の環境が必要です。
ツール | 目的 | インストール方法 |
---|---|---|
Python(3.8以上) | 実行環境(WhisperはPython製) | Pythonのインストール方法 |
pip | Whisperをpip install で入れる為に使用※通常は、Pythonと一緒にインストールされます。 | pipのインストール方法 |
Git | WhisperをGitHubから直接インストールする際に使用 | Gitのインストール方法 |
FFmpeg | 音声ファイルを読み込むための外部ツール(Whisperが依存) | FFmpegインストール手順 |
venv(仮想環境) | 他のPython環境との干渉を防ぐ便利機能 | 使うと安全(なくても動く) |
動作確認コマンド(コマンドプロンプトもしくはターミナルで)
ターミナル(Windows Terminal)コマンドプロンプト、PowerShell、の開き方
Windowsの場合は、(※Windows Terminal)を開きます。
※Windows Terminal(ウィンドウズターミナル)の起動方法…
コマンドの実行は、Windows標準の「Windows Terminal」を使って行います。
(※コマンドプロンプト(cmd)やPowerShellでも同様に動作しますが、Windows Terminalの方が操作しやすくおすすめです。)
コマンドプロンプト(Command Prompt)とは、Windowsに搭載されているテキストベースのインターフェースです。マウス操作ではなく、キーボードからコマンド(指示)を入力することで、パソコンを操作できます。
Windows Terminal起動方法
- スタートメニューで、左クリック➡ターミナルを起動もしくは、「Windows Terminal」と検索して起動
- デフォルトでは PowerShell または Command Prompt(cmd)(又は、WindowsPowerShell)が開きます
画像生成用途の場合は、Command Prompt コマンドプロンプト(CMD)と相性が良いです。
pip install
や conda
などのモダン開発向けコマンドは、PowerShellと相性が良いです。
※詳しい使用方法や、Windows Terminalの設定方法は、こちらの記事をご覧ください。
Windows Terminalは、タブを切り替えて複数のシェルを使う事が出来ます
- 上部の
+
ボタンから新しいタブを開けます - PowerShell
- Command Prompt
- WSL(Linuxサブシステム)※インストール済みなら
- Azure Cloud Shell(必要な場合)
をクリックすると以下の選択肢があります
※Microsoft 公式も「Windows Terminal」を推奨しているため、当サイトでも記載するWindowsのコマンド実行場所を、コマンドプロンプト(cmd)から「Windows Terminal」に変更致しました。
コマンド入力は間違えるとエラーになることもありますが、慣れると素早く作業ができる便利なツールです。
Macの場合は、(※ターミナル)を開きます。
※ターミナル(Terminal)の起動方法…
Macには「ターミナル(Terminal)」というアプリがあり、これを使うことで、コマンドを入力してシステムを操作できます。
ターミナル起動方法
- **「Command ⌘ + Space」を押して、「Spotlight検索」**を開く
- 検索バーに「ターミナル」と入力してEnter
または、以下の手順でも開けます:
アプリケーション → ユーティリティ → ターミナル
※Linux のターミナルの起動方法…
Linuxでは「ターミナル」が、コマンド操作の基本です。ウィンドウの中でキーボード入力によりシステムを操作します。
Linuxターミナル起動方法
- 1,:
Ctrl + Alt + T
を同時に押す(多くのLinuxディストリビューションで共通) - 2,:アプリケーション一覧から「ターミナル」または「Terminal」で検索して開く
Ubuntu、Fedora、Debianなど、ほとんどのLinux環境に標準で搭載されています。
Macのターミナルと似た雰囲気で、コマンドの使い方もほぼ共通です。
※PowerShell の起動方法…(Windows)
PowerShell(パワーシェル)**は、Windowsに標準搭載されている、より高度な操作ができるコマンドラインツールです。見た目はコマンドプロンプトと似ていますが、より多機能で、プログラミング的な処理も得意です。
PowerShell起動方法
1,スタートメニューで「PowerShell」と検索してクリック
2,Windowsキー + R を押して「powershell」と入力 → Enter
コマンドプロンプトと同様、キーボードからコマンドを入力して操作します。
たとえば Get-ChildItem
(=フォルダの中身を見る)など、PowerShell独自のコマンドもありますが、通常のコマンド(例:cd
やpython
など)も使えます。
※コマンドプロンプト(cmd)の起動方法…(Windows)
Windowsキー + Rを押す
「cmd」と入力してEnterを押す
または、スタートメニューで「コマンドプロンプト」と検索してもOK!
ターミナル(Windows Terminal)を開き、”○○○(ツール名)”と打ち込むと呼び出してくれます。
以下のコマンドを実行します。
python --version
git --version
ffmpeg -version
python、git、ffmpegのバージョンが確認出来ればOKです!
Whisper のインストール方法は”3通り”あります
1⃣ PyPI(安定版)からインストールする方法
安定して動くものがほしい人向け。
2⃣ ソースコードを直接ローカルにクローンして使う方法
Whisper をベースに別のアプリを作るときなどに使う。
3⃣ GitHub(最新版・開発版)から直接インストールする方法
1⃣ PyPI 版 Whisper のインストール手順と使い方
whisper
パッケージは PyPI にも公開されているので、git clone
せずに直接インストールも可能です!
初めて使う人・初心者の方には PyPI版(pip install -U openai-whisper
)が最もおすすめです。
Whisperを使いたいだけの人は、このコマンドだけでOK!
pip install -U openai-whisper
- PyPI(公式)からインストール
- 依存も自動で入る
- 特にカスタマイズしないならこれが一番簡単!
pip install -U openai-whisper
の意味
これはPyPI(Python Package Index)から Whisper を最新版でインストールするコマンドです。
各部分の意味
pip install
: Pythonパッケージをインストールする基本コマンド-U
(--upgrade
): すでにインストールされている場合でも最新版にアップグレードするopenai-whisper
: Whisper の公式パッケージ名(PyPIに登録されている)
使う場面
- Whisper をすぐに使いたい(GitHubからクローンしなくてもOK)
- 最新版にアップデートしたいとき
- シンプルに使うだけで、開発や改造はしない場合
pip install -U openai-whisper
は GitHub からではなく PyPI(公式パッケージ) からのインストールです
- これは GitHub のソースコードを直接取得するわけではありません。
- OpenAI が GitHub 上で管理している Whisper プロジェクトの「安定版を PyPI にアップロードしたもの」をインストールします。
つまりCLI(コマンドラインインターフェース)版の Whisper も含まれていますが、それは PyPI に公開された安定ビルド版です。
最小限構成(PyPI版だけを使う場合)
以下さえ整っていれば、pip install -U openai-whisper
で Whisper は使えます。
- ✅ Python(3.8以上)
- ✅ pip(最新版推奨)
- ✅ FFmpeg(実行パスが通っている)
PyPI版にもCLIが入っている
whisper
コマンド)は PyPI版にも含まれており、以下のように使えます。
whisper example.mp3 --language Japanese
これは openai-whisper
パッケージに含まれる entry_points
により、インストール時に自動で whisper
コマンドが使えるようになります。
pip install -U openai-whisper
を使っても「CLI版の Whisper」はきちんと使えます。
ただし、GitHub から直接インストールしたわけではないので、「最新版が欲しい」「開発・改造したい」といった目的なら GitHub 版の方が適しています。
2⃣ GitHub版Whisper のインストール手順と使い方
Whisperのコードをいじったり、中身を学びたい・開発したい人は、GitHubからクローンして、以下の手順を踏みます
手順1:リポジトリを取得(ダウンロード)
ターミナル(またはコマンドプロンプト)を開く
openai/whisperのリポジトリを取得(クローン)します。
GitHubからgit clone https://github.com/openai/whisper.git
cd whisper
手順2:Python仮想環境(任意)を作成
開発環境を汚さないために仮想環境venv
の利用がおすすめです。Pythonに標準で付属しています。
python -m venv venv
source venv/bin/activate # macOS/Linux
venv\Scripts\activate # Windows
仮想環境(venv)は、Pythonとpipの「独立したコピー」を作るだけです。
仮想環境(venv)で出来る事
- pip installしても他のプロジェクトに影響を与えない
- 依存関係の管理がしやすくなる




手順3:pipやsetuptoolsが古いとトラブルが起きるので、まず更新(1回だけでOK)
pip install -U pip setuptools
pip install -e .
pip install -U pip setuptools
の意味
pip
とsetuptools
のパッケージを最新バージョンにアップグレード(Upgrade)する。
-U
は--upgrade
の省略形。pip
:Pythonパッケージのインストールツール。setuptools
:Pythonパッケージの構築・配布ツール。
pip
やsetuptools
だと、新しいパッケージのインストール時にエラーになることがあるため、事前にアップデートしておくと安全です。 古い
手順4:依存パッケージをインストール
Whisperで必要なライブラリをすべてインストールします。
pip install -r requirements.txt
pip install -r requirements.txt
の意味
requirements.txt
に書かれている依存パッケージをすべてインストールする。
例:
# requirements.txt の中身例
torch>=1.10
numpy
ffmpeg-python
手順5:開発モードでインストール(コード変更がすぐ反映される)
pip install -e .
pip install -e .
の意味
カレントディレクトリ(.
)のPythonパッケージを開発モード(editable mode)でインストールする。
開発モードとは?
.py
ファイルを直接インポートする形でインストールされます。- コードを変更しても再インストール不要。開発中にとても便利。
よくある使い方
パッケージの開発やカスタマイズを行うときに使います。
# 例:whisperをソースから開発モードでインストール
git clone https://github.com/openai/whisper.git
cd whisper
pip install -e .
コマンド | 目的・用途 |
---|---|
pip install -r requirements.txt | 必要なライブラリの一括インストール |
pip install -U pip setuptools | pipとsetuptoolsのアップデート(環境の安定化) |
pip install -e . | ソースコードを開発モードでインストール(即時反映され便利) |
-e .
は「開発モード」でのインストールを意味します。コードを直接編集しても反映される便利な方法です。
PyPI(公式)からインストールと、GitHub版との違い
方法 | 特徴 |
---|---|
pip install -U openai-whisper | PyPIの安定版をインストール。すぐ使える。 |
git clone → pip install -e . | 開発中の最新版を取得。コードを改造・調査したい場合に向く。 |
たとえば、GitHubのmain
ブランチでバグ修正や新機能がまだPyPIに反映されていないこともあります。そういう時はGitHubから直接使うほうがよいです。
pip install -U openai-whisper
は Whisperの最新版をPyPIから簡単にインストールする方法。- 特にカスタマイズしない限り、この方法が一番手軽です。
※初回実行時のみ、Whisperのモデル(数百MB~数GB)をダウンロードします。
3⃣ GitHub(最新版・開発版)から直接インストール
「Git操作はちょっと難しそう…」という方は、以下のコマンドだけでWhisperをすぐにインストールすることもできます。
それは、GitHub(最新版・開発版)から直接インストールする方法です。
⚠ 注意点
但し、この方法は、開発モード(-e .
)ではないため、コードのカスタマイズや編集には不向きです。
商用利用や本番環境には不向きなことが多い(自己責任)。
※このインストール方法の場合はWhisperのコード本体は手元に保存されません。
🆚 通常インストールとの違い
方法 | 特徴 |
---|---|
pip install git+... | 手軽、すぐ動かせる ソース編集や調査には不向き |
git clone + pip install -e . | ソースが手元にある 編集・デバッグしやすい |
一発インストールコマンド
pip install git+https://github.com/openai/whisper.git
この方法では、GitHub上のWhisper最新コードを直接インストールできます。
※このコマンドを使うには、必ず pip
がPCにインストールされている必要があります。
なぜ「pip」が必要なのか?
- このコマンドは、GitHubからWhisperのソースコードをpip経由で取得してインストールするものです。
pip
がないと、install
自体が使えません。
裏側で何が起きてる?
この1行で実際に行われる処理は
- GitHubからソースコードを取得(
git+https://...
) - 依存ライブラリも含めてPython環境にインストール
- CLIとして使えるようにセットアップ
これらすべて pip の機能です。
pipがないとどうなる?
エラーになります。例
'pip' は、内部コマンドまたは外部コマンドとして認識されていません。
または
No module named pip
確認コマンド
pip --version
このコマンドで、バージョンが表示されればOKです。
pip
が使えない場合は・・・ もし
python -m ensurepip --upgrade
で復旧を試せます。
こんな方におすすめ
- Whisperを今すぐサクッと試してみたい
- コマンドラインがまだ不慣れで不安
実際に使ってみて気に入ったら、改めて git clone https://github.com/openai/whisper.git && cd whisper
でソースコードをクローンしてみて下さい。
音声ファイルをWhisperで文字起こしする方法
音声ファイルを指定して文字起こし実行
whisper audio.mp3 --model medium --language Japanese
任意の音声ファイル(例: audio.mp3
)を使って、文字起こし(transcription)します。
オプション | 説明 |
---|---|
audio.mp3 | 文字起こししたい音声ファイル名 |
--model モデルサイズ(精度や速度に影響) | 使用するモデルサイズtiny / base / small / medium / large |
--language 言語指定(精度向上に必須) | 言語を指定(例:Japanese , English ) |
--output_format | 出力形式(txt , srt , vtt ,json など選択可能) |
出力結果について
変換結果は、音声ファイルと同じフォルダ内に .txt
ファイルとして出力されます。(例: audio.txt
)。
トラブルシューティング:よくあるエラーと解決方法
エラー内容 | 対処方法 |
ModuleNotFoundError: No module named 'torch' | pip install torch を実行 |
torch not installed | pip install torch を追加で実行。 |
ffmpeg not found | FFmpegをインストールしてパスを通す |
Unicodeエラー(文字化け) | テキストエディタをUTF-8に設定 |
ffmpeg が見つからない | 音声処理に必要なため、FFmpeg公式サイトからインストールしてパスを通してください。 |
おまけ:ガシェット系のAI文字起こしツールの紹介
今は、手軽な文字起こし機能付きのボイスレコーダーも出ているので、先日使ってみました。
一番右が、文字起こし機能付きの”AutoMemo S”です。音質は左から二番目のモノが最高なので、つい比べてしまい、”音質は、やや落ちる”と感じました。とは言っても、一番左側のSONY”ICD-PX470F W”よりは良い。私の体感ではSONY”ICD-UX570F”位なのかな??と思います。
ただし、文字起こしとしての使用メインにされる方には非常に良い選択だと思います!
ガシェット系の”AI文字起こしツールで”最近使ってみた”AutoMemo S”。
データを文字起こしするひと手間を省きたい方には、録音、文字起こし機能が一つになった 文字起こし機能付きボイスレコーダー”AutoMemo S”もおすすめです。ワンタップ操作の文字起こしツールで、何と言っても、この薄さと、軽さと、シンプル設計が気に入りました。





