【初心者向け】CLI版Whisperの導入ガイド|GitHubからのインストール手順と使い方

音声ファイルを文字起こししたいとき、精度の高いツールを無料で使えたら理想的ですよね。
この記事では、OpenAIが開発した音声認識モデル 「Whisper」 を、コマンドライン(CLI)で使う方法を初心者向けにわかりやすく解説しています。GitHubからのインストール方法から、実際の使い方、エラー対処法までをまとめました。
対象読者
音声ファイルをテキスト化したい初心者
コマンドラインは不慣れだけど挑戦したい人
オフライン環境で文字起こしをしたい人
Whisperとは?|無料で使える高精度な音声認識モデル
Whisperは、OpenAIが公開したオープンソースの音声認識AIです。
以下のような特徴があります。- 高精度な文字起こしが可能(英語・日本語含む多数の言語に対応)
- ローカルで動作するため、音声データを外部に送信する必要なし
- 完全無料で商用利用も可能(ライセンス:MIT)


CLI版Whisperとは?
CLI(Command Line Interface)とは、CLI(シー・エル・アイ)は、「文字で命令を入力する操作画面」のことです。
GUI(マウス操作でポチポチする画面)とは違い、ターミナルやコマンドプロンプトを使って操作する形式のソフトウェアです。
つまり、WhisperをPC上(ローカル)で、コマンドで動かすバージョンが「CLI版Whisper」です。
WhisperはOpenAIがオープンソースとしてGitHubで公開しており、これをPython環境で動かすことで、CLIとして使えるようになります。
GitHubで公開されているWhisperのソースコードを、ローカル環境にインストールして、ターミナルやコマンドプロンプトから使う形態のことです。
CLI版は自由度が高く、オフラインでも動作するため、
「本格的に使いたい人」や「自動処理フローを組みたい人」に人気です。Whisperには以下の種類が存在します。
種類 | 特徴 | 呼び方 |
---|---|---|
Whisper(CLI版) | ローカルで使う。GitHubからインストールして、ターミナルで実行 | ローカル版 / GitHub版 / CLI版(同じもの) |
Whisper API | OpenAIのサーバー経由で使う。課金制(文字数ごと) | API版 |
Webアプリ・拡張機能 | Whisperをベースに作られた、誰でも使いやすいUI付きのアプリ | Webアプリ版 / GUI版 / 拡張機能版 など |
Google Colab版 | ブラウザ上で動作。ローカルに環境不要 | Colab版(クラウド) |
特徴
項目 | 内容 |
---|---|
実行環境 | PC(ローカル)上のターミナル(Mac/Linux)やコマンドプロンプト(Windows) |
インターネット接続 | 不要(モデルをダウンロード済みならオフラインで動作可能) |
利用コスト | 無料(GPUを使えば高速、CPUのみでも可) |
対応言語 | 多言語(もちろん日本語対応) |
出力 | .txt , .srt , .vtt などの書き起こしファイルを自動で生成可能 |
CLI版はどんな人に向いてる?
- 音声をたくさん処理したい
- オフラインで作業したい(セキュリティ的に安心)
- Pythonやコマンド操作に少し慣れている or 学びたい
- Whisperの処理精度を自分で試したい・調整したい
下の記事で、Pythonについて詳しく解説しています。


CLI版WhisperをGitHubからインストールする方法
Whisperを使う前に準備するもの
WhisperのCLI版を使うには、以下の環境が必要です。
ツール | 目的 | インストール方法 |
---|---|---|
Python(3.8以上) | 実行環境(WhisperはPython製) | Pythonのインストール方法 |
pip | Whisperをpip install で入れる為に使用 | pipのインストール方法 |
Git | WhisperをGitHubから直接インストールする際に使用 | Gitのインストール方法 |
FFmpeg | 音声ファイルを読み込むための外部ツール(Whisperが依存) | FFmpegインストール手順 |
venv(仮想環境) | 他のPython環境との干渉を防ぐ便利機能 | 使うと安全(なくても動く) |
動作確認コマンド(コマンドプロンプトもしくはターミナルで)
python --version
git --version
ffmpeg -version
Windowsの場合は、(※コマンドプロンプト)を開きます。
※コマンドプロンプト(Command Prompt)の起動方法…
**コマンドプロンプト(Command Prompt)**とは、Windowsに搭載されているテキストベースのインターフェースです。マウス操作ではなく、キーボードからコマンド(指示)を入力することで、パソコンを操作できます。
起動方法
- Windowsキー + Rを押す
- 「cmd」と入力してEnterを押す
または、スタートメニューで「コマンドプロンプト」と検索してもOK!
コマンド入力は間違えるとエラーになることもありますが、慣れると素早く作業ができる便利なツールです。
Macの場合は、(※ターミナル)を開きます。
※ターミナル(Terminal)の起動方法…
Macには「ターミナル(Terminal)」というアプリがあり、これを使うことで、コマンドを入力してシステムを操作できます。
起動方法
- **「Command ⌘ + Space」を押して、「Spotlight検索」**を開く
- 検索バーに「ターミナル」と入力してEnter
または、以下の手順でも開けます:
アプリケーション → ユーティリティ → ターミナル
ターミナル(コマンドプロンプト)を開き、”○○○(ツール名)”と打ち込むと呼ぶ出してくれます。
WhisperをGitHubからインストールする方法【CLI版】
手順1:リポジトリを取得(ダウンロード)
まず、GitHubからopenai/whisperのリポジトリを取得(クローン)します。
git clone https://github.com/openai/whisper.git
cd whisper
手順2:Python仮想環境(任意)を作成
開発環境を汚さないために仮想環境venv
の利用がおすすめです。
python -m venv venv
source venv/bin/activate # Windowsの場合: venv\Scripts\activate
仮想環境を使うことで、システム環境を汚さずにインストールできます。
仮想環境(venv)は、Pythonとpipの「独立したコピー」を作るだけです。
してくれること
- pip installしても他のプロジェクトに影響を与えない
- 依存関係の管理がしやすくなる


手順3:依存パッケージをインストール
Whisperで必要なライブラリをすべてインストールします。
pip install -U pip setuptools
pip install -e .
-e .
は「開発モード」でのインストールを意味します。コードを直接編集しても反映される便利な方法です。
※初回実行時のみ、Whisperのモデル(数百MB~数GB)をダウンロードします。
クイック導入:一発インストールしたい方はこちらをクリック!
「Git操作はちょっと難しそう…」という方は、以下のコマンドだけでWhisperをすぐにインストールすることもできます。
一発インストールしたい方にはこんな方法もあります!
一発インストールコマンド
pip install git+https://github.com/openai/whisper.git
この方法では、GitHub上のWhisper最新コードを直接インストールできます。
このコマンドを使うには、必ず pip
がPCにインストールされている必要があります。
なぜ「pip」が必要なのか?
- このコマンドは、GitHubからWhisperのソースコードをpip経由で取得してインストールするものです。
pip
がないと、install
自体が使えません。
裏側で何が起きてる?
この1行で実際に行われる処理は:
- GitHubからソースコードを取得(
git+https://...
) - 依存ライブラリも含めてPython環境にインストール
- CLIとして使えるようにセットアップ
すべて pip の機能です。
pipがないとどうなる?
エラーになります。例
'pip' は、内部コマンドまたは外部コマンドとして認識されていません。
または
No module named pip
確認コマンド
pip --version
これでバージョンが表示されればOKです。
もし pip
が使えない場合は:
python -m ensurepip --upgrade
で復旧を試せます。
⚠ 注意点
開発モード(-e .
)ではないため、コードのカスタマイズや編集には不向きです。
この方法ではWhisperのコード本体は手元に保存されません。
🆚 通常インストールとの違いまとめ
方法 | 特徴 |
---|---|
pip install git+... | 手軽、すぐ動かせる ソース編集や調査には不向き |
git clone + pip install -e . | ソースが手元にある 編集・デバッグしやすい |
こんな方におすすめ
- Whisperを今すぐサクッと試してみたい
- コマンドラインがまだ不慣れで不安
実際に使ってみて気に入ったら、改めて git clone
でソースを手元に置いてみるのもおすすめです!
音声ファイルをWhisperで文字起こしする方法
ステップ4:音声ファイルを指定して文字起こし実行
whisper audio.mp3 --model medium --language Japanese
任意の音声ファイル(例: audio.mp3
)を使って、文字起こし(transcription)します。
オプション | 説明 |
---|---|
audio.mp3 | 文字起こししたい音声ファイル名 |
--model モデルサイズ(精度や速度に影響) | 使用するモデルサイズtiny / base / small / medium / large |
--language 言語指定(精度向上に必須) | 言語を指定(例:Japanese , English ) |
--output_format | 出力形式(txt , srt , vtt ,json など選択可能) |
出力結果について
変換結果は、音声ファイルと同じフォルダ内に .txt
ファイルとして出力されます。(例: audio.txt
)。
トラブルシューティング:よくあるエラーと解決方法
エラー内容 | 対処方法 |
ModuleNotFoundError: No module named 'torch' | pip install torch を実行 |
torch not installed | pip install torch を追加で実行。 |
ffmpeg not found | FFmpegをインストールしてパスを通す |
Unicodeエラー(文字化け) | テキストエディタをUTF-8に設定 |
ffmpeg が見つからない | 音声処理に必要なため、FFmpeg公式サイトからインストールしてパスを通してください。 |
ガシェット系のAI文字起こしツールの紹介
今は、手軽な文字起こし機能付きのボイスレコーダーも出ているので、先日使ってみました。
一番右が、文字起こし機能付きの”AutoMemo S”です。音質は左から二番目のモノが最高なので、やや落ちると感じましたが、一番左側のSONY”ICD-PX470F W”よりは良い。SONY”ICD-UX570F”位なのかな??ただし、文字起こしとしての使用メインされる方には非常に良いと思います!
ガシェット系の”AI文字起こしツール”最近使ってみた”AutoMemo S”。
データを文字起こしするひと手間を省きたい方には、録音、文字起こし機能が一つになった 文字起こし機能付きボイスレコーダー”AutoMemo S”がおすすめです。小型、軽量、ワンタップ操作の文字起こしツール。ビジュアルも良いです。



