【初心者向け】CLI版Whisperの導入ガイド|GitHubからのインストールと、PyPI(公式パッケージ) からのインストール【手順と使い方】

CLI版Whisper 導入ガイド

音声ファイルを文字起こししたいとき、精度の高いツールを無料で使えたら理想的ですよね。

この記事では、OpenAIが開発した音声認識モデル 「Whisper」 を、コマンドライン(CLI)で使う方法を初心者向けにわかりやすく解説しています。GitHubからのインストール方法から、実際の使い方、エラー対処法までをまとめました。

対象読者
音声ファイルをテキスト化したい初心者
コマンドラインは不慣れだけど挑戦したい人
オフライン環境で文字起こしをしたい人

目次

Whisperとは?|無料で使える高精度な音声認識モデル

Whisperは、OpenAIが公開したオープンソースの音声認識AIです。以下のような特徴があります。

  • 高精度な文字起こしが可能(英語・日本語含む多数の言語に対応)
  • ローカルで動作するため、音声データを外部に送信する必要なし
  • 完全無料で商用利用も可能(ライセンス:MIT)

CLI版Whisperとは?

CLI(Command Line Interface)とは、CLI(シー・エル・アイ)は、「文字で命令を入力する操作画面」のことです。
GUI(マウス操作でポチポチする画面)とは違い、ターミナルやコマンドプロンプトを使って操作する形式のソフトウェアです。
つまり、WhisperをPC上(ローカル)で、コマンドで動かすバージョンが「CLI版Whisper」です。

WhisperはOpenAIがオープンソースとしてGitHubで公開しており、これをPython環境で動かすことで、CLIとして使えるようになります。

GitHubで公開されているWhisperのソースコードを、ローカル環境にインストールして、ターミナルやコマンドプロンプトから使います。

CLI版は自由度が高く、オフラインでも動作するため、
「本格的に使いたい人」や「自動処理フローを組みたい人」に人気です。Whisperには以下の種類が存在します。

種類特徴呼び方
Whisper(CLI版)ローカルで使う。GitHubからインストールして、ターミナルで実行ローカル版 / GitHub版 / CLI版(同じもの)
Whisper APIOpenAIのサーバー経由で使う。課金制(文字数ごと)API版
Webアプリ・拡張機能Whisperをベースに作られた、誰でも使いやすいUI付きのアプリWebアプリ版 / GUI版 / 拡張機能版 など
UI付きアプリhttps://sakasaai.com/whisperui/
Google Colab版ブラウザ上で動作。ローカルに環境不要Colab版https://sakasaai.com/summarize-video/
RunPod版Whisper Web UIなどGUI版をGPU環境で動かせる。画像生成でよく使用されるRunPodだが、実は、WhisperのWebUIも揃っている。Colabでの制限が煩わしい方におすすめ。
RunPodの使用方法はこちらで紹介しています。

特徴

項目内容
実行環境PC(ローカル)上のターミナル(Mac/Linux)やコマンドプロンプト(Windows)
インターネット接続不要(モデルをダウンロード済みならオフラインで動作可能)
利用コスト無料(GPUを使えば高速、CPUのみでも可)
対応言語多言語(もちろん日本語対応)
出力.txt, .srt, .vttなどの書き起こしファイルを自動で生成可能

CLI版はこんな人向き

  • 音声をたくさん処理したい
  • オフラインで作業したい(セキュリティ的に安心)
  • Pythonやコマンド操作に少し慣れている or 学びたい
  • Whisperの処理精度を自分で試したい・調整したい

下の記事で、Pythonについて詳しく解説しています。

CLI版Whisperをインストールする方法

Whisperを使う前に準備するもの

WhisperのCLI版を使うには、以下の環境が必要です。

ツール目的インストール方法
Python(3.8以上)実行環境(WhisperはPython製)Pythonのインストール方法
pipWhisperをpip installで入れる為に使用
※通常は、Pythonと一緒にインストールされます。
pipのインストール方法
GitWhisperをGitHubから直接インストールする際に使用Gitのインストール方法
FFmpeg音声ファイルを読み込むための外部ツール(Whisperが依存)FFmpegインストール手順
venv(仮想環境)他のPython環境との干渉を防ぐ便利機能使うと安全(なくても動く)

環境の準備が整ったら、一旦、Python、Git、FFmpegのインストール完了の動作確認をします。
動作確認コマンド(コマンドプロンプトもしくはターミナルで)

ターミナル(Windows Terminal)コマンドプロンプト、PowerShell、の開き方

Windowsの場合は、(※Windows Terminal)を開きます。

Windows Terminal(ウィンドウズターミナルの起動方法…

コマンドの実行は、Windows標準の「Windows Terminal」を使って行います。
(※コマンドプロンプト(cmd)やPowerShellでも同様に動作しますが、Windows Terminalの方が操作しやすくおすすめです。)
コマンドプロンプト(Command Prompt)とは、Windowsに搭載されているテキストベースのインターフェースです。マウス操作ではなく、キーボードからコマンド(指示)を入力することで、パソコンを操作できます。

Windows Terminal起動方法

  1. スタートメニューで、左クリック➡ターミナルを起動もしくは、「Windows Terminal」と検索して起動
  2. デフォルトでは PowerShell または Command Prompt(cmd)(又は、WindowsPowerShell)が開きます

画像生成用途の場合は、Command Prompt コマンドプロンプト(CMD)と相性が良いです。

pip installconda などのモダン開発向けコマンドは、PowerShellと相性が良いです。

※詳しい使用方法や、Windows Terminalの設定方法は、こちらの記事をご覧ください。

Windows Terminalは、タブを切り替えて複数のシェルを使う事が出来ます

  • 上部の ボタンから新しいタブを開けます
  • をクリックすると以下の選択肢があります
    • PowerShell
    • Command Prompt
    • WSL(Linuxサブシステム)※インストール済みなら
    • Azure Cloud Shell(必要な場合)

※Microsoft 公式も「Windows Terminal」を推奨しているため、当サイトでも記載するWindowsのコマンド実行場所を、コマンドプロンプト(cmd)から「Windows Terminal」に変更致しました。

コマンド入力は間違えるとエラーになることもありますが、慣れると素早く作業ができる便利なツールです。

Macの場合は、(※ターミナル)を開きます。

ターミナル(Terminal)の起動方法…

Macにはターミナル(Terminal)というアプリがあり、これを使うことで、コマンドを入力してシステムを操作できます。

ターミナル起動方法

  1. **「Command ⌘ + Space」を押して、「Spotlight検索」**を開く
  2. 検索バーに「ターミナル」と入力してEnter

または、以下の手順でも開けます:

アプリケーションユーティリティターミナル

Linux のターミナルの起動方法…

Linuxでは「ターミナル」が、コマンド操作の基本です。ウィンドウの中でキーボード入力によりシステムを操作します。

Linuxターミナル起動方法

  • 1,:Ctrl + Alt + T を同時に押す(多くのLinuxディストリビューションで共通)
  • 2,:アプリケーション一覧から「ターミナル」または「Terminal」で検索して開く

Ubuntu、Fedora、Debianなど、ほとんどのLinux環境に標準で搭載されています。
Macのターミナルと似た雰囲気で、コマンドの使い方もほぼ共通です。

PowerShell の起動方法…(Windows)

PowerShell(パワーシェル)**は、Windowsに標準搭載されている、より高度な操作ができるコマンドラインツールです。見た目はコマンドプロンプトと似ていますが、より多機能で、プログラミング的な処理も得意です。

PowerShell起動方法

1,スタートメニューで「PowerShell」と検索してクリック

2,Windowsキー + R を押して「powershell」と入力 → Enter

コマンドプロンプトと同様、キーボードからコマンドを入力して操作します。
たとえば Get-ChildItem(=フォルダの中身を見る)など、PowerShell独自のコマンドもありますが、通常のコマンド(例:cdpythonなど)も使えます。

※コマンドプロンプト(cmd)の起動方法…(Windows)

Windowsキー + Rを押す

cmd」と入力してEnterを押す
または、スタートメニューで「コマンドプロンプト」と検索してもOK!

ターミナル(Windows Terminal)を開き、”○○○(ツール名)”と打ち込むと呼び出してくれます。

以下のコマンドを実行します。

python --version
git --version
ffmpeg -version

python、git、ffmpegのバージョンが確認出来ればOKです!


Whisper のインストール方法は”3通り”あります

1⃣ PyPI(安定版)からインストールする方法
安定して動くものがほしい人向け

2⃣ ソースコードを直接ローカルにクローンして使う方法
Whisper をベースに別のアプリを作るときなどに使う。

3⃣ GitHub(最新版・開発版)から直接インストールする方法

1⃣ PyPI 版 Whisper のインストール手順と使い方

whisper パッケージは PyPI にも公開されているので、git clone せずに直接インストールも可能です!
初めて使う人・初心者の方には PyPI版(pip install -U openai-whisper)が最もおすすめです。

Whisperを使いたいだけの人は、このコマンドだけでOK!

pip install -U openai-whisper
  • PyPI(公式)からインストール
  • 依存も自動で入る
  • 特にカスタマイズしないならこれが一番簡単!

pip install -U openai-whisper の意味

これはPyPI(Python Package Index)から Whisper を最新版でインストールするコマンドです。

各部分の意味

  • pip install: Pythonパッケージをインストールする基本コマンド
  • -U--upgrade): すでにインストールされている場合でも最新版にアップグレードする
  • openai-whisper: Whisper の公式パッケージ名(PyPIに登録されている)

使う場面

  • Whisper をすぐに使いたい(GitHubからクローンしなくてもOK)
  • 最新版にアップデートしたいとき
  • シンプルに使うだけで、開発や改造はしない場合

pip install -U openai-whisper は GitHub からではなく PyPI(公式パッケージ) からのインストールです

  • これは GitHub のソースコードを直接取得するわけではありません。
  • OpenAI が GitHub 上で管理している Whisper プロジェクトの「安定版を PyPI にアップロードしたもの」をインストールします。

つまりCLI(コマンドラインインターフェース)版の Whisper も含まれていますが、それは PyPI に公開された安定ビルド版です。

最小限構成(PyPI版だけを使う場合)

以下さえ整っていれば、pip install -U openai-whisper で Whisper は使えます。

  • ✅ Python(3.8以上)
  • ✅ pip(最新版推奨)
  • ✅ FFmpeg(実行パスが通っている)

PyPI版にもCLIが入っている

CLI(whisper コマンド)は PyPI版にも含まれており、以下のように使えます。

whisper example.mp3 --language Japanese

これは openai-whisper パッケージに含まれる entry_points により、インストール時に自動で whisper コマンドが使えるようになります。

pip install -U openai-whisper を使っても「CLI版の Whisper」はきちんと使えます。
ただし、GitHub から直接インストールしたわけではないので、「最新版が欲しい」「開発・改造したい」といった目的なら GitHub 版の方が適しています。

2⃣ GitHub版Whisper のインストール手順と使い方

Whisperのコードをいじったり、中身を学びたい・開発したい人は、GitHubからクローンして、以下の手順を踏みます

手順1:リポジトリを取得(ダウンロード)

ターミナル(またはコマンドプロンプト)を開く

GitHubからopenai/whisperのリポジトリを取得(クローン)します。

git clone https://github.com/openai/whisper.git
cd whisper

手順2:Python仮想環境(任意)を作成

開発環境を汚さないために仮想環境venvの利用がおすすめです。Pythonに標準で付属しています。

python -m venv venv
source venv/bin/activate  # macOS/Linux
venv\Scripts\activate     # Windows

仮想環境を使うことで、システム環境を汚さずにインストールできます。
仮想環境(venv)は、Pythonとpipの「独立したコピー」を作るだけです。

仮想環境(venv)で出来る事

  • pip installしても他のプロジェクトに影響を与えない
  • 依存関係の管理がしやすくなる

手順3:pipやsetuptoolsが古いとトラブルが起きるので、まず更新(1回だけでOK)

pip install -U pip setuptools
pip install -e .

pip install -U pip setuptoolsの意味

pipsetuptoolsのパッケージを最新バージョンにアップグレード(Upgrade)する。

  • -U--upgrade の省略形。
  • pip:Pythonパッケージのインストールツール。
  • setuptools:Pythonパッケージの構築・配布ツール。

古いpipsetuptoolsだと、新しいパッケージのインストール時にエラーになることがあるため、事前にアップデートしておくと安全です。

手順4:依存パッケージをインストール

Whisperで必要なライブラリをすべてインストールします。

pip install -r requirements.txt

pip install -r requirements.txtの意味

requirements.txt に書かれている依存パッケージをすべてインストールする。

例:

# requirements.txt の中身例
torch>=1.10
numpy
ffmpeg-python

手順5:開発モードでインストール(コード変更がすぐ反映される)

pip install -e .

pip install -e .の意味

カレントディレクトリ(.)のPythonパッケージを開発モード(editable mode)でインストールする。

開発モードとは?

  • .pyファイルを直接インポートする形でインストールされます。
  • コードを変更しても再インストール不要。開発中にとても便利。

よくある使い方

パッケージの開発やカスタマイズを行うときに使います。

# 例:whisperをソースから開発モードでインストール
git clone https://github.com/openai/whisper.git
cd whisper
pip install -e .
コマンド目的・用途
pip install -r requirements.txt必要なライブラリの一括インストール
pip install -U pip setuptoolspipとsetuptoolsのアップデート(環境の安定化)
pip install -e .ソースコードを開発モードでインストール(即時反映され便利)

-e . は「開発モード」でのインストールを意味します。コードを直接編集しても反映される便利な方法です。


PyPI(公式)からインストールと、GitHub版との違い

方法特徴
pip install -U openai-whisperPyPIの安定版をインストール。すぐ使える。
git clonepip install -e .開発中の最新版を取得。コードを改造・調査したい場合に向く。

たとえば、GitHubのmainブランチでバグ修正や新機能がまだPyPIに反映されていないこともあります。そういう時はGitHubから直接使うほうがよいです。

  • pip install -U openai-whisperWhisperの最新版をPyPIから簡単にインストールする方法
  • 特にカスタマイズしない限り、この方法が一番手軽です。

※初回実行時のみ、Whisperのモデル(数百MB~数GB)をダウンロードします。

3⃣ GitHub(最新版・開発版)から直接インストール

「Git操作はちょっと難しそう…」という方は、以下のコマンドだけでWhisperをすぐにインストールすることもできます。
それは、GitHub(最新版・開発版)から直接インストールする方法です。

⚠ 注意点

但し、この方法は、開発モード(-e .)ではないため、コードのカスタマイズや編集には不向きです。
商用利用や本番環境には不向きなことが多い(自己責任)。

※このインストール方法の場合はWhisperのコード本体は手元に保存されません

🆚 通常インストールとの違い

方法特徴
pip install git+...手軽、すぐ動かせる
ソース編集や調査には不向き
git clonepip install -e .ソースが手元にある
編集・デバッグしやすい

一発インストールコマンド

pip install git+https://github.com/openai/whisper.git

この方法では、GitHub上のWhisper最新コードを直接インストールできます。

※このコマンドを使うには、必ず pip がPCにインストールされている必要があります

なぜ「pip」が必要なのか?

  • このコマンドは、GitHubからWhisperのソースコードをpip経由で取得してインストールするものです。
  • pip がないと、install 自体が使えません。

裏側で何が起きてる?

この1行で実際に行われる処理は

  1. GitHubからソースコードを取得(git+https://...
  2. 依存ライブラリも含めてPython環境にインストール
  3. CLIとして使えるようにセットアップ

これらすべて pip の機能です。

pipがないとどうなる?

エラーになります。例

'pip' は、内部コマンドまたは外部コマンドとして認識されていません。

または

No module named pip

確認コマンド

pip --version

このコマンドで、バージョンが表示されればOKです。

もし pip が使えない場合は・・・

python -m ensurepip --upgrade

で復旧を試せます。

こんな方におすすめ

  • Whisperを今すぐサクッと試してみたい
  • コマンドラインがまだ不慣れで不安

実際に使ってみて気に入ったら、改めて git clone https://github.com/openai/whisper.git && cd whisper でソースコードをクローンしてみて下さい。

音声ファイルをWhisperで文字起こしする方法

音声ファイルを指定して文字起こし実行

whisper audio.mp3 --model medium --language Japanese

任意の音声ファイル(例: audio.mp3)を使って、文字起こし(transcription)します。

オプション説明
audio.mp3文字起こししたい音声ファイル名
--model
モデルサイズ(精度や速度に影響)
使用するモデルサイズtiny / base / small / medium / large
--language
言語指定(精度向上に必須)
言語を指定(例:Japanese, English
--output_format出力形式(txt, srt, vtt,jsonなど選択可能)

出力結果について

変換結果は、音声ファイルと同じフォルダ内に .txt ファイルとして出力されます。(例: audio.txt)。

トラブルシューティング:よくあるエラーと解決方法

エラー内容対処方法
ModuleNotFoundError: No module named 'torch'pip install torch を実行
torch not installedpip install torch を追加で実行。
ffmpeg not foundFFmpegをインストールしてパスを通す
Unicodeエラー(文字化け)テキストエディタをUTF-8に設定
ffmpegが見つからない音声処理に必要なため、FFmpeg公式サイトからインストールしてパスを通してください。

おまけ:ガシェット系のAI文字起こしツールの紹介

今は、手軽な文字起こし機能付きのボイスレコーダーも出ているので、先日使ってみました。
一番右が、文字起こし機能付きの”AutoMemo S”です。音質は左から二番目のモノが最高なので、つい比べてしまい、”音質は、やや落ちる”と感じました。とは言っても、一番左側のSONY”ICD-PX470F W”よりは良い。私の体感ではSONY”ICD-UX570F”位なのかな??と思います。
ただし、文字起こしとしての使用メインにされる方には非常に良い選択だと思います!

ガシェット系の”AI文字起こしツールで”最近使ってみた”AutoMemo S”。
データを文字起こしするひと手間を省きたい方には、録音、文字起こし機能が一つになった文字起こし機能付きボイスレコーダー”AutoMemo S”もおすすめです。ワンタップ操作の文字起こしツールで、何と言っても、この薄さと、軽さと、シンプル設計が気に入りました。

AutoMemo S
  • URLをコピーしました!
目次