【初心者向け】CLI版Whisperの導入ガイド|GitHubからのインストール手順と使い方

CLI版Whisper 導入ガイド

音声ファイルを文字起こししたいとき、精度の高いツールを無料で使えたら理想的ですよね。

この記事では、OpenAIが開発した音声認識モデル 「Whisper」 を、コマンドライン(CLI)で使う方法を初心者向けにわかりやすく解説しています。GitHubからのインストール方法から、実際の使い方、エラー対処法までをまとめました。

対象読者
音声ファイルをテキスト化したい初心者
コマンドラインは不慣れだけど挑戦したい人
オフライン環境で文字起こしをしたい人

目次

Whisperとは?|無料で使える高精度な音声認識モデル

Whisperは、OpenAIが公開したオープンソースの音声認識AIです。以下のような特徴があります。

  • 高精度な文字起こしが可能(英語・日本語含む多数の言語に対応)
  • ローカルで動作するため、音声データを外部に送信する必要なし
  • 完全無料で商用利用も可能(ライセンス:MIT)

CLI版Whisperとは?

CLI(Command Line Interface)とは、CLI(シー・エル・アイ)は、「文字で命令を入力する操作画面」のことです。
GUI(マウス操作でポチポチする画面)とは違い、ターミナルやコマンドプロンプトを使って操作する形式のソフトウェアです。
つまり、WhisperをPC上(ローカル)で、コマンドで動かすバージョンが「CLI版Whisper」です。

WhisperはOpenAIがオープンソースとしてGitHubで公開しており、これをPython環境で動かすことで、CLIとして使えるようになります。

GitHubで公開されているWhisperのソースコードを、ローカル環境にインストールして、ターミナルやコマンドプロンプトから使う形態のことです。

CLI版は自由度が高く、オフラインでも動作するため、
「本格的に使いたい人」や「自動処理フローを組みたい人」に人気です。Whisperには以下の種類が存在します。

種類特徴呼び方
Whisper(CLI版)ローカルで使う。GitHubからインストールして、ターミナルで実行ローカル版 / GitHub版 / CLI版(同じもの)
Whisper APIOpenAIのサーバー経由で使う。課金制(文字数ごと)API版
Webアプリ・拡張機能Whisperをベースに作られた、誰でも使いやすいUI付きのアプリWebアプリ版 / GUI版 / 拡張機能版 など
Google Colab版ブラウザ上で動作。ローカルに環境不要Colab版(クラウド)

特徴

項目内容
実行環境PC(ローカル)上のターミナル(Mac/Linux)やコマンドプロンプト(Windows)
インターネット接続不要(モデルをダウンロード済みならオフラインで動作可能)
利用コスト無料(GPUを使えば高速、CPUのみでも可)
対応言語多言語(もちろん日本語対応)
出力.txt, .srt, .vttなどの書き起こしファイルを自動で生成可能

CLI版はどんな人に向いてる?

  • 音声をたくさん処理したい
  • オフラインで作業したい(セキュリティ的に安心)
  • Pythonやコマンド操作に少し慣れている or 学びたい
  • Whisperの処理精度を自分で試したい・調整したい

下の記事で、Pythonについて詳しく解説しています。

CLI版WhisperをGitHubからインストールする方法

Whisperを使う前に準備するもの

WhisperのCLI版を使うには、以下の環境が必要です。

ツール目的インストール方法
Python(3.8以上)実行環境(WhisperはPython製)Pythonのインストール方法
pipWhisperをpip installで入れる為に使用pipのインストール方法
GitWhisperをGitHubから直接インストールする際に使用Gitのインストール方法
FFmpeg音声ファイルを読み込むための外部ツール(Whisperが依存)FFmpegインストール手順
venv(仮想環境)他のPython環境との干渉を防ぐ便利機能使うと安全(なくても動く)

動作確認コマンド(コマンドプロンプトもしくはターミナルで)

python --version
git --version
ffmpeg -version

Windowsの場合は、(※コマンドプロンプト)を開きます。

コマンドプロンプト(Command Prompt)の起動方法…

**コマンドプロンプト(Command Prompt)**とは、Windowsに搭載されているテキストベースのインターフェースです。マウス操作ではなく、キーボードからコマンド(指示)を入力することで、パソコンを操作できます。

起動方法

  1. Windowsキー + Rを押す
  2. cmd」と入力してEnterを押す

または、スタートメニューで「コマンドプロンプト」と検索してもOK!

コマンド入力は間違えるとエラーになることもありますが、慣れると素早く作業ができる便利なツールです。

Macの場合は、(※ターミナル)を開きます。

ターミナル(Terminal)の起動方法…

Macにはターミナル(Terminal)というアプリがあり、これを使うことで、コマンドを入力してシステムを操作できます。

起動方法

  1. **「Command ⌘ + Space」を押して、「Spotlight検索」**を開く
  2. 検索バーに「ターミナル」と入力してEnter

または、以下の手順でも開けます:

アプリケーションユーティリティターミナル

ターミナル(コマンドプロンプト)を開き、”○○○(ツール名)”と打ち込むと呼ぶ出してくれます。

WhisperをGitHubからインストールする方法【CLI版】

手順1:リポジトリを取得(ダウンロード)

まず、GitHubからopenai/whisperのリポジトリを取得(クローン)します。

git clone https://github.com/openai/whisper.git
cd whisper

手順2:Python仮想環境(任意)を作成

開発環境を汚さないために仮想環境venvの利用がおすすめです。

python -m venv venv
source venv/bin/activate  # Windowsの場合: venv\Scripts\activate

仮想環境を使うことで、システム環境を汚さずにインストールできます。

仮想環境(venv)は、Pythonとpipの「独立したコピー」を作るだけです。

してくれること

  • pip installしても他のプロジェクトに影響を与えない
  • 依存関係の管理がしやすくなる

手順3:依存パッケージをインストール

Whisperで必要なライブラリをすべてインストールします。

pip install -U pip setuptools
pip install -e .

-e . は「開発モード」でのインストールを意味します。コードを直接編集しても反映される便利な方法です。

※初回実行時のみ、Whisperのモデル(数百MB~数GB)をダウンロードします。

クイック導入:一発インストールしたい方こちらをクリック!

「Git操作はちょっと難しそう…」という方は、以下のコマンドだけでWhisperをすぐにインストールすることもできます。
一発インストールしたい方にはこんな方法もあります!

一発インストールコマンド

pip install git+https://github.com/openai/whisper.git

この方法では、GitHub上のWhisper最新コードを直接インストールできます。

このコマンドを使うには、必ず pip がPCにインストールされている必要があります

なぜ「pip」が必要なのか?

  • このコマンドは、GitHubからWhisperのソースコードをpip経由で取得してインストールするものです。
  • pip がないと、install 自体が使えません。

裏側で何が起きてる?

この1行で実際に行われる処理は:

  1. GitHubからソースコードを取得(git+https://...
  2. 依存ライブラリも含めてPython環境にインストール
  3. CLIとして使えるようにセットアップ

すべて pip の機能です。

pipがないとどうなる?

エラーになります。例

'pip' は、内部コマンドまたは外部コマンドとして認識されていません。

または

No module named pip

確認コマンド

pip --version

これでバージョンが表示されればOKです。

もし pip が使えない場合は:

python -m ensurepip --upgrade

で復旧を試せます。

⚠ 注意点

開発モード(-e .)ではないため、コードのカスタマイズや編集には不向きです。

この方法ではWhisperのコード本体は手元に保存されません

🆚 通常インストールとの違いまとめ

方法特徴
pip install git+...手軽、すぐ動かせる
ソース編集や調査には不向き
git clonepip install -e .ソースが手元にある
編集・デバッグしやすい

こんな方におすすめ

  • Whisperを今すぐサクッと試してみたい
  • コマンドラインがまだ不慣れで不安

実際に使ってみて気に入ったら、改めて git clone でソースを手元に置いてみるのもおすすめです!

音声ファイルをWhisperで文字起こしする方法

ステップ4:音声ファイルを指定して文字起こし実行

whisper audio.mp3 --model medium --language Japanese

任意の音声ファイル(例: audio.mp3)を使って、文字起こし(transcription)します。

オプション説明
audio.mp3文字起こししたい音声ファイル名
--model
モデルサイズ(精度や速度に影響)
使用するモデルサイズtiny / base / small / medium / large
--language
言語指定(精度向上に必須)
言語を指定(例:Japanese, English
--output_format出力形式(txt, srt, vtt,jsonなど選択可能)

出力結果について

変換結果は、音声ファイルと同じフォルダ内に .txt ファイルとして出力されます。(例: audio.txt)。

トラブルシューティング:よくあるエラーと解決方法

エラー内容対処方法
ModuleNotFoundError: No module named 'torch'pip install torch を実行
torch not installedpip install torch を追加で実行。
ffmpeg not foundFFmpegをインストールしてパスを通す
Unicodeエラー(文字化け)テキストエディタをUTF-8に設定
ffmpegが見つからない音声処理に必要なため、FFmpeg公式サイトからインストールしてパスを通してください。

ガシェット系のAI文字起こしツールの紹介

今は、手軽な文字起こし機能付きのボイスレコーダーも出ているので、先日使ってみました。
一番右が、文字起こし機能付きの”AutoMemo S”です。音質は左から二番目のモノが最高なので、やや落ちると感じましたが、一番左側のSONY”ICD-PX470F W”よりは良い。SONY”ICD-UX570F”位なのかな??ただし、文字起こしとしての使用メインされる方には非常に良いと思います!

ガシェット系の”AI文字起こしツール”最近使ってみた”AutoMemo S”。
データを文字起こしするひと手間を省きたい方には、録音、文字起こし機能が一つになった文字起こし機能付きボイスレコーダー”AutoMemo S”がおすすめです。小型、軽量、ワンタップ操作の文字起こしツール。ビジュアルも良いです。

AutoMemo S
  • URLをコピーしました!
目次