什麼是Whisper?
Whisper 是一個強大的語音辨識模型,能夠進行多語言語音辨識、翻譯和語言檢測。它基於大規模弱監督學習,訓練於多樣化的音頻數據集,適用於各種語音處理任務。
Whisper的特色是什麼?
- 多語言支援:支援多種語言的語音辨識和翻譯,包括英文、日文、西班牙文等。
- 模型選擇:提供六種模型大小(tiny、base、small、medium、large、turbo),可根據需求選擇速度與準確度的平衡。
- 任務多樣性:除了語音辨識,還能進行語音翻譯和語言檢測。
- 開源與免費:採用MIT授權,完全開源,適合開發者和研究人員使用。
Whisper的使用案例有哪些?
- 影片字幕生成:自動將影片中的語音內容轉換為文字。
- 會議紀錄:即時轉錄會議或演講內容。
- 語言學習:幫助學習者理解和轉錄外語語音。
- 客服系統:用於電話或錄音的客服自動化處理。
如何使用Whisper?
-
安裝依賴:需安裝ffmpeg和Python相關套件。
- Ubuntu/Debian:
sudo apt install ffmpeg - MacOS:
brew install ffmpeg - Windows:使用Chocolatey或Scoop安裝ffmpeg。
- Ubuntu/Debian:
-
安裝Whisper:
pip install -U openai-whisper -
基本使用命令:
whisper audio.flac --model turbo- 可以指定語言:
--language Japanese - 可以進行翻譯:
--task translate
- 可以指定語言:
-
Python使用示例:
import whisper model = whisper.load_model("turbo") result = model.transcribe("audio.mp3") print(result["text"])






