added Whisper CTranslate2 port

fquirin · fquirin · commit bbc417f97dcb · 2023-02-17T17:31:01.000+01:00
diff --git a/whisper-ct2/README.md b/whisper-ct2/README.md
@@ -0,0 +1,9 @@
+# Whisper for CTranslate2
+
+A port of Open-AI Whisper for CTranslate2.  
+Repositories:
+- Whisper original: https://github.com/openai/whisper
+- Faster Whisper: https://github.com/guillaumekln/faster-whisper
+
+Tested with:
+- Arm64 - Debian 11 - Python 3.9
diff --git a/whisper-ct2/get-model.sh b/whisper-ct2/get-model.sh
@@ -0,0 +1,18 @@
+#!/bin/bash
+model="tiny"
+if [ -n "$1" ]; then
+	model=$1
+else
+	echo "Please specify the model to download."
+	echo "Examples: tiny, tiny.en, base, small, ..."
+	exit
+fi
+echo "Downloading and converting: openai/whisper-$1 (from https://huggingface.co/openai)..."
+echo "NOTE: If download fails check the experiments repository for model files."
+echo ""
+mkdir -p models
+if [ ! -d "models/whisper-$1-ct2" ]; then
+	ct2-transformers-converter --model "openai/whisper-$1" --output_dir "models/whisper-$1-ct2" --quantization int8
+else
+	echo "Folder already exists: models/whisper-$1-ct2 - skipped"
+fi
diff --git a/whisper-ct2/install.sh b/whisper-ct2/install.sh
@@ -0,0 +1,23 @@
+#!/bin/bash
+set -e
+echo "Installing Whisper for CTranslate2 ..."
+sudo apt update
+sudo apt install -y --no-install-recommends python3-pip python3-dev python3-setuptools python3-wheel python3-venv
+if [ -d "venv/" ]; then
+	echo "Activating Python virtual env."
+	source venv/bin/activate
+else
+	echo "Creating and activating Python virtual env."
+	python3 -m venv venv && source venv/bin/activate
+fi
+echo "Installing packages ..."
+pip3 install --upgrade pip
+git clone https://github.com/guillaumekln/faster-whisper
+cd faster-whisper
+pip3 install -e .[conversion] # to convert models
+#pip3 install -e . # if you have models already
+echo "Downloading models ..."
+cd ..
+#bash get-model.sh "tiny.en"
+bash get-model.sh "tiny"
+echo "DONE"
diff --git a/whisper-ct2/run-test.sh b/whisper-ct2/run-test.sh
@@ -0,0 +1,9 @@
+#!/bin/bash
+if [ -d "venv/" ]; then
+	echo "Please make sure you've activated the Python virtual environment!"
+	echo "Use: source venv/bin/activate"
+else
+	echo "No Python virtual environment found."
+fi
+echo ""
+time python3 test.py --lang "auto" --beamsize 1 --threads 2 --model "models/whisper-tiny-ct2"
diff --git a/whisper-ct2/test.py b/whisper-ct2/test.py
@@ -0,0 +1,77 @@
+import os
+import re
+from timeit import default_timer as timer
+import wave
+import argparse
+
+parser = argparse.ArgumentParser(description="Running Whisper TFlite test inference.")
+parser.add_argument("-f", "--folder", default="../test-files/", help="Folder with WAV input files")
+parser.add_argument("-m", "--model", default="models/whisper-tiny-ct2", help="Path to model")
+parser.add_argument("-l", "--lang", default="auto", help="Language used (default: auto)")
+parser.add_argument("-t", "--threads", default=2, help="Threads used (default: 2)")
+parser.add_argument("-b", "--beamsize", default=1, help="Beam size used (default: 1)")
+args = parser.parse_args()
+
+print(f'Importing WhisperModel')
+from faster_whisper import WhisperModel
+
+# run on CPU with INT8:
+model_path = args.model
+print(f'\nLoading model {model_path} ...')
+model = WhisperModel(model_path, device="cpu", compute_type="int8", cpu_threads=int(args.threads))
+#model = WhisperModel(args.model, device="cuda", compute_type="float16")
+print(f'Threads: {args.threads}')
+print(f'Beam size: {args.beamsize}')
+
+def transcribe(audio_file):
+    print(f'\nLoading audio file: {audio_file}')
+    wf = wave.open(audio_file, "rb")
+    sample_rate_orig = wf.getframerate()
+    audio_length = wf.getnframes() * (1 / sample_rate_orig)
+    if (wf.getnchannels() != 1 or wf.getsampwidth() != 2
+        or wf.getcomptype() != "NONE" or sample_rate_orig != 16000):
+        print("Audio file must be WAV format mono PCM.")
+        exit (1)
+    wf.close()
+    print(f'Samplerate: {sample_rate_orig}, length: {audio_length}s')
+
+    file_lang = None
+    lang_search = re.findall(r"(?:^|/)(\w\w)_", audio_file)
+    if len(lang_search) > 0:
+        file_lang = lang_search.pop()
+    
+    inference_start = timer()
+
+    print("\nTranscribing ...")
+    segments = None
+    info = None
+    if "tiny.en" in model_path:
+        if file_lang is not None and file_lang != "en":
+            print(f"Language found in file name: {file_lang}")
+            print("Skipped file to avoid issues with tiny.en model")
+        else:
+            segments, info = model.transcribe(audio_file, beam_size=int(args.beamsize))
+            print("Model language fixed to 'en'")
+    elif args.lang == "auto":
+        if file_lang is not None:
+            segments, info = model.transcribe(audio_file, beam_size=int(args.beamsize), language=file_lang)
+            print(f"Language found in file name: {file_lang}")
+        else:
+            segments, info = model.transcribe(audio_file, beam_size=int(args.beamsize))
+            print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
+    else:
+        segments, info = model.transcribe(audio_file, beam_size=int(args.beamsize), language=args.lang)
+        print(f'Pre-defined language: {args.lang}')
+
+    if segments is not None:
+        print("Result:")
+        for segment in segments:
+            print("[%ds -> %ds] %s" % (segment.start, segment.end, segment.text))
+        
+        print("\nInference took {:.2f}s for {:.2f}s audio file.".format(
+            timer() - inference_start, audio_length))
+
+test_files = os.listdir(args.folder)
+for file in test_files:
+    if file.endswith(".wav"):
+        transcribe(args.folder + file)