使用同样的模型和音频文件,使用这里的方式识别结果和用whisper原生方式识别出的结果差异很大,这里的方式结果准确率比较低,请问可能的原因有哪些?能否做优化?
使用同样的模型和音频文件,使用这里的方式识别结果和用whisper原生方式识别出的结果差异很大,这里的方式结果准确率比较低,请问可能的原因有哪些?能否做优化?