Skip to content

Voice input support#98

Open
AnToHu0 wants to merge 2 commits intovakovalskii:mainfrom
AnToHu0:feature/voice-input-module
Open

Voice input support#98
AnToHu0 wants to merge 2 commits intovakovalskii:mainfrom
AnToHu0:feature/voice-input-module

Conversation

@AnToHu0
Copy link

@AnToHu0 AnToHu0 commented Jan 27, 2026

Основные изменения

  • Голосовой ввод: запись аудио с микрофона и транскрипция в реальном времени
  • Настройки голоса: вкладка в настройках для конфигурации STT сервера (base URL, API key, модель, язык)
  • Docker setup: скрипт setup_voice_server.sh для запуска локального сервера транскрипции (faster-whisper-server)
  • Интеграция: потоковая отправка аудио-чанков в Tauri backend с обработкой частичных и финальных транскрипций
  • Хранение настроек: добавлена структура VoiceSettings в БД для сохранения конфигурации голосового ввода

Технические детали

  • Потоковая отправка чанков на сервер транскрипции
  • Автоматическое обновление текста промпта при получении транскрипций
  • Проверка доступности voice server с индикацией статуса
  • Локальный сервер в докере выдаёт неплохой ТПС, для увеличения можно в скрипт передавать параметрами большее число ядер и памяти(по умолчанию 8 ядер и 5 гигов).

PS. Круто будет, если на основе этого потом добавить скилл с распознаванием аудиофайлов.

PPS. Я не шарю ни за раст, ни за реакт, но очень уж хотелось запилить эту фичу. Если что-не так с кодом, можно поправить ручками в рамках пр.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant