Przejdź do głównej zawartości

STT Troubleshooting

SymptomPrawdopodobna przyczynaRozwiązanie
GET /healthz zwraca {"ok":false}Whisper model downloading lub failed to loadSprawdź logs/VistaScribe.log; upewnij się że models/whisper-<variant> istnieje i WHISPER_DIR wskazuje poprawnie
curl: (7) Failed to connect to 127.0.0.1:8237Backend nie działa lub port conflictUruchom ./VistaScribe start backend; sprawdź lsof -i :8237
HTTP 413 z /transcribeUpload większy niż BACKEND_MAX_UPLOAD_MBRe-encode audio lub zwiększ env var przed startem
Streaming nie emituje transcript.finalClient zapomniał wysłać flush lub endZawsze wysyłaj flush/end po ostatnim chunku
WebSocket zamyka się z error JSONInvalid message schema (brak audio_base64)Użyj tej samej struktury payload co Voice & Chat Lab
AI formatting zwraca raw textai_formatting_enabled false lub brak API keyToggle “AI Formatting” w tray menu, ustaw HARMONY_BASE_URL + HARMONY_API_KEY, verify z /healthz
/demo/chat zwraca 500Invalid Harmony/Ollama credentialsSprawdź logi backendu dla exact exception; fix API key lub upewnij się że local Ollama daemon działa
ValueError: audio_base64 required w logachClient wysłał malformed NDJSON lub binary HTTP bodyUpewnij się że każdy chunk JSON zawiera audio_base64 (base64-encoded PCM16)
SymptomPrawdopodobna przyczynaRozwiązanie
Connection refusedFirewall lub network issuesSprawdź connectivity do api.libraxis.cloud
401 UnauthorizedInvalid lub expired LIBRAXIS_API_KEYSprawdź klucz w 1Password, refresh jeśli potrzeba
Connection drops po ~5 minIdle timeout (300s)Wysyłaj heartbeat lub audio chunks regularnie
Brak interim messagesServer busy lub low confidenceCheck network latency; interim może być suppressed przy niskiej confidence
final z pustym textBrak rozpoznawalnej mowySprawdź jakość audio (noise, poziom głośności)
SymptomRozwiązanie
Garbled transcriptionUpewnij się że format to PCM16LE mono 16kHz
”Unsupported format” errorTranscode do PCM16 przed wysłaniem
Very slow transcriptionZmniejsz chunk size (32kB recommended)
Okno terminala
# VistaScribe logs
tail -f VistaScribe/logs/VistaScribe.log
# Vista secure_logger
# sprawdź logs/vista-debug.log dla STT events
Okno terminala
# VistaScribe health
curl http://127.0.0.1:8237/healthz | jq
# VistaScribe version
curl http://127.0.0.1:8237/version | jq
# Production WebSocket (wymaga wscat lub podobnego)
wscat -c "wss://api.libraxis.cloud/stt/v1/stream" \
-H "x-api-key: $LIBRAXIS_API_KEY"

Import openapi.json z folderu VistaScribe do Insomnia/Postman dla generowania client code.

  1. Tail logs during tests - hotkey events, backend status, AI errors
  2. Check audio format - PCM16LE mono 16kHz to preferowany format
  3. Verify API keys - sprawdź ważność i uprawnienia
  4. Monitor network - WebSocket wymaga stabilnego połączenia
  5. Check disk space - modele Whisper zajmują miejsce
ProblemQuick fix
VistaScribe nie startuje./VistaScribe stop && ./VistaScribe start backend
Whisper model corruptedDelete models/whisper-* i restart (auto-download)
Port 8237 zajętylsof -i :8237kill <PID>
WebSocket rate limitedPoczekaj 60s, zmniejsz connection frequency