Pipeline
Como funciona
Cada áudio passa por 4 etapas automáticas, do input até a transcrição final formatada.
Etapa 1
Captura de Áudio
O áudio é capturado via upload de arquivo, download de YouTube (yt-dlp), ou microfone do navegador via WebSocket.
Etapa 2
Speech-to-Text (Deepgram)
O áudio é enviado para a API Deepgram Nova-3, que converte fala em texto com alta precisão, suportando múltiplos idiomas.
Etapa 3
Transcrição Bruta
O texto bruto retornado pelo Deepgram é salvo. Inclui timestamps, duração e metadados da fonte original.
Etapa 4
Processamento com IA (Groq)
O Llama 3.3 70B via Groq formata, organiza e limpa a transcrição. Você pode customizar o prompt de processamento.
Speech-to-Text
Deepgram Nova-3
LLM
Groq Llama 3.3 70B
Tempo real
WebSocket + Deepgram
Frontend
Next.js 16, React 19
Styling
Tailwind CSS 4
