La psicología del silencio en la conversación
La comunicación verbal humana tiene un ritmo preciso. Los estudios de lingüística conversacional muestran que el cerebro empieza a interpretar el silencio como señal de problema — o de falta de capacidad — a partir de los 800 milisegundos. Por encima del segundo y medio, el interlocutor interrumpe. Por encima de dos segundos, la percepción de 'agente inteligente' se reemplaza por 'máquina rota'.
Este fenómeno es involuntario y universal. No importa que el cliente sepa que está hablando con una IA — la respuesta emocional al silencio es la misma. La latencia no es un problema técnico que se esconde en los logs: es la primera experiencia que tiene el cliente de tu producto.
La industria aún opera con latencias medias de más de 2 segundos. Ese gap es una ventaja competitiva para quien lo resuelve primero.
Dónde se pierde el tiempo: anatomía del pipeline de voz
El pipeline de un agente de voz con IA tiene cinco etapas, cada una con su propio budget de latencia. La suma de todas ellas determina la latencia end-to-end que experimenta el cliente. La optimización requiere trabajar en todas las etapas simultáneamente — mejorar solo una no es suficiente.
La suma de budgets óptimos es 780ms end-to-end — por debajo del umbral crítico de 800ms. Alcanzarlo en producción requiere codespliegue de todos los componentes en edge computing, eliminando la latencia de red entre etapas.
- STT (Speech-to-Text): conversión de audio a texto. Budget objetivo: < 150ms. Los modelos whisper-turbo y Deepgram Nova-2 alcanzan este umbral en producción.
- Detección de fin de turno (VAD): identificar cuándo el cliente ha terminado de hablar. Budget objetivo: < 80ms. La detección prematura genera interrupciones; la tardía genera silencio.
- Inferencia LLM: el modelo procesa el contexto y genera la respuesta. Budget objetivo: < 300ms con streaming. El streaming de tokens es crítico para empezar a sintetizar mientras el modelo sigue generando.
- TTS (Text-to-Speech): síntesis de voz desde el texto. Budget objetivo: < 200ms para el primer chunk de audio. La síntesis en streaming permite empezar a reproducir sin esperar la respuesta completa.
- Red y codec: transmisión del audio al cliente. Budget objetivo: < 50ms en redes modernas con codecs optimizados (Opus).
La estrategia del streaming: responder antes de pensar
El avance técnico más importante en agentes de voz de los últimos dos años no es un modelo más inteligente — es la adopción del streaming en todas las etapas del pipeline. El principio es simple: empezar a entregar la respuesta antes de haberla generado completamente.
Con streaming end-to-end, el sistema empieza a sintetizar la voz en cuanto el LLM genera los primeros tokens (20–30 caracteres), y empieza a reproducir el audio en el cliente en cuanto el TTS genera el primer chunk de 50ms. El cliente escucha el principio de la respuesta mientras el sistema sigue generando el resto. La latencia percibida cae a un tercio de la real.
El streaming no reduce la latencia real de procesamiento — reduce la latencia percibida. En experiencia de cliente, la percepción es la realidad.
El nuevo estándar: < 1 segundo en producción
Lograr latencias sub-segundo en condiciones de laboratorio no es difícil. Mantenerlas en producción, con variabilidad de red, picos de carga y diversidad de hardware de cliente, es el desafío real. Nuestra arquitectura de producción opera con una latencia P95 — el percentil 95 de las llamadas — de 940ms.
El P95 es el indicador correcto para evaluar la calidad de un sistema de voz. La latencia media puede ser excelente mientras el 5% de las llamadas tiene 3 segundos de latencia — y esas son exactamente las llamadas donde el cliente iba a tomar una decisión importante. El P95 garantiza que incluso las peores condiciones son aceptables.