Herramientas de diálogo
Genera audio TTS de una sola voz con ElevenLabs v3 en Replicate. La herramienta generate_dialogue acepta un texto y una voz por llamada — las escenas multivoz se producen encadenando varias llamadas.
#Voces disponibles
elevenlabs/v3 acepta estas 26 voces (sensibles a mayúsculas). Cualquier valor fuera de esta lista se rechaza con 400 Unsupported voice y no se cobra ningún crédito.
#Voces femeninas
| ID de voz | Descripción | Vista previa |
|---|---|---|
| Rachel | Estadounidense, calmada y articulada | |
| Aria | Estadounidense, expresiva y ronca | |
| Domi | Joven estadounidense, fuerte y segura | |
| Sarah | Joven estadounidense, suave y cálida | |
| Jane | Australiana, madura y digna | |
| Juniper | Estadounidense, natural y articulada | |
| Arabella | Narradora británica misteriosa | |
| Hope | Estadounidense, brillante y optimista | |
| Blondie | Estadounidense, conversacional y casual | |
| Priyanka | India, sensual y reconfortante | |
| Alexandra | Joven estadounidense, conversacional | |
| Monika | India, voz profunda y natural |
#Voces masculinas
| ID de voz | Descripción | Vista previa |
|---|---|---|
| Drew | Narrador estadounidense equilibrado | |
| Clyde | Personaje veterano de guerra, voz áspera | |
| Paul | Reportero de campo con tono autoritario | |
| Dave | Joven británico, tono conversacional | |
| Roger | Estadounidense elegante, tono ejecutivo | |
| Fin | Personaje marinero con acento irlandés | |
| James | Narrador australiano calmado | |
| Bradford | Británico teatral y articulado | |
| Reginald | Personaje británico intenso y dramático | |
| Gaming | Personaje de videojuego, animado y enérgico | |
| Austin | Estadounidense rural, tono relajado | |
| Kuon | Voz de personaje alegre y constante | |
| Mark | Estadounidense, tono casual y relajado | |
| Grimblewood | Personaje de fantasía, voz grave y rasposa |
El catálogo completo también está disponible mediante get_models — filtra por model_type: "text-to-dialogue" para inspeccionar precios y capacidades de forma programática.
#generate_dialogue
Genera un clip TTS de una sola voz.
Parámetros:
| Parámetro | Tipo | Obligatorio | Descripción |
|---|---|---|---|
text (o prompt) | string | Sí | 5–5000 caracteres tras eliminar las etiquetas [bracket]. |
voice | string | No | Uno de los 26 ID anteriores. Por defecto: Rachel. |
stability | number | No | 0..1, por defecto 0.5. Más alto = más estable, más bajo = más expresivo. |
similarity_boost | number | No | 0..1, por defecto 0.75. |
style | number | No | 0..1, por defecto 0. Exageración del estilo. |
speed | number | No | 0.7..1.2, por defecto 1.0. |
previous_text / next_text | string | No | Contexto opcional para mantener la prosodia coherente entre fragmentos. |
language_code | string | No | Código ISO (en, ro, es, fr, de, ja, …). Por defecto en. Más de 70 idiomas. |
Las etiquetas de audio como
[HEY],[laughs],[whispers]se eliminan en el servidor antes del TTS — el modelo no las pronuncia ni las interpreta.
Ejemplo:
{
"text": "¡Bienvenido de nuevo! ¿Listo para generar?",
"voice": "Rachel",
"stability": 0.5,
"language_code": "es"
}
Respuesta: Devuelve un generation_id. Consulta el progreso con get_generation_status.
#Escenas multivoz
generate_dialogue es monovoz. Para un diálogo entre dos hablantes, llama la herramienta una vez por línea (pasando previous_text / next_text para continuidad prosódica) y concatena después los archivos de audio resultantes.
#get_generation_status
Usa el generation_id devuelto por generate_dialogue para consultar el progreso. Cuando el estado sea completed, la URL del archivo de audio estará en el array outputs (media_type: "audio").
#Créditos y límites
- Coste: 26 créditos por cada 1000 caracteres (redondeo: decimal ≤ 0.3 al suelo, > 0.3 al techo).
- Mínimo: 1 crédito para cualquier texto no vacío.
- Longitud mínima: 5 caracteres tras eliminar las etiquetas de audio.
- Longitud máxima: 5000 caracteres por solicitud.
Consulta Limitaciones para más detalles.
