Herramientas de diálogo
Genera audio TTS de una sola voz en Replicate. La herramienta generate_dialogue acepta un texto y una voz por llamada (las escenas multivoz se producen encadenando varias llamadas) y admite dos proveedores:
- ElevenLabs v3 (
provider: "elevenlabs", opción por defecto): 26 voces con nombre humano, la prosodia más natural. - Google Gemini 3.1 Flash TTS (
provider: "google"): 30 voces, más de 70 idiomas, un prompt de estilo en lenguaje natural y etiquetas expresivas en línea ([sigh],[laughing],[whispering],[shouting],[extremely fast],[like dracula]) que se interpretan realmente.
Ambos tienen la misma tarifa (26 créditos / 1000 caracteres). El catálogo completo también está disponible mediante get_models (filtrar model_type: "speech").
#ElevenLabs v3 (por defecto)
elevenlabs/v3 acepta estas 26 voces (sensibles a mayúsculas). Cualquier valor fuera de esta lista se rechaza con 400 Unsupported voice y no se cobra ningún crédito. Las etiquetas de audio como [laughs] se eliminan en el servidor antes de la síntesis (no se pronuncian).
#Voces femeninas
| ID de voz | Descripción | Vista previa |
|---|---|---|
| Rachel | Estadounidense, calmada y articulada | |
| Aria | Estadounidense, expresiva y ronca | |
| Domi | Joven estadounidense, fuerte y segura | |
| Sarah | Joven estadounidense, suave y cálida | |
| Jane | Australiana, madura y digna | |
| Juniper | Estadounidense, natural y articulada | |
| Arabella | Narradora británica misteriosa | |
| Hope | Estadounidense, brillante y optimista | |
| Blondie | Estadounidense, conversacional y casual | |
| Priyanka | India, sensual y reconfortante | |
| Alexandra | Joven estadounidense, conversacional | |
| Monika | India, voz profunda y natural |
#Voces masculinas
| ID de voz | Descripción | Vista previa |
|---|---|---|
| Drew | Narrador estadounidense equilibrado | |
| Clyde | Personaje veterano de guerra, voz áspera | |
| Paul | Reportero de campo con tono autoritario | |
| Dave | Joven británico, tono conversacional | |
| Roger | Estadounidense elegante, tono ejecutivo | |
| Fin | Personaje marinero con acento irlandés | |
| James | Narrador australiano calmado | |
| Bradford | Británico teatral y articulado | |
| Reginald | Personaje británico intenso y dramático | |
| Gaming | Personaje de videojuego, animado y enérgico | |
| Austin | Estadounidense rural, tono relajado | |
| Kuon | Voz de personaje alegre y constante | |
| Mark | Estadounidense, tono casual y relajado | |
| Grimblewood | Personaje de fantasía, voz grave y rasposa |
#Google Gemini 3.1 Flash TTS
Pasa provider: "google". Gemini añade un prompt de estilo en lenguaje natural (define el tono, ritmo, acento, emoción o un personaje) e interpreta las [etiquetas] en línea en lugar de eliminarlas. Acepta 30 voces (sensibles a mayúsculas) y códigos de idioma BCP-47.
Las etiquetas en línea se interpretan, no se eliminan:
[sigh],[laughing],[uhm],[whispering],[shouting],[sarcasm],[robotic],[extremely fast],[short pause]/[medium pause]/[long pause], y etiquetas descriptivas libres como[like dracula]o[excitedly].
#Voces femeninas
| ID de voz | Carácter | Vista previa |
|---|---|---|
| Kore | Firme | |
| Zephyr | Brillante | |
| Leda | Juvenil | |
| Aoede | Desenvuelta | |
| Callirrhoe | Tranquila | |
| Autonoe | Brillante | |
| Despina | Suave | |
| Erinome | Clara | |
| Laomedeia | Optimista | |
| Achernar | Delicada | |
| Gacrux | Madura | |
| Pulcherrima | Directa | |
| Vindemiatrix | Amable | |
| Sulafat | Cálida |
#Voces masculinas
| ID de voz | Carácter | Vista previa |
|---|---|---|
| Puck | Optimista | |
| Charon | Informativo | |
| Fenrir | Excitable | |
| Orus | Firme | |
| Enceladus | Susurrante | |
| Iapetus | Claro | |
| Umbriel | Tranquilo | |
| Algenib | Grave | |
| Algieba | Suave | |
| Schedar | Uniforme | |
| Achird | Amigable | |
| Zubenelgenubi | Casual | |
| Sadachbia | Animado | |
| Sadaltager | Experto | |
| Alnilam | Firme | |
| Rasalgethi | Informativo |
Idiomas: Códigos BCP-47 (p. ej. en-US, en-GB, es-ES, es-MX, pt-BR, fr-FR, de-DE, it-IT, ja-JP, ko-KR, hi-IN, ar-001, ru-RU, ro-RO, tr-TR, vi-VN, th-TH y más de 70 adicionales), o auto para detectar automáticamente. Por defecto en-US. Llama a get_limits_for_model('text-to-dialogue-gemini') para la lista completa.
#generate_dialogue
Genera un clip TTS de una sola voz.
Parámetros:
| Parámetro | Tipo | Obligatorio | Descripción |
|---|---|---|---|
text (o prompt) | string | Sí | ElevenLabs: 5–5000 caracteres (tras eliminar las etiquetas [bracket]). Google: hasta 4000 bytes (UTF-8), etiquetas [tags] en línea conservadas. |
provider | string | No | elevenlabs (por defecto) o google. |
voice | string | No | ID de voz para el proveedor elegido. Por defecto: Rachel (ElevenLabs) / Kore (Google). |
style_prompt | string | No | Solo Google. Instrucción de entrega en lenguaje natural (tono, ritmo, acento, emoción, personaje). Hasta 4000 bytes; text + style_prompt deben ser ≤ 8000 bytes en total. Por defecto: Say the following. |
language_code | string | No | ElevenLabs: código ISO (por defecto en; 29 aceptados). Google: código BCP-47 (por defecto en-US) o auto. |
stability | number | No | Solo ElevenLabs. 0..1, por defecto 0.5. Más alto = más estable, más bajo = más expresivo. |
similarity_boost | number | No | Solo ElevenLabs. 0..1, por defecto 0.75. |
style | number | No | Solo ElevenLabs. 0..1, por defecto 0. Exageración del estilo. |
speed | number | No | Solo ElevenLabs. 0.7..1.2, por defecto 1.0. |
previous_text / next_text | string | No | Solo ElevenLabs. Contexto circundante para mantener la prosodia coherente entre fragmentos encadenados. |
ElevenLabs elimina
[HEY]/[laughs]/[whispers]antes de la síntesis. Google interpreta las etiquetas en línea (ver la lista de etiquetas arriba).
Ejemplo (Google Gemini):
{
"provider": "google",
"text": "[whispering] I have a secret. [laughing] Just kidding!",
"voice": "Callirrhoe",
"style_prompt": "Speak playfully, like sharing a fun secret with a friend.",
"language_code": "en-US"
}
Ejemplo (ElevenLabs):
{
"text": "¡Bienvenido de nuevo! ¿Listo para generar?",
"voice": "Rachel",
"stability": 0.5,
"language_code": "es"
}
Respuesta: Devuelve un generation_id. Consulta el progreso con get_generation_status.
#Escenas multivoz
generate_dialogue es monovoz. Para un diálogo entre dos hablantes, llama la herramienta una vez por línea (ElevenLabs: pasa previous_text / next_text para continuidad prosódica) y concatena después los archivos de audio resultantes.
#get_generation_status
Usa el generation_id devuelto por generate_dialogue para consultar el progreso. Cuando el estado sea completed, la URL del archivo de audio estará en el array outputs (media_type: "audio").
#Créditos y límites
- Coste: 26 créditos por cada 1000 caracteres, ambos proveedores (redondeo: decimal ≤ 0.3 al suelo, > 0.3 al techo).
- Mínimo: 1 crédito para cualquier texto no vacío.
- Longitud mínima: 5 caracteres tras eliminar las etiquetas de audio.
- Longitud máxima: ElevenLabs 5000 caracteres; Google 4000 bytes para
text(y ≤ 8000 bytes paratext+style_promptcombinados).
Consulta Limitaciones para más detalles.
