Herramientas de diálogo

Kubeez

Genera audio TTS de una sola voz en Replicate. La herramienta generate_dialogue acepta un texto y una voz por llamada (las escenas multivoz se producen encadenando varias llamadas) y admite dos proveedores:

ElevenLabs v3 (provider: "elevenlabs", opción por defecto): 26 voces con nombre humano, la prosodia más natural.
Google Gemini 3.1 Flash TTS (provider: "google"): 30 voces, más de 70 idiomas, un prompt de estilo en lenguaje natural y etiquetas expresivas en línea ([sigh], [laughing], [whispering], [shouting], [extremely fast], [like dracula]) que se interpretan realmente.

Ambos tienen la misma tarifa (26 créditos / 1000 caracteres). El catálogo completo también está disponible mediante get_models (filtrar model_type: "speech").

#ElevenLabs v3 (por defecto)

elevenlabs/v3 acepta estas 26 voces (sensibles a mayúsculas). Cualquier valor fuera de esta lista se rechaza con 400 Unsupported voice y no se cobra ningún crédito. Las etiquetas de audio como [laughs] se eliminan en el servidor antes de la síntesis (no se pronuncian).

#Voces femeninas

ID de voz	Descripción	Vista previa
Rachel	Estadounidense, calmada y articulada
Aria	Estadounidense, expresiva y ronca
Domi	Joven estadounidense, fuerte y segura
Sarah	Joven estadounidense, suave y cálida
Jane	Australiana, madura y digna
Juniper	Estadounidense, natural y articulada
Arabella	Narradora británica misteriosa
Hope	Estadounidense, brillante y optimista
Blondie	Estadounidense, conversacional y casual
Priyanka	India, sensual y reconfortante
Alexandra	Joven estadounidense, conversacional
Monika	India, voz profunda y natural

#Voces masculinas

ID de voz	Descripción	Vista previa
Drew	Narrador estadounidense equilibrado
Clyde	Personaje veterano de guerra, voz áspera
Paul	Reportero de campo con tono autoritario
Dave	Joven británico, tono conversacional
Roger	Estadounidense elegante, tono ejecutivo
Fin	Personaje marinero con acento irlandés
James	Narrador australiano calmado
Bradford	Británico teatral y articulado
Reginald	Personaje británico intenso y dramático
Gaming	Personaje de videojuego, animado y enérgico
Austin	Estadounidense rural, tono relajado
Kuon	Voz de personaje alegre y constante
Mark	Estadounidense, tono casual y relajado
Grimblewood	Personaje de fantasía, voz grave y rasposa

#Google Gemini 3.1 Flash TTS

Pasa provider: "google". Gemini añade un prompt de estilo en lenguaje natural (define el tono, ritmo, acento, emoción o un personaje) e interpreta las [etiquetas] en línea en lugar de eliminarlas. Acepta 30 voces (sensibles a mayúsculas) y códigos de idioma BCP-47.

Las etiquetas en línea se interpretan, no se eliminan: [sigh], [laughing], [uhm], [whispering], [shouting], [sarcasm], [robotic], [extremely fast], [short pause] / [medium pause] / [long pause], y etiquetas descriptivas libres como [like dracula] o [excitedly].

#Voces femeninas

ID de voz	Carácter	Vista previa
Kore	Firme
Zephyr	Brillante
Leda	Juvenil
Aoede	Desenvuelta
Callirrhoe	Tranquila
Autonoe	Brillante
Despina	Suave
Erinome	Clara
Laomedeia	Optimista
Achernar	Delicada
Gacrux	Madura
Pulcherrima	Directa
Vindemiatrix	Amable
Sulafat	Cálida

#Voces masculinas

ID de voz	Carácter	Vista previa
Puck	Optimista
Charon	Informativo
Fenrir	Excitable
Orus	Firme
Enceladus	Susurrante
Iapetus	Claro
Umbriel	Tranquilo
Algenib	Grave
Algieba	Suave
Schedar	Uniforme
Achird	Amigable
Zubenelgenubi	Casual
Sadachbia	Animado
Sadaltager	Experto
Alnilam	Firme
Rasalgethi	Informativo

Idiomas: Códigos BCP-47 (p. ej. en-US, en-GB, es-ES, es-MX, pt-BR, fr-FR, de-DE, it-IT, ja-JP, ko-KR, hi-IN, ar-001, ru-RU, ro-RO, tr-TR, vi-VN, th-TH y más de 70 adicionales), o auto para detectar automáticamente. Por defecto en-US. Llama a get_limits_for_model('text-to-dialogue-gemini') para la lista completa.

#generate_dialogue

Genera un clip TTS de una sola voz.

Parámetros:

Parámetro	Tipo	Obligatorio	Descripción
`text` (o `prompt`)	string	Sí	ElevenLabs: 5–5000 caracteres (tras eliminar las etiquetas `[bracket]`). Google: hasta 4000 bytes (UTF-8), etiquetas `[tags]` en línea conservadas.
`provider`	string	No	`elevenlabs` (por defecto) o `google`.
`voice`	string	No	ID de voz para el proveedor elegido. Por defecto: `Rachel` (ElevenLabs) / `Kore` (Google).
`style_prompt`	string	No	Solo Google. Instrucción de entrega en lenguaje natural (tono, ritmo, acento, emoción, personaje). Hasta 4000 bytes; `text` + `style_prompt` deben ser ≤ 8000 bytes en total. Por defecto: `Say the following.`
`language_code`	string	No	ElevenLabs: código ISO (por defecto `en`; 29 aceptados). Google: código BCP-47 (por defecto `en-US`) o `auto`.
`stability`	number	No	Solo ElevenLabs. `0..1`, por defecto `0.5`. Más alto = más estable, más bajo = más expresivo.
`similarity_boost`	number	No	Solo ElevenLabs. `0..1`, por defecto `0.75`.
`style`	number	No	Solo ElevenLabs. `0..1`, por defecto `0`. Exageración del estilo.
`speed`	number	No	Solo ElevenLabs. `0.7..1.2`, por defecto `1.0`.
`previous_text` / `next_text`	string	No	Solo ElevenLabs. Contexto circundante para mantener la prosodia coherente entre fragmentos encadenados.

ElevenLabs elimina [HEY] / [laughs] / [whispers] antes de la síntesis. Google interpreta las etiquetas en línea (ver la lista de etiquetas arriba).

Ejemplo (Google Gemini):

{
  "provider": "google",
  "text": "[whispering] I have a secret. [laughing] Just kidding!",
  "voice": "Callirrhoe",
  "style_prompt": "Speak playfully, like sharing a fun secret with a friend.",
  "language_code": "en-US"
}

Ejemplo (ElevenLabs):

{
  "text": "¡Bienvenido de nuevo! ¿Listo para generar?",
  "voice": "Rachel",
  "stability": 0.5,
  "language_code": "es"
}

Respuesta: Devuelve un generation_id. Consulta el progreso con get_generation_status.

#Escenas multivoz

generate_dialogue es monovoz. Para un diálogo entre dos hablantes, llama la herramienta una vez por línea (ElevenLabs: pasa previous_text / next_text para continuidad prosódica) y concatena después los archivos de audio resultantes.

#get_generation_status

Usa el generation_id devuelto por generate_dialogue para consultar el progreso. Cuando el estado sea completed, la URL del archivo de audio estará en el array outputs (media_type: "audio").

#Créditos y límites

Coste: 26 créditos por cada 1000 caracteres, ambos proveedores (redondeo: decimal ≤ 0.3 al suelo, > 0.3 al techo).
Mínimo: 1 crédito para cualquier texto no vacío.
Longitud mínima: 5 caracteres tras eliminar las etiquetas de audio.
Longitud máxima: ElevenLabs 5000 caracteres; Google 4000 bytes para text (y ≤ 8000 bytes para text + style_prompt combinados).

Consulta Limitaciones para más detalles.