Herramientas de diálogo

    Genera audio TTS de una sola voz con ElevenLabs v3 en Replicate. La herramienta generate_dialogue acepta un texto y una voz por llamada — las escenas multivoz se producen encadenando varias llamadas.

    #Voces disponibles

    elevenlabs/v3 acepta estas 26 voces (sensibles a mayúsculas). Cualquier valor fuera de esta lista se rechaza con 400 Unsupported voice y no se cobra ningún crédito.

    #Voces femeninas

    ID de vozDescripciónVista previa
    RachelEstadounidense, calmada y articulada
    AriaEstadounidense, expresiva y ronca
    DomiJoven estadounidense, fuerte y segura
    SarahJoven estadounidense, suave y cálida
    JaneAustraliana, madura y digna
    JuniperEstadounidense, natural y articulada
    ArabellaNarradora británica misteriosa
    HopeEstadounidense, brillante y optimista
    BlondieEstadounidense, conversacional y casual
    PriyankaIndia, sensual y reconfortante
    AlexandraJoven estadounidense, conversacional
    MonikaIndia, voz profunda y natural

    #Voces masculinas

    ID de vozDescripciónVista previa
    DrewNarrador estadounidense equilibrado
    ClydePersonaje veterano de guerra, voz áspera
    PaulReportero de campo con tono autoritario
    DaveJoven británico, tono conversacional
    RogerEstadounidense elegante, tono ejecutivo
    FinPersonaje marinero con acento irlandés
    JamesNarrador australiano calmado
    BradfordBritánico teatral y articulado
    ReginaldPersonaje británico intenso y dramático
    GamingPersonaje de videojuego, animado y enérgico
    AustinEstadounidense rural, tono relajado
    KuonVoz de personaje alegre y constante
    MarkEstadounidense, tono casual y relajado
    GrimblewoodPersonaje de fantasía, voz grave y rasposa

    El catálogo completo también está disponible mediante get_models — filtra por model_type: "text-to-dialogue" para inspeccionar precios y capacidades de forma programática.


    #generate_dialogue

    Genera un clip TTS de una sola voz.

    Parámetros:

    ParámetroTipoObligatorioDescripción
    text (o prompt)string5–5000 caracteres tras eliminar las etiquetas [bracket].
    voicestringNoUno de los 26 ID anteriores. Por defecto: Rachel.
    stabilitynumberNo0..1, por defecto 0.5. Más alto = más estable, más bajo = más expresivo.
    similarity_boostnumberNo0..1, por defecto 0.75.
    stylenumberNo0..1, por defecto 0. Exageración del estilo.
    speednumberNo0.7..1.2, por defecto 1.0.
    previous_text / next_textstringNoContexto opcional para mantener la prosodia coherente entre fragmentos.
    language_codestringNoCódigo ISO (en, ro, es, fr, de, ja, …). Por defecto en. Más de 70 idiomas.

    Las etiquetas de audio como [HEY], [laughs], [whispers] se eliminan en el servidor antes del TTS — el modelo no las pronuncia ni las interpreta.

    Ejemplo:

    {
      "text": "¡Bienvenido de nuevo! ¿Listo para generar?",
      "voice": "Rachel",
      "stability": 0.5,
      "language_code": "es"
    }
    

    Respuesta: Devuelve un generation_id. Consulta el progreso con get_generation_status.

    #Escenas multivoz

    generate_dialogue es monovoz. Para un diálogo entre dos hablantes, llama la herramienta una vez por línea (pasando previous_text / next_text para continuidad prosódica) y concatena después los archivos de audio resultantes.

    #get_generation_status

    Usa el generation_id devuelto por generate_dialogue para consultar el progreso. Cuando el estado sea completed, la URL del archivo de audio estará en el array outputs (media_type: "audio").


    #Créditos y límites

    • Coste: 26 créditos por cada 1000 caracteres (redondeo: decimal ≤ 0.3 al suelo, > 0.3 al techo).
    • Mínimo: 1 crédito para cualquier texto no vacío.
    • Longitud mínima: 5 caracteres tras eliminar las etiquetas de audio.
    • Longitud máxima: 5000 caracteres por solicitud.

    Consulta Limitaciones para más detalles.