Kubeey
    Conoce a Kubeey, tu agente creativo con IA
    Pruébalo ya

    Herramientas de diálogo

    Genera audio TTS de una sola voz en Replicate. La herramienta generate_dialogue acepta un texto y una voz por llamada (las escenas multivoz se producen encadenando varias llamadas) y admite dos proveedores:

    • ElevenLabs v3 (provider: "elevenlabs", opción por defecto): 26 voces con nombre humano, la prosodia más natural.
    • Google Gemini 3.1 Flash TTS (provider: "google"): 30 voces, más de 70 idiomas, un prompt de estilo en lenguaje natural y etiquetas expresivas en línea ([sigh], [laughing], [whispering], [shouting], [extremely fast], [like dracula]) que se interpretan realmente.

    Ambos tienen la misma tarifa (26 créditos / 1000 caracteres). El catálogo completo también está disponible mediante get_models (filtrar model_type: "speech").


    #ElevenLabs v3 (por defecto)

    elevenlabs/v3 acepta estas 26 voces (sensibles a mayúsculas). Cualquier valor fuera de esta lista se rechaza con 400 Unsupported voice y no se cobra ningún crédito. Las etiquetas de audio como [laughs] se eliminan en el servidor antes de la síntesis (no se pronuncian).

    #Voces femeninas

    ID de vozDescripciónVista previa
    RachelEstadounidense, calmada y articulada
    AriaEstadounidense, expresiva y ronca
    DomiJoven estadounidense, fuerte y segura
    SarahJoven estadounidense, suave y cálida
    JaneAustraliana, madura y digna
    JuniperEstadounidense, natural y articulada
    ArabellaNarradora británica misteriosa
    HopeEstadounidense, brillante y optimista
    BlondieEstadounidense, conversacional y casual
    PriyankaIndia, sensual y reconfortante
    AlexandraJoven estadounidense, conversacional
    MonikaIndia, voz profunda y natural

    #Voces masculinas

    ID de vozDescripciónVista previa
    DrewNarrador estadounidense equilibrado
    ClydePersonaje veterano de guerra, voz áspera
    PaulReportero de campo con tono autoritario
    DaveJoven británico, tono conversacional
    RogerEstadounidense elegante, tono ejecutivo
    FinPersonaje marinero con acento irlandés
    JamesNarrador australiano calmado
    BradfordBritánico teatral y articulado
    ReginaldPersonaje británico intenso y dramático
    GamingPersonaje de videojuego, animado y enérgico
    AustinEstadounidense rural, tono relajado
    KuonVoz de personaje alegre y constante
    MarkEstadounidense, tono casual y relajado
    GrimblewoodPersonaje de fantasía, voz grave y rasposa

    #Google Gemini 3.1 Flash TTS

    Pasa provider: "google". Gemini añade un prompt de estilo en lenguaje natural (define el tono, ritmo, acento, emoción o un personaje) e interpreta las [etiquetas] en línea en lugar de eliminarlas. Acepta 30 voces (sensibles a mayúsculas) y códigos de idioma BCP-47.

    Las etiquetas en línea se interpretan, no se eliminan: [sigh], [laughing], [uhm], [whispering], [shouting], [sarcasm], [robotic], [extremely fast], [short pause] / [medium pause] / [long pause], y etiquetas descriptivas libres como [like dracula] o [excitedly].

    #Voces femeninas

    ID de vozCarácterVista previa
    KoreFirme
    ZephyrBrillante
    LedaJuvenil
    AoedeDesenvuelta
    CallirrhoeTranquila
    AutonoeBrillante
    DespinaSuave
    ErinomeClara
    LaomedeiaOptimista
    AchernarDelicada
    GacruxMadura
    PulcherrimaDirecta
    VindemiatrixAmable
    SulafatCálida

    #Voces masculinas

    ID de vozCarácterVista previa
    PuckOptimista
    CharonInformativo
    FenrirExcitable
    OrusFirme
    EnceladusSusurrante
    IapetusClaro
    UmbrielTranquilo
    AlgenibGrave
    AlgiebaSuave
    SchedarUniforme
    AchirdAmigable
    ZubenelgenubiCasual
    SadachbiaAnimado
    SadaltagerExperto
    AlnilamFirme
    RasalgethiInformativo

    Idiomas: Códigos BCP-47 (p. ej. en-US, en-GB, es-ES, es-MX, pt-BR, fr-FR, de-DE, it-IT, ja-JP, ko-KR, hi-IN, ar-001, ru-RU, ro-RO, tr-TR, vi-VN, th-TH y más de 70 adicionales), o auto para detectar automáticamente. Por defecto en-US. Llama a get_limits_for_model('text-to-dialogue-gemini') para la lista completa.


    #generate_dialogue

    Genera un clip TTS de una sola voz.

    Parámetros:

    ParámetroTipoObligatorioDescripción
    text (o prompt)stringElevenLabs: 5–5000 caracteres (tras eliminar las etiquetas [bracket]). Google: hasta 4000 bytes (UTF-8), etiquetas [tags] en línea conservadas.
    providerstringNoelevenlabs (por defecto) o google.
    voicestringNoID de voz para el proveedor elegido. Por defecto: Rachel (ElevenLabs) / Kore (Google).
    style_promptstringNoSolo Google. Instrucción de entrega en lenguaje natural (tono, ritmo, acento, emoción, personaje). Hasta 4000 bytes; text + style_prompt deben ser ≤ 8000 bytes en total. Por defecto: Say the following.
    language_codestringNoElevenLabs: código ISO (por defecto en; 29 aceptados). Google: código BCP-47 (por defecto en-US) o auto.
    stabilitynumberNoSolo ElevenLabs. 0..1, por defecto 0.5. Más alto = más estable, más bajo = más expresivo.
    similarity_boostnumberNoSolo ElevenLabs. 0..1, por defecto 0.75.
    stylenumberNoSolo ElevenLabs. 0..1, por defecto 0. Exageración del estilo.
    speednumberNoSolo ElevenLabs. 0.7..1.2, por defecto 1.0.
    previous_text / next_textstringNoSolo ElevenLabs. Contexto circundante para mantener la prosodia coherente entre fragmentos encadenados.

    ElevenLabs elimina [HEY] / [laughs] / [whispers] antes de la síntesis. Google interpreta las etiquetas en línea (ver la lista de etiquetas arriba).

    Ejemplo (Google Gemini):

    {
      "provider": "google",
      "text": "[whispering] I have a secret. [laughing] Just kidding!",
      "voice": "Callirrhoe",
      "style_prompt": "Speak playfully, like sharing a fun secret with a friend.",
      "language_code": "en-US"
    }
    

    Ejemplo (ElevenLabs):

    {
      "text": "¡Bienvenido de nuevo! ¿Listo para generar?",
      "voice": "Rachel",
      "stability": 0.5,
      "language_code": "es"
    }
    

    Respuesta: Devuelve un generation_id. Consulta el progreso con get_generation_status.

    #Escenas multivoz

    generate_dialogue es monovoz. Para un diálogo entre dos hablantes, llama la herramienta una vez por línea (ElevenLabs: pasa previous_text / next_text para continuidad prosódica) y concatena después los archivos de audio resultantes.

    #get_generation_status

    Usa el generation_id devuelto por generate_dialogue para consultar el progreso. Cuando el estado sea completed, la URL del archivo de audio estará en el array outputs (media_type: "audio").


    #Créditos y límites

    • Coste: 26 créditos por cada 1000 caracteres, ambos proveedores (redondeo: decimal ≤ 0.3 al suelo, > 0.3 al techo).
    • Mínimo: 1 crédito para cualquier texto no vacío.
    • Longitud mínima: 5 caracteres tras eliminar las etiquetas de audio.
    • Longitud máxima: ElevenLabs 5000 caracteres; Google 4000 bytes para text (y ≤ 8000 bytes para text + style_prompt combinados).

    Consulta Limitaciones para más detalles.