Instrumente dialog

    Generați conținut audio TTS cu o singură voce folosind ElevenLabs v3 pe Replicate. Instrumentul generate_dialogue acceptă un singur text și o singură voce per apel — scenele cu mai multe voci se obțin combinând rezultatele mai multor apeluri.

    #Voci disponibile

    elevenlabs/v3 acceptă aceste 26 de voci (sensibile la majuscule). Orice altă valoare este respinsă cu 400 Unsupported voice și nu se taxează creditele.

    #Voci feminine

    ID voceDescrierePrevizualizare
    RachelAmericancă, calmă și articulată
    AriaAmericancă, expresivă, voce răgușită
    DomiAmericancă tânără, puternică, încrezătoare
    SarahAmericancă tânără, blândă și caldă
    JaneAustraliancă matură și demnă
    JuniperAmericancă, naturală și articulată
    ArabellaNaratoare britanică misterioasă
    HopeAmericancă luminoasă și optimistă
    BlondieAmericancă, ton conversațional relaxat
    PriyankaIndianică, voce senzuală și liniștitoare
    AlexandraAmericancă tânără, conversațională
    MonikaIndianică, voce profundă și naturală

    #Voci masculine

    ID voceDescrierePrevizualizare
    DrewNarator american echilibrat
    ClydePersonaj veteran de război, voce aspră
    PaulReporter de teren, ton autoritar
    DaveBritanic tânăr, ton conversațional
    RogerAmerican elegant, ton de business
    FinPersonaj de marinar cu accent irlandez
    JamesNarator australian calm
    BradfordBritanic teatral și articulat
    ReginaldPersonaj britanic intens și dramatic
    GamingPersonaj de gaming, energic și expresiv
    AustinAmerican country, ton degajat
    KuonVoce de personaj veselă și constantă
    MarkAmerican, ton casual și relaxat
    GrimblewoodPersonaj fantasy, voce gravă și răgușită

    Catalogul complet apare și prin get_models — filtrați după model_type: "text-to-dialogue" pentru a inspecta prețuri și capabilități programatic.


    #generate_dialogue

    Generează un clip TTS cu o singură voce.

    Parametri:

    ParametruTipObligatoriuDescriere
    text (sau prompt)stringDa5–5000 caractere după eliminarea etichetelor [bracket].
    voicestringNuUnul dintre cele 26 de ID-uri de mai sus. Implicit: Rachel.
    stabilitynumberNu0..1, implicit 0.5. Valori mai mari = mai stabilă, mai mici = mai expresivă.
    similarity_boostnumberNu0..1, implicit 0.75.
    stylenumberNu0..1, implicit 0. Exagerare a stilului.
    speednumberNu0.7..1.2, implicit 1.0.
    previous_text / next_textstringNuContext opțional pentru prozodie consistentă între fragmente.
    language_codestringNuCod ISO. Implicit en. Unul dintre cele 29 de coduri acceptate: ar, bg, cs, da, de, el, en, es, fi, fil, fr, hi, hr, id, it, ja, ko, ms, nl, pl, pt, ro, ru, sk, sv, ta, tr, uk, zh. Trimite auto pentru a folosi implicit en.

    Etichetele audio precum [HEY], [laughs], [whispers] sunt eliminate pe server înainte de TTS — modelul nu le rostește și nu le interpretează.

    Exemplu:

    {
      "text": "Bun venit înapoi — ești gata să generezi?",
      "voice": "Rachel",
      "stability": 0.5,
      "language_code": "ro"
    }
    

    Răspuns: Întoarce un generation_id. Verificați progresul cu get_generation_status.

    #Scene cu mai multe voci

    generate_dialogue este monovoce. Pentru un dialog între doi vorbitori, apelați instrumentul o dată per replică (transmițând previous_text / next_text pentru continuitate prosodică) și concatenați apoi fișierele audio rezultate.

    #get_generation_status

    Folosiți generation_id returnat de generate_dialogue pentru a verifica progresul. Când statusul este completed, URL-ul fișierului audio se află în array-ul outputs (media_type: "audio").


    #Credite și limite

    • Cost: 26 de credite la fiecare 1000 de caractere (rotunjire: zecimal ≤ 0.3 în jos, > 0.3 în sus).
    • Minim: 1 credit pentru orice text nevid.
    • Lungime minimă: 5 caractere după eliminarea etichetelor audio.
    • Lungime maximă: 5000 de caractere per cerere.

    Vedeți Limitări pentru detalii complete.