Instrumente dialog

Kubeez

Generați conținut audio TTS cu o singură voce pe Replicate. Instrumentul generate_dialogue acceptă un singur text și o singură voce per apel (scenele cu mai multe voci se obțin combinând rezultatele mai multor apeluri) și suportă doi furnizori:

ElevenLabs v3 (provider: "elevenlabs", opțiunea implicită): 26 de voci cu nume umane, prosodia cea mai naturală.
Google Gemini 3.1 Flash TTS (provider: "google"): 30 de voci, peste 70 de limbi, un prompt de stil în limbaj natural și etichete expresive inline ([sigh], [laughing], [whispering], [shouting], [extremely fast], [like dracula]) care sunt efectiv interpretate.

Ambii furnizori au aceeași tarifa (26 credite / 1000 de caractere). Catalogul complet apare și prin get_models (filtru model_type: "speech").

#ElevenLabs v3 (implicit)

elevenlabs/v3 acceptă aceste 26 de voci (sensibile la majuscule). Orice altă valoare este respinsă cu 400 Unsupported voice și nu se taxează creditele. Etichetele audio precum [laughs] sunt eliminate pe server înainte de sinteză (nu sunt rostite).

#Voci feminine

ID voce	Descriere	Previzualizare
Rachel	Americancă, calmă și articulată
Aria	Americancă, expresivă, voce răgușită
Domi	Americancă tânără, puternică, încrezătoare
Sarah	Americancă tânără, blândă și caldă
Jane	Australiancă matură și demnă
Juniper	Americancă, naturală și articulată
Arabella	Naratoare britanică misterioasă
Hope	Americancă luminoasă și optimistă
Blondie	Americancă, ton conversațional relaxat
Priyanka	Indianică, voce senzuală și liniștitoare
Alexandra	Americancă tânără, conversațională
Monika	Indianică, voce profundă și naturală

#Voci masculine

ID voce	Descriere	Previzualizare
Drew	Narator american echilibrat
Clyde	Personaj veteran de război, voce aspră
Paul	Reporter de teren, ton autoritar
Dave	Britanic tânăr, ton conversațional
Roger	American elegant, ton de business
Fin	Personaj de marinar cu accent irlandez
James	Narator australian calm
Bradford	Britanic teatral și articulat
Reginald	Personaj britanic intens și dramatic
Gaming	Personaj de gaming, energic și expresiv
Austin	American country, ton degajat
Kuon	Voce de personaj veselă și constantă
Mark	American, ton casual și relaxat
Grimblewood	Personaj fantasy, voce gravă și răgușită

#Google Gemini 3.1 Flash TTS

Transmite provider: "google". Gemini adaugă un prompt de stil în limbaj natural (setează tonul, ritmul, accentul, emoția sau un personaj) și interpretează etichetele [tags] inline în loc să le elimine. Acceptă 30 de voci (sensibile la majuscule) și coduri de limbă BCP-47.

Etichetele inline sunt interpretate, nu eliminate: [sigh], [laughing], [uhm], [whispering], [shouting], [sarcasm], [robotic], [extremely fast], [short pause] / [medium pause] / [long pause], și etichete descriptive libere precum [like dracula] sau [excitedly].

#Voci feminine

ID voce	Caracter	Previzualizare
Kore	Fermă
Zephyr	Luminoasă
Leda	Tinerească
Aoede	Degajată
Callirrhoe	Relaxată
Autonoe	Luminoasă
Despina	Fluentă
Erinome	Clară
Laomedeia	Optimistă
Achernar	Delicată
Gacrux	Matură
Pulcherrima	Directă
Vindemiatrix	Blândă
Sulafat	Caldă

#Voci masculine

ID voce	Caracter	Previzualizare
Puck	Optimist
Charon	Informativ
Fenrir	Excitabil
Orus	Ferm
Enceladus	Răsuflet
Iapetus	Clar
Umbriel	Relaxat
Algenib	Grav
Algieba	Fluid
Schedar	Egal
Achird	Prietenos
Zubenelgenubi	Casual
Sadachbia	Vioi
Sadaltager	Informat
Alnilam	Ferm
Rasalgethi	Informativ

Limbi: Coduri BCP-47 (de ex. en-US, en-GB, es-ES, es-MX, pt-BR, fr-FR, de-DE, it-IT, ja-JP, ko-KR, hi-IN, ar-001, ru-RU, ro-RO, tr-TR, vi-VN, th-TH și peste 70 altele), sau auto pentru detectare automată. Implicit en-US. Apelați get_limits_for_model('text-to-dialogue-gemini') pentru lista completă.

#generate_dialogue

Generează un clip TTS cu o singură voce.

Parametri:

Parametru	Tip	Obligatoriu	Descriere
`text` (sau `prompt`)	string	Da	ElevenLabs: 5–5000 caractere (după eliminarea etichetelor `[bracket]`). Google: până la 4000 de bytes (UTF-8), etichetele `[tags]` inline sunt păstrate.
`provider`	string	Nu	`elevenlabs` (implicit) sau `google`.
`voice`	string	Nu	ID de voce pentru furnizorul ales. Implicit: `Rachel` (ElevenLabs) / `Kore` (Google).
`style_prompt`	string	Nu	Doar Google. Instrucțiune de livrare în limbaj natural (ton, ritm, accent, emoție, personaj). Până la 4000 de bytes; `text` + `style_prompt` trebuie să fie ≤ 8000 de bytes în total. Implicit: `Say the following.`
`language_code`	string	Nu	ElevenLabs: cod ISO (implicit `en`; 29 acceptate). Google: cod BCP-47 (implicit `en-US`) sau `auto`.
`stability`	number	Nu	Doar ElevenLabs. `0..1`, implicit `0.5`. Valori mai mari = mai stabilă, mai mici = mai expresivă.
`similarity_boost`	number	Nu	Doar ElevenLabs. `0..1`, implicit `0.75`.
`style`	number	Nu	Doar ElevenLabs. `0..1`, implicit `0`. Exagerare a stilului.
`speed`	number	Nu	Doar ElevenLabs. `0.7..1.2`, implicit `1.0`.
`previous_text` / `next_text`	string	Nu	Doar ElevenLabs. Context înconjurător pentru prozodie consistentă între fragmente concatenate.

ElevenLabs elimină [HEY] / [laughs] / [whispers] înainte de sinteză. Google interpretează etichetele inline (vezi lista de etichete de mai sus).

Exemplu (Google Gemini):

{
  "provider": "google",
  "text": "[whispering] I have a secret. [laughing] Just kidding!",
  "voice": "Callirrhoe",
  "style_prompt": "Speak playfully, like sharing a fun secret with a friend.",
  "language_code": "en-US"
}

Exemplu (ElevenLabs):

{
  "text": "Bun venit înapoi, ești gata să generezi?",
  "voice": "Rachel",
  "stability": 0.5,
  "language_code": "ro"
}

Răspuns: Întoarce un generation_id. Verificați progresul cu get_generation_status.

#Scene cu mai multe voci

generate_dialogue este monovoce. Pentru un dialog între doi vorbitori, apelați instrumentul o dată per replică (ElevenLabs: transmițând previous_text / next_text pentru continuitate prosodică) și concatenați apoi fișierele audio rezultate.

#get_generation_status

Folosiți generation_id returnat de generate_dialogue pentru a verifica progresul. Când statusul este completed, URL-ul fișierului audio se află în array-ul outputs (media_type: "audio").

#Credite și limite

Cost: 26 de credite la fiecare 1000 de caractere, ambii furnizori (rotunjire: zecimal ≤ 0.3 în jos, > 0.3 în sus).
Minim: 1 credit pentru orice text nevid.
Lungime minimă: 5 caractere după eliminarea etichetelor audio.
Lungime maximă: ElevenLabs 5000 de caractere; Google 4000 de bytes pentru text (și ≤ 8000 de bytes pentru text + style_prompt combinate).

Vedeți Limitări pentru detalii complete.