Instrumente media

Kubeez

Generează imagini și videoclipuri cu peste 40 de modele AI. Apelează întotdeauna get_models mai întâi pentru a vedea modelele disponibile, costurile și dacă un model necesită o imagine de intrare.

Clienți REST HTTP: aceleași limite sunt centralizate în Cerințe modele API (în engleză) și în răspunsul GET /v1/models per model.

#generate_media

Pornește o generare de imagine sau video.

Parametri:

Parametru	Tip	Obligatoriu	Descriere
prompt	string	Da	Ce să genereze (ex. „Mașină roșie pe un drum de munte”).
model	string	Da	ID model (de la get_models). Exemple: nano-banana, sora-2, kling-2-6-image-to-video.
generation_type	string	Nu	`text-to-image`, `text-to-video`, `image-to-video` sau `image-to-image`. Implicit: `text-to-image`.
negative_prompt	string	Nu	Ce să evite în output.
source_media_urls	string sau array	Nu	Obligatoriu pentru image-to-video și image-to-image. URL-uri către imagine(i), sau pentru unele modele (ex. Kling 2.6 Motion) imagine + video. Vezi limitele de intrare mai jos. Omitere pentru text-to-image și text-to-video.
aspect_ratio	string	Nu	ex. `1:1`, `16:9`, `9:16`, `4:5`, `21:9`. Implicit: `1:1`. Notă: fiecare model acceptă doar un subset — `get_models` returnează lista permisă.
duration	string	Nu	Durata video. Doar anumite modele video o folosesc. Vezi mai jos.
quality	string	Nu	ex. `fast`, `standard`, `pro`, `ultra`. Implicit: `standard`.
resolution	string	Nu	Tier-ul de rezoluție de ieșire. Doar anumite modele imagine îl folosesc — `gpt-image-2` (`1K`/`2K`/`4K`), `nano-banana-pro`/`nano-banana-2` (`1K`/`2K`/`4K`), `flux-2` (`1K`/`2K`). Fiecare tier este un SKU de preț separat; `get_models` returnează costul în credite per tier. Ignorat de modele unde rezoluția e codificată în model_id-ul variantei (Seedance, Kling, Sora, P-Video). Vezi tabelul Tiere de rezoluție mai jos pentru constrângerile pe fiecare model.
sound	boolean	Nu	Când `true`, solicită video cu audio generat. Doar anumite modele video. Implicit: `false`. Vezi mai jos.
seed	number	Nu	Seed pentru rezultate reproductibile.

Exemplu (text-to-image):

{
  "prompt": "Un oraș futurist la apus cu mașini zburătoare",
  "model": "nano-banana",
  "generation_type": "text-to-image",
  "aspect_ratio": "16:9",
  "quality": "pro"
}

Exemplu (image-to-video, o imagine de intrare):

{
  "prompt": "Mișcare blândă și subtilă",
  "model": "kling-2-6-image-to-video",
  "generation_type": "image-to-video",
  "source_media_urls": ["https://example.com/your-image.jpg"],
  "aspect_ratio": "16:9",
  "duration": "5s"
}

Răspuns: Include generation_id, status (ex. pending) și adesea estimated_time_seconds și estimated_cost_credits. Interoghează cu get_generation_status până când status este completed sau failed.

Modele care suportă duration:

Model(e)	Valori suportate	Observații
kling-2-6-text-to-video, kling-2-6-image-to-video	`5s`, `10s`	Opțional cu/fără audio (variantă model).
wan-2-5 (text-to-video, image-to-video)	`5s`, `10s`
v1-pro-fast-i2v	`5s`, `10s`
seedance-1-5-pro	`4s`, `8s`, `12s`	Suportă text-to-video (0–1 imagine opțional) și image-to-video (2 imagini obligatorii).
seedance-2 (Standard) / seedance-2-fast (Fast)	întreg `4`–`15` secunde	Tier-ul este chiar familia de model — folosește `seedance-2-fast` pentru tier-ul ieftin și rapid, `seedance-2` pentru cel de calitate mai înaltă. Fiecare familie expune model_ids concrete per rezoluție și combinație cu video de referință (ex. `seedance-2-fast-480p`, `seedance-2-480p-video-ref`). Pasează variantele complete la `generate_media`; o etichetă de familie singură întoarce o eroare `variant_required` cu opțiunile. Referințe multimodale (imagini/videouri/audio) în text-to-video; keyframe în image-to-video. Facturarea se modifică când trimiți video de referință — vezi secțiunea Seedance 2.
sora-2, sora-2-pro (text-to-video, image-to-video)	`10s`, `15s`
sora-2-pro-storyboard	`10s`, `15s`, `25s`	Bazat pe scene; durata din planuri.
grok-text-to-video-6s	6s fix	Parametrul duration este ignorat.
grok-image-to-video, kling-2-5-image-to-video-pro, veo3-1	Neconfigurabil	Durata nu se setează prin acest parametru.

Pentru modele doar imagine, duration este ignorat.

Modele care suportă negative_prompt:

Model(e)	Observații
imagen-4, imagen-4-fast, imagen-4-ultra	Text-to-image.
wan-2-5 (text-to-video, image-to-video)
kling-2-5-image-to-video-pro

Celelalte modele ignoră negative_prompt.

Modele care suportă quality (sau echivalent):

Model(e)	Cum funcționează	Valori
sora-2-pro (text-to-video, image-to-video)	Mapat la `size` (standard vs HD).	`standard`, `pro`/`high`/`hd` (pentru HD).
imagen-4 variante	Mapat la `model_variant`.	`standard`, `fast`, `ultra` (folosește `quality`: standard / fast / ultra).
seedream-v4, seedream-v4-edit	Rezoluție prin parametrul `quality`.	`1K` (implicit), `2K`, `4K`.
seedream-v4-5, seedream-v4-5-edit	Folosește `quality` direct.	`basic` (2K, implicit), `high` (4K).
5-lite-text-to-image, 5-lite-image-to-image	Folosește `quality` direct.	`basic` (2K, implicit), `high` (4K).
veo3-1 vs veo3-1-fast	ID-uri de model diferite, nu un singur parametru quality.	Folosește model `veo3-1` (calitate) sau `veo3-1-fast` (viteză).
flux-2, nano-banana-pro, nano-banana-2	Rezoluție (1K/2K/4K), nu un string generic „quality”.	Pasează prin parametrul dedicat `resolution` — vezi mai jos.
gpt-image-2 (t2i + i2i)	Rezoluție prin parametrul `resolution`.	Vezi Tiere de rezoluție mai jos.

Pentru celelalte modele, quality este ignorat.

Tiere de rezoluție (parametrul resolution):

Model	Valori	Preț	Constrângere
gpt-image-2 (t2i + i2i)	`1K` (implicit), `2K`, `4K`	11 / 15 / 21 credite	2K și 4K necesită un `aspect_ratio` explicit, non-pătrat, non-auto — unul dintre `9:16`, `16:9`, `4:3`, `3:4`. Apelarea 2K/4K cu `aspect_ratio=auto` sau `aspect_ratio=1:1` returnează HTTP 400 (`error: "aspect_ratio_incompatible_with_high_res"`) și creditele NU sunt reținute. `1K` acceptă toate raporturile inclusiv `auto`/`1:1`.
nano-banana-2	`1K` (implicit), `2K`, `4K`	Vezi `get_models`	Fiecare tier este un SKU de preț separat. Lista aspect_ratio neschimbată între tier-uri.
nano-banana-pro	`1K` (implicit), `2K`, `4K`	Vezi `get_models`	Același pattern ca nano-banana-2.
flux-2, flux-2-edit	`1K` (implicit), `2K`	Vezi `get_models`	Doar două tier-uri.

Când să alegi fiecare tier (GPT Image 2):

1K — implicit. Folosește pentru postări social, thumbnail-uri, prototipare, preview-uri in-app, orice ≤ 1024 × 1024. Cel mai ieftin; fără probleme de aspect ratio.
2K — folosește când clientul are nevoie de un hero web clar, copertă de newsletter, ilustrație in-product la densitate retină. Trebuie să alegi un aspect direcțional (landscape sau portrait).
4K — folosește pentru print, out-of-home, bannere, sau orice caz în care utilizatorul cere explicit dimensiunea maximă. Confirmă aspectul cu utilizatorul întâi; 1:1 / auto nu vor funcționa.

Modelele care nu sunt listate ignoră resolution. Pentru familiile video (Seedance, Kling, Sora, P-Video) rezoluția face parte din model_id-ul variantei concrete — pasează varianta (ex. seedance-2-fast-480p, p-video-1080p), nu acest parametru.

Limite caractere prompt:

Unele modele impun o lungime maximă a promptului. Depășirea poate returna eroare sau truncare.

Model(e)	Caractere max
wan-2-5	800
kling-2-6 (text-to-video, image-to-video)	2.500
kling-2-5-image-to-video-pro	2.500
seedream-v4, seedream-v4-edit	2.500
seedance-2 (toate variantele)	2.500
seedream-v4-5, seedream-v4-5-edit	3.000
gpt-1.5-image-medium, gpt-1.5-image-high	3.000
nano-banana, imagen-4, sora-2, flux-2, veo3-1, v1-pro-fast-i2v, grok (image/video), p-image-edit	5.000
nano-banana-pro (toate variantele)	20.000
nano-banana-2 (toate variantele)	20.000

Altele pot să nu aibă limită documentată sau să folosească valorile implicite ale serverului.

Limite fișiere de intrare (imagini și video):

Pentru image-to-video și image-to-image, source_media_urls este o listă de URL-uri. Majoritatea modelelor acceptă doar imagini (JPEG, PNG, WebP, de obicei 10 MB max per fișier). Unele modele acceptă și intrări video; când acceptă, se aplică limite de format și mărime (ex. MP4, durată max).

Model(e)	Tip intrare	Limită	Observații
kling-2-6-motion-control-720p, kling-2-6-motion-control-1080p	Imagine + video	1 imagine + 1 video	Motion Control: video-ul de referință conduce mișcarea. Video max 30 s; fișier video de obicei până la 100 MB (MP4/WebM).
kling-3-0-motion-control-720p, kling-3-0-motion-control-1080p	Imagine + video	1 imagine + 1 video	Kling 3.0 Motion Control: la fel ca Kling 2.6. Facturare pe secundă — vezi tabelul Motion Control mai jos. Video max 30 s; fișier video de obicei până la 100 MB (MP4/WebM).
kling-2-6-image-to-video, sora-2 (image-to-video), wan-2-5 (image-to-video), grok-image-to-video, v1-pro-fast-i2v	Doar imagini	1 imagine	Exact o imagine de intrare.
kling-2-5-image-to-video-pro	Doar imagini	2 imagini	Cadru inițial și final.
kling-3-0-std, kling-3-0-pro	Doar imagini	1–2 imagini	Cadru start, sau start + final. PNG/JPG/JPEG. Suportă elemente (vezi mai jos).
seedance-1-5-pro	Doar imagini	Depinde de mod	Text-to-video (`generation_type: "text-to-video"`): 0–1 imagini opționale. Image-to-video (`generation_type: "image-to-video"`): exact 2 imagini obligatorii (cadru start + final).
seedance-2 (Standard și Fast)	Imagini + video + audio	Depinde de mod	Text-to-video: până la 9 imagini de referință, până la 3 videouri de referință (durata combinată ≤ 15s) și până la 3 clipuri audio de referință (durata combinată ≤ 15s) — toate opționale. Image-to-video: 1 imagine obligatorie (primul frame) + 1 imagine opțională (ultimul frame) + până la 3 clipuri audio opționale; videourile de referință nu sunt permise în acest mod. Pune toate URL-urile în `source_media_urls` — backend-ul clasifică fiecare URL după extensie (`.jpg`/`.png`/`.webp` → imagine, `.mp4`/`.mov`/`.webm` → video, `.mp3`/`.wav`/`.m4a` → audio).
seedream-v4-edit	Doar imagini	10	Pentru editare.
nano-banana, nano-banana-edit	Doar imagini	10
nano-banana-pro (toate variantele)	Doar imagini	8
nano-banana-2 (toate variantele)	Doar imagini	8
p-image-edit	Doar imagini	1–8	P Image Edit (Pruna AI). Doar image-to-image — setează `generation_type: "image-to-image"`. 1–8 URL-uri în `source_media_urls`. aspect_ratio: `auto` potrivește prima imagine, sau 1:1, 16:9, 9:16, 4:3, 3:4, 3:2, 2:3. Opțional turbo (implicit activ). Implicit disable_safety_checker: true (moderare oprită); `disable_safety_checker: false` activează verificarea de siguranță. Opțional seed.
flux-2-edit (image-to-image)	Doar imagini	8
gpt-1.5-image (image-to-image)	Doar imagini	16
veo3-1 (image-to-video / moduri referință)	Doar imagini	1-3	Depinde de mod (1 referință opțională text-to-video; 2 cadru inițial+final; 3 referință).
sora-2-pro-storyboard	Doar imagini	1	Opțional.

Folosește get_models pentru a confirma input_media_types și capabilitățile pentru un model dat. Vezi Instrumente cont pentru listă modele și prețuri.

Kling 3.0 – elemente (opțional):

Elementele permit referențierea imaginilor sau videoclipurilor în prompt cu @element_name. Trimite kling_elements ca array de obiecte cu name, description și fie element_input_urls (2–4 URL-uri imagine) fie element_input_video_urls (1 URL video). Imaginile de referință pentru fiecare element vin din element_input_urls propriu; image_urls principal poate rămâne gol pentru text-to-video, sau să țină cadre opționale de start/end pentru image-to-video. Fiecare element necesită titlu (name) și descriere. Imagini element: JPG/PNG, min 300×300px, max 10MB fiecare. Video element: MP4/MOV, max 50MB.

Seedance 1.5 Pro – două moduri (verifică generation_type înainte de a folosi imagini):

Mod	`generation_type`	`source_media_urls`	Poate folosi imagini?
Text-to-video	`"text-to-video"`	Gol sau 1 URL	Opțional: 0–1 imagini. Omite pentru doar text; include 1 URL pentru a anima acea imagine.
Image-to-video	`"image-to-video"`	Exact 2 URL-uri	Obligatoriu: exact 2 imagini (cadru start + cadru final).

Seedance 2 (ByteDance) – două familii de modele, două moduri, referințe multimodale:

Seedance 2 este livrat pe Kubeez ca două familii de modele separate — seedance-2-fast (ieftin, rapid) și seedance-2 (standard, calitate mai mare). Fiecare familie expune model_ids concrete per rezoluție și combinație cu video de referință; pasează varianta completă (ex. seedance-2-fast-480p, seedance-2-720p-video-ref) — pasarea doar a etichetei de familie întoarce o eroare variant_required cu opțiunile disponibile. Ambele tiere suportă rezoluțiile 480p și 720p (nu există 1080p), durată întreg între 4 și 15 secunde, și aspect ratios 1:1, 4:3, 3:4, 16:9, 9:16, 21:9 și adaptive. Prompt-ul maxim este 2.500 de caractere. Audio-ul se comută prin generate_audio (implicit true) și este gratuit — spre deosebire de Kling 3.0, care aplică un surcharge pentru audio.

Două moduri:

Mod	Intrări permise	Regulă
Text-to-video	Până la 9 imagini de referință, până la 3 videouri de referință (durata combinată ≤ 15s), până la 3 clipuri audio de referință (durata combinată ≤ 15s).	Toate referințele sunt opționale. Pune toate URL-urile în `source_media_urls`; backend-ul clasifică fiecare URL după extensie (`.jpg`/`.png`/`.webp` → imagine, `.mp4`/`.mov`/`.webm` → video, `.mp3`/`.wav`/`.m4a` → audio) și le rutează automat către bucket-ul corect.
Image-to-video	1 imagine obligatorie (primul frame) + 1 imagine opțională (ultimul frame) + până la 3 clipuri audio de referință opționale.	Videourile de referință nu sunt permise în acest mod — vor fi respinse cu o eroare clară.

Limite stricte (aplicate ca erori 400):

3 videouri de referință → too_many_videos
3 clipuri audio de referință → too_many_audios
9 imagini de referință → too_many_images
Durata combinată a videourilor de referință > 15s → respinsă
Durata combinată a clipurilor audio de referință > 15s → respinsă
Un singur fișier video sau audio de referință mai lung de 15s → respins

Două căi de facturare (important):

Seedance 2 are două formule de cost, alese în funcție de prezența sau absența unui video de referință:

Fără video de referință:
```
credits = output_s × rate/s
```
Cu video de referință (ruta providerului upstream):
```
credits = (ref_s + output_s) × rate/s
```
unde ref_s este suma duratelor tuturor videourilor de referință, limitată la 15 secunde per cerere.

Notă importantă pentru utilizatorii MCP și REST API: Backend-ul nu poate interoga durata unui video de la distanță dintr-un URL, așa că, pentru cererile cu video de referință primite prin MCP sau REST API, facturează cel mai pesimist caz (15 secunde) pentru ref_s. Web UI-ul Kubeez măsoară durata local și facturează valorile exacte. Pentru workflow-uri sensibile la cost cu clipuri de referință scurte, recomandăm să folosești web UI-ul.

Tarife per secundă, în timp real (extrase din catalogul ai_models_config — mereu la zi):

Model	Name	Rate	Unit
seedance-2-1080p	Seedance 2 (1080p)	93	credits / sec
seedance-2-1080p-video-ref	Seedance 2 (1080p, video ref)	65	credits / sec
seedance-2-480p	Seedance 2 (480p)	18	credits / sec
seedance-2-480p-video-ref	Seedance 2 (480p, video ref)	13	credits / sec
seedance-2-720p	Seedance 2 (720p)	40	credits / sec
seedance-2-720p-video-ref	Seedance 2 (720p, video ref)	29	credits / sec
seedance-2-fast-480p	Seedance 2.0 Fast	16	credits / sec
seedance-2-fast-480p-video-ref	Seedance 2.0 Fast (video ref)	12	credits / sec
seedance-2-fast-720p	Seedance 2.0 Fast	34	credits / sec
seedance-2-fast-720p-video-ref	Seedance 2.0 Fast (video ref)	24	credits / sec

Audio la video (două concepte):

capabilities.video_audio în get_models — dacă ieșirea are sunet:
- included — ieșirea include de obicei pistă audio fără parametrul sound (ex. Veo, Sora, Wan, Grok, Kling 2.5 image-to-video, Motion Control).
- toggle_via_sound_param — audio generat se pornește/oprește cu sound: true / false (Kling 2.6, Kling 3.0, Seedance 1.5 Pro, Seedance 2). Pentru Seedance 2 comutatorul este gratuit (implicit true); pentru celelalte modele prețul poate diferi. Kling 3.0 rutează sound: true către rânduri dedicate -audio în catalog — continui să folosești kling-3-0-std / kling-3-0-pro ca model id și doar comuți sound; serverul alege rândul cu tariful corect. Tarife în timp real:

Model	Name	Rate	Unit
kling-3-0-pro	Kling 3.0 Pro	21	credits / sec
kling-3-0-pro-audio	Kling 3.0 Pro (with audio)	30	credits / sec
kling-3-0-std	Kling 3.0	17	credits / sec
kling-3-0-std-audio	Kling 3.0 Std (with audio)	23	credits / sec

Tarife per secundă de Motion Control (Kling 3.0 și Kling 2.6):

No models matched this family. kling-3-0-motion-control,kling-2-6-motion-control

silent — fără audio generat (doar Seedance 1.0 / v1-pro-fast-i2v).

supports_sound — înseamnă doar că API-ul acceptă comutatorul sound pentru acel model; nu înseamnă că celelalte modele video sunt fără sunet; majoritatea au video_audio: included.

Modelele doar imagine ignoră sound.

#API REST: URL-uri pentru fișiere locale sau din browser

Dacă folosești API-ul HTTP (POST /v1/generate/media) și intrările sunt fișiere pe disc sau selectate în browser—nu URL-uri publice deja—încarcă mai întâi fiecare fișier cu POST /v1/upload/media. Folosește valorile din urls ca source_media_urls.

#get_generation_status

Verifică statusul unei generări media și obține URL-urile de output când e gata.

Parametri:

Parametru	Tip	Obligatoriu	Descriere
generation_id	string	Da	ID returnat de generate_media.

Răspuns: Include status (pending, queued, processing, completed, failed), progress și când e finalizat un array outputs cu url, thumbnail_url, optimized_url, media_type, dimensiuni etc.

#get_generation_estimate

Obține un timp estimat de procesare în funcție de parametri pentru un model și opțiuni dat (nu se pornește niciun job). Pentru o durată estimată per model într-un singur apel, folosește get_models; fiecare model include estimated_time_seconds. Folosește get_generation_estimate când ai nevoie de o estimare care depinde de lungimea promptului, durată sau alți parametri.

Parametri:

Parametru	Tip	Obligatoriu	Descriere
model	string	Da	ID model.
generation_type	string	Nu	La fel ca în generate_media. Implicit: `text-to-image`.
prompt	string	Nu	Opțional; poate afecta estimarea.
negative_prompt	string	Nu	Opțional.
parameters	object	Nu	Parametri suplimentari opționali.

Răspuns: Timp estimat (și opțional încredere/dimensiune eșantion) pentru a seta așteptările utilizatorului înainte de generate_media.

#Reguli modele

Text-to-image și text-to-video: Nu trimite source_media_urls (decât dacă modelul suportă o imagine de referință opțională). Excepție: seedance-1-5-pro în mod text-to-video acceptă 0–1 imagini opționale.
Image-to-video și image-to-image: Trimite URL-uri imagine (și când e suportat, video) în source_media_urls. Majoritatea modelelor au nevoie doar de imagini; unele (ex. Kling 2.6 Motion Control) necesită 1 imagine + 1 video. seedance-1-5-pro în mod image-to-video necesită exact 2 imagini (cadru start + final). Respectă limitele de intrare ale fiecărui model de mai sus.
Audio video: Folosește capabilities.video_audio din get_models. included — audio fără parametrul sound. toggle_via_sound_param — folosește sound doar când supports_sound e true. silent — fără audio generat (doar Seedance 1.0). Nu deduce „fără audio” doar din supports_sound: false.
Folosește get_models pentru a vedea ce modele suportă ce tipuri de generare, input_media_types (ex. image, video) și numărul necesar de intrări.

Vezi Limitări pentru limite de rată și credite. Pentru un singur tabel cu valorile implicite API (prompt, intrări, durată, flag-uri), vezi Cerințe modele API.