Instrumente media
Generează imagini și videoclipuri cu peste 40 de modele AI. Apelează întotdeauna get_models mai întâi pentru a vedea modelele disponibile, costurile și dacă un model necesită o imagine de intrare.
Clienți REST HTTP: aceleași limite sunt centralizate în Cerințe modele API (în engleză) și în răspunsul GET /v1/models per model.
#generate_media
Pornește o generare de imagine sau video.
Parametri:
| Parametru | Tip | Obligatoriu | Descriere |
|---|---|---|---|
| prompt | string | Da | Ce să genereze (ex. „Mașină roșie pe un drum de munte”). |
| model | string | Da | ID model (de la get_models). Exemple: nano-banana, sora-2, kling-2-6-image-to-video. |
| generation_type | string | Nu | text-to-image, text-to-video, image-to-video sau image-to-image. Implicit: text-to-image. |
| negative_prompt | string | Nu | Ce să evite în output. |
| source_media_urls | string sau array | Nu | Obligatoriu pentru image-to-video și image-to-image. URL-uri către imagine(i), sau pentru unele modele (ex. Kling 2.6 Motion) imagine + video. Vezi limitele de intrare mai jos. Omitere pentru text-to-image și text-to-video. |
| aspect_ratio | string | Nu | ex. 1:1, 16:9, 9:16, 4:5, 21:9. Implicit: 1:1. Notă: fiecare model acceptă doar un subset — get_models returnează lista permisă. |
| duration | string | Nu | Durata video. Doar anumite modele video o folosesc. Vezi mai jos. |
| quality | string | Nu | ex. fast, standard, pro, ultra. Implicit: standard. |
| resolution | string | Nu | Tier-ul de rezoluție de ieșire. Doar anumite modele imagine îl folosesc — gpt-image-2 (1K/2K/4K), nano-banana-pro/nano-banana-2 (1K/2K/4K), flux-2 (1K/2K). Fiecare tier este un SKU de preț separat; get_models returnează costul în credite per tier. Ignorat de modele unde rezoluția e codificată în model_id-ul variantei (Seedance, Kling, Sora, P-Video). Vezi tabelul Tiere de rezoluție mai jos pentru constrângerile pe fiecare model. |
| sound | boolean | Nu | Când true, solicită video cu audio generat. Doar anumite modele video. Implicit: false. Vezi mai jos. |
| seed | number | Nu | Seed pentru rezultate reproductibile. |
Exemplu (text-to-image):
{
"prompt": "Un oraș futurist la apus cu mașini zburătoare",
"model": "nano-banana",
"generation_type": "text-to-image",
"aspect_ratio": "16:9",
"quality": "pro"
}
Exemplu (image-to-video, o imagine de intrare):
{
"prompt": "Mișcare blândă și subtilă",
"model": "kling-2-6-image-to-video",
"generation_type": "image-to-video",
"source_media_urls": ["https://example.com/your-image.jpg"],
"aspect_ratio": "16:9",
"duration": "5s"
}
Răspuns: Include generation_id, status (ex. pending) și adesea estimated_time_seconds și estimated_cost_credits. Interoghează cu get_generation_status până când status este completed sau failed.
Modele care suportă duration:
| Model(e) | Valori suportate | Observații |
|---|---|---|
| kling-2-6-text-to-video, kling-2-6-image-to-video | 5s, 10s | Opțional cu/fără audio (variantă model). |
| wan-2-5 (text-to-video, image-to-video) | 5s, 10s | |
| v1-pro-fast-i2v | 5s, 10s | |
| seedance-1-5-pro | 4s, 8s, 12s | Suportă text-to-video (0–1 imagine opțional) și image-to-video (2 imagini obligatorii). |
| seedance-2 (Standard) / seedance-2-fast (Fast) | întreg 4–15 secunde | Tier-ul este chiar familia de model — folosește seedance-2-fast pentru tier-ul ieftin și rapid, seedance-2 pentru cel de calitate mai înaltă. Fiecare familie expune model_ids concrete per rezoluție și combinație cu video de referință (ex. seedance-2-fast-480p, seedance-2-480p-video-ref). Pasează variantele complete la generate_media; o etichetă de familie singură întoarce o eroare variant_required cu opțiunile. Referințe multimodale (imagini/videouri/audio) în text-to-video; keyframe în image-to-video. Facturarea se modifică când trimiți video de referință — vezi secțiunea Seedance 2. |
| sora-2, sora-2-pro (text-to-video, image-to-video) | 10s, 15s | |
| sora-2-pro-storyboard | 10s, 15s, 25s | Bazat pe scene; durata din planuri. |
| grok-text-to-video-6s | 6s fix | Parametrul duration este ignorat. |
| grok-image-to-video, kling-2-5-image-to-video-pro, veo3-1 | Neconfigurabil | Durata nu se setează prin acest parametru. |
Pentru modele doar imagine, duration este ignorat.
Modele care suportă negative_prompt:
| Model(e) | Observații |
|---|---|
| imagen-4, imagen-4-fast, imagen-4-ultra | Text-to-image. |
| wan-2-5 (text-to-video, image-to-video) | |
| kling-2-5-image-to-video-pro |
Celelalte modele ignoră negative_prompt.
Modele care suportă quality (sau echivalent):
| Model(e) | Cum funcționează | Valori |
|---|---|---|
| sora-2-pro (text-to-video, image-to-video) | Mapat la size (standard vs HD). | standard, pro/high/hd (pentru HD). |
| imagen-4 variante | Mapat la model_variant. | standard, fast, ultra (folosește quality: standard / fast / ultra). |
| seedream-v4, seedream-v4-edit | Rezoluție prin parametrul quality. | 1K (implicit), 2K, 4K. |
| seedream-v4-5, seedream-v4-5-edit | Folosește quality direct. | basic (2K, implicit), high (4K). |
| 5-lite-text-to-image, 5-lite-image-to-image | Folosește quality direct. | basic (2K, implicit), high (4K). |
| veo3-1 vs veo3-1-fast | ID-uri de model diferite, nu un singur parametru quality. | Folosește model veo3-1 (calitate) sau veo3-1-fast (viteză). |
| flux-2, nano-banana-pro, nano-banana-2 | Rezoluție (1K/2K/4K), nu un string generic „quality”. | Pasează prin parametrul dedicat resolution — vezi mai jos. |
| gpt-image-2 (t2i + i2i) | Rezoluție prin parametrul resolution. | Vezi Tiere de rezoluție mai jos. |
Pentru celelalte modele, quality este ignorat.
<a id="tiere-rezolutie"></a>
Tiere de rezoluție (parametrul resolution):
| Model | Valori | Preț | Constrângere |
|---|---|---|---|
| gpt-image-2 (t2i + i2i) | 1K (implicit), 2K, 4K | 11 / 15 / 21 credite | 2K și 4K necesită un aspect_ratio explicit, non-pătrat, non-auto — unul dintre 9:16, 16:9, 4:3, 3:4. Apelarea 2K/4K cu aspect_ratio=auto sau aspect_ratio=1:1 returnează HTTP 400 (error: "aspect_ratio_incompatible_with_high_res") și creditele NU sunt reținute. 1K acceptă toate raporturile inclusiv auto/1:1. |
| nano-banana-2 | 1K (implicit), 2K, 4K | Vezi get_models | Fiecare tier este un SKU de preț separat. Lista aspect_ratio neschimbată între tier-uri. |
| nano-banana-pro | 1K (implicit), 2K, 4K | Vezi get_models | Același pattern ca nano-banana-2. |
| flux-2, flux-2-edit | 1K (implicit), 2K | Vezi get_models | Doar două tier-uri. |
Când să alegi fiecare tier (GPT Image 2):
1K— implicit. Folosește pentru postări social, thumbnail-uri, prototipare, preview-uri in-app, orice ≤ 1024 × 1024. Cel mai ieftin; fără probleme de aspect ratio.2K— folosește când clientul are nevoie de un hero web clar, copertă de newsletter, ilustrație in-product la densitate retină. Trebuie să alegi un aspect direcțional (landscape sau portrait).4K— folosește pentru print, out-of-home, bannere, sau orice caz în care utilizatorul cere explicit dimensiunea maximă. Confirmă aspectul cu utilizatorul întâi;1:1/autonu vor funcționa.
Modelele care nu sunt listate ignoră resolution. Pentru familiile video (Seedance, Kling, Sora, P-Video) rezoluția face parte din model_id-ul variantei concrete — pasează varianta (ex. seedance-2-fast-480p, p-video-1080p), nu acest parametru.
Limite caractere prompt:
Unele modele impun o lungime maximă a promptului. Depășirea poate returna eroare sau truncare.
| Model(e) | Caractere max |
|---|---|
| wan-2-5 | 800 |
| kling-2-6 (text-to-video, image-to-video) | 2.500 |
| kling-2-5-image-to-video-pro | 2.500 |
| seedream-v4, seedream-v4-edit | 2.500 |
| seedance-2 (toate variantele) | 2.500 |
| seedream-v4-5, seedream-v4-5-edit | 3.000 |
| gpt-1.5-image-medium, gpt-1.5-image-high | 3.000 |
| nano-banana, imagen-4, sora-2, flux-2, veo3-1, v1-pro-fast-i2v, grok (image/video), p-image-edit | 5.000 |
| nano-banana-pro (toate variantele) | 20.000 |
| nano-banana-2 (toate variantele) | 20.000 |
Altele pot să nu aibă limită documentată sau să folosească valorile implicite ale serverului.
Limite fișiere de intrare (imagini și video):
Pentru image-to-video și image-to-image, source_media_urls este o listă de URL-uri. Majoritatea modelelor acceptă doar imagini (JPEG, PNG, WebP, de obicei 10 MB max per fișier). Unele modele acceptă și intrări video; când acceptă, se aplică limite de format și mărime (ex. MP4, durată max).
| Model(e) | Tip intrare | Limită | Observații |
|---|---|---|---|
| kling-2-6-motion-control-720p, kling-2-6-motion-control-1080p | Imagine + video | 1 imagine + 1 video | Motion Control: video-ul de referință conduce mișcarea. Video max 30 s; fișier video de obicei până la 100 MB (MP4/WebM). |
| kling-3-0-motion-control-720p, kling-3-0-motion-control-1080p | Imagine + video | 1 imagine + 1 video | Kling 3.0 Motion Control: la fel ca Kling 2.6. Facturare pe secundă — vezi tabelul Motion Control mai jos. Video max 30 s; fișier video de obicei până la 100 MB (MP4/WebM). |
| kling-2-6-image-to-video, sora-2 (image-to-video), wan-2-5 (image-to-video), grok-image-to-video, v1-pro-fast-i2v | Doar imagini | 1 imagine | Exact o imagine de intrare. |
| kling-2-5-image-to-video-pro | Doar imagini | 2 imagini | Cadru inițial și final. |
| kling-3-0-std, kling-3-0-pro | Doar imagini | 1–2 imagini | Cadru start, sau start + final. PNG/JPG/JPEG. Suportă elemente (vezi mai jos). |
| seedance-1-5-pro | Doar imagini | Depinde de mod | Text-to-video (generation_type: "text-to-video"): 0–1 imagini opționale. Image-to-video (generation_type: "image-to-video"): exact 2 imagini obligatorii (cadru start + final). |
| seedance-2 (Standard și Fast) | Imagini + video + audio | Depinde de mod | Text-to-video: până la 9 imagini de referință, până la 3 videouri de referință (durata combinată ≤ 15s) și până la 3 clipuri audio de referință (durata combinată ≤ 15s) — toate opționale. Image-to-video: 1 imagine obligatorie (primul frame) + 1 imagine opțională (ultimul frame) + până la 3 clipuri audio opționale; videourile de referință nu sunt permise în acest mod. Pune toate URL-urile în source_media_urls — backend-ul clasifică fiecare URL după extensie (.jpg/.png/.webp → imagine, .mp4/.mov/.webm → video, .mp3/.wav/.m4a → audio). |
| seedream-v4-edit | Doar imagini | 10 | Pentru editare. |
| nano-banana, nano-banana-edit | Doar imagini | 10 | |
| nano-banana-pro (toate variantele) | Doar imagini | 8 | |
| nano-banana-2 (toate variantele) | Doar imagini | 8 | |
| p-image-edit | Doar imagini | 1–8 | P Image Edit (Pruna AI). Doar image-to-image — setează generation_type: "image-to-image". 1–8 URL-uri în source_media_urls. aspect_ratio: auto potrivește prima imagine, sau 1:1, 16:9, 9:16, 4:3, 3:4, 3:2, 2:3. Opțional turbo (implicit activ). Implicit disable_safety_checker: true (moderare oprită); disable_safety_checker: false activează verificarea de siguranță. Opțional seed. |
| flux-2-edit (image-to-image) | Doar imagini | 8 | |
| gpt-1.5-image (image-to-image) | Doar imagini | 16 | |
| veo3-1 (image-to-video / moduri referință) | Doar imagini | 1-3 | Depinde de mod (1 referință opțională text-to-video; 2 cadru inițial+final; 3 referință). |
| sora-2-pro-storyboard | Doar imagini | 1 | Opțional. |
Folosește get_models pentru a confirma input_media_types și capabilitățile pentru un model dat. Vezi Instrumente cont pentru listă modele și prețuri.
Kling 3.0 – elemente (opțional):
Elementele permit referențierea imaginilor sau videoclipurilor în prompt cu @element_name. Trimite kling_elements ca array de obiecte cu name, description și fie element_input_urls (2–4 URL-uri imagine) fie element_input_video_urls (1 URL video). Imaginile de referință pentru fiecare element vin din element_input_urls propriu; image_urls principal poate rămâne gol pentru text-to-video, sau să țină cadre opționale de start/end pentru image-to-video. Fiecare element necesită titlu (name) și descriere. Imagini element: JPG/PNG, min 300×300px, max 10MB fiecare. Video element: MP4/MOV, max 50MB.
Seedance 1.5 Pro – două moduri (verifică generation_type înainte de a folosi imagini):
| Mod | generation_type | source_media_urls | Poate folosi imagini? |
|---|---|---|---|
| Text-to-video | "text-to-video" | Gol sau 1 URL | Opțional: 0–1 imagini. Omite pentru doar text; include 1 URL pentru a anima acea imagine. |
| Image-to-video | "image-to-video" | Exact 2 URL-uri | Obligatoriu: exact 2 imagini (cadru start + cadru final). |
Seedance 2 (ByteDance) – două familii de modele, două moduri, referințe multimodale:
Seedance 2 este livrat pe Kubeez ca două familii de modele separate — seedance-2-fast (ieftin, rapid) și seedance-2 (standard, calitate mai mare). Fiecare familie expune model_ids concrete per rezoluție și combinație cu video de referință; pasează varianta completă (ex. seedance-2-fast-480p, seedance-2-720p-video-ref) — pasarea doar a etichetei de familie întoarce o eroare variant_required cu opțiunile disponibile. Ambele tiere suportă rezoluțiile 480p și 720p (nu există 1080p), durată întreg între 4 și 15 secunde, și aspect ratios 1:1, 4:3, 3:4, 16:9, 9:16, 21:9 și adaptive. Prompt-ul maxim este 2.500 de caractere. Audio-ul se comută prin generate_audio (implicit true) și este gratuit — spre deosebire de Kling 3.0, care aplică un surcharge pentru audio.
Două moduri:
| Mod | Intrări permise | Regulă |
|---|---|---|
| Text-to-video | Până la 9 imagini de referință, până la 3 videouri de referință (durata combinată ≤ 15s), până la 3 clipuri audio de referință (durata combinată ≤ 15s). | Toate referințele sunt opționale. Pune toate URL-urile în source_media_urls; backend-ul clasifică fiecare URL după extensie (.jpg/.png/.webp → imagine, .mp4/.mov/.webm → video, .mp3/.wav/.m4a → audio) și le rutează automat către bucket-ul corect. |
| Image-to-video | 1 imagine obligatorie (primul frame) + 1 imagine opțională (ultimul frame) + până la 3 clipuri audio de referință opționale. | Videourile de referință nu sunt permise în acest mod — vor fi respinse cu o eroare clară. |
Limite stricte (aplicate ca erori 400):
-
3 videouri de referință →
too_many_videos -
3 clipuri audio de referință →
too_many_audios -
9 imagini de referință →
too_many_images - Durata combinată a videourilor de referință > 15s → respinsă
- Durata combinată a clipurilor audio de referință > 15s → respinsă
- Un singur fișier video sau audio de referință mai lung de 15s → respins
Două căi de facturare (important):
Seedance 2 are două formule de cost, alese în funcție de prezența sau absența unui video de referință:
- Fără video de referință:
credits = output_s × rate/s - Cu video de referință (ruta providerului upstream):
undecredits = (ref_s + output_s) × rate/sref_seste suma duratelor tuturor videourilor de referință, limitată la 15 secunde per cerere.
Notă importantă pentru utilizatorii MCP și REST API: Backend-ul nu poate interoga durata unui video de la distanță dintr-un URL, așa că, pentru cererile cu video de referință primite prin MCP sau REST API, facturează cel mai pesimist caz (15 secunde) pentru ref_s. Web UI-ul Kubeez măsoară durata local și facturează valorile exacte. Pentru workflow-uri sensibile la cost cu clipuri de referință scurte, recomandăm să folosești web UI-ul.
Tarife per secundă, în timp real (extrase din catalogul ai_models_config — mereu la zi):
| Model | Name | Rate | Unit |
|---|---|---|---|
| seedance-2-1080p | Seedance 2 (1080p) | 93 | credits / sec |
| seedance-2-1080p-video-ref | Seedance 2 (1080p, video ref) | 65 | credits / sec |
| seedance-2-480p | Seedance 2 (480p) | 18 | credits / sec |
| seedance-2-480p-video-ref | Seedance 2 (480p, video ref) | 13 | credits / sec |
| seedance-2-720p | Seedance 2 (720p) | 40 | credits / sec |
| seedance-2-720p-video-ref | Seedance 2 (720p, video ref) | 29 | credits / sec |
| seedance-2-fast-480p | Seedance 2.0 Fast | 16 | credits / sec |
| seedance-2-fast-480p-video-ref | Seedance 2.0 Fast (video ref) | 12 | credits / sec |
| seedance-2-fast-720p | Seedance 2.0 Fast | 34 | credits / sec |
| seedance-2-fast-720p-video-ref | Seedance 2.0 Fast (video ref) | 24 | credits / sec |
Audio la video (două concepte):
capabilities.video_audioîn get_models — dacă ieșirea are sunet:included— ieșirea include de obicei pistă audio fără parametrulsound(ex. Veo, Sora, Wan, Grok, Kling 2.5 image-to-video, Motion Control).toggle_via_sound_param— audio generat se pornește/oprește cusound: true/false(Kling 2.6, Kling 3.0, Seedance 1.5 Pro, Seedance 2). Pentru Seedance 2 comutatorul este gratuit (implicittrue); pentru celelalte modele prețul poate diferi. Kling 3.0 ruteazăsound: truecătre rânduri dedicate-audioîn catalog — continui să foloseștikling-3-0-std/kling-3-0-proca model id și doar comuțisound; serverul alege rândul cu tariful corect. Tarife în timp real:
| Model | Name | Rate | Unit |
|---|---|---|---|
| kling-3-0-pro | Kling 3.0 Pro | 21 | credits / sec |
| kling-3-0-pro-audio | Kling 3.0 Pro (with audio) | 30 | credits / sec |
| kling-3-0-std | Kling 3.0 | 17 | credits / sec |
| kling-3-0-std-audio | Kling 3.0 Std (with audio) | 23 | credits / sec |
Tarife per secundă de Motion Control (Kling 3.0 și Kling 2.6):
kling-3-0-motion-control,kling-2-6-motion-controlsilent— fără audio generat (doar Seedance 1.0 /v1-pro-fast-i2v).
supports_sound— înseamnă doar că API-ul acceptă comutatorulsoundpentru acel model; nu înseamnă că celelalte modele video sunt fără sunet; majoritatea auvideo_audio: included.
Modelele doar imagine ignoră sound.
#API REST: URL-uri pentru fișiere locale sau din browser
Dacă folosești API-ul HTTP (POST /v1/generate/media) și intrările sunt fișiere pe disc sau selectate în browser—nu URL-uri publice deja—încarcă mai întâi fiecare fișier cu POST /v1/upload/media. Folosește valorile din urls ca source_media_urls.
#get_generation_status
Verifică statusul unei generări media și obține URL-urile de output când e gata.
Parametri:
| Parametru | Tip | Obligatoriu | Descriere |
|---|---|---|---|
| generation_id | string | Da | ID returnat de generate_media. |
Răspuns: Include status (pending, queued, processing, completed, failed), progress și când e finalizat un array outputs cu url, thumbnail_url, optimized_url, media_type, dimensiuni etc.
#get_generation_estimate
Obține un timp estimat de procesare în funcție de parametri pentru un model și opțiuni dat (nu se pornește niciun job). Pentru o durată estimată per model într-un singur apel, folosește get_models; fiecare model include estimated_time_seconds. Folosește get_generation_estimate când ai nevoie de o estimare care depinde de lungimea promptului, durată sau alți parametri.
Parametri:
| Parametru | Tip | Obligatoriu | Descriere |
|---|---|---|---|
| model | string | Da | ID model. |
| generation_type | string | Nu | La fel ca în generate_media. Implicit: text-to-image. |
| prompt | string | Nu | Opțional; poate afecta estimarea. |
| negative_prompt | string | Nu | Opțional. |
| parameters | object | Nu | Parametri suplimentari opționali. |
Răspuns: Timp estimat (și opțional încredere/dimensiune eșantion) pentru a seta așteptările utilizatorului înainte de generate_media.
#Reguli modele
- Text-to-image și text-to-video: Nu trimite
source_media_urls(decât dacă modelul suportă o imagine de referință opțională). Excepție: seedance-1-5-pro în mod text-to-video acceptă 0–1 imagini opționale. - Image-to-video și image-to-image: Trimite URL-uri imagine (și când e suportat, video) în
source_media_urls. Majoritatea modelelor au nevoie doar de imagini; unele (ex. Kling 2.6 Motion Control) necesită 1 imagine + 1 video. seedance-1-5-pro în mod image-to-video necesită exact 2 imagini (cadru start + final). Respectă limitele de intrare ale fiecărui model de mai sus. - Audio video: Folosește
capabilities.video_audiodin get_models.included— audio fără parametrulsound.toggle_via_sound_param— foloseștesounddoar cândsupports_sounde true.silent— fără audio generat (doar Seedance 1.0). Nu deduce „fără audio” doar dinsupports_sound: false. - Folosește get_models pentru a vedea ce modele suportă ce tipuri de generare,
input_media_types(ex. image, video) și numărul necesar de intrări.
Vezi Limitări pentru limite de rată și credite. Pentru un singur tabel cu valorile implicite API (prompt, intrări, durată, flag-uri), vezi Cerințe modele API.
