Instrumente media

    Generează imagini și videoclipuri cu peste 40 de modele AI. Apelează întotdeauna get_models mai întâi pentru a vedea modelele disponibile, costurile și dacă un model necesită o imagine de intrare.

    Clienți REST HTTP: aceleași limite sunt centralizate în Cerințe modele API (în engleză) și în răspunsul GET /v1/models per model.

    #generate_media

    Pornește o generare de imagine sau video.

    Parametri:

    ParametruTipObligatoriuDescriere
    promptstringDaCe să genereze (ex. „Mașină roșie pe un drum de munte”).
    modelstringDaID model (de la get_models). Exemple: nano-banana, sora-2, kling-2-6-image-to-video.
    generation_typestringNutext-to-image, text-to-video, image-to-video sau image-to-image. Implicit: text-to-image.
    negative_promptstringNuCe să evite în output.
    source_media_urlsstring sau arrayNuObligatoriu pentru image-to-video și image-to-image. URL-uri către imagine(i), sau pentru unele modele (ex. Kling 2.6 Motion) imagine + video. Vezi limitele de intrare mai jos. Omitere pentru text-to-image și text-to-video.
    aspect_ratiostringNuex. 1:1, 16:9, 9:16, 4:5, 21:9. Implicit: 1:1. Notă: fiecare model acceptă doar un subset — get_models returnează lista permisă.
    durationstringNuDurata video. Doar anumite modele video o folosesc. Vezi mai jos.
    qualitystringNuex. fast, standard, pro, ultra. Implicit: standard.
    resolutionstringNuTier-ul de rezoluție de ieșire. Doar anumite modele imagine îl folosescgpt-image-2 (1K/2K/4K), nano-banana-pro/nano-banana-2 (1K/2K/4K), flux-2 (1K/2K). Fiecare tier este un SKU de preț separat; get_models returnează costul în credite per tier. Ignorat de modele unde rezoluția e codificată în model_id-ul variantei (Seedance, Kling, Sora, P-Video). Vezi tabelul Tiere de rezoluție mai jos pentru constrângerile pe fiecare model.
    soundbooleanNuCând true, solicită video cu audio generat. Doar anumite modele video. Implicit: false. Vezi mai jos.
    seednumberNuSeed pentru rezultate reproductibile.

    Exemplu (text-to-image):

    {
      "prompt": "Un oraș futurist la apus cu mașini zburătoare",
      "model": "nano-banana",
      "generation_type": "text-to-image",
      "aspect_ratio": "16:9",
      "quality": "pro"
    }
    

    Exemplu (image-to-video, o imagine de intrare):

    {
      "prompt": "Mișcare blândă și subtilă",
      "model": "kling-2-6-image-to-video",
      "generation_type": "image-to-video",
      "source_media_urls": ["https://example.com/your-image.jpg"],
      "aspect_ratio": "16:9",
      "duration": "5s"
    }
    

    Răspuns: Include generation_id, status (ex. pending) și adesea estimated_time_seconds și estimated_cost_credits. Interoghează cu get_generation_status până când status este completed sau failed.

    Modele care suportă duration:

    Model(e)Valori suportateObservații
    kling-2-6-text-to-video, kling-2-6-image-to-video5s, 10sOpțional cu/fără audio (variantă model).
    wan-2-5 (text-to-video, image-to-video)5s, 10s
    v1-pro-fast-i2v5s, 10s
    seedance-1-5-pro4s, 8s, 12sSuportă text-to-video (0–1 imagine opțional) și image-to-video (2 imagini obligatorii).
    seedance-2 (Standard) / seedance-2-fast (Fast)întreg 415 secundeTier-ul este chiar familia de model — folosește seedance-2-fast pentru tier-ul ieftin și rapid, seedance-2 pentru cel de calitate mai înaltă. Fiecare familie expune model_ids concrete per rezoluție și combinație cu video de referință (ex. seedance-2-fast-480p, seedance-2-480p-video-ref). Pasează variantele complete la generate_media; o etichetă de familie singură întoarce o eroare variant_required cu opțiunile. Referințe multimodale (imagini/videouri/audio) în text-to-video; keyframe în image-to-video. Facturarea se modifică când trimiți video de referință — vezi secțiunea Seedance 2.
    sora-2, sora-2-pro (text-to-video, image-to-video)10s, 15s
    sora-2-pro-storyboard10s, 15s, 25sBazat pe scene; durata din planuri.
    grok-text-to-video-6s6s fixParametrul duration este ignorat.
    grok-image-to-video, kling-2-5-image-to-video-pro, veo3-1NeconfigurabilDurata nu se setează prin acest parametru.

    Pentru modele doar imagine, duration este ignorat.

    Modele care suportă negative_prompt:

    Model(e)Observații
    imagen-4, imagen-4-fast, imagen-4-ultraText-to-image.
    wan-2-5 (text-to-video, image-to-video)
    kling-2-5-image-to-video-pro

    Celelalte modele ignoră negative_prompt.

    Modele care suportă quality (sau echivalent):

    Model(e)Cum funcționeazăValori
    sora-2-pro (text-to-video, image-to-video)Mapat la size (standard vs HD).standard, pro/high/hd (pentru HD).
    imagen-4 varianteMapat la model_variant.standard, fast, ultra (folosește quality: standard / fast / ultra).
    seedream-v4, seedream-v4-editRezoluție prin parametrul quality.1K (implicit), 2K, 4K.
    seedream-v4-5, seedream-v4-5-editFolosește quality direct.basic (2K, implicit), high (4K).
    5-lite-text-to-image, 5-lite-image-to-imageFolosește quality direct.basic (2K, implicit), high (4K).
    veo3-1 vs veo3-1-fastID-uri de model diferite, nu un singur parametru quality.Folosește model veo3-1 (calitate) sau veo3-1-fast (viteză).
    flux-2, nano-banana-pro, nano-banana-2Rezoluție (1K/2K/4K), nu un string generic „quality”.Pasează prin parametrul dedicat resolution — vezi mai jos.
    gpt-image-2 (t2i + i2i)Rezoluție prin parametrul resolution.Vezi Tiere de rezoluție mai jos.

    Pentru celelalte modele, quality este ignorat.

    <a id="tiere-rezolutie"></a>

    Tiere de rezoluție (parametrul resolution):

    ModelValoriPrețConstrângere
    gpt-image-2 (t2i + i2i)1K (implicit), 2K, 4K11 / 15 / 21 credite2K și 4K necesită un aspect_ratio explicit, non-pătrat, non-auto — unul dintre 9:16, 16:9, 4:3, 3:4. Apelarea 2K/4K cu aspect_ratio=auto sau aspect_ratio=1:1 returnează HTTP 400 (error: "aspect_ratio_incompatible_with_high_res") și creditele NU sunt reținute. 1K acceptă toate raporturile inclusiv auto/1:1.
    nano-banana-21K (implicit), 2K, 4KVezi get_modelsFiecare tier este un SKU de preț separat. Lista aspect_ratio neschimbată între tier-uri.
    nano-banana-pro1K (implicit), 2K, 4KVezi get_modelsAcelași pattern ca nano-banana-2.
    flux-2, flux-2-edit1K (implicit), 2KVezi get_modelsDoar două tier-uri.

    Când să alegi fiecare tier (GPT Image 2):

    • 1K — implicit. Folosește pentru postări social, thumbnail-uri, prototipare, preview-uri in-app, orice ≤ 1024 × 1024. Cel mai ieftin; fără probleme de aspect ratio.
    • 2K — folosește când clientul are nevoie de un hero web clar, copertă de newsletter, ilustrație in-product la densitate retină. Trebuie să alegi un aspect direcțional (landscape sau portrait).
    • 4K — folosește pentru print, out-of-home, bannere, sau orice caz în care utilizatorul cere explicit dimensiunea maximă. Confirmă aspectul cu utilizatorul întâi; 1:1 / auto nu vor funcționa.

    Modelele care nu sunt listate ignoră resolution. Pentru familiile video (Seedance, Kling, Sora, P-Video) rezoluția face parte din model_id-ul variantei concrete — pasează varianta (ex. seedance-2-fast-480p, p-video-1080p), nu acest parametru.

    Limite caractere prompt:

    Unele modele impun o lungime maximă a promptului. Depășirea poate returna eroare sau truncare.

    Model(e)Caractere max
    wan-2-5800
    kling-2-6 (text-to-video, image-to-video)2.500
    kling-2-5-image-to-video-pro2.500
    seedream-v4, seedream-v4-edit2.500
    seedance-2 (toate variantele)2.500
    seedream-v4-5, seedream-v4-5-edit3.000
    gpt-1.5-image-medium, gpt-1.5-image-high3.000
    nano-banana, imagen-4, sora-2, flux-2, veo3-1, v1-pro-fast-i2v, grok (image/video), p-image-edit5.000
    nano-banana-pro (toate variantele)20.000
    nano-banana-2 (toate variantele)20.000

    Altele pot să nu aibă limită documentată sau să folosească valorile implicite ale serverului.

    Limite fișiere de intrare (imagini și video):

    Pentru image-to-video și image-to-image, source_media_urls este o listă de URL-uri. Majoritatea modelelor acceptă doar imagini (JPEG, PNG, WebP, de obicei 10 MB max per fișier). Unele modele acceptă și intrări video; când acceptă, se aplică limite de format și mărime (ex. MP4, durată max).

    Model(e)Tip intrareLimităObservații
    kling-2-6-motion-control-720p, kling-2-6-motion-control-1080pImagine + video1 imagine + 1 videoMotion Control: video-ul de referință conduce mișcarea. Video max 30 s; fișier video de obicei până la 100 MB (MP4/WebM).
    kling-3-0-motion-control-720p, kling-3-0-motion-control-1080pImagine + video1 imagine + 1 videoKling 3.0 Motion Control: la fel ca Kling 2.6. Facturare pe secundă — vezi tabelul Motion Control mai jos. Video max 30 s; fișier video de obicei până la 100 MB (MP4/WebM).
    kling-2-6-image-to-video, sora-2 (image-to-video), wan-2-5 (image-to-video), grok-image-to-video, v1-pro-fast-i2vDoar imagini1 imagineExact o imagine de intrare.
    kling-2-5-image-to-video-proDoar imagini2 imaginiCadru inițial și final.
    kling-3-0-std, kling-3-0-proDoar imagini1–2 imaginiCadru start, sau start + final. PNG/JPG/JPEG. Suportă elemente (vezi mai jos).
    seedance-1-5-proDoar imaginiDepinde de modText-to-video (generation_type: "text-to-video"): 0–1 imagini opționale. Image-to-video (generation_type: "image-to-video"): exact 2 imagini obligatorii (cadru start + final).
    seedance-2 (Standard și Fast)Imagini + video + audioDepinde de modText-to-video: până la 9 imagini de referință, până la 3 videouri de referință (durata combinată ≤ 15s) și până la 3 clipuri audio de referință (durata combinată ≤ 15s) — toate opționale. Image-to-video: 1 imagine obligatorie (primul frame) + 1 imagine opțională (ultimul frame) + până la 3 clipuri audio opționale; videourile de referință nu sunt permise în acest mod. Pune toate URL-urile în source_media_urls — backend-ul clasifică fiecare URL după extensie (.jpg/.png/.webp → imagine, .mp4/.mov/.webm → video, .mp3/.wav/.m4a → audio).
    seedream-v4-editDoar imagini10Pentru editare.
    nano-banana, nano-banana-editDoar imagini10
    nano-banana-pro (toate variantele)Doar imagini8
    nano-banana-2 (toate variantele)Doar imagini8
    p-image-editDoar imagini1–8P Image Edit (Pruna AI). Doar image-to-image — setează generation_type: "image-to-image". 1–8 URL-uri în source_media_urls. aspect_ratio: auto potrivește prima imagine, sau 1:1, 16:9, 9:16, 4:3, 3:4, 3:2, 2:3. Opțional turbo (implicit activ). Implicit disable_safety_checker: true (moderare oprită); disable_safety_checker: false activează verificarea de siguranță. Opțional seed.
    flux-2-edit (image-to-image)Doar imagini8
    gpt-1.5-image (image-to-image)Doar imagini16
    veo3-1 (image-to-video / moduri referință)Doar imagini1-3Depinde de mod (1 referință opțională text-to-video; 2 cadru inițial+final; 3 referință).
    sora-2-pro-storyboardDoar imagini1Opțional.

    Folosește get_models pentru a confirma input_media_types și capabilitățile pentru un model dat. Vezi Instrumente cont pentru listă modele și prețuri.

    Kling 3.0 – elemente (opțional):

    Elementele permit referențierea imaginilor sau videoclipurilor în prompt cu @element_name. Trimite kling_elements ca array de obiecte cu name, description și fie element_input_urls (2–4 URL-uri imagine) fie element_input_video_urls (1 URL video). Imaginile de referință pentru fiecare element vin din element_input_urls propriu; image_urls principal poate rămâne gol pentru text-to-video, sau să țină cadre opționale de start/end pentru image-to-video. Fiecare element necesită titlu (name) și descriere. Imagini element: JPG/PNG, min 300×300px, max 10MB fiecare. Video element: MP4/MOV, max 50MB.

    Seedance 1.5 Pro – două moduri (verifică generation_type înainte de a folosi imagini):

    Modgeneration_typesource_media_urlsPoate folosi imagini?
    Text-to-video"text-to-video"Gol sau 1 URLOpțional: 0–1 imagini. Omite pentru doar text; include 1 URL pentru a anima acea imagine.
    Image-to-video"image-to-video"Exact 2 URL-uriObligatoriu: exact 2 imagini (cadru start + cadru final).

    Seedance 2 (ByteDance) – două familii de modele, două moduri, referințe multimodale:

    Seedance 2 este livrat pe Kubeez ca două familii de modele separateseedance-2-fast (ieftin, rapid) și seedance-2 (standard, calitate mai mare). Fiecare familie expune model_ids concrete per rezoluție și combinație cu video de referință; pasează varianta completă (ex. seedance-2-fast-480p, seedance-2-720p-video-ref) — pasarea doar a etichetei de familie întoarce o eroare variant_required cu opțiunile disponibile. Ambele tiere suportă rezoluțiile 480p și 720p (nu există 1080p), durată întreg între 4 și 15 secunde, și aspect ratios 1:1, 4:3, 3:4, 16:9, 9:16, 21:9 și adaptive. Prompt-ul maxim este 2.500 de caractere. Audio-ul se comută prin generate_audio (implicit true) și este gratuit — spre deosebire de Kling 3.0, care aplică un surcharge pentru audio.

    Două moduri:

    ModIntrări permiseRegulă
    Text-to-videoPână la 9 imagini de referință, până la 3 videouri de referință (durata combinată ≤ 15s), până la 3 clipuri audio de referință (durata combinată ≤ 15s).Toate referințele sunt opționale. Pune toate URL-urile în source_media_urls; backend-ul clasifică fiecare URL după extensie (.jpg/.png/.webp → imagine, .mp4/.mov/.webm → video, .mp3/.wav/.m4a → audio) și le rutează automat către bucket-ul corect.
    Image-to-video1 imagine obligatorie (primul frame) + 1 imagine opțională (ultimul frame) + până la 3 clipuri audio de referință opționale.Videourile de referință nu sunt permise în acest mod — vor fi respinse cu o eroare clară.

    Limite stricte (aplicate ca erori 400):

    • 3 videouri de referință → too_many_videos

    • 3 clipuri audio de referință → too_many_audios

    • 9 imagini de referință → too_many_images

    • Durata combinată a videourilor de referință > 15s → respinsă
    • Durata combinată a clipurilor audio de referință > 15s → respinsă
    • Un singur fișier video sau audio de referință mai lung de 15s → respins

    Două căi de facturare (important):

    Seedance 2 are două formule de cost, alese în funcție de prezența sau absența unui video de referință:

    • Fără video de referință:
      credits = output_s × rate/s
      
    • Cu video de referință (ruta providerului upstream):
      credits = (ref_s + output_s) × rate/s
      
      unde ref_s este suma duratelor tuturor videourilor de referință, limitată la 15 secunde per cerere.

    Notă importantă pentru utilizatorii MCP și REST API: Backend-ul nu poate interoga durata unui video de la distanță dintr-un URL, așa că, pentru cererile cu video de referință primite prin MCP sau REST API, facturează cel mai pesimist caz (15 secunde) pentru ref_s. Web UI-ul Kubeez măsoară durata local și facturează valorile exacte. Pentru workflow-uri sensibile la cost cu clipuri de referință scurte, recomandăm să folosești web UI-ul.

    Tarife per secundă, în timp real (extrase din catalogul ai_models_config — mereu la zi):

    ModelNameRateUnit
    seedance-2-1080pSeedance 2 (1080p)93credits / sec
    seedance-2-1080p-video-refSeedance 2 (1080p, video ref)65credits / sec
    seedance-2-480pSeedance 2 (480p)18credits / sec
    seedance-2-480p-video-refSeedance 2 (480p, video ref)13credits / sec
    seedance-2-720pSeedance 2 (720p)40credits / sec
    seedance-2-720p-video-refSeedance 2 (720p, video ref)29credits / sec
    seedance-2-fast-480pSeedance 2.0 Fast16credits / sec
    seedance-2-fast-480p-video-refSeedance 2.0 Fast (video ref)12credits / sec
    seedance-2-fast-720pSeedance 2.0 Fast34credits / sec
    seedance-2-fast-720p-video-refSeedance 2.0 Fast (video ref)24credits / sec

    Audio la video (două concepte):

    1. capabilities.video_audio în get_models — dacă ieșirea are sunet:
      • included — ieșirea include de obicei pistă audio fără parametrul sound (ex. Veo, Sora, Wan, Grok, Kling 2.5 image-to-video, Motion Control).
      • toggle_via_sound_param — audio generat se pornește/oprește cu sound: true / false (Kling 2.6, Kling 3.0, Seedance 1.5 Pro, Seedance 2). Pentru Seedance 2 comutatorul este gratuit (implicit true); pentru celelalte modele prețul poate diferi. Kling 3.0 rutează sound: true către rânduri dedicate -audio în catalog — continui să folosești kling-3-0-std / kling-3-0-pro ca model id și doar comuți sound; serverul alege rândul cu tariful corect. Tarife în timp real:
    ModelNameRateUnit
    kling-3-0-proKling 3.0 Pro21credits / sec
    kling-3-0-pro-audioKling 3.0 Pro (with audio)30credits / sec
    kling-3-0-stdKling 3.017credits / sec
    kling-3-0-std-audioKling 3.0 Std (with audio)23credits / sec

    Tarife per secundă de Motion Control (Kling 3.0 și Kling 2.6):

    No models matched this family. kling-3-0-motion-control,kling-2-6-motion-control
    • silent — fără audio generat (doar Seedance 1.0 / v1-pro-fast-i2v).
    1. supports_sound — înseamnă doar că API-ul acceptă comutatorul sound pentru acel model; nu înseamnă că celelalte modele video sunt fără sunet; majoritatea au video_audio: included.

    Modelele doar imagine ignoră sound.

    #API REST: URL-uri pentru fișiere locale sau din browser

    Dacă folosești API-ul HTTP (POST /v1/generate/media) și intrările sunt fișiere pe disc sau selectate în browser—nu URL-uri publice deja—încarcă mai întâi fiecare fișier cu POST /v1/upload/media. Folosește valorile din urls ca source_media_urls.


    #get_generation_status

    Verifică statusul unei generări media și obține URL-urile de output când e gata.

    Parametri:

    ParametruTipObligatoriuDescriere
    generation_idstringDaID returnat de generate_media.

    Răspuns: Include status (pending, queued, processing, completed, failed), progress și când e finalizat un array outputs cu url, thumbnail_url, optimized_url, media_type, dimensiuni etc.


    #get_generation_estimate

    Obține un timp estimat de procesare în funcție de parametri pentru un model și opțiuni dat (nu se pornește niciun job). Pentru o durată estimată per model într-un singur apel, folosește get_models; fiecare model include estimated_time_seconds. Folosește get_generation_estimate când ai nevoie de o estimare care depinde de lungimea promptului, durată sau alți parametri.

    Parametri:

    ParametruTipObligatoriuDescriere
    modelstringDaID model.
    generation_typestringNuLa fel ca în generate_media. Implicit: text-to-image.
    promptstringNuOpțional; poate afecta estimarea.
    negative_promptstringNuOpțional.
    parametersobjectNuParametri suplimentari opționali.

    Răspuns: Timp estimat (și opțional încredere/dimensiune eșantion) pentru a seta așteptările utilizatorului înainte de generate_media.


    #Reguli modele

    • Text-to-image și text-to-video: Nu trimite source_media_urls (decât dacă modelul suportă o imagine de referință opțională). Excepție: seedance-1-5-pro în mod text-to-video acceptă 0–1 imagini opționale.
    • Image-to-video și image-to-image: Trimite URL-uri imagine (și când e suportat, video) în source_media_urls. Majoritatea modelelor au nevoie doar de imagini; unele (ex. Kling 2.6 Motion Control) necesită 1 imagine + 1 video. seedance-1-5-pro în mod image-to-video necesită exact 2 imagini (cadru start + final). Respectă limitele de intrare ale fiecărui model de mai sus.
    • Audio video: Folosește capabilities.video_audio din get_models. included — audio fără parametrul sound. toggle_via_sound_param — folosește sound doar când supports_sound e true. silent — fără audio generat (doar Seedance 1.0). Nu deduce „fără audio” doar din supports_sound: false.
    • Folosește get_models pentru a vedea ce modele suportă ce tipuri de generare, input_media_types (ex. image, video) și numărul necesar de intrări.

    Vezi Limitări pentru limite de rată și credite. Pentru un singur tabel cu valorile implicite API (prompt, intrări, durată, flag-uri), vezi Cerințe modele API.