Tecnología

    Personajes coherentes y vídeos IA más largos con Gemini Omni

    Personajes de vídeo IA coherentes en cada toma: cómo Gemini Omni de Google mantiene fijos rostros, vestuario y física, y cómo encadenar historias más largas de varias tomas en Kubeez.

    3 de junio de 20266 min de lecturaPor Kubeez
    Personajes coherentes y vídeos IA más largos con Gemini Omni

    Personajes coherentes y vídeos IA más largos con Gemini Omni

    Durante dos años, el problema más difícil del vídeo con IA fue fácil de describir y brutal de resolver: el personaje cambiaba cada vez que pulsabas generar. Una primera toma estupenda, luego una segunda con otra cara, otro vestuario, un fondo que ya no encajaba. Gemini Omni de Google está hecho para acabar con eso. Es un modelo de razonamiento que genera vídeo, así que la escena recuerda lo que vino antes, los personajes conservan su rostro, su ropa y sus props entre tomas, y la física se mantiene coherente de un clip al siguiente.

    Como dice Google, "tus personajes se mantienen coherentes, la física se sostiene y la escena recuerda lo que vino antes", y Kubeez ya lo ofrece como gemini-omni-video. Es el modelo que por fin permite a los creadores construir historias de varias tomas, personajes de marca recurrentes y narrativas más largas que de verdad se sostienen.

    Storyboard tipo tira de película con el mismo personaje en cuatro tomas consecutivas, ilustrando la coherencia de personajes en Gemini Omni

    #Por qué la coherencia era el muro (y cómo lo derriba Omni)

    Los modelos de vídeo antiguos trataban cada clip como una isla. No podías llevar a una persona, un vestuario o un prop de una generación a la siguiente sin malabares pesados con imágenes de referencia, e incluso así la identidad se desviaba.

    Gemini Omni funciona distinto porque razona sobre la escena en lugar de regenerarla desde cero. Google lo dice sin rodeos: los personajes se mantienen coherentes, la física se sostiene y la escena recuerda lo que vino antes. Para los creadores cambian tres cosas:

    • La identidad se mantiene entre cortes. Un personaje presentado en una toma conserva su cara, su ropa y su voz en la siguiente, sin volver a cargar la referencia cada vez.
    • La física sigue siendo creíble. El modelo lleva un sentido intuitivo de la gravedad, el impulso y el movimiento de fluidos entre tomas, así que nada se vuelve «raro» entre cortes.
    • La escena tiene memoria. Las continuaciones conversacionales se apoyan en el contexto previo, así que cada nueva instrucción extiende la historia en lugar de reiniciarla.

    #«Vídeos largos», planteado con honestidad

    Seamos precisos, porque importa al planificar un proyecto. En Kubeez, un único clip gemini-omni-video dura hasta 10 segundos (eliges 4s, 6s, 8s o 10s). Omni no genera una sola toma continua de diez minutos.

    Lo que sí te da es mucho más útil para contar historias: tomas coherentes que puedes encadenar en una secuencia más larga. Como la identidad y la física persisten, puedes generar la toma 1, luego la toma 2 con el mismo personaje, luego la toma 3, y el resultado se lee como una narrativa coherente en vez de un montón de clips dispares. Así se construyen igualmente las películas reales: una historia larga es una serie de tomas coherentes, y Omni es el primer modelo ampliamente disponible que mantiene el personaje fijo en todas.

    Dos mecanismos de Kubeez lo hacen práctico:

    1. Personajes guardados. Define un personaje una sola vez y reutilízalo entre generaciones, para que tu protagonista (o mascota de marca) aparezca idéntico en cada toma nueva.
    2. Referencia de vídeo de entrada. Reintroduce un clip previo como referencia para continuar la acción, igualando el movimiento y el aspecto de la toma anterior.

    Mascota robot de marca en tres poses consecutivas dentro de una secuencia encadenada, demostrando el bloqueo de identidad en Gemini Omni

    #Qué incluye Gemini Omni en Kubeez

    Esto es exactamente lo que obtienes al elegir gemini-omni-video en el espacio de trabajo de vídeo de Kubeez, sin conjeturas:

    • Variantes HD y 4K. Usa HD para iteración rápida y social, o sube a 4K cuando el clip deba ser de calificación final.
    • Clips de hasta 10 segundos. Eliges 4s, 6s, 8s o 10s por generación.
    • Texto a vídeo, imagen a vídeo y vídeo a vídeo. Empiezas desde un prompt, un fotograma o un clip previo.
    • Hasta siete imágenes de referencia y una referencia de vídeo. Bloquea un personaje, un estilo o un producto con varios fotogramas, o entrégale un vídeo para que continúe.
    • Audio incluido con voces nombradas. Las líneas llegan sincronizadas con la imagen, sin una tubería de audio aparte.
    • Relación de aspecto 16:9 o 9:16. Horizontal para YouTube y la web, vertical para Shorts, Reels y TikTok.

    Como Omni razona entre turnos, también puedes refinar sin perder el hilo: cambia el entorno, el ángulo de cámara, el estilo o un detalle concreto, y el personaje y la continuidad se mantienen.

    #Un flujo sencillo de varias tomas

    Esta es una forma repetible de construir una secuencia corta y coherente en Kubeez:

    1. Abre Generación de vídeo y selecciona Gemini Omni Video.
    2. Establece a tu protagonista: escribe un prompt detallado (o adjunta fotogramas de referencia), elige 16:9 o 9:16, elige HD o 4K y fija el clip en 10s. Guarda el personaje para poder reutilizarlo.
    3. Genera la toma de apertura y revisa el aspecto, el movimiento y la voz.
    4. Para la siguiente toma, reutiliza el personaje guardado (o reintroduce el primer clip como referencia de vídeo) y prompea el nuevo momento: otro ángulo, otra ubicación, la siguiente línea de diálogo.
    5. Repite por cada momento y luego ensambla las tomas en tu secuencia final.
    6. Añade subtítulos para social con Auto Captions antes de publicar.

    Para un recorrido más a fondo de la edición conversacional y los turnos de refinamiento de Omni, consulta nuestra guía de edición de vídeo Gemini Omni. Si quieres comparar Omni con el buque insignia cinematográfico de Google, la guía de Veo 3.1 es un buen complemento, y aquí ves todos los modelos en un solo lugar.

    #Para quién es

    • Equipos de marca y social que quieren una mascota o portavoz recurrente, idéntico en cada vídeo.
    • Cineastas y narradores que construyen narrativas de varias tomas donde el protagonista debe seguir siendo la misma persona de escena en escena.
    • Marketers que producen sets de campaña, donde la coherencia entre muchos clips cortos marca la diferencia entre una serie pulida y un revoltijo aleatorio.

    #Resumen rápido

    • Gemini Omni mantiene coherentes a los personajes, los props y la física entre tomas: la escena recuerda lo que vino antes, en lugar de reiniciarse en cada generación.
    • En Kubeez se entrega como gemini-omni-video: HD y 4K, clips de hasta 10s, entrada de texto/imagen/vídeo, hasta siete imágenes de referencia y audio incluido.
    • «Vídeos largos» significa encadenar tomas coherentes con personajes guardados y referencias de vídeo, no una sola toma interminable, y así es exactamente como se construyen las narrativas potentes.

    Abre la generación de vídeo en Kubeez y construye tu primera secuencia coherente de varias tomas con Gemini Omni.

    Ver también