Tecnología

    Gemini Omni: cómo editar videos con IA solo conversando

    Gemini Omni te permite editar videos con IA conversando: describe un cambio en lenguaje natural y el modelo de Google reescribe el clip y conserva el resto.

    3 de junio de 20267 min de lecturaPor Kubeez
    Gemini Omni: cómo editar videos con IA solo conversando

    Gemini Omni: cómo editar videos con IA solo conversando

    Durante años, editar un clip implicó líneas de tiempo, fotogramas clave y máscaras. Gemini Omni de Google le da la vuelta a esa idea: describes el cambio que quieres en lenguaje natural ("haz la luz más cálida", "cambia la chaqueta por un abrigo color camello", "convierte la calle en un día de otoño") y el modelo reescribe el video manteniendo todo lo demás intacto. Esta guía explica qué es Gemini Omni, cómo funciona realmente la edición de video conversacional y cómo ejecutarlo hoy en Kubeez como el modelo gemini-omni-video.

    Editor de video en su escritorio al anochecer, monitor con una línea de tiempo y un panel de chat que dice "haz la luz más cálida", foto editorial sobre la edición de video con IA Gemini Omni

    #¿Qué es Gemini Omni?

    Gemini Omni es el modelo de generación multimodal de Google, anunciado en Google I/O el 19 de mayo de 2026. DeepMind lo describe como un modelo que puede "crear cualquier cosa a partir de cualquier entrada, empezando por el video". La primera variante, Gemini Omni Flash, estuvo disponible esa misma semana.

    Lo que lo diferencia de los generadores de video anteriores es la capa de edición. La mayoría de los modelos generan un clip nuevo a partir de un prompt. Gemini Omni puede tomar un video existente y aplicar cambios precisos mediante conversación, igual que hablarías con un editor humano. Por debajo, Google fusiona varios de sus sistemas más potentes:

    • El razonamiento de Gemini, para entender qué quieres decir realmente con una instrucción.
    • El renderizado de Veo, para movimiento cinematográfico y fotogramas verosímiles.
    • La simulación de mundo de Genie, para una consistencia consciente de la física (gravedad, fluidos, cómo se mueven los objetos).
    • La edición de imágenes de Nano Banana, para cambios precisos y quirúrgicos que preservan el resto del fotograma.

    Muchos lo han llamado "el momento Nano Banana para el video": edición conversacional que por fin se siente tan natural como las ediciones de imagen por chat que volvieron viral a Nano Banana.

    #Cómo funciona la edición de video conversacional

    La idea central es cambia una cosa, conserva el resto. En lugar de regenerar desde cero (y perder tu composición, tu sujeto y tu encuadre), das una instrucción y el modelo edita en el sitio. Los prompts típicos se ven así:

    • "Haz la luz más cálida y ralentiza los últimos 2 segundos."
    • "Cambia la ropa del personaje por un abrigo de lana color camello, mantén la pose."
    • "Cambia el fondo por una calle de noche lluviosa."
    • "La gente se ve demasiado rígida, haz el movimiento más natural."

    Como el modelo sigue tu escena original entre turnos, puedes refinar a lo largo de varias ediciones sin perder el hilo. Cambias el entorno, luego el vestuario, luego el ángulo de cámara, y el sujeto se mantiene consistente todo el tiempo. Esa consistencia del personaje junto con el movimiento consciente de la física es justo lo que separa una edición creíble de un re-render de IA evidente.

    Fotograma dividido antes y después de la misma mujer en una cafetería, izquierda luz gris plana, derecha luz cálida de atardecer con abrigo camello, ilustrando la edición de video conversacional de Gemini Omni

    #Gemini Omni en Kubeez: lo que realmente obtienes

    Kubeez ofrece Gemini Omni como gemini-omni-video, disponible ahora mismo en el espacio de trabajo de video. Esto es lo que admite el modelo, según sus capacidades en vivo:

    • Dos niveles de calidad: HD y 4K. HD cubre salida a 720p y 1080p; 4K es el nivel de alta fidelidad. El nivel HD cuesta menos que 4K, así que usa HD para borradores y trabajo de gran volumen, y sube a 4K cuando el clip es final y el detalle importa.
    • Duraciones de 4, 6, 8 o 10 segundos, seleccionadas por variante (por ejemplo HD 4s o 4K 10s).
    • Tres flujos: texto a video, imagen a video y video a video. La vía de video a video es donde vive la edición conversacional.
    • Edición con referencia de video. Añades un clip de origen y el modelo lo usa como referencia conductora, aplicando tu edición y preservando el movimiento y el ritmo originales.
    • Hasta 7 imágenes de referencia para fijar un personaje o un estilo, más 1 referencia de video. La referencia de video es la que impulsa el flujo de "edita mi clip existente".
    • Relaciones de aspecto 16:9 y 9:16, así que puedes producir horizontal y vertical desde la misma idea.
    • Audio integrado con un conjunto de voces de narración con nombre, de modo que la salida hablada viene directamente en el render, sin un paso de audio aparte.

    ¿Quieres la visión general más a fondo del modelo? Consulta el análisis del modelo Gemini Omni.

    #Pruébalo en Kubeez ahora mismo

    1. Abre Generación de video (inicia sesión si se te solicita).
    2. Elige la tarjeta de modelo Gemini Omni Video.
    3. Elige tu nivel y duración: una variante HD (4s, 6s, 8s o 10s) para borradores rápidos y económicos, o una variante 4K cuando necesites máxima fidelidad.
    4. Configura la relación de aspecto (16:9 para horizontal o 9:16 para vertical).
    5. Para editar un clip existente, adjúntalo como referencia de video y luego escribe tu instrucción de edición en lenguaje natural ("cambia el cielo de día por un atardecer, mantén el sujeto y el movimiento"). Para generar desde cero, escribe un prompt de texto, añadiendo opcionalmente hasta 7 imágenes de referencia para fijar un personaje o un estilo.
    6. Genera, revisa y refina. Como las ediciones son conversacionales, modifica una sola cosa por vez hasta que el clip quede bien.

    Cuando publiques en redes sociales, dale el toque final al resultado con Auto Captions para subtítulos accesibles que detienen el scroll.

    Creador de contenido en una estación de dos monitores revisando el mismo clip en 9:16 y 16:9, foto editorial estilo Kinfolk para una sola fuente en varios formatos con Gemini Omni

    #Dónde encaja Gemini Omni en la gama de Kubeez

    Gemini Omni es el modelo al que recurrir cuando la tarea es editar: tienes material grabado (o un clip generado) y necesitas cambiar la escena, la luz, el vestuario o el fondo manteniendo intacto al sujeto. Para generación pura, el resto de la gama de Kubeez sigue brillando:

    La ventaja de ejecutar Gemini Omni en Kubeez es que la edición y la generación conviven: generas un clip base con un modelo y luego lo editas conversacionalmente con otro, sin salir del espacio de trabajo.

    #Conclusión rápida

    • Gemini Omni es el modelo de video conversacional de Google: describes un cambio en lenguaje natural y él edita el clip manteniendo todo lo demás intacto.
    • Fusiona el razonamiento de Gemini, el renderizado de Veo, la simulación de mundo de Genie y la edición de Nano Banana para resultados consistentes y conscientes de la física.
    • Kubeez lo ofrece como gemini-omni-video con niveles HD y 4K, duraciones de 4 a 10 segundos, flujos de texto, imagen y video a video, edición con referencia de video, hasta 7 imágenes de referencia, 16:9 y 9:16, y voces de narración integradas.
    • El nivel HD cuesta menos que 4K, así que trabaja los borradores en HD y finaliza en 4K.

    Abre la generación de video en Kubeez y edita tu próximo clip solo conversando.

    Ver también