Zeroscope es una innovadora tecnología de inteligencia artificial (IA) que convierte el texto en vídeos. Lo más sorprendente es que esta herramienta es completamente gratuita.
Deriva de Modelscope, un modelo de difusión de texto a vídeo con más de 1.7 millones de parámetros y varios niveles. Puedes probarlo aquí.
Sin embargo. a diferencia de su predecesor, Zeroscope ofrece una mayor resolución y una relación de aspecto más cercana a 16:9, sin la marca de agua de Shutterstock.
✚ ¿Cómo funciona Zeroscope?
Zeroscope se compone de dos partes principales. La primera, Zeroscope_v2 567w, está diseñada para la creación rápida de contenido en una resolución de 576×320 píxeles, permitiendo a los usuarios explorar conceptos de vídeo de manera eficiente.
La segunda parte, Zeroscope_v2 XL, se utiliza para mejorar la calidad de los vídeos a una resolución mas alta de 1024×576. Este componente es ideal para aquellos que buscan producir vídeos de alta calidad.
✚ Requerimientos de hardware
Una de las novedades más interesantes de Zeroscope son los recursos necesarios para que pueda funcionar correctamente.
Para la generación de vídeo, el modelo necesita 7.9 GB de VRam para una resolución de 576×320 píxeles y 15.3 GB de VRam para una resolución de 1024×576 píxeles, ambas a una tasa de 30 fotogramas por segundo.
Esto significa que el modelo más pequeño puede funcionar en muchas tarjetas gráficas estándar sin mayor problema.
✚ ¿Cómo se entrena?
El entrenamiento de Zeroscope es un proceso único que implica la aplicación de ruido de desplazamiento a miles de clips y fotogramas.
Este ruido puede incluir cambios aleatorios en los objetos dentro de los fotogramas de vídeo, alteraciones en los tiempos de los fotogramas o distorsiones menores.
Gracias a este proceso de entrenamiento, Zeroscope puede entender mejor la distribución de los datos, lo que resulta en la generación de vídeos más realistas y una interpretación más efectiva de las variaciones en las descripciones de texto.
✚ Zeroscope VS Gen-2
Zeroscope no es la única tecnología de su tipo en el mercado, aunque según su desarrollador, “Cerspense”, está diseñado para competir con Gen-2, el modelo comercial de texto a vídeo ofrecido por Runway ML.
Sin embargo, a diferencia de Gen-2, Zeroscope es completamente gratuito para uso público, lo cual permitirá que se desarrolle más rápido.
De hecho, ya se encuentra disponible para su descarga gratuita en Hugging Face, donde también se ofrecen instrucciones sobre cómo usarlo:
Además, hay una versión de Zeroscope en Colab que incluye un tutorial. Puedes acceder a ella desde aquí:
✚ El futuro de la tecnología de texto a vídeo
La tecnología de texto a vídeo está todavía en sus primeras etapas, pero está avanzando rápidamente. Aunque los clips generados por IA todavía tienen margen de mejora, el progreso en este campo es prometedor.
Al igual que los modelos de IA de imagen, que lograron el fotorealismo en cuestión de meses, se espera que la tecnología de texto a vídeo siga un camino similar.
Sin embargo, la generación de vídeo es un proceso más intensivo en recursos, tanto en términos de entrenamiento como de generación.
Empresas como Google ya han presentado modelos de texto a vídeo capaces de generar clips de alta resolución y lógicamente coherentes, aunque aún no se han lanzado.
Actualmente, el único modelo comercialmente disponible es Gen-2 de Runway, que ya está disponible en iPhone. Sin embargo, con la llegada de Zeroscope, se abre la puerta a la primera alternativa de alta calidad de código abierto.
En resumen, Zeroscope es una herramienta revolucionaria que está cambiando la forma en que creamos contenido de vídeo.
Con su capacidad para convertir texto en vídeo de alta calidad, esta tecnología de IA está abriendo nuevas posibilidades para creadores de contenido, educadores y profesionales del marketing.
A medida que la tecnología de texto a vídeo continúa evolucionando, podemos esperar ver aún más innovaciones y mejoras en el futuro.
Relacionados
-
ImageFX: el nuevo generador de imágenes con IA de Google
-
Claude 2, la alternativa a Chat GPT de Anthropic ya se encuentra operativa
-
Luma AI: la IA que convierte imágenes en modelos 3D
-
MPT-30B: la nueva IA de lenguaje que compite con ChatGPT
-
ControlNet en Stable Difussion AI: todo lo que debes saber
-
Chat GPT 5: fecha de lanzamiento y mejoras ¿Alcanzará la AGI?