CogVideo i CogVideoX to zaawansowane, open source’owe modele sztucznej inteligencji opracowane przez chińskie zespoły badawcze, które umożliwiają generowanie wideo na podstawie opisów tekstowych. Są one często określane jako „chińska Sora” z racji ich zdolności do przetwarzania i generowania treści wideo w oparciu o głębokie sieci neuronowe.
CogVideo
CogVideo jest modelem zaprojektowanym do generowania wideo na podstawie tekstu. Używa on dużych zasobów obliczeniowych do przetwarzania danych, a przy zastosowaniu karty NVIDIA RTX 3090 model potrzebuje około 13 minut, aby wygenerować 49 klatek wideo o rozdzielczości 720×480. Na nowszych kartach, takich jak NVIDIA RTX 4090, czas ten skraca się o połowę.
CogVideoX
CogVideoX jest zaawansowaną wersją CogVideo, zoptymalizowaną pod kątem wydajności i dokładności. Model ten został zaprojektowany z myślą o jeszcze bardziej złożonych zadaniach generowania wideo, z lepszymi wynikami w kontekście jakości obrazu i płynności animacji.
Wymagania sprzętowe
Oba modele wymagają kart graficznych NVIDIA z co najmniej 4 GB VRAM, co czyni je dostępniejszymi dla szerszej grupy użytkowników, zwłaszcza w kontekście obliczeń w chmurze. Możliwość testowania tych modeli w chmurze to dodatkowy atut, umożliwiający użytkownikom przetestowanie ich bez potrzeby posiadania własnego sprzętu.
Testowanie w chmurze
Obecnie modele te można testować w chmurze poprzez:
- Hugging Face: CogVideoX-5B-Space
- ModelScope: CogVideoX-5b-demo
Oba te narzędzia oferują możliwość generowania wideo na podstawie podanych opisów tekstowych, co stanowi przełom w dziedzinie generatywnej sztucznej inteligencji. Dzięki open source’owej naturze tych projektów, użytkownicy mają dostęp do nowoczesnych narzędzi AI, które mogą być swobodnie modyfikowane i rozwijane.