Odkąd Google połączył wszystkie swoje działy AI w jeden i założył Google DeepMind, postępy, jakie poczynił ten dział firmy, są absolutnie przytłaczające . Teraz starają się wypełnić lukę, której do tej pory żadna inna firma nie była w stanie wypełnić zastrzeżonym kodem AI. W ten sposób wyłania się Lumiere , sztuczna inteligencja zdolna do konwertowania tekstu i obrazów na wideo , co jest czymś naprawdę zaskakującym i wydaje się pochodzić z przyszłości, ponieważ osiągnięte wyniki są imponujące .
Widzieliśmy już zwiastuny filmów stworzone w całości przez sztuczną inteligencję , w rzeczywistości sztuczna inteligencja Adobe może wyświetlać filmy na nowo w pionie , ale do tej pory nie pojawiła się żadna aplikacja tak potężna jak ta zaproponowana przez Google DeepMind.
Zobaczmy więc wszystkie funkcje, jakie ma Lumiere, ponieważ są one dość rozbudowane.
Lumiere, sztuczna inteligencja do tworzenia wideo
Google przedstawił Lumiere na własnej stronie Github z kilkudziesięciu bardzo funkcjonalnych przykładów. Jest to model zamiany tekstu na wideo i obrazu na wideo, który został stworzony w celu ożywienia realistycznych obrazów i ogólnie wygląda dla nas realistycznie . Problem do tej pory polegał na tym, że było bardzo zauważalne, że filmy były naprawdę fałszywe, a ruch w ogóle nie był dynamiczny.
Google zdecydowało się zmienić architekturę na taką, którą właśnie stworzyło, aby generować cały film na raz , co pozwala na tworzenie bardziej realistycznego ruchu niż obecne generatory wideo, które łączą oddzielne klatki i dodają super rozdzielczość, aby sprawiać wrażenie, że są ze sobą połączone kiedy się mijają.
Wśród funkcji przygotowanych przez Google dla Lumiere znajdziemy:
- Stylizowane generowanie : realistyczny obraz referencyjny umożliwia tworzenie animowanych logo lub obrazów bardziej kreskówkowych.
- Stylizacja wideo : Możesz nagrać film źródłowy i poprosić znajdujący się w nim obiekt lub osobę o nadanie innego stylu . Jako przykład zamienili kobietę i psa w figurki origami , a nawet wyobrażali sobie, jak by wyglądały, gdyby były wykonane z klocków drewna .
- Animacja już istniejących obrazów : Na filmie można zobaczyć, jak Lumiere potrafi animować fotografię motyla na roślinie lub ogień ogniska, nadając ruch obrazom, które pierwotnie były nieruchome.
- Wyobraź sobie prawdziwe filmy : Lumiere został przetestowany pod kątem możliwości dokończenia niedokończonych filmów lub filmów z wyciętymi obszarami . Dzięki temu jest w stanie dość dokładnie wypełnić filmy, w których wycięto określone obszary.
- Modyfikacja w czasie rzeczywistym : Jeśli nie podobał Ci się strój, który miałeś na sobie w filmie , po prostu wybierz obszar sukienki i możesz go zmienić na inny, podając opis AI.
W ten sposób znajdujemy nieskończone możliwości, które mogą ulepszyć nasze możliwości edycji wideo , jednocześnie pozwalając naszej kreatywności wystartować . W tej chwili nie jest on dostępny publicznie, ale opublikowano obszerny artykuł pokazujący ich postęp . Będziemy musieli poczekać, aby przyjrzeć się temu dogłębnie, ale na razie to, co zaprezentowali, jest naprawdę ambitne.
Lumiere kontra Sora
Zarówno Lumiere, jak i Sora to najnowocześniejsze modele sztucznej inteligencji, które mogą generować filmy z opisów tekstowych. Oto zestawienie tego, co do tej pory o nich wiemy:
Lumiere (Google)
- Ograniczona dostępność: jeszcze niedostępna publicznie, wciąż w fazie badań.
- Szczegóły techniczne: Wykorzystuje model dyfuzji o nazwie U-Net czasoprzestrzenny, który generuje cały film za jednym razem.
- Mocne strony: Może oferować szybsze generowanie wideo i potencjalnie płynniejsze przejścia.
- Słabe strony: Szczegóły dotyczące możliwości i ograniczeń są skąpe ze względu na jego niepubliczny status.
Sora (OpenAI)
- Ograniczona dostępność: obecnie w zamkniętej wersji beta, z dostępem dla wybranych artystów.
- Szczegóły techniczne: Wykorzystuje model generatywny, który prawdopodobnie buduje wideo klatka po klatce.
- Silne strony:
- Publicznie dostępne informacje sugerują, że może generować dłuższe filmy (do 1 minuty) w porównaniu do Lumiere.
- Może zapewniać większą kontrolę nad procesem twórczym, ponieważ może tworzyć filmy klatka po klatce.
- Słabości:
- Generowanie filmów może zająć więcej czasu w porównaniu z metodą pojedynczego ujęcia Lumiere.
- Przejścia między klatkami mogą być mniej płynne.
Oto tabela podsumowująca najważniejsze punkty:
Funkcja | Lumiere (Google) | Sora (OpenAI) |
---|---|---|
Dostępność | Niepubliczne | Zamknięta wersja beta |
Technologia | Sieć czasoprzestrzenna U-Net (cała generacja wideo) | Model generatywny (klatka po klatce) |
Długość wideo | Nieznany | Do 1 minuty |
Silne strony | Potencjalnie szybsza generacja, płynniejsze przejścia (niepotwierdzone) | Dłuższe filmy, większa kontrola (niepotwierdzone) |
Słabości | Ograniczone informacje, nieznana dostępność | Potencjalnie wolniejsza generacja, mniej płynnych przejść (niepotwierdzone) |
drive_spreadsheetEksportuj do Arkuszy
Ogólnie rzecz biorąc, zarówno Lumiere, jak i Sora reprezentują znaczący postęp w przetwarzaniu tekstu na wideo. Gdy dostępnych będzie więcej informacji, będziemy mogli dokonać bardziej ostatecznego porównania. Oto kilka dodatkowych rzeczy do rozważenia:
- Cel: Możliwe, że te modele zaspokajają różne potrzeby. Lumiere może być idealny do szybkiego generowania wideo, podczas gdy Sora może być lepszy do kreatywnych projektów wymagających większej kontroli.
- Przyszły rozwój: oba modele są prawdopodobnie w fazie ciągłego rozwoju, więc ich możliwości będą ewoluować w czasie.
To ekscytujący czas na tworzenie filmów wideo w oparciu o sztuczną inteligencję! Wypatruj przyszłych aktualizacji dotyczących Lumiere i Sora, gdy staną się one szerzej dostępne.