Nie mylili się ci, którzy ostrzegali, że sztuczna inteligencja dokona niewyobrażalnych rzeczy . Przyzwyczailiśmy się już do komunikowania się z asystentami opartymi na sztucznej inteligencji za pomocą poleceń głosowych. Także po to, żeby poszukać czegoś w Internecie . W dziedzinie generatywnej sztucznej inteligencji możliwe jest teraz tworzenie tekstów, obrazów, plików audio i wideo bez interwencji człowieka. Prosisz o coś dyżurującą sztuczną inteligencję za pomocą instrukcji tekstowych , a ona zwraca treść wygenerowaną komputerowo. Maksymalnym tego wyrazem jest Sora , nowy model sztucznej inteligencji OpenAI.
O OpenAI rozmawialiśmy już kilkakrotnie. Nieznani jeszcze kilka lat temu, udało im się być najpopularniejszymi w dziedzinie sztucznej inteligencji dzięki swojemu generatywnemu modelowi AI GPT, którego możemy używać z narzędziem ChatGPT . Obecnie jest zintegrowany z produktami firmy Microsoft, takimi jak Bing, i jest dostępny dla każdego programisty aplikacji za pośrednictwem interfejsu API . Jego innym wielkim sukcesem jest DALL-E , generatywna sztuczna inteligencja zdolna do tworzenia obrazów na podstawie pisemnego żądania.
Ich kolejnym krokiem było zaprojektowanie modelu AI skupionego na produkcji hiperrealistycznych filmów . Według słów twórców Sora „może tworzyć pomysłowe i realistyczne sceny na podstawie instrukcji tekstowych”. Ogłosili to w wielkim stylu, za pomocą strony internetowej, która pokazuje kilka przykładów tego, ile Sora może zrobić. Przykłady, które mogą dać nam sprzeczne odczucia. Ale przede wszystkim zaskakują wszystkich .
OpenAI, Sora i treści audiowizualne
Jeśli generowanie treści pisanych i obrazów przy użyciu sztucznej inteligencji było już samo w sobie rewolucyjne , oglądanie filmów generowanych przez sztuczną inteligencję, takich jak te, które tworzy Sora, to zupełnie inny poziom. Mówimy o odtwarzaniu ludzi, miejsc, obiektów , nieruchomych elementów i innych w ruchu… Oraz takich aspektach jak prędkość kamery, fotografia i oświetlenie , umiejscowienie kamery… Oczywiście Sora nie tworzy z niczego. Podobnie jak reszta generatywnych sztucznych inteligencji , Sora „pije” z już istniejących treści audiowizualnych. Tutaj możesz zapoznać się z raportem technicznym na ten temat.
Jak wyjaśniają na swojej stronie internetowej, „oprócz możliwości wygenerowania wideo wyłącznie na podstawie instrukcji tekstowych, model jest w stanie pobrać istniejący obraz i wygenerować z niego wideo , animując treść obrazu z precyzją i uwagą drobne szczegóły. Modelka może także wykorzystać istniejący film i go rozszerzyć lub uzupełnić brakujące klatki.”
„Wspólnie szkolimy modele warunkowego rozpowszechniania tekstu w filmach i obrazach o zmiennym czasie trwania, rozdzielczości i proporcjach. Wykorzystujemy architekturę transformacji, która działa na łatach czasoprzestrzennych ukrytych kodów wideo i obrazów. Nasz największy model, Sora, jest w stanie wygenerować jedną minutę wideo o wysokiej jakości . „Nasze wyniki sugerują, że skalowanie modeli generacji wideo to obiecująca ścieżka w kierunku tworzenia symulatorów świata fizycznego ogólnego przeznaczenia ”.
Bezpieczeństwo przede wszystkim
Jednym z aspektów, który OpenAI chciał podkreślić w Sorze, jest bezpieczeństwo . Nikomu nie umknie, że miliony ludzi korzystają z generatywnych modeli sztucznej inteligencji . Głównie do codziennej pracy lub do odkrywania możliwości AI. Są jednak tacy, którzy wykorzystują je do celów przestępczych, takich jak dezinformacja , mowa nienawiści czy wymuszenia . Z tego powodu OpenAI twierdzi, że współpracuje z ekspertami w tej dziedzinie, aby przetestować Sorę i zapobiec jej wykorzystaniu do wyżej wymienionych celów.
„Tworzymy narzędzia pomagające wykrywać wprowadzające w błąd treści , takie jak klasyfikator wykrywania, który może stwierdzić, kiedy film został wygenerowany przez Sorę. Planujemy uwzględnić metadane C2PA w przyszłości, jeśli zaimplementujemy model w produkcie OpenAI. C2PA to standard, który „umożliwia wydawcom, firmom i innym osobom osadzanie metadanych w treści w celu sprawdzenia ich pochodzenia i powiązanych informacji ”.
Kto może korzystać z Sory?
OpenAI ogłosiło, że Sora ma własną stronę internetową pełną filmów ilustrujących, jak daleko może zajść generatywne tworzenie wideo AI . Ale na razie nie każdy może współpracować z Sorą. Według oficjalnej strony internetowej Sora jest początkowo dostępna dla wybranego zespołu osób „w celu oceny krytycznych obszarów uszkodzeń lub ryzyka ” . „Zapewniamy także dostęp wielu artystom wizualnym, projektantom i filmowcom, aby uzyskać opinie na temat tego, jak ulepszyć model, aby stał się bardziej przydatny dla kreatywnych profesjonalistów”. Jak widzieliśmy wcześniej, na razie Sora może tworzyć filmy o długości maksymalnie jednej minuty .
„Udostępniamy nasze postępy w badaniach już na wczesnym etapie, aby rozpocząć i uzyskać opinie od osób spoza OpenAI oraz dać społeczeństwu wyobrażenie o tym, jakie możliwości sztucznej inteligencji pojawią się na horyzoncie”. Reszta z nas będzie więc musiała poczekać, aż zobaczymy, do czego zdolny jest Sora, dzięki opiniom dwóch grup ekspertów, którzy będą mieli priorytetowy dostęp do tej sztucznej inteligencji. Z jednej strony grupa specjalizująca się w zagrożeniach i nadużyciach , jakie mogą wystąpić. Z drugiej zaś wybrane grono ekspertów z dziedziny audiowizualnej . Aby ustalić, w jaki sposób Sora może się im przydać.