Google I/O 2024 to wydarzenie pełne innowacji i przełomowych technologii, które z pewnością zmienią nasze codzienne życie. Tegoroczna konferencja przyniosła wiele ekscytujących ogłoszeń, w tym nowe funkcje Gemini Pro, wielomodalność, długi kontekst, agentów AI, Veo, Imagen 3, Project Astra oraz Gemma. Oto szczegółowe podsumowanie najważniejszych nowości z Google I/O 2024.
Gemini: Sercem Nowych Technologii
Wielomodalność
Gemini to niezwykle wszechstronny model, który potrafi przetwarzać dowolne dane wejściowe i generować pożądane wyjścia. Dzięki temu ponad 1,5 miliona deweloperów oraz 2 miliardy użytkowników na całym świecie może korzystać z jego możliwości. Ostatnie ulepszenia pozwoliły na użycie do 1 miliona tokenów w zapytaniach, co umożliwia np. włączenie wideo do zapytań i generowanie danych JSON z obiektów wideo.
Gemini 1.5 Pro
Gemini 1.5 Pro jest teraz dostępny dla wszystkich deweloperów na całym świecie, oferując 2 miliony tokenów w prywatnym podglądzie. Z kolei Gemini 1.5 Flash został zoptymalizowany pod kątem niskiej latencji i wysokiej wydajności, również z dostępem do 2 milionów tokenów.
AI Overview w Wyszukiwarce Google
Funkcja AI Overview jest teraz dostępna w USA, z planami rozszerzenia na inne kraje. Pozwala ona na przeszukiwanie wideo, stron internetowych, map, finansów, zakupów, hoteli i książek, zapewniając natychmiastowe odpowiedzi na jedno zapytanie. Użytkownicy mogą personalizować wyniki wyszukiwania zgodnie ze swoimi preferencjami.
Planowanie i Rozwiązywanie Problemów
AI Overview umożliwia projektowanie spersonalizowanych planów dietetycznych, tworzenie kompleksowych planów podróży oraz rozwiązywanie problemów na żywo za pomocą wideo w wyszukiwarce Google. Wystarczy otworzyć kamerę, zadać pytanie, a AI dostarczy odpowiedzi wraz z odpowiednimi stronami, artykułami i wideo.
Project Astra: Twój Osobisty Agent
Project Astra to nowa funkcja, która działa jako osobisty agent AI, umożliwiając prowadzenie rozmów wideo w czasie rzeczywistym z Gemini. Możesz zadawać pytania dotyczące obiektów widocznych na kamerze, a także otrzymywać informacje na temat miejsc, które odwiedzasz. Gemini analizuje wszystkie twoje zdjęcia i tworzy między nimi znaczące połączenia, umożliwiając zadawanie złożonych pytań dotyczących twoich zdjęć.
Generatywne Media
Imagen 3
Imagen 3 pozwala na generowanie szczegółowych obrazów na podstawie tekstowych zapytań, umożliwiając tworzenie kreatywnych wizualizacji tekstowych.
Music AI Sandbox
Music AI Sandbox umożliwia modyfikowanie dźwięków i dodawanie efektów, pozwalając na tworzenie unikalnych kompozycji muzycznych.
Veo: Tworzenie Wideo
Veo to narzędzie do generowania wysokiej jakości wideo 1080P na podstawie zapytań tekstowych. Umożliwia tworzenie filmów z efektami kinowymi, takimi jak timelapse czy ujęcia lotnicze. Możesz przedłużać sceny za pomocą VideoFx, a lista oczekujących na labs.google jest już otwarta.
Gemini App: Twój Osobisty Asystent AI
Aplikacja Gemini służy jako osobisty asystent AI, umożliwiając naukę, tworzenie i kodowanie przy użyciu tekstu, głosu lub kamery. Gemini Live oferuje zrozumienie wideo w czasie rzeczywistym. Możesz tworzyć „Gems” – spersonalizowane wersje Gemini dostosowane do twoich potrzeb. Gemini Advanced, które zostanie uruchomione latem, będzie wspierać ponad 35 języków i wprowadzi model subskrypcji premium.
Gemini w Zakupach i Integracja z Androidem
Gemini ułatwia zakupy dzięki funkcji Circle Search, pozwala na inicjowanie zwrotów produktów oraz integruje się z Androidem, oferując ciągłe wsparcie i śledzenie aktywności. Funkcja Gemini Nano na urządzeniach Pixel zapewnia możliwości wielomodalne przy niskiej latencji.
AI w Google Workspace
W Google Workspace Gemini umożliwia organizowanie poczty, zarządzanie dokumentami oraz synchronizację usług Google. Możesz używać Gmaila do przeszukiwania wszystkich swoich wiadomości i załączników, a także podsumowywać wątki e-mailowe i odpowiadać na wiadomości za pomocą Gemini.
NotebookLM
NotebookLM umożliwia interakcję z Gemini 1.5 Pro poprzez dostarczanie materiałów w dowolnym formacie, tworząc spersonalizowane i interaktywne doświadczenie.
Gemma
Gemma to lekki model Gemini, który umożliwia przechwytywanie obrazów i zadawanie pytań na ich podstawie. Gemma 2, który pojawi się w czerwcu, będzie miał 27 miliardów parametrów, co znacznie zwiększy jego możliwości.
Podsumowanie
Google I/O 2024 przyniosło wiele ekscytujących nowości, które z pewnością zmienią sposób, w jaki korzystamy z technologii AI na co dzień. Od zaawansowanych modeli AI, takich jak Gemini Pro i Veo, po innowacyjne narzędzia generatywne i integracje z systemem Android, Google pokazuje, że przyszłość AI jest jasna i pełna możliwości.