15.07.2024
89
Sztuczna inteligencja jest priorytetem dla Google od czasu, gdy dyrektor generalny Sundar Pichai ogłosił, że firma skupi się na "AI-First" w 2017 roku. Jednak podczas ostatniej ceremonii Google I/O obietnica ta wydaje się być silniejsza niż kiedykolwiek. "Google w pełni wkroczyło w erę Gemini. Od ponad dekady inwestujemy w sztuczną inteligencję i wprowadzamy innowacje na każdym poziomie: badań, produktów, infrastruktury, a dziś będziemy o tym wszystkim rozmawiać" - powiedział Pichai podczas wydarzenia. "Jesteśmy jednak na wczesnym etapie zmiany platformy AI. Widzimy przed sobą wiele możliwości dla twórców, deweloperów, startupów, wszystkich. Pomaganie w realizacji tych możliwości jest tym, o co chodzi w naszej erze Gemini" - dodał.
Podczas wydarzenia w Mountain View w Kalifornii Google ogłosiło szereg zapowiedzi dotyczących swoich najgłośniejszych osiągnięć technologicznych w ostatnich latach. Od nowych modeli Gemini, przez wirtualnych asystentów opartych na sztucznej inteligencji, po narzędzia do tworzenia obrazów i wideo - poniżej omówimy niektóre z najważniejszych ogłoszeń Google I/O 2024.
Google wykorzystuje generatywną sztuczną inteligencję, aby rozszerzyć swoje możliwości wyszukiwania, wprowadzając podsumowania oparte na sztucznej inteligencji, aby zapewnić szybkie podsumowania i informacje na złożone tematy. Podsumowania te, oparte na modelu sztucznej inteligencji Gemini, upraszczają wyszukiwanie, dostarczając użytkownikom wyczerpujących informacji przy minimalnym wysiłku. Narzędzie będzie najpierw dostępne w Stanach Zjednoczonych i zostanie wprowadzone w innych krajach w nadchodzących miesiącach.
Wyszukiwarka Google wprowadza również funkcje wieloetapowego rozumowania, aby skutecznie rozwiązywać złożone zapytania, umożliwiając użytkownikom uzyskanie dokładnych i szczegółowych odpowiedzi w ramach jednego wyszukiwania. Funkcje planowania zintegrowane bezpośrednio z wyszukiwarką dodatkowo upraszczają zadania, takie jak planowanie posiłków i podróży, oferując spersonalizowane rekomendacje i łatwe opcje dostosowywania. Postępy Google w zakresie analizy wideo pozwalają użytkownikom wykorzystać wideo w wyszukiwarce, ułatwiając wyszukiwanie i znajdowanie odpowiednich informacji na podstawie wskazówek wizualnych.
Jednym z pierwszych ogłoszeń podczas wydarzenia było rozszerzenie rodziny modeli AI Google Gemini wraz z wprowadzeniem nowego modelu 1.5 Flash - lżejszego niż 1.5 Pro i zaprojektowanego z myślą o szybkiej i wydajnej obsłudze na dużą skalę. Według Demisa Hassabisa, dyrektora generalnego Google DeepMind, Flash świetnie nadaje się do zadań takich jak pisanie CV, praca z aplikacjami do czatowania, tworzenie podpisów do obrazów i filmów oraz wyodrębnianie danych z długich dokumentów.
Ze swojej strony firma zaprezentowała znaczące ulepszenia Gemini 1.5 Pro, które oferuje rozszerzone okno kontekstowe do 2 milionów tokenów i lepszą wydajność w kilku obszarach, w tym rozumowanie, kodowanie i rozumienie obrazu. Gemini oferuje również nowe możliwości analizy danych i ulepszone doświadczenie konwersacyjne. Aktualizacja, dostępna dla subskrybentów Gemini Advanced, obejmuje okno kontekstowe o pojemności 1 miliona tokenów, umożliwiające Gemini zrozumienie i analizę dużych ilości informacji. Umożliwia to takie funkcje, jak podsumowanie 100 wiadomości e-mail lub analiza 1500-stronicowych dokumentów. Użytkownicy mogą również przesyłać pliki bezpośrednio do Gemini w celu analizy i raportowania.
Według Google, aktualizacje te pozwalają użytkownikom chatbotów na bardziej szczegółową kontrolę nad ich odpowiedziami, torując drogę do lepszej komunikacji i automatyzacji przepływu pracy. Gemini Nano, wcześniej skoncentrowany na wprowadzaniu tekstu, jest teraz rozszerzany o rozumienie obrazu, obiecując użytkownikom pełniejsze wrażenia ze sztucznej inteligencji.
Sissy Hsiao, wiceprezes i dyrektor generalny Gemini Experiences i Asystenta Google, zaprezentowała również aktualizacje aplikacji mobilnej Gemini. Wśród nich jest "Live", mobilne doświadczenie konwersacyjne, które wykorzystuje zaawansowaną technologię głosową do bardziej naturalnej interakcji. Użytkownicy mogą mówić do Gemini i wybierać spośród wielu odpowiedzi głosowych.
Ponadto Gemini może teraz wykonywać działania w imieniu użytkowników, takie jak tworzenie spersonalizowanych tras podróży w oparciu o preferencje i informacje z Gmaila i Map Google. Aktualizacja pozwala użytkownikom dostosować Gemini, tworząc tak zwane "klejnoty": spersonalizowane wersje asystenta AI, które spełniają określone potrzeby. Użytkownicy mogą tworzyć Gemini do różnych celów, takich jak trener kariery lub przewodnik kreatywnego pisania.
Równolegle z rozwojem Projektu Astra, Google ogłosiło Gemma 2, kolejną generację modeli open source, które mają na celu zrewolucjonizowanie asystentów AI poprzez poprawę ich zrozumienia i reakcji na interakcje z ludźmi. Ideą Projektu Astra jest, aby asystenci AI byli w stanie rozumieć i reagować w taki sam sposób jak ludzie, a także internalizować i zapamiętywać to, co widzą i słyszą, aby zrozumieć kontekst i odpowiednio zareagować.
Prototyp projektu Astra został zbudowany w oparciu o Gemini i inne modele zorientowane na zadania i został zaprojektowany do szybszego przetwarzania informacji poprzez ciągłe kodowanie klatek wideo, łączenie danych wideo i głosowych w oś czasu wydarzeń oraz buforowanie tych informacji w celu wydajnego wyszukiwania. Google ulepszyło również dźwięk, dając agentom AI szerszy zakres intonacji. Pojawi się lepsze zrozumienie kontekstu, w którym są używane i szybsze odpowiedzi w rozmowie. Niektóre z tych funkcji pojawią się w produktach Google, takich jak aplikacja Gemini, jeszcze w tym roku.
Wysiłki Google w zakresie generatywnej sztucznej inteligencji nie ograniczają się do Gemini: wydano Veo, model generowania wideo w wysokiej rozdzielczości, oraz Image 3, światowej klasy model zamiany tekstu na obraz. Rozwiązania te zapewniają twórcom bezprecedensową kontrolę i precyzję w ich kreatywnych przedsięwzięciach, umożliwiając im tworzenie realistycznych filmów i obrazów z zaskakującą łatwością.
W przypadku Veo jest to najbardziej wydajny dostępny obecnie model tworzenia wideo, zdolny do generowania wysokiej jakości filmów 1080p, które mogą trwać ponad minutę, w szerokim zakresie stylów wizualnych i kinowych. Veo posiada zaawansowane rozumienie języka naturalnego i semantyki wizualnej i może generować filmy, które dokładnie odzwierciedlają kreatywną wizję użytkownika, prezentując szczegóły w dłuższych wskazówkach i uchwycając ton.
Model rozumie również terminy filmowe, takie jak "timelapse" lub "ujęcie krajobrazu z lotu ptaka", zapewniając niespotykany dotąd poziom kreatywnej kontroli. Umożliwia także tworzenie spójnych i spójnych obrazów: ludzie, zwierzęta i przedmioty poruszają się realistycznie w całym kadrze. Od dziś Veo jest dostępne dla wybranych twórców jako zamknięty podgląd w VideoFX. Google zapowiedział, że w przyszłości włączy niektóre funkcje Veo do YouTube Shorts i innych produktów.
Wydarzenie Google I/O 2024 pokazało, że firma nie spoczywa na laurach i nadal agresywnie rozwija sztuczną inteligencję z innowacyjnymi rozwiązaniami dla użytkowników. Google podejmuje znaczące kroki w kierunku uczynienia sztucznej inteligencji integralną częścią codziennego życia i pracy. Dzięki takim innowacjom przyszłość sztucznej inteligencji wygląda obiecująco i jest pełna możliwości.
Review
zostaw opinię