Google I/O 2024: Захватывающие анонсы и новинки

Google I/O 2024: Интереснейшие анонсы с мероприятия компании

Искусственный интеллект является приоритетом для Google с тех пор, как генеральный директор Сундар Пичаи объявил, что компания будет ориентироваться на "AI-First" в 2017 году. Однако на последней церемонии Google I/O это обещание, кажется, прозвучало сильнее, чем когда-либо. "Google полностью вступил в эру Gemini. Мы инвестируем в ИИ уже более десяти лет и внедряем инновации на каждом уровне: исследования, продукты, инфраструктура, и сегодня мы поговорим обо всем этом", - сказал Пичаи на мероприятии. "Тем не менее, мы находимся на ранних этапах смены платформы ИИ. Мы видим впереди много возможностей для создателей, разработчиков, стартапов, для всех. Помочь реализовать эти возможности - вот что такое наша эра Gemini", - добавил он.

Во время мероприятия в Маунтин-Вью, штат Калифорния, Google сделали ряд анонсов, касающихся своих самых обсуждаемых технологических достижений за последние годы. От новых моделей Gemini до виртуальных помощников на базе искусственного интеллекта и инструментов для создания изображений и видео - ниже мы разберем некоторые из наиболее значимых анонсов Google I/O 2024.

Google Search революционизирует с помощью генеративного ИИ

Google использует генеративный ИИ для расширения своих поисковых возможностей, внедряя ИИ-обзор для предоставления быстрых резюме и информации по сложным темам. Эти резюме, созданные на основе модели искусственного интеллекта Gemini, упрощают поиск, предоставляя пользователям исчерпывающую информацию с минимальными усилиями. Сначала этот инструмент будет доступен в США, а в ближайшие месяцы будет распространен на другие страны.

Кроме того, в Google Search внедряются возможности многоступенчатого рассуждения для эффективного решения сложных запросов, что позволяет пользователям получать точные и подробные ответы в ходе одного поиска. Функции планирования, интегрированные непосредственно в Search, еще больше упрощают такие задачи, как планирование питания и путешествий, предлагая персональные рекомендации и легкие возможности настройки. Достижения Google в области понимания видео позволяют пользователям использовать видео в Search, упрощая процесс поиска и нахождения релевантной информации на основе визуальных подсказок.

Google Gemini

Google Gemini расширяет свое семейство

Одним из первых на мероприятии было объявлено о расширении семейства моделей ИИ Gemini от Google благодаря появлению новой модели 1.5 Flash - более легкой, чем 1.5 Pro, и предназначенной для быстрого и эффективного обслуживания в масштабе. По словам Демиса Хассабиса, генерального директора Google DeepMind, Flash отлично справляется с такими задачами, как составление резюме, работа с чат-приложениями, создание подписей к изображениям и видео, а также извлечение данных из длинных документов.

В свою очередь, компания представила значительные улучшения в Gemini 1.5 Pro, которая может похвастаться расширенным контекстным окном до 2 миллионов лексем и улучшенной производительностью в нескольких областях, включая рассуждения, кодирование и понимание изображений. Gemini также обладает новыми возможностями анализа данных и улучшенным разговорным опытом. Обновление, доступное подписчикам Gemini Advanced, включает контекстное окно на 1 миллион лексем, что позволяет Gemini понимать и анализировать большие объемы информации. Это позволяет выполнять такие функции, как обобщение 100 электронных писем или анализ 1500-страничных документов. Пользователи также могут загружать файлы непосредственно в Gemini для анализа и создания отчетов.

Обновления мобильного приложения Gemini

По словам Google, эти обновления позволяют пользователям чат-ботов более тонко контролировать свои ответы, что открывает путь к расширению возможностей общения и автоматизации рабочих процессов. Gemini Nano, ранее ориентированная на ввод текста, теперь расширяется и включает в себя понимание изображений, что обещает пользователям более полный опыт работы с искусственным интеллектом.

Сисси Хсиао, вице-президент и генеральный менеджер Gemini Experiences и Google Assistant, также представила обновления мобильного приложения Gemini. Среди них - "Live", мобильный разговорный опыт, который использует передовые голосовые технологии для более естественного взаимодействия. Пользователи могут говорить с Gemini и выбирать из нескольких голосовых ответов.

Кроме того, Gemini теперь может выполнять действия от имени пользователей, например, создавать индивидуальные маршруты путешествий на основе предпочтений и информации, полученной из Gmail и Google Maps. Обновление позволяет пользователям настраивать Gemini, создавая так называемые "драгоценные камни": персонализированные версии ИИ-помощника, отвечающие конкретным потребностям. Пользователи могут создавать Gemini для различных целей, например, в качестве карьерного тренера или руководства по написанию творческих работ.

Project Astra Google

Проект "Astra": Будущее ИИ-ассистентов

Параллельно с разработкой проекта "Astra" компания Google анонсировала Gemma 2 - следующее поколение открытых моделей, цель которых - произвести революцию в ИИ-помощниках, улучшив их понимание и отзывчивость на взаимодействие с человеком. Идея проекта "Astra" заключается в том, чтобы ИИ-помощники могли понимать и реагировать так же, как люди, а также усваивать и запоминать увиденное и услышанное, чтобы понимать контекст и реагировать соответствующим образом.

Прототип проекта "Astra" был построен на основе модели Gemini и других моделей, ориентированных на конкретные задачи, и был разработан для более быстрой обработки информации путем непрерывного кодирования видеокадров, объединения видео и голосовых данных в хронологию событий и кэширования этой информации для эффективного поиска. Google также улучшила звук, предоставив агентам ИИ более широкий диапазон интонаций. Придет лучшее понимание контекста, в котором они используются, и быстрая реакция в разговоре. Некоторые из этих возможностей появятся в продуктах Google, например в приложении Gemini, позднее в этом году.

Генеративный ИИ как инструмент для расширения возможностей

Усилия Google в области генеративного искусственного интеллекта не ограничиваются Gemini: были выпущены Veo, модель генерации видео высокой четкости, и Image 3, модель преобразования текста в изображение мирового класса. Эти разработки обеспечивают творцам беспрецедентный контроль и точность в творческих начинаниях, позволяя им с удивительной легкостью создавать реалистичные видео и изображения.

В случае с Veo это самая эффективная на сегодняшний день модель создания видео, способная генерировать высококачественные видеоролики с разрешением 1080p, которые могут длиться более минуты, в широком диапазоне визуальных и кинематографических стилей. Veo обладает продвинутым пониманием естественного языка и визуальной семантики и может генерировать видео, которое точно отражает творческое видение пользователя, представляя детали в более длинных подсказках и улавливая тон.

Модель также понимает кинематографические термины, такие как "таймлапс" или "съемка пейзажа с воздуха", обеспечивая беспрецедентный уровень творческого контроля. Кроме того, она позволяет создавать последовательные и целостные изображения: люди, животные и предметы реалистично двигаются на протяжении всего кадра. С сегодняшнего дня Veo доступен для избранных создателей в виде закрытого предварительного просмотра в VideoFX. Google заявила, что в будущем включит некоторые из возможностей Veo в YouTube Shorts и другие продукты.

Заключение

Мероприятие Google I/O 2024 продемонстрировало, что компания не останавливается на достигнутом и продолжает активно развивать искусственный интеллект, предлагая инновационные решения для пользователей. Google делает значительные шаги к тому, чтобы ИИ стал неотъемлемой частью повседневной жизни и работы. С такими нововведениями будущее искусственного интеллекта выглядит многообещающе и полно возможностей.

Review

оставить отзыв