15.07.2024
101
Künstliche Intelligenz ist für Google eine Priorität, seit CEO Sundar Pichai 2017 ankündigte, dass sich das Unternehmen auf "AI-First" konzentrieren würde. Auf der jüngsten Google I/O-Zeremonie scheint dieses Versprechen jedoch stärker denn je zum Tragen gekommen zu sein. "Google hat die Gemini-Ära vollständig erreicht. Wir investieren seit über einem Jahrzehnt in KI und innovieren auf allen Ebenen: Forschung, Produkte, Infrastruktur, und heute werden wir über all das sprechen", sagte Pichai auf der Veranstaltung. "Wir befinden uns jedoch noch in der Anfangsphase des KI-Plattformwechsels. Wir sehen viele Möglichkeiten für Schöpfer, Entwickler, Start-ups und alle anderen. In unserer Gemini-Ära geht es darum, bei der Verwirklichung dieser Möglichkeiten zu helfen", fügte er hinzu.
Während der Veranstaltung in Mountain View, Kalifornien, machte Google eine Reihe von Ankündigungen zu seinen meistdiskutierten technologischen Fortschritten der letzten Jahre. Von neuen Gemini-Modellen über KI-gestützte virtuelle Assistenten bis hin zu Tools für die Bild- und Videoerstellung - im Folgenden stellen wir einige der wichtigsten Ankündigungen der Google I/O 2024 vor.
Google nutzt generative KI, um seine Suchfunktionen zu erweitern, indem es KI-basierte Zusammenfassungen einführt, die schnelle Zusammenfassungen und Informationen zu komplexen Themen liefern. Diese Zusammenfassungen, die auf dem Modell der künstlichen Intelligenz Gemini basieren, vereinfachen die Suche, indem sie den Nutzern mit minimalem Aufwand umfassende Informationen liefern. Das Tool wird zunächst in den USA verfügbar sein und in den kommenden Monaten auch in anderen Ländern eingeführt werden.
Google Search führt außerdem mehrstufige Argumentationsfunktionen zur effizienten Lösung komplexer Anfragen ein, die es den Nutzern ermöglichen, mit einer einzigen Suche genaue und detaillierte Antworten zu erhalten. Direkt in die Suche integrierte Planungsfunktionen vereinfachen Aufgaben wie die Essens- und Reiseplanung durch personalisierte Empfehlungen und einfache Anpassungsmöglichkeiten weiter. Googles Fortschritte im Bereich Video Insights ermöglichen es den Nutzern, Videos in die Suche einzubinden, wodurch die Suche und das Auffinden relevanter Informationen auf der Grundlage visueller Hinweise erleichtert wird.
Eine der ersten Ankündigungen auf der Veranstaltung war die Erweiterung von Googles Gemini-Familie von KI-Modellen mit der Einführung des neuen 1.5 Flash-Modells - leichter als das 1.5 Pro-Modell und für schnellen und effizienten Service im großen Maßstab konzipiert. Laut Demis Hassabis, CEO von Google DeepMind, eignet sich Flash hervorragend für Aufgaben wie das Schreiben von Lebensläufen, die Arbeit mit Chat-Apps, das Erstellen von Bildunterschriften für Bilder und Videos und das Extrahieren von Daten aus langen Dokumenten.
Das Unternehmen stellte seinerseits bedeutende Verbesserungen an Gemini 1.5 Pro vor, das sich durch ein erweitertes Kontextfenster mit bis zu 2 Millionen Token und eine verbesserte Leistung in verschiedenen Bereichen wie Schlussfolgerungen, Codierung und Bildverständnis auszeichnet. Gemini bietet außerdem neue Datenanalysefunktionen und eine verbesserte Konversationsfunktion. Das Update, das für Gemini Advanced-Abonnenten verfügbar ist, beinhaltet ein Kontextfenster mit 1 Million Token, das Gemini in die Lage versetzt, große Mengen an Informationen zu verstehen und zu analysieren. Dies ermöglicht Funktionen wie die Zusammenfassung von 100 E-Mails oder die Analyse von 1.500-seitigen Dokumenten. Nutzer können auch Dateien direkt in Gemini hochladen, um sie zu analysieren und Berichte zu erstellen.
Laut Google ermöglichen diese Updates Chatbot-Nutzern eine feinere Kontrolle über ihre Antworten und ebnen den Weg für eine bessere Kommunikation und Workflow-Automatisierung. Gemini Nano, das sich bisher auf die Texteingabe konzentrierte, wird nun um das Verstehen von Bildern erweitert, was den Nutzern ein umfassenderes KI-Erlebnis verspricht.
Sissy Hsiao, Vice President und General Manager von Gemini Experiences und Google Assistant, stellte auch Updates für die Gemini Mobile App vor. Dazu gehört "Live", ein mobiles Konversationserlebnis, das fortschrittliche Sprachtechnologie für eine natürlichere Interaktion nutzt. Nutzer können mit Gemini sprechen und aus mehreren Sprachantworten wählen.
Außerdem kann Gemini jetzt Aktionen im Namen des Nutzers durchführen, wie z. B. die Erstellung von individuellen Reiserouten auf der Grundlage von Präferenzen und Informationen aus Google Mail und Google Maps. Das Update ermöglicht es den Nutzern, Gemini durch die Erstellung von sogenannten "Gems" anzupassen: personalisierte Versionen des KI-Assistenten, die bestimmte Bedürfnisse erfüllen. Nutzer können Gemini für eine Vielzahl von Zwecken erstellen, z. B. als Karriere-Coach oder als Anleitung zum kreativen Schreiben.
Parallel zur Entwicklung von Project Astra kündigte Google Gemma 2 an, die nächste Generation von Open-Source-Modellen, die darauf abzielen, KI-Assistenten zu revolutionieren, indem ihr Verständnis und ihre Reaktionsfähigkeit auf menschliche Interaktionen verbessert werden. Die Idee hinter dem Projekt Astra ist, dass KI-Assistenten in der Lage sind, Menschen zu verstehen und auf sie zu reagieren, und dass sie das, was sie sehen und hören, verinnerlichen und speichern können, um den Kontext zu verstehen und entsprechend zu reagieren.
Der Prototyp des Astra-Projekts baute auf dem Gemini-Modell und anderen aufgabenorientierten Modellen auf und wurde entwickelt, um Informationen schneller zu verarbeiten, indem Videobilder kontinuierlich kodiert, Video- und Sprachdaten zu einer Zeitleiste von Ereignissen kombiniert und diese Informationen für einen effizienten Abruf zwischengespeichert wurden. Google hat auch die Audiowiedergabe verbessert, indem es den KI-Agenten ein breiteres Spektrum an Intonation zur Verfügung stellte. Sie werden den Kontext, in dem sie eingesetzt werden, besser verstehen und in Gesprächen schneller reagieren können. Einige dieser Funktionen werden noch in diesem Jahr in Google-Produkten, wie der Gemini-App, erscheinen.
Googles Bemühungen im Bereich der generativen KI beschränken sich nicht auf Gemini: Veo, ein Modell zur Erzeugung von hochauflösenden Videos, und Image 3, ein erstklassiges Modell zur Umwandlung von Text in Bilder, wurden bereits veröffentlicht. Diese Entwicklungen bieten Kreativen eine noch nie dagewesene Kontrolle und Präzision bei ihren kreativen Bemühungen und ermöglichen es ihnen, mit überraschender Leichtigkeit realistische Videos und Bilder zu produzieren.
Im Fall von Veo handelt es sich um das derzeit effizienteste Modell zur Videoerstellung, das in der Lage ist, qualitativ hochwertige 1080p-Videos zu erstellen, die über eine Minute lang sein können, und das in einer Vielzahl von visuellen und filmischen Stilen. Veo verfügt über ein fortschrittliches Verständnis von natürlicher Sprache und visueller Semantik und kann Videos generieren, die die kreative Vision des Benutzers genau widerspiegeln, indem sie Details in längeren Stichworten darstellen und den Tonfall einfangen.
Das Modell versteht auch filmische Begriffe wie "Zeitraffer" oder "Landschaftsaufnahme aus der Luft" und bietet so ein noch nie dagewesenes Maß an kreativer Kontrolle. Außerdem ermöglicht es Ihnen, konsistente und zusammenhängende Bilder zu erstellen: Menschen, Tiere und Objekte bewegen sich realistisch im gesamten Bild. Ab heute ist Veo für ausgewählte Kreative als geschlossene Vorschau in VideoFX verfügbar. Google hat angekündigt, dass es einige der Funktionen von Veo in YouTube Shorts und andere Produkte integrieren wird.
Die Google I/O 2024 hat gezeigt, dass sich das Unternehmen nicht auf seinen Lorbeeren ausruht und die Entwicklung künstlicher Intelligenz mit innovativen Lösungen für die Nutzer weiter vorantreibt. Google unternimmt bedeutende Schritte, um KI zu einem integralen Bestandteil des täglichen Lebens und der Arbeit zu machen. Mit solchen Innovationen sieht die Zukunft der künstlichen Intelligenz vielversprechend und voller Möglichkeiten aus.
Review
Feedback hinterlassen