„Gemini“ heisst das ChatGPT von Google – nur kann Gemini weit mehr als eine Unterhaltung führen. Inzwischen hat Google so viele KI-Tools hervorgebracht, dass eine Übersicht Not tut. Google hat auf der Entwicklerkonferenz I/O 2024 einige beeindruckende Helfer mit künstlicher Intelligenz vorgestellt, die dein Leben einfacher machen können. Wir zeigen dir, welche das sind, was sie können und wann du sie wie nutzen kannst.
In diesem Artikel:
- Ask Photos
- KI in der Suche
- Gemini in Android
- Gemini Live
- Content-Generierung
- Video-Suche
- Eigene Gems
- Gemini-App
Ask Photos
Nutzer können mit diesem neuen Feature für die Google-Fotos-App ihre persönlichen Fotosammlungen per Spracheingabe oder Texteingabe durchsuchen.
Gemini analysiert die Bildinhalte und stellt anhand natürlicher Fragen wie „Wann hat meine Tochter schwimmen gelernt?“ oder „Zeige mir, wie sich ihre Schwimmfähigkeiten entwickelt haben“ die relevanten Momente aus der Bildersammlung zusammen.
Ask Photos erkennt dabei verschiedene Kontexte wie das Ziehen der ersten Bahnen im Pool, Schnorcheln im Meer oder auch Abzeichen mit Texten und Daten zum Schwimmerfolg. Google möchte Ask Photos im Sommer 2024 zunächst für englischsprachige Abonnenten von Google One einführen.
KI-gestützte Google Suche: AI Overviews
Wenig überraschend kommt KI nun auch in der klassischen Google-Suche an.
Google führt ab dieser Woche in den USA die sogenannten „AI Overviews“ für die Nutzer ein. Diese KI-generierten Zusammenfassungen beantworten komplexe Anfragen direkt oben in den Suchergebnissen ausführlich, statt lange um den heißen Brei herumzureden.
Als Beispiel nennt Google die Suche nach einem Yoga-Studio: Hier würde die AI Overview nicht nur Adressen der Studios auflisten, sondern auch Gehzeiten und aktuelle Angebote sowie Kartenausschnitte direkt mitliefern. Google wird dieses Feature in den kommenden Monaten auch in anderen Ländern einführen, nannte mehr Details aber leider erst einmal nicht.
Gemini wird in Android integriert
Eine der größten Ankündigungen der I/O: Google integriert seine hauseigene KI Gemini tief in das Android-Betriebssystem und ersetzt damit den Google Assistant direkt auf den Smartphones.
Google wird Gemini Nano bald auf erste Geräte bringen, wodurch Text, Bildern, Audio und Sprache vollständig lokal auf dem Gerät ohne Cloud-Verbindung verarbeitet werden können.
Dazu plant Google zahlreiche weitere KI-Funktionen wie zum Beispiel die Möglichkeit, beliebige Elemente auf dem Bildschirm zu umkreisen, um zusätzliche Informationen oder Definitionen angezeigt zu bekommen – Circle to Search. Gemini wird auch die Generierung und Integration von Bildern, Texten oder Informationen in geöffneten Apps wie Gmail oder Google Messages ermöglichen. Sogar komplexe Daten wie PDFs oder YouTube-Videos können der KI vorgelegt werden, um Zusammenfassungen oder Erklärungen dazu zu erhalten. Circle to Search ist nicht neu, aber war bisher nur auf einzelnen Geräten möglich.
Gemini Live Konversationen
Google will noch in diesem Jahr für Abonnenten des Dienstes „Gemini Advanced“ den Modus „Gemini Live“ für natürliche Sprachgespräche mit der KI einführen. Hier sollst du beispielsweise virtuelle Bewerbungsvorbereitungen absolvieren können, bei denen Gemini dem Nutzer relevante Fragen stellt und auf Antworten repliziert. Ein besonderes Merkmal von Live ist, dass die Nutzer frei sprechen und die KI-Assistenz jederzeit unterbrechen können – ähnlich wie bei einem natürlichen Gespräch zwischen zwei Menschen.
In einer Demo zeigte Google, wie ein Nutzer durch das Filmen eines Plattenspielers und die Frage „Wie bediene ich das?“ direkt eine Anleitung für das gezeigte Gerätemodell erhält. In dem Demo-Video konnte Astra Gegenstände in der Umgebung identifizieren, deren Zweck erklären und auf Fragen wie „Erinnerst du dich, wo meine Brille war?“ aus dem Kontext heraus antworten:
KI-Generierung von Videos, Musik und Bildern
Im kreativen Bereich stellte Google mehrere neue Tools vor, die auf der Gemini-Plattform für generative KI-Anwendungen aufbauen.
So soll „Veo“ die Fähigkeit bieten, einfach durch Texteingaben ganze Videoclips zu generieren – ähnlich wie die Anfang 2024 von OpenAI angekündigte Software Sora. Die „Music AI Sandbox“ ist eine Sammlung von KI-Tools zum Komponieren von Musik. Und mit „Imagen 3“ wagt sich Google an einen neuen Bildgenerator, der besonders bei der Wiedergabe und Erstellung von Texten in Szenen Stärken haben soll.
Videosuche mit Lens
Mit Google Lens kannst du dir heute schon von Google sagen lassen, was sich auf deinem Foto befindet. Das wird um ein „Video-Search“-Feature ergänzt. Damit sollst du in Zukunft auch Videoclips aus der Smartphone-Kamera verwenden können. In einer Demo zeigte Google, wie ein Nutzer durch Filmen eines Plattenspielers und der Frage „Wie bediene ich das?“ direkt zu einer Anleitung für das gezeigte Gerätemodell geleitet wird.
Gems: Persönliche KI-Assistenten erstellen
Google will es den Nutzern mit der neuen ‚Gems‘-Funktion ermöglichen, je nach persönlichen Interessen und Bedürfnissen eigene Anwendungsformen der Gemini-KI anzulegen und zu trainieren – ähnlich wie wir es schon von den Custom GTPs von Chat GPT kennen.
Als Beispiele nannte Google einen personalisierten „Trainings-Buddy“ für effektives Workout-Coaching, einen „Coding-Partner“ zur Unterstützung bei Programmier-Projekten oder einen „Sous-Chef“ mit Kochanleitungen und Rezepten. Die Gems sollen deutlich besser auf die individuellen Vorlieben und Aufgaben des jeweiligen Nutzers angepasst sein als ein generisches Chatbot-Modell.
Gemini App für Android mit Project Astra
Gemini soll eine eigene Smartphone-App erhalten, in der sämtliche Funktionen der KI-Plattform zusammenlaufen. Nutzer können über Texteingaben, Spracheingaben oder das Filmen ihrer Umgebung mit der Kamera auf Gemini zugreifen. Auch Project Astras Fähigkeiten zur Echtzeit-Videoanalyse sollen laut Google in die App integriert werden:
Als weitere Funktion kommt das oben bereits erwähnte Circle to Search, bei der du beliebige Objekte auf dem Smartphone-Display umkreisen kannst, um von der KI mit zusätzlichen Informationen dazu versorgt zu werden. Google möche die Gemini-App zunächst in 150 Ländern außerhalb Europas ausrollen, wobei ein ‚Gemini Advanced‘ Abo benötigt wird.
Fazit
Die KI-Plattform Gemini ist Googles Antwort auf den Trend hin zur „Generativen KI“ und den Aufstieg der großen Sprachmodelle wie ChatGPT. Von der Websuche über Android bis zu Cloud-Services für Entwickler – Google will die Möglichkeiten dieser Technologie in nahezu allen Produktbereichen nutzen.
Während manche Services wie die KI-Suche schon jetzt für normale Endnutzer (vorwiegend in den USA) ausgerollt werden, müssen wir in der EU auf die meisten Funktionen noch 12-18 Monate warten. Erst dann wird der Großteil der angekündigten Gemini-Funktionen auch für uns Normalsterbliche zur Verfügung stehen.