Autor: Paul Schreiber
Aktualisiert am Dezember 7, 2023

Google Gemini: Die Revolutionäre KI, die die Grenzen der Technologie neu definiert

Paul Schreiber

Paul ist Co-Gründer von RANKUS Media und seit 2016 in der Branche tätig.

In einer Welt, in der künstliche Intelligenz (KI, engl. AI) unaufhörlich fortschreitet, setzt Google mit seinem neuesten Durchbruch, dem Google Gemini AI-Modell, neue Maßstäbe. Als direkter Wettbewerber zu OpenAI’s GPT-4, vereint Gemini fortschrittliche multimodale Fähigkeiten mit beeindruckender Leistungsfähigkeit.

In diesem Ratgeber werfen wir einen detaillierten Blick auf Gemini, seine einzigartigen Eigenschaften und die Auswirkungen, die es auf die Zukunft der KI und unserer Interaktion mit der Technologie haben könnte.

Von seiner flexiblen Struktur mit Varianten wie Ultra, Pro und Nano bis hin zu seiner Integration in Googles Bard – wir erkunden, wie Gemini die Grenzen des Möglichen in der Welt der künstlichen Intelligenz neu definiert.

Kurz & Kompakt: Was kann Google Gemini?

Multimodale Fähigkeiten: Gemini ist von Grund auf als multimodales System entwickelt. Fähigkeit zur Verarbeitung und Integration verschiedener Medienarten wie Text, Bilder, Video und Audio.
Leistungsüberlegenheit in Benchmarks: Übertrifft GPT-4 in der Mehrzahl der getesteten Disziplinen. Besonders stark in MMLU (Massive Multitask Language Understanding), wo es menschliche Experten übertrifft.
Verbesserte Antwortgenerierung: Intensivere Reflexion vor der Antworterstellung, führt zu präziseren und durchdachteren Antworten. Übertrifft in sieben von acht Disziplinen GPT-4, mit Ausnahme des HellaSwag-Tests.

Varianten

Gemini ist aktuell in drei Varianten erhältlich:

Ultra
Pro
Nano

Gemini Ultra ist das leistungsfähigste Modell für komplexe Aufgaben, Gemini Pro eignet sich am besten für eine breite Skalierung, und Gemini Nano ist effizient für Aufgaben auf Geräten, wie z.B. dem Pixel 8 Pro.

Das bedeutet, je nach Größe des Geräts können unterschiedliche Varianten verwendet werden. Damit passt sich das Modell dem Endgerät an und wird jeweils maximale Leistung erzielen können. Auf dem Google Pixel 8 soll es durch das Nano Modell beispielsweise möglich sein, kurze Zusammenfassungen von Sprachaufnahmen zu erhalten.

Multimodale Fähigkeiten

Wie GPT-4 ist Gemini ein multimodales KI-Modell, das verschiedene Eingabearten wie Text, Bilder und Audio verarbeiten kann. Es kann diese Formate integrieren, um auf eine Vielzahl von Fragen zu beantworten. Andere LLMs werden für verschiedene Medien separat trainiert, um diese dann anschließend zusammenzuführen.

Google Gemini wird von Beginn an schon multimodal trainiert. Dabei ist Gemini in der Lage, auch komplexe geschriebene und visuelle Informationen korrekt zu verarbeiten.

In einer Demo für Journalisten zeigte Google bei der Vorstellung die Fähigkeit von Gemini, einen bestehenden Screenshot eines Diagramms zu nehmen, Hunderte von Forschungsseiten mit neuen Daten zu analysieren und dann das Diagramm mit diesen neuen Informationen zu aktualisieren.

In einem anderen Beispiel werden Gemini Bilder eines Omeletts gezeigt, das in einer Pfanne zubereitet wird, und es wird gefragt (per Sprache, nicht per Text), ob das Omelett schon gar ist. “Es ist noch nicht fertig, denn die Eier sind noch flüssig”, antwortet es.

Leistung und Vergleich

Gemini setzt neue Maßstäbe in der KI-Leistung und übertrifft als erstes Modell nach Angaben von Google menschliche Experten im MMLU (Massive Multitask Language Understanding).

Dieser umfangreiche Benchmark kombiniert 57 verschiedene Themenfelder wie Mathematik, Physik, Geschichte, Jura, Medizin und Ethik. Ziel ist es, ein breites Spektrum an Allgemeinwissen sowie Problemlösungsfähigkeiten zu bewerten und zu testen.

Gemini zeichnet sich durch eine verbesserte Fähigkeit aus, vor dem Generieren von Antworten auf komplexe Fragen intensiver zu reflektieren. Google hebt hervor, dass diese sorgfältige Überlegung vor der Antwortfindung im Vergleich zur sofortigen Auswahl der erstbesten Antwort signifikante Vorteile bietet.

In einem direkten Vergleich mit GPT-4 übertrifft Gemini in sieben der acht getesteten Disziplinen. Lediglich im HellaSwag-Test, der auf logisches Denken in alltäglichen Situationen abzielt, behält GPT-4 die Oberhand.

Gemini übertrifft GPT-4 in der Lösung multimodaler Probleme, die den Einsatz von Bildern, Videos oder Audio erfordern. Dieser Erfolg ist darauf zurückzuführen, dass Gemini von Beginn an als multimodales System konzipiert und trainiert wurde. Während andere Large Language Models (LLMs) separat für unterschiedliche Medientypen trainiert und anschließend integriert werden, wird Gemini von Beginn an mit einem multimodalen Ansatz geschult. Diese Trainingsmethode ermöglicht es Gemini, selbst komplexe schriftliche und visuelle Informationen effizient zu verarbeiten.

Integration mit Bard

Google Gemini wird in Bard, Googles textbasiertem Such-Chatbot, integriert, um dessen Fähigkeiten in Bezug auf Argumentation, Planung und Verständnis zu verbessern. Anfangs wird diese Integration in über 170 Ländern verfügbar sein, ausgenommen allerdings die EU und das Vereinigte Königreich.

Stufenweiser Rollout: Die vollständigen Fähigkeiten von Gemini werden in den kommenden Monaten schrittweise eingeführt, mit verschiedenen Phasen und Überprüfungen für Vertrauen und Sicherheit.

Unser Fazit

Google Gemini stellt einen bedeutenden Fortschritt in der KI-Entwicklung dar und bietet ausgefeilte Fähigkeiten, die Googles Ambitionen im Bereich KI zeigen. Google legt mit seinem KI-Modell seine Karten offen auf dem Tisch und greift ChatGPT an.

Hier gibt es das Video von Google zu Gemini:

Wer noch tiefer in das Thema Gemini einsteigen möchte -> Hier geht es zum Blog Post von Google: https://blog.google/technology/ai/google-gemini-ai/#sundar-note

Paul Schreiber

Paul ist Co-Gründer von RANKUS Media und seit 2016 in der Branche tätig.

Mehr Beiträge von Paul entdecken

Artikel teilen!