Paul Schreiber
Paul ist Co-Gründer von RANKUS Media und seit 2016 in der Branche tätig.
In einer Welt, in der künstliche Intelligenz (KI, engl. AI) unaufhörlich fortschreitet, setzt Google mit seinem neuesten Durchbruch, dem Google Gemini AI-Modell, neue Maßstäbe. Als direkter Wettbewerber zu OpenAI’s GPT-4, vereint Gemini fortschrittliche multimodale Fähigkeiten mit beeindruckender Leistungsfähigkeit.
In diesem Ratgeber werfen wir einen detaillierten Blick auf Gemini, seine einzigartigen Eigenschaften und die Auswirkungen, die es auf die Zukunft der KI und unserer Interaktion mit der Technologie haben könnte.
Von seiner flexiblen Struktur mit Varianten wie Ultra, Pro und Nano bis hin zu seiner Integration in Googles Bard – wir erkunden, wie Gemini die Grenzen des Möglichen in der Welt der künstlichen Intelligenz neu definiert.
Gemini ist aktuell in drei Varianten erhältlich:
Gemini Ultra ist das leistungsfähigste Modell für komplexe Aufgaben, Gemini Pro eignet sich am besten für eine breite Skalierung, und Gemini Nano ist effizient für Aufgaben auf Geräten, wie z.B. dem Pixel 8 Pro.
Das bedeutet, je nach Größe des Geräts können unterschiedliche Varianten verwendet werden. Damit passt sich das Modell dem Endgerät an und wird jeweils maximale Leistung erzielen können. Auf dem Google Pixel 8 soll es durch das Nano Modell beispielsweise möglich sein, kurze Zusammenfassungen von Sprachaufnahmen zu erhalten.
Wie GPT-4 ist Gemini ein multimodales KI-Modell, das verschiedene Eingabearten wie Text, Bilder und Audio verarbeiten kann. Es kann diese Formate integrieren, um auf eine Vielzahl von Fragen zu beantworten. Andere LLMs werden für verschiedene Medien separat trainiert, um diese dann anschließend zusammenzuführen.
Google Gemini wird von Beginn an schon multimodal trainiert. Dabei ist Gemini in der Lage, auch komplexe geschriebene und visuelle Informationen korrekt zu verarbeiten.
In einer Demo für Journalisten zeigte Google bei der Vorstellung die Fähigkeit von Gemini, einen bestehenden Screenshot eines Diagramms zu nehmen, Hunderte von Forschungsseiten mit neuen Daten zu analysieren und dann das Diagramm mit diesen neuen Informationen zu aktualisieren.
In einem anderen Beispiel werden Gemini Bilder eines Omeletts gezeigt, das in einer Pfanne zubereitet wird, und es wird gefragt (per Sprache, nicht per Text), ob das Omelett schon gar ist. “Es ist noch nicht fertig, denn die Eier sind noch flüssig”, antwortet es.
Gemini setzt neue Maßstäbe in der KI-Leistung und übertrifft als erstes Modell nach Angaben von Google menschliche Experten im MMLU (Massive Multitask Language Understanding).
Dieser umfangreiche Benchmark kombiniert 57 verschiedene Themenfelder wie Mathematik, Physik, Geschichte, Jura, Medizin und Ethik. Ziel ist es, ein breites Spektrum an Allgemeinwissen sowie Problemlösungsfähigkeiten zu bewerten und zu testen.
Gemini zeichnet sich durch eine verbesserte Fähigkeit aus, vor dem Generieren von Antworten auf komplexe Fragen intensiver zu reflektieren. Google hebt hervor, dass diese sorgfältige Überlegung vor der Antwortfindung im Vergleich zur sofortigen Auswahl der erstbesten Antwort signifikante Vorteile bietet.
In einem direkten Vergleich mit GPT-4 übertrifft Gemini in sieben der acht getesteten Disziplinen. Lediglich im HellaSwag-Test, der auf logisches Denken in alltäglichen Situationen abzielt, behält GPT-4 die Oberhand.
Gemini übertrifft GPT-4 in der Lösung multimodaler Probleme, die den Einsatz von Bildern, Videos oder Audio erfordern. Dieser Erfolg ist darauf zurückzuführen, dass Gemini von Beginn an als multimodales System konzipiert und trainiert wurde. Während andere Large Language Models (LLMs) separat für unterschiedliche Medientypen trainiert und anschließend integriert werden, wird Gemini von Beginn an mit einem multimodalen Ansatz geschult. Diese Trainingsmethode ermöglicht es Gemini, selbst komplexe schriftliche und visuelle Informationen effizient zu verarbeiten.
Google Gemini wird in Bard, Googles textbasiertem Such-Chatbot, integriert, um dessen Fähigkeiten in Bezug auf Argumentation, Planung und Verständnis zu verbessern. Anfangs wird diese Integration in über 170 Ländern verfügbar sein, ausgenommen allerdings die EU und das Vereinigte Königreich.
Stufenweiser Rollout: Die vollständigen Fähigkeiten von Gemini werden in den kommenden Monaten schrittweise eingeführt, mit verschiedenen Phasen und Überprüfungen für Vertrauen und Sicherheit.
Google Gemini stellt einen bedeutenden Fortschritt in der KI-Entwicklung dar und bietet ausgefeilte Fähigkeiten, die Googles Ambitionen im Bereich KI zeigen. Google legt mit seinem KI-Modell seine Karten offen auf dem Tisch und greift ChatGPT an.
Hier gibt es das Video von Google zu Gemini:
Wer noch tiefer in das Thema Gemini einsteigen möchte -> Hier geht es zum Blog Post von Google: https://blog.google/technology/ai/google-gemini-ai/#sundar-note
Weitere Beiträge:
Get in Touch!
Berlin
Goethestr. 48
10625 Berlin
Bamberg
Hauptwachstr.12
96047 Bamberg
Nürnberg
Mittlere Kreuzgasse 11
90403 Nürnberg
Fragen?