Bard heißt jetzt Gemini

Googles Kampfansage an Microsoft

09.02.2024 von Lucas Mearian und Martin Bayer

Mit Gemini setzt Google einen neuen Maßstab im Markt für Generative-AI-Dienste, sagen Analysten. Vor allem der multimodale Ansatz erhöht den Druck auf Konkurrenten wie Microsoft.

Mit Gemini meldet sich Google im GenAI-Markt eindrucksvoll zurück.
Foto: Google

Google hat seinen Chatbot Bard in Gemini umbenannt. Damit bekommt der Konversations-Bot den gleichen Namen wie das ihm zugrundeliegende Large Language Model (LLM). Die Alphabet-Tochter hatte Gemini Anfang Dezember 2023 vorgestellt. Die Google-Verantwortlichen bezeichnen Gemini als ein sogenanntes multimodales KI-Modell, das in der Lage sei, Informationen aus einer Vielzahl verschiedener Quellen zu interpretieren und zu generalisieren. Hierzu zählten neben Texten beispielsweise auch Bilder, Audio- und Videodaten sowie Programmiersprachen.

OpenAI bekommt mehr Wettbewerb zu spüren: Google tritt mit Gemini gegen ChatGPT an

Mit der Namensänderung hat Google zudem neue KI-Angebote vorgestellt. Gemini Advanced setzt auf dem neuen Sprachmodell Ultra 1.0 auf. Das Tool werde zunächst in einer englischsprachigen Version in 150 Ländern angeboten und sei Teil des Abo-Dienstes Google One, hieß es. Der KI-Service selbst kostet knapp zehn Dollar im Monat. Dazu kommen monatlich weitere zehn Dollar für Google One. Dafür bekommen Kundinnen und Kunden unter anderem einen Cloud-Speicherplatz von zwei Terabyte. Google will Gemini Advanced um zusätzliche Sprachen erweitern. Wann der Dienst in deutscher Sprache verfügbar sein soll, ist noch nicht bekannt.

Sissie Hsiao, Vice President für den Produktbereich bei Google, erklärte in einem Blog-Eintrag, Gemini Advanced sei weitaus "leistungsfähiger bei hochkomplexen Aufgaben wie Programmieren, logischem Denken, Befolgen nuancierter Anweisungen und Zusammenarbeit an kreativen Projekten". User könnten mit Gemini Advanced längere, detailliertere Gespräche führen, verspricht die Managerin. Der Bot verstehe insgesamt den Kontext von Fragen und Aufforderungen besser.

Darüber hinaus bringt Google Gemini auch auf Smartphones. Der KI-Dienst sei ab sofort als App auf Android und in der Google App auf iOS verfügbar - allerdings vorerst nur in den USA und auf Englisch. Weitere Länder und Sprachen sollen in den kommenden Wochen folgen.

Karten im GenAI-Markt werden neu gemischt

Mit Gemini würden die Karten im Markt für Generative AI neu gemischt, glauben Experten. "Gemini ist derzeit das einzige am Markt verfügbare native multimodale generative KI-Modell", sagt Chirag Dekate, Vice President Analyst bei Gartner. Google sei damit nicht mehr nur auf der Überholspur. Der Anbieter katapultiere sich mit seinem neuen KI-Service an die Spitze des Marktes. Dekate bezeichnet Gemini als "eine wirklich große Sache". Mit einem multimodalen Modell sei eine einzige generative KI-Engine in der Lage, einzelne Aufgaben genauer auszuführen, weil sie aus einem weitaus größeren Wissensschatz schöpfen und lernen könne.

Gartner IT Symposium: CIOs müssen die KI-Nutzung steuern

Gemini kann mit allen Arten von Medien und Inhalten trainiert werden, beschreibt der Gartner-Analyst den Ansatz von Google. Das sei insofern wichtig, weil Unternehmen jetzt Chatbots entwickeln könnten, die nicht mehr darauf beschränkt seien, Antworten auf Anfragen aus Texten zu laden, auf die die entsprechenden LLMs trainiert wurden.

"Wenn ich mir einen Film ansehe, sehe ich das Video, lese den Text (Untertitel), höre den Ton, und all das geschieht gleichzeitig, so dass ein sehr intensives Erlebnis entsteht", erläutert Dekate. "Das ist Multimodalität. Vergleichen Sie das mit einem Film, bei dem Sie nur das Drehbuch lesen (LLM) - das ist der Unterschied zwischen LLM und Multimodalität." Bis dato würden aufgabenspezifische Modelle den Markt bestimmen - Text-zu-Text, Text-zu-Bild, Text-zu-Video, Bild-zu-Text usw., so Dekate. Ein eigenes Modell für jede Aufgabe. "Wenn man also eine klare Aufgabe wie Text zu Text hat, dann schneiden LLMs gut ab."

Genauere Ergebnisse mit multimodalen Modellen

Wie sich dagegen Multimodalität in der Praxis auswirken könnte, beschreibt der Analyst so: Ein Unternehmen aus dem Gesundheitswesen, das beispielsweise versuche, einen immersiven Chatbot für Ärzte zu entwickeln, könne mit einer multimodalen GenAI-Engine die Audioschnipsel, Röntgenbilder und MRT-Videoscans eines Arztes aufnehmen, verarbeiten und so wesentlich genauere Prognosen und Behandlungsergebnisse erstellen. "Dies schafft ein sehr intensives, persönliches Erlebnis, das mit einer einfachen LLM-Erfahrung nicht möglich wäre", so Dekate. Wenn Google Unternehmen und Verbrauchern diese multimodale Erfahrungen ermöglichen könne, dann habe der Anbieter die Chance, sein Standing im Markt deutlich zu verbessern.

Um das Ultra-Modell nutzen zu können, müssen Anwenderinnen und Anwender das Premium-AI-Paket von Google kaufen.
Foto: Google

Der KI-Markt dürfte aus Sicht des Gartner-Analysten nun in eine neue Phase eintreten. 2023 sei ein Jahr der Ideenfindung gewesen, als Unternehmen und Verbraucher im Zuge der Veröffentlichung von ChatGPT mehr über GenAI und Chatbots erfuhren, so Dekate. Mittlerweile verstünden die Unternehmen die Möglichkeiten von GenAI besser und begännen zu investieren, um ihre Back-End- und Front-End-Systeme damit auszustatten.

Die Marktforscher von IDC erwarten, dass die Ausgaben für GenAI-Lösungen im Jahr 2024 weltweit rund 40 Milliarden Dollar erreichen werden, gegenüber 19,4 Milliarden Dollar im Vorjahr. Bis 2027 werde der Markt IDC zufolge voraussichtlich ein Volumen von 151,1 Milliarden Dollar erreichen - mit einer jährlichen Wachstumsrate von durchschnittlich 86,1 Prozent.

Google vs Microsoft: Kampf der KI-Titanen

Der One AI Premium-Plan ist auch eine Kampfansage Googles an die Adresse von Microsoft und seinen GenAI-Partner OpenAI, der das GPT-LLM entwickelt hat, das ChatGPT antreibt. "Zum Teil geht es darum, mit Microsoft zu konkurrieren, und zum Teil darum, seinen Premium-Kunden entsprechende Dienste anzubieten", sagt Jack Gold, Chefanalyst bei J. Gold Associates. Die Kunst dabei bestehe darin, die richtige Balance zu finden. "Wenn man eine Gebühr erhebt, begrenzt man auch die Anzahl der Nutzer, die sich kostenlos angemeldet hätten", so der Analyst. "Das bietet die Möglichkeit, Probleme zu beheben, die von einer begrenzten Anzahl von Nutzern gesehen werden, und bietet eine Einnahmequelle, um die Technik aufrechtzuerhalten, anstatt sich auf Werbung verlassen zu üssen, um sie zu finanzieren."

Für Google stellt sich auch die Frage der Kosten. Denn es ist nicht billig, große KI-Modelle in Rechenzentren zu trainieren. "Ich bin mir nicht sicher, wie Google es ab- und verrechnet, all diese KI im Hintergrund laufen lassen," so Gold. Das erfordere eine Menge Rechenleistung, "und Energie ist einer der größten Kostenfaktoren beim Betrieb einer Cloud und der dazugehörigen Rechenzentren".