Bard heißt jetzt Gemini

Googles Kampfansage an Microsoft

09.02.2024
Von  und
Lucas Mearian ist Senior Reporter bei der Schwesterpublikation Computerworld  und schreibt unter anderem über Themen rund um  Windows, Future of Work, Apple und Gesundheits-IT.
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Mit Gemini setzt Google einen neuen Maßstab im Markt für Generative-AI-Dienste, sagen Analysten. Vor allem der multimodale Ansatz erhöht den Druck auf Konkurrenten wie Microsoft.
Mit Gemini meldet sich Google im GenAI-Markt eindrucksvoll zurück.
Mit Gemini meldet sich Google im GenAI-Markt eindrucksvoll zurück.
Foto: Google

Google hat seinen Chatbot Bard in Gemini umbenannt. Damit bekommt der Konversations-Bot den gleichen Namen wie das ihm zugrundeliegende Large Language Model (LLM). Die Alphabet-Tochter hatte Gemini Anfang Dezember 2023 vorgestellt. Die Google-Verantwortlichen bezeichnen Gemini als ein sogenanntes multimodales KI-Modell, das in der Lage sei, Informationen aus einer Vielzahl verschiedener Quellen zu interpretieren und zu generalisieren. Hierzu zählten neben Texten beispielsweise auch Bilder, Audio- und Videodaten sowie Programmiersprachen.

OpenAI bekommt mehr Wettbewerb zu spüren: Google tritt mit Gemini gegen ChatGPT an

Mit der Namensänderung hat Google zudem neue KI-Angebote vorgestellt. Gemini Advanced setzt auf dem neuen Sprachmodell Ultra 1.0 auf. Das Tool werde zunächst in einer englischsprachigen Version in 150 Ländern angeboten und sei Teil des Abo-Dienstes Google One, hieß es. Der KI-Service selbst kostet knapp zehn Dollar im Monat. Dazu kommen monatlich weitere zehn Dollar für Google One. Dafür bekommen Kundinnen und Kunden unter anderem einen Cloud-Speicherplatz von zwei Terabyte. Google will Gemini Advanced um zusätzliche Sprachen erweitern. Wann der Dienst in deutscher Sprache verfügbar sein soll, ist noch nicht bekannt.

Sissie Hsiao, Vice President für den Produktbereich bei Google, erklärte in einem Blog-Eintrag, Gemini Advanced sei weitaus "leistungsfähiger bei hochkomplexen Aufgaben wie Programmieren, logischem Denken, Befolgen nuancierter Anweisungen und Zusammenarbeit an kreativen Projekten". User könnten mit Gemini Advanced längere, detailliertere Gespräche führen, verspricht die Managerin. Der Bot verstehe insgesamt den Kontext von Fragen und Aufforderungen besser.

Darüber hinaus bringt Google Gemini auch auf Smartphones. Der KI-Dienst sei ab sofort als App auf Android und in der Google App auf iOS verfügbar - allerdings vorerst nur in den USA und auf Englisch. Weitere Länder und Sprachen sollen in den kommenden Wochen folgen.

Karten im GenAI-Markt werden neu gemischt

Mit Gemini würden die Karten im Markt für Generative AI neu gemischt, glauben Experten. "Gemini ist derzeit das einzige am Markt verfügbare native multimodale generative KI-Modell", sagt Chirag Dekate, Vice President Analyst bei Gartner. Google sei damit nicht mehr nur auf der Überholspur. Der Anbieter katapultiere sich mit seinem neuen KI-Service an die Spitze des Marktes. Dekate bezeichnet Gemini als "eine wirklich große Sache". Mit einem multimodalen Modell sei eine einzige generative KI-Engine in der Lage, einzelne Aufgaben genauer auszuführen, weil sie aus einem weitaus größeren Wissensschatz schöpfen und lernen könne.

Gartner IT Symposium: CIOs müssen die KI-Nutzung steuern

Gemini kann mit allen Arten von Medien und Inhalten trainiert werden, beschreibt der Gartner-Analyst den Ansatz von Google. Das sei insofern wichtig, weil Unternehmen jetzt Chatbots entwickeln könnten, die nicht mehr darauf beschränkt seien, Antworten auf Anfragen aus Texten zu laden, auf die die entsprechenden LLMs trainiert wurden.

"Wenn ich mir einen Film ansehe, sehe ich das Video, lese den Text (Untertitel), höre den Ton, und all das geschieht gleichzeitig, so dass ein sehr intensives Erlebnis entsteht", erläutert Dekate. "Das ist Multimodalität. Vergleichen Sie das mit einem Film, bei dem Sie nur das Drehbuch lesen (LLM) - das ist der Unterschied zwischen LLM und Multimodalität." Bis dato würden aufgabenspezifische Modelle den Markt bestimmen - Text-zu-Text, Text-zu-Bild, Text-zu-Video, Bild-zu-Text usw., so Dekate. Ein eigenes Modell für jede Aufgabe. "Wenn man also eine klare Aufgabe wie Text zu Text hat, dann schneiden LLMs gut ab."