OpenAI hat soeben mit dem Rollout der einer neuen Version seines Chatbots ChatGPT begonnen, die mit Menschen in gesprochener Sprache interagieren kann. Wie bei Amazon Alexa, Apple Siri oder anderen digitalen Assistenten treten die Benutzer in einen Dialog mit dem Bot. Der Unterschied ist, dass ChatGPT von einem großen Sprachmodell (LLM) gesteuert wird, das auf der Basis der Analyse riesiger Textmengen aus dem Internet spontan Sprache erzeugen kann.

Digitale Assistenten wie Alexa und Siri fungieren eher als Befehls- und Steuerungszentralen, die eine fixe Anzahl von Aufgaben ausführen oder Antworten auf eine begrenzte Liste von Fragen geben können wie "Alexa, schalte das Licht ein" oder "Wie ist das Wetter in Cupertino?"

ChatGPT kann in der neuen Version erstmals auch auf Bilder reagieren: Wie die New York Times (NYT) berichtet, können Nutzer zum Beispiel ein Foto ihres Kühlschrankinhalts hochladen, und der Bot schlägt ihnen eine Liste von Gerichten vor, die sich aus den vorgefundenen Lebensmitteln zubereiten lassen.

ChatGPT kommt mit einer Auswahl von fünf synthetischen Stimmen

Anwender können aus fünf synthetischen Stimmen wählen, die ChatGPT bereithält. In den nächsten zwei Wochen, so OpenAI, wird die neue Version des Chatbots an Abonnenten von ChatGPT Plus ausgeliefert, dem kostenpflichtigen Abo-Dienst, der mit 20 Dollar pro Monat zu Buche schlägt. Der Bot kann momentan allerdings nur mit iPhones und iPads sowie mit Android-Geräten in Dialog treten.

Die synthetischen Stimmen wirken ersten Berichten zufolge natürlicher als die der gängigen digitalen Assistenten, obwohl auch sie mitunter noch roboterhaft klingen. Wie andere Chatbots hat auch ChatGPT Probleme mit Homonymen. Als die NYT den neuen ChatGPT fragte, wie man "GYM" buchstabiert, lautete die Antwort: "J-I-M". Die Tester stellten dann klar, dass es um ein Fitnessstudio gehe. Der Bot antwortete: "Ah, jetzt verstehe ich, worauf Sie sich beziehen. Der Ort, an dem die Leute trainieren, wird G-Y-M geschrieben."

Während ChatGPT das Sprechen erlernt hat, bemühen sich Amazon und Apple, dass Alexa oder Siri mithilfe von Generative AI intelligenter werden. Gerade erst stellte Amazon eine aktualisierte Version von Alexa vor, die eine flüssigere Konversation über nahezu jedes Thema ermöglichen soll. Sie wird nun ebenfalls teilweise von einem neuen LLM gesteuert und verfügt über Verbesserungen in Bezug auf die Antwortgeschwindigkeit und die Sprachqualität.

Apple hält sich - wie gewohnt - mit Informationen zurück, testet aber wohl ebenfalls den Prototyp eines großen Sprachmodells für zukünftige Produkte. Das berichtete bereits im Juli 2023 der "Bloomberg"-Journalist Mark Gurman: Die Arbeiten an "Apple GPT" haben demnach begonnen, auch wenn sich das Apple-Management noch nicht entschieden habe, ein kommerzielles Produkt daraus zu machen.

ChatGPT reagiert auf Bilder

Spannend an der neuesten ChatGPT-Version ist nicht nur ihr Umgang mit Sprache, sondern auch die Verarbeitung von Bildern und Grafiken. Sie kann detaillierte Beschreibungen zu Tabellen, Fotos und Diagrammen liefern und Fragen zum Inhalt des Dargestellten beantworten. Damit könnte ChatGPT auch zu einem besonders nützlichen Werkzeug für Menschen mit Sehbehinderungen werden.

OpenAI hatte die Bildfunktionen schon erstmals im Frühjahr vorgeführt, aber noch nicht öffentlich zugänglich gemacht. Die Forscher befürchteten, das Tool könne als Gesichtserkennungsdienst missbraucht werden, da die schnelle Identifizierung von Personen auf Fotos möglich wäre. Microsoft hatte da weniger Skrupel: Das visuelle Suchwerkzeug, das auf OpenAI-Technologie basiert, steht mit dem Bing-Chatbot zur Verfügung.

Bei OpenAI heißt es, die neue Version des Bots sei so programmiert, dass sie "sich weigern" werde, Gesichter zu identifizieren. Sie sei jedoch in der Lage, detaillierte Beschreibungen von Fotos zu liefern. Vor allem auf Schulen dürften jetzt noch aufregendere Zeiten zukommen: Legt man dem Bot das Bild einer Matheaufgabe für die Oberstufe vor, das Text, Zahlen und Diagramme enthält, kann ChatGPT die Aufgabe in vielen Fällen sofort lösen. (hv)