Model Drift

Warum ChatGPT nicht immer "besser" wird

20.07.2023
Von 


Manfred Bremmer beschäftigt sich mit (fast) allem, was in die Bereiche Mobile Computing und Communications hineinfällt. Bevorzugt nimmt er dabei mobile Lösungen, Betriebssysteme, Apps und Endgeräte unter die Lupe und überprüft sie auf ihre Business-Tauglichkeit. Bremmer interessiert sich für Gadgets aller Art und testet diese auch.
Forscher der Universität Stanford haben herausgefunden, dass die Korrektheit der Antworten von OpenAIs GenAI-Tool bei einigen Aufgaben innerhalb weniger Monate deutlich gesunken ist.
Auch KI kann sich offenbar in einer Disziplin deutlich verbessern, während die Leistung auf anderen Gebieten nachlässt.
Auch KI kann sich offenbar in einer Disziplin deutlich verbessern, während die Leistung auf anderen Gebieten nachlässt.
Foto: Tada Images - shutterstock.com

Wenngleich OpenAI kontinuierlich daran arbeitet, die Genauigkeit seiner großen Sprachmodelle (LLMs) GPT-3,5 und GPT-4 sowie des darauf basierenden KI-Chatbots ChatGPT mithilfe von Updates zu verbessern, muss das nicht unbedingt in allen Bereichen funktionieren.

So fanden Forscher der Universität Stanford in einer Studie (PDF) heraus, dass die Leistung und das Verhalten von GPT-3.5 und GPT-4 im Laufe der Zeit stark variieren können. So war beispielsweise GPT-4 im März 2023 mit einer Genauigkeit von 97,6 Prozent sehr gut beim Erkennen von Primzahlen, versagte jedoch im Juni bei denselben Fragen mit einer Genauigkeit von 2,4 Prozent nahezu komplett. Interessanterweise war bei GPT-3.5 genau das Gegenteil der Fall: Das Modell verbesserte seine Genauigkeit bei dieser Aufgabe innerhalb von drei Monaten von 7,4 Prozent auf 86, 8 Prozent.

Ähnlich unterschiedliche Ergebnisse ergaben sich, als die Forscher die Modelle aufforderten, Code zu schreiben: Sowohl GPT-4 als auch GPT-3.5 hatten im Juni mehr Formatierungsfehler bei der Codegenerierung als im März.

Der Vergleichstest in vier Kategorien zeigt deutliche Unterschiede zwischen dem März - und dem Juni-Modell von GPT-3,5 und GPT-4
Der Vergleichstest in vier Kategorien zeigt deutliche Unterschiede zwischen dem März - und dem Juni-Modell von GPT-3,5 und GPT-4
Foto: Stanford University

Trotz des unerwartet hohen Ausmaßes der Veränderung ging es den Autoren in der Studie nicht primär um die Genauigkeit des Modells bei der Ausführung bestimmter Aufgaben. Sie wollten vielmehr aufzeigen, dass sich das Verhalten des "gleichen" LLM-Dienstes in relativ kurzer Zeit erheblich verändern kann. Es sei wichtig zu wissen, ob Aktualisierungen des Modells, die darauf abzielen, einige Aspekte zu verbessern, tatsächlich seine Leistungsfähigkeit in anderen Dimensionen beeinträchtigen, erklären sie.

Diese starken Schwankungen - bekannt als Model Drift - in der Fähigkeit der Technologie, bestimmte Aufgaben zu erfüllen, unterstreichen aus ihrer Sicht die Notwendigkeit, die LLM-Qualität kontinuierlich zu überwachen. Ändert sich nämlich die Reaktion des LLM auf eine Eingabeaufforderung (etwa in punkto Genauigkeit oder Formatierung) plötzlich, könnte dies die nachgelagerte Pipeline unterbrechen.

Nebenwirkungen inklusive

"Wenn wir ein großes Sprachmodell optimieren, um seine Leistung bei bestimmten Aufgaben zu verbessern, kann das viele unbeabsichtigte Folgen haben, die der Leistung dieses Modells bei anderen Aufgaben schaden können", erklärt Zuo gegenüber Fortune. "Es gibt alle möglichen interessanten Abhängigkeiten in der Art und Weise, wie das Modell auf Dinge antwortet, die zu einigen der von uns beobachteten Verhaltensverschlechterungen führen können."

Die genaue Natur dieser unbeabsichtigten Nebenwirkungen ist dabei immer noch nicht ganz klar, da sowohl Forscher als auch die Öffentlichkeit keinen Einblick in die Modelle haben, die ChatGPT betreiben. "Das sind Blackbox-Modelle", so Zuo. "Wir wissen also nicht wirklich, wie sich das Modell selbst, die neuronalen Architekturen oder die Trainingsdaten verändert haben."