4 LLM-Testing-Strategien

So testen Sie große Sprachmodelle

10.04.2024
Von 


Isaac Sacolick ist Autor des Amazon-Bestsellers "Diving Digital: The Leader's Guide to Business Transformation thourh Technology". Er schreibt als freier Autor unter anderem für unsere US-Schwesterpublikation CIO.com.

 
Geht es um Large Language Models, sind Testing und Qualitätssicherung zwei erfolgskritische Bereiche.
Wenn GenAI-Initiativen strategisches Testing außen vor lassen, sind die Probleme vorprogrammiert.
Wenn GenAI-Initiativen strategisches Testing außen vor lassen, sind die Probleme vorprogrammiert.
Foto: Roman Samborskyi | shutterstock.com

Generative KI (GenAI; Generative AI) ist weiterhin in aller Munde. Die neuen Geschäftsmöglichkeiten bewegen diverse Unternehmen - beziehungsweise deren Entwicklungsteams - dazu, Vektordatenbanken aufzubauen und Large Language Models (LLMs; auch große Sprachmodelle) in ihre Applikationen einzubetten. Firmen, die in GenAI und LLMs investieren, müssen bereits im Vorfeld einige Hürden nehmen, wenn sie erfolgreich sein wollen.

Größere Bedenken könnte allerdings ein Blick darauf hervorrufen, wie große Sprachmodelle und GenAI-Anwendungen getestet werden. Unzureichende Qualitätssicherung und nicht existente Testing-Prozesse für LLMs können diverse negative Folgen nach sich ziehen - beispielsweise Reputationsschäden oder Urheberrechtsklagen. Um es kurz zu machen: Entwicklungs-Teams brauchen eine Testing-Strategie für LLMs.

LLMs testen in 4 Schritten

Die folgenden Best Practices können als Basis dienen, um große Sprachmodelle, die in benutzerdefinierte Anwendungen eingebettet sind, zu testen und sicherzustellen, dass sie die qualitativen Anforderungen des Unternehmens und der Endbenutzer erfüllen.

1. Software-Qualitätssicherung mit Testdaten erweitern

Die allermeisten Entwicklungsteams werden keine generalistischen Large Language Models erstellen, sondern Applikationen für bestimmte Endbenutzer und Anwendungsfälle. Das erfordert ein grundlegendes Verständnis in mehreren Bereichen. Jakob Praher, CTO beim Enterprise-Search-Anbieter Mindbreeze, erklärt: "Die erste Voraussetzung dafür, große Sprachmodelle zu testen, ist zu wissen, welches Problem das LLM lösen soll. Um Metriken für die Performance des KI-Modells zu definieren, sollten Testdatensätze angelegt werden. Das ermöglicht, entweder die Prompts zu optimieren oder das Modell systematisch feinabzustimmen."

Ein LLM für den Kundenservice könnte zum Beispiel einen Testdatensatz mit häufigen Benutzerproblemen und den besten Lösungsansätzen enthalten. Bei anderen Use Cases gestaltet es sich möglicherweise schwieriger, die Ergebnisse zu evaluieren - dennoch können die Entwickler Testdaten zu Validierungszwecken nutzen.

Auch Kishore Gadiraju, VP of Engineering beim Data-Management-Spezialisten Solix Technologies, ist davon überzeugt, dass Testdatensätze den zuverlässigsten Testing-Weg darstellen, wenn es um LLMs geht. Er betont jedoch: "Die Challenge liegt in den Kosten und dem Zeitaufwand um solche Datensätze zu erstellen. Denn wie bei jeder anderen Software auch, umfasst auch Testing im Bereich LLMs Unit-, Funktions-, Regressions- und Performance-Tests. Dazu kommen noch Bias-, Fairness-, Datenschutz-, Inhaltskontroll- und Explanability-Testing."

2. Modellqualitäts- und Performance-Tests automatisieren

Sobald ein Testdatensatz vorliegt, können Entwicklungsteams - je nach Qualitätszielen, Risiken und Kostenabwägungen - verschiedene Testing-Ansätze in Betracht ziehen. Olga Megorskaya, CEO des KI-Unternehmens Toloka AI, erklärt, wohin der Trend dabei ihrer Meinung nach geht: "Aus Zeit- und Kosteneffizienzgründen setzen Unternehmen zunehmend auf automatisierte statt auf manuelle Evaluierungsmethoden". Die Managerin schränkt dabei jedoch ein: "In Situationen, in denen es darauf ankommt, Nuancen zu erkennen, sollten Unternehmen trotzdem Experten hinzuziehen - diese könnten von automatisierten Systemen möglicherweise übersehen werden."

Die richtige Balance zwischen manuellen und automatisierten Tasks zu finden, ist dabei für Developer und Data Scientists oft eine diffizile Aufgabe. Steven Hillion, SVP of Data and AI beim Datenspezialisten Astronomer, empfiehlt deshalb: "Setzen Sie auf eine Kombination aus automatisiertem Benchmarking für jeden Schritt des Modellierungsprozesses und einen Mix aus Automatisierung und manueller Verifizierung für das End-to-End-System. Im Fall von umfassenderen Releases sollte in jedem Fall eine finale manuelle Validierung anhand des Testdatensatzes erfolgen. Das gilt vor allem dann, wenn neue Embeddings, KI-Modelle oder Prompts eingeführt wurden, die das allgemeine Qualitätsniveau anheben sollen. Schließlich sind die erzielten Verbesserungen oft subtil oder subjektiv."

Dabei spielt auch eine große Rolle, dass zuverlässige LLM-Testing-Plattformen bislang Mangelware sind, wie Nikolaos Vasiloglou, VP of Research ML beim KI-Anbieter RelationalAI, unterstreicht: "Es gibt keine modernen Plattformen für systematisches Testing. Deswegen ist ein Bot, der auf Knowledge-Graphen basiert derzeit die beste Lösung." Bis besagte Lösungen kommen, müssen Unternehmen ihr "Testing-Glück" also selbst in die Hand nehmen. Zum Beispiel mit folgenden Testing-Bibliotheken und Tools, die Solix-Softwareexperte Gadiraju empfiehlt:

  • AI Fairness 360 ist ein Open-Source-Toolkit von IBM, mit dem sich Verzerrungen in Machine-Learning-Modellen analysieren, reporten und abschwächen lassen.

  • DeepEval ist ein quelloffenes Framework um LLMs zu evaluieren. Das Tool ähnelt Pytest, ist jedoch auf Unit-Testing für LLM-Outputs ausgerichtet.

  • Baserun ist ein Prompt-Engineering-Tool, um KI-Modelle zu debuggen, zu testen und iterativ zu optimieren.

  • NeMo-Guardrails ist ein quelloffenes Toolkit von Nvidia, um die Outputs von LLMs mit programmierbaren Einschränkungen zu versehen.

Laut Monica Romila, Director of Data Science Tools and Runtimes bei IBM, sollten zwei wesentliche Testing-Bereiche im Fokus stehen, wenn es um LLMs in Enterprise-Anwendungsfällen geht:

  1. "Model Quality Evaluation" bewertet die Modellqualität unter Berücksichtigung akademischer und interner Datensätze für Anwendungsfälle wie Klassifizierung, Extraktion, Zusammenfassung, Generierung und Retrieval Augmented Generation (RAG).

  2. "Model Performance Testing" validiert die Latenz und den Durchsatz des Modells.

Performance-Testing hängt nach Meinung der IBM-Managerin wesentlich von zwei verschiedenen Parametern ab: der Anzahl der parallelen Requests sowie der Anzahl der generierten Token. "Es ist wichtig, mit verschiedenen Lastgrößen und -typen zu testen und die Performance mit existierenden Modellen zu vergleichen, um festzustellen, ob Aktualisierungen erforderlich sind", konstatiert Romila.

Heather Sundheim, Managing Director of Solutions Engineering beim Cloud-Serviceanbieter SADA, empfiehlt DevOps- und Cloud-Architekten zudem, auch die Infrastrukturanforderungen im Blick zu haben, die Performance- und Load-Testing mit sich bringen: "Eine Testing-Infrastruktur für große Sprachmodelle bereitzustellen, erfordert zuverlässige Rechenressourcen, Speicherlösungen und entsprechende Frameworks. Automatisierte Provisioning-Tools wie Terraform und Versionskontrollsysteme wie Git spielen eine zentrale Rolle, wenn es darum geht, reproduzierbare Deployments und effektive Kollaboration zu realisieren. Das unterstreicht, wie wichtig ein ausgewogenes Verhältnis von Ressourcen, Storage, Deployment-Strategien und Collaboration Tools mit Blick auf LLM-Testing ist."

3. RAG-Qualität auf Use-Case-Basis bewerten

Um die Genauigkeit großer Sprachmodelle zu optimieren, gibt es mehrere Techniken - etwa Inhalte zu zentralisieren, die KI-Modelle mit zeitaktuellen Daten zu aktualisieren oder Retrieval Augmented Generation in der Query Pipeline anzuwenden. Speziell RAG spielt eine entscheidende Rolle, wenn es darum geht, leistungsfähige LLMs mit proprietären Unternehmensdaten zu verbinden. Igor Jablokov, CEO und Gründer des Plattformanbieters Pryon, erklärt: "RAG macht vor allem bei Enterprise Deployments Sinn, in denen eine überprüfbare Zuordnung der Quellinhalte notwendig ist - insbesondere in kritischen Infrastrukturen."

RAG zu nutzen, reduziert nachweislich KI-Halluzinationen und verbessert die Genauigkeit von Modellen. Allerdings stellt die Technik auch eine weitere Komponente dar, die auf Relevanz und Performace getestet werden muss. Die Art dieser Testing-Ansätze hängt schließlich davon ab, wie einfach es ist, die RAG- und LLM-Antworten zu evaluieren - und zu welchem Grad die Entwicklungs-Teams das Feedback der Endbenutzer nutzen können.

Deon Nicholas, CEO bei Forethought, gibt Einblicke, welche RAG-Evaluierungsoptionen bei seinem Unternehmen zum Einsatz kommen. Demnach setzen die Generative-AI-Spezialisten diesbezüglich auf drei verschiedene Ansätze:

  • Goldstandard-Datensätze oder manuell gelabelte Datensätze mit korrekten Antworten auf Queries dienen als Benchmark für die Modell-Performance.

  • Reinforcement Learning testet Modelle in realen Szenarien - fragt etwa den Zufriedenheitsgrad eines Benutzers nach einer Chatbot-Interaktion ab.

  • Adversarial Networks ermöglichen, die Modell-Performance automatisiert zu bewerten, weil sie nicht auf menschliches Feedback angewiesen sind.

"Jede Methode bringt Kompromisse mit sich, wobei der manuelle Aufwand gegen das Risiko, Fehler zu übersehen, abgewogen werden muss", erklärt Nicholas und fügt hinzu: "Die besten Systeme nutzen diese Methoden für alle Systemkomponenten, um Fehler zu minimieren und einen robusten KI-Einsatz zu fördern."

4. Qualitätsmetriken und Benchmarks entwickeln

Sobald Sie über Testdaten, ein aktualisiertes, großes Sprachmodell und eine Testing-Strategie verfügen, besteht der nächste Schritt darin, die Qualität anhand der festgelegten Ziele zu überprüfen. Atena Reyhani, Chief Product Officer beim KI-Serviceanbieter ContractPodAi, weiß, worauf es dabei ankommt: "Um eine sichere und vertrauenswürdige KI gewährleisten zu können, sind spezifische und messbare KPIs sowie eng definierte Leitplanken essenziell." Laut der CPO gebe es in diesem Bereich diverse Kriterien zu berücksichtigen: "Die Entwickler müssen das gesamte LLM-Ökosystem und das Betriebsmodell im Zielbereich bewerten, um sicherzustellen, dass es genaue, relevante und umfassende Ergebnisse liefert."

Ein Tool, das in diesem Bereich weiterhelfen kann, ist Chatbot Arena - eine offene Umgebung, um LLM-Ergebnisse zu vergleichen. Das Tool nutzt dazu das "Elo Rating System" - einen Algorithmus, der bislang vor allem dazu genutzt wird, Spieler in Wettbewerben zu ranken. Joe Regensburger, VP of Research beim Datensicherheitsspezialisten Immuta, erklärt: "Die menschliche Bewertung ist ein zentraler Bestandteil des Testing-Prozesses - vor allem, wenn es darum geht, ein großes Sprachmodell für die Requests zu härten, die in freier Wildbahn auf es zukommen. 'Chatbot Arena' ist dabei ein Beispiel für Crowdsourcing Testing. Ein Verfahren, das eine wichtige Feedback-Schleife bieten kann."

Geht es um konkrete Metriken, empfiehlt IBM-Managerin Romila, folgende KPIs - je nach LLM-Anwendungsfall - zu berücksichtigen:

  • Der F1 Score setzt sich aus "Precision" und "Recall" zusammen und ist relevant, wenn große Sprachmodelle für Klassifizierungs- oder Prognoseaufgaben eingesetzt werden. Ein LLM im Bereich Customer Support kann beispielsweise danach bewertet werden, wie gut es Handlungsempfehlungen liefert.

  • Mit RougeL können RAG und LLMs für Summarization-Zwecke getestet werden. Allerdings setzt das eine manuell erstellte Zusammenfassung voraus, um die Ergebnisse benchmarken zu können.

  • Ursprünglich wird sacreBLEU verwendet, um Übersetzungen zu testen. Inzwischen wird es - neben anderen Methoden wie TER, ChrF und BERTScore - eingesetzt, um die Antworten großer Sprachmodelle quantitativ zu bewerten.

Testing endet nicht damit, ein Modell bereitzustellen. Vielmehr gilt es, das User Feedback, die Performance-Metriken und andere Rückmeldungen dazu zu nutzen, die KI-Modelle weiter zu optimieren. Dustin Pearce, VP of Engineering und CISO beim CDP-Anbieter Amplitude, erklärt: "Nach dem Deployment ist es von entscheidender Bedeutung, die Ergebnisse mit Hilfe von Behavioral Analytics zu integrieren. Das sorgt für schnelleres Feedback und ermöglicht, die Modellleistung eindeutiger zu messen."

Ein wichtiger Schritt zur Vorbereitung auf die Produktion sind dabei Feature Flags. KI-Unternehmen wie Anthropic, Character.ai, Notion und Brex bauen ihre Produkte gezielt mit Feature Flags auf, um Applikationen kollaborativ testen zu können, Funktionen schrittweise einzuführen und Experimente auf verschiedene Nutzersegmente auszurichten. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.