Large Language Models erklärt

Was sind LLMs?

31.12.2023
Von  und
Lucas Mearian ist Senior Reporter bei der Schwesterpublikation Computerworld  und schreibt unter anderem über Themen rund um  Windows, Future of Work, Apple und Gesundheits-IT.


Florian Maier beschäftigt sich mit diversen Themen rund um Technologie und Management.
Large Language Models liefern die algorithmische Grundlage für Generative-AI-Tools wie ChatGPT oder Bard. Das sollten Sie über LLMs wissen.
Ohne Large Language Model kein Generative AI.
Ohne Large Language Model kein Generative AI.
Foto: A. Solano - shutterstock.com

Seit der Veröffentlichung von ChatGPT im November 2022 geht Generative AI durch die Decke. Die Technologie wird dazu genutzt, Tasks zu automatisieren, bei Kreativaufgaben zu unterstützen oder auch um Software zu programmieren - um nur einige Anwendungsfälle zu nennen.

Die Grundlage für KI-Chatbots wie ChatGPT oder Bard liefern Large Language Models (LLMs, auch: große Sprachmodelle). Sie verarbeiten natürlichsprachliche Inputs und sagen das nächstfolgende Wort auf der Grundlage historischer Daten vorher. Man könnte LLMs also - vereinfacht ausgedrückt - als "Textvorhersage-Maschinen" bezeichnen.

Zu den derzeit populärsten großen Sprachmodellen gehören:

Seit der Veröffentlichung von Metas LLaMA im Februar 2023 gewinnen speziell Open-Source-LLMs zunehmend an Zugkraft, versprechen sie doch anpassungsfähigere Modelle zu geringeren Kosten.

In diesem Artikel erfahren Sie, was Large Language Models sind und wie sie funktionieren.

Large Language Model definiert

Ein Large Language Model ist ein neuronales Netzwerk für maschinelles Lernen, das mit Daten-Inputs und -Outputs trainiert wird. Der zugrundeliegende Text ist dabei häufig unstrukturiert und das Modell nutzt Self-Supervised- oder Semi-Supervised-Lerntechniken. Informationen oder Inhalte werden in das LLM eingespeist - der Output ist das, was der Algorithmus als nächstes Wort vorhersagt. Die Inputs können aus Unternehmensdaten oder - wie im Fall von ChatGPT - aus Daten bestehen, die direkt aus dem Netz stammen.

Um große Sprachmodelle zu trainieren, sind riesige Serverfarmen erforderlich, die ähnlich wie Supercomputer funktionieren. Gesteuert werden Large Language Models über Millionen, Milliarden oder sogar Billionen von Parametern. Die helfen dem Sprachmodell dabei, zwischen verschiedenen Antwortmöglichkeiten zu unterscheiden.

So funktionieren LLMs

Nehmen wir an, Sie übergeben folgende Frage als Input an ein LLM: "Was gab es heute zum Mittagessen?". Das Large Language Model könnte die Frage mit "Zerealien", "Reis" oder "Steak" beantworten. Dabei existiert keine 100-prozentig richtige Antwort - lediglich eine (trainings-)datenbasierte Wahrscheinlichkeit. Diejenige Antwortmöglichkeit, die auf Grundlage der vorhandenen beziehungsweise historischen Daten die wahrscheinlichste ist, wird das Large Language Model als Output wählen.

Dabei gilt allerdings der Grundsatz "Junk in, Junk out". Anders ausgedrückt: Füttern Sie ein großes Sprachmodell mit Bias-behafteten, unvollständigen oder anderweitig unzureichenden Informationen, dürfen Sie auch mit entsprechend unzuverlässigen, bizarren oder beleidigenden Ergebnissen rechnen. Wenn LLM-Outputs aus dem Ruder laufen, sprechen Datenanalysten auch von "Halluzinationen".

Jonathan Siddharth, CEO beim KI-Serviceanbieter Turing, erklärt: "Halluzinationen entstehen, weil LLMs in ihrer einfachsten Form keine interne Zustandsbeschreibung der Welt vorliegt. Das Konzept des Faktenwissens existiert hier nicht. Es geht ausschließlich um statistische Wahrscheinlichkeiten."

Insbesondere Bias kann in Zusammenhang mit LLMs gefährlich werden, wie Sayash Kapoor, Doktorand am Center for Information Technology Policy der Princeton University unterstreicht: "Kommen Bias-behaftete Sprachmodelle etwa bei Bewerbungsprozessen zum Einsatz, könnten sie zu geschlechtsspezifischer Voreingenommenheit in der realen Welt führen."

Weil sich einige Large Language Models mit Hilfe internetbasierter Daten selbst trainieren, können sie potenziell weit über das hinausgehen, wofür sie ursprünglich entwickelt wurden. Microsofts Bing zum Beispiel verwendet inzwischen Open AIs GPT-3-LLM als Grundlage, fragt parallel aber auch eine Suchmaschine ab. Die Plattform kombiniert also großes Sprachmodell und Internetsuche, um den Nutzern Antworten auf ihre Fragen zu liefern.

"Wir beobachten, dass ein LLM auf eine Programmiersprache trainiert wird und dann automatisch Code in einer anderen Programmiersprache generiert, die es noch nie zuvor gesehen hat", berichtet Siddharth. "Es ist fast so, als gäbe es ein emergentes Verhalten. Wir wissen nicht genau, wie diese neuronalen Netze funktionieren. Das ist beängstigend und aufregend zugleich."

In der Regel sind große Sprachmodelle - etwa Open AIs GPT-4 - mit riesigen Datenmengen vortrainiert. Allerdings können LLMs mit Hilfe von Prompt Engineering auch für den Einsatz in bestimmten Branchen oder Unternehmen trainiert werden. Yoon Kim, Machine-Learning-Spezialist und Assistenzprofessor am MIT, abstrahiert: "Beim Prompt Engineering geht es darum, zu entscheiden, womit wir den Algorithmus füttern, damit er das tut, was wir wollen. Ein Large Language Model plappert einfach ohne jeglichen Kontext und ist in gewissem Sinne bereits ein Chatbot."

Rund um Prompt Engineering wurden inzwischen bereits diverse Leitfäden und nützliche Stoffsammlungen veröffentlicht. Nach Meinung von Eno Reyes, Machine-Learning-Experte beim LLM-Anbieter Hugging Face, dürfte sich dieses Feld künftig zu einem gefragten Skill für Business- und IT-Experten entwickeln: "Prompt Engineers werden die künftigen, maßgeschneiderten Large Language Models für den Business-Einsatz liefern."

Large Language Models und der Datenschutz

Italien hatte Anfang 2023 als erstes westliches Land den Zugang zu ChatGPT aufgrund von Datenschutzbedenken nach einem Data Breach gesperrt (und die Entscheidung später wieder revidiert).

"Obwohl ChatGPT nach dem vorübergehenden Verbot durch Italien einige Verbesserungen vorgenommen hat, gibt es immer noch Luft nach oben", mahnt Gabriele Kaveckyte, Datenschutzbeauftragte beim Cybersicherheitsunternehmen Surfshark, und fügt hinzu: "Diese potenziellen Datenschutzprobleme zu beheben, ist essenziell, um eine verantwortungsvolle und ethisch vertretbare Datennutzung zu gewährleisten, Vertrauen zu fördern und die Privatsphäre der Nutzer bei KI-Interaktionen zu schützen."

Die Datenschutzexpertin weiß, wovon sie spricht, hat sie doch die Datenerhebungspraktiken von ChatGPT analysiert und eine Liste mit potenziellen Schwachstellen in diesem Bereich erstellt. Demnach:

  • sammle OpenAI möglicherweise ohne rechtliche Grundlage personenbezogene Daten in großem Umfang, um seine Sprachmodelle zu trainieren.

  • habe das Unternehmen nicht alle betroffenen Dateneigentümer darüber unterrichtet, wie und wofür ihre Informationen verwendet werden.

  • fehlten wirksame Tools zur Altersverifizierung, um den Jugendschutz zu gewährleisten.

Neben den Problemstellungen im Bereich Datenschutz bereitet Experten in Zusammenhang mit Large Language Models auch das Thema Datensicherheit Kopfzerbrechen. Das wirft Hürden für den Einsatz in bestimmten Branchen auf, wie KI-Spezialist Siddharth erklärt: "Bevor ein Krankenhaus oder eine Bank LLMs einsetzen kann, sind Probleme in Sachen geistiges Eigentum, Sicherheit und Vertraulichkeit zu lösen. Für einige dieser Probleme gibt es bereits gute technische Lösungen und ich denke, die übrigen werden auch noch gelöst. Bis es soweit ist, ist an einen breiten Enterprise-Einsatz eher nicht zu denken. Unternehmen wollen ein Large Language Model sicher nicht in einem Kontext verwenden, in dem es die eigenen Daten nutzt, um der Konkurrenz bessere Ergebnisse zu liefern."

Angesichts der Risiken und Unsicherheiten befassen sich Regierungen rund um den Globus bereits mit dem Thema Generative AI, beziehungsweise dessen künftiger Regulierung:

  • China hat bereits mehrere KI-Governance-Initiativen auf den Weg gebracht.

  • Die US-Regierung hat im Oktober 2022 einen Entwurf für eine "AI Bill of Rights" vorgestellt.

  • Die G7-Staaten verständigten sich im Mai 2023 darauf, eine Arbeitsgruppe einzusetzen, die sich mit Generative-AI-Lösungen befassen soll.

  • Die Europäische Union arbeitet an einer Gesetzgebung zur KI-Regulierung - dem AI Act.

Die "kleine" Zukunft großer Sprachmodelle

Heute werden LLM-basierte Chatbots am häufigsten "out of the box" eingesetzt - als textbasierte Web-Chat-Schnittstellen. Dazu werden sie in Suchmaschinen wie Google (Bard) und Bing (ChatGPT) integriert und für die automatische Online-Kundenbetreuung eingesetzt. Wie bereits erwähnt, können Unternehmen ihre eigenen Datensätze einspeisen, um die Chatbots besser auf ihr jeweiliges Unternehmen abzustimmen. Allerdings kann die Genauigkeit dabei aufgrund von bereits eingespeisten Datenmengen leiden. Je nach Größe und Einsatzzweck kann es mehrere Millionen Dollar kosten, ein großes Sprachmodell für bestimmte Anwendungsfälle zu trainieren.

"Wir beobachten immer häufiger, dass kleine Modelle, die man länger auf mehr Daten trainiert, das können, was große Modelle früher konnten", resümierte Thomas Wolf, Mitbegründer und CSO von Hugging Face, auf einer MIT-Konferenz Anfang des Monats. Wenn LLMs ihre KI- und Rechenleistung auf kleinere Datensätze konzentrierten, schnitten sie dabei genauso gut oder besser als die riesigen Sprachmodelle ab, die sich auf massive, amorphe Datensätze stützten. Die kleineren Datensätze könnten zudem die von den Nutzern gesuchten Inhalte präziser erstellen - und seien wesentlich kostengünstiger zu trainieren, so der Experte.

Eine Methode, um kleinere Large Language Models umzusetzen, nennt sich Sparse Expert Models (PDF) und wird nach Meinung von Experten künftig wesentlich dazu beitragen, die Trainings- und Computing-Kosten für LLMs zu reduzieren. So gehen etwa Forscher von Meta davon aus (PDF), dass Sparse Expert Models künftig eine ähnliche Performance wie ChatGPT realisieren, dazu aber nur den Bruchteil der bisherigen Rechenleistung benötigen.

Diverse Anbieter stellen bereits kleinere Large Language Models zur Verfügung. Zum Beispiel:

Die agileren großen Sprachmodelle werfen dabei bis zu 100 Milliarden Parameter in die Waagschale.

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Computerworld.