Generative AI

ChatGPT – sag mir, wo die Daten liegen

26.06.2023
Von 
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Sollen die Daten zur KI kommen oder die KI zu den Daten? Gerade im Kontext der Analyse von kritischen Geschäftsdaten ist das die entscheidende Frage. Beide Ansätze haben Vor- und Nachteile.
Was sollte im Gravitationszentrum des Generative-AI-Kosmos stehen? Die KI oder die Daten?
Was sollte im Gravitationszentrum des Generative-AI-Kosmos stehen? Die KI oder die Daten?
Foto: Jurik Peter - shutterstock.com

Dass ChatGPT bei den Mathematik-Hausaufgaben hilft oder mal eben die Fakten zur Völkerschlacht bei Leipzig zusammenstellt, ist nett und nützlich, hilft Unternehmen aber im Business nicht weiter. Dafür müssten die Werkzeuge für Generative AI mit eigenen Geschäftsdaten gefüttert werden.

Die Gretchen-Frage, die sich Betriebe dabei stellen: Sollen die eigenen, zum großen Teil kritischen und sensiblen Daten mit einem öffentlich verfügbaren KI-Dienst in der Cloud geteilt werden? Oder ist es besser, die Daten im eigenen Unternehmen zu belassen und sich sein eigenes Large Language Model (LLM) zu bauen. Beide Varianten haben ihre Vor- und Nachteile.

Microsoft hat den "Azure OpenAI Service on your data" als Public Preview vorgestellt. Der Softwarekonzern spricht von einer bahnbrechenden neuen Funktion, die es Unternehmen ermöglichen soll, OpenAI-Modelle wie ChatGPT und GPT-4 mit den eigenen Firmendaten zu nutzen. Der KI-Dienst werde die Art und Weise revolutionieren, wie Sie mit Ihren Daten interagieren und diese analysieren, schreibt Andy Beatman, Senior Product Manager für den Bereich Azure AI bei Microsoft, in einem Blog-Beitrag. Er verspricht Nutzern des Service eine hohe Genauigkeit und Geschwindigkeit sowie viele wertvolle Erkenntnisse.

Daten über Microsofts Azure AI Studio mit KI verknüpfen

Microsofts neuer Azure-Dienst ermöglicht es, OpenAI-Modelle direkt auf die eigenen Unternehmensdaten anzuwenden. Ein spezielles Training oder Fein-Tuning sei dafür nicht erforderlich, so Beatman. Mit Hilfe von Azure AI Studio könnten Anwender beliebige Datenquellen anbinden. Das könnten bereits mit Hilfe von Azure Cognitive Search indizierte Daten sein oder Blob Storage Container in der Microsoft Cloud oder auch der Upload lokaler Files. Sind die Daten mit den GPT-Modellen verknüpft, können die User Fragen an diesen Datenbestand richten. Microsoft zufolge werden dabei unterschiedlichste Dateiformate unterstützt, zum Beispiel TXT, MD, HTML, Word-Dateien, PowerPoint und PDF für Analysen und Konversationen.

Beatman spricht von einer breiten Palette an Einsatzmöglichkeiten. Der Dienst vereinfache Prozesse wie die Dokumentenerfassung und -indizierung. Er biete einen schnelleren Zugriff auf Daten - beispielsweise aus der Rechts- oder Finanzabteilung. Unternehmen seien damit in der Lage, Ressourcen für eine präzisere Marketingsteuerung zu nutzen sowie die Softwareentwicklung und HR-Verfahren zu optimieren. Mit Hilfe des Azure OpenAI Service ließen sich wertvolle Kundeneinblicke gewinnen, der Zugriff auf Daten monetarisieren sowie tiefgreifende Einblicke in die Branche und die Konkurrenz gewinnen, schreibt Beatman weiter.

Gerade letzteres sollte die Anwenderunternehmen hellhörig machen. Offensichtlich dienen die hochgeladenen Business-Daten auch dazu, Modelle unternehmensübergreifend zu trainieren, um beispielsweise Vergleiche anzustellen. Das zentrale Problem bei diesem Ansatz: Unternehmensdaten gelangen durch die Verwendung von KI-Modellen in der Public Cloud an die Öffentlichkeit. Der Vorteil dieses Ansatzes: Der Einsatz von Generative AI auf eigenen Business-Daten funktioniert schnell und einfach.

Cloudera entwirft Blaupause für LLMs im Unternehmenskontext

Es gibt jedoch alternative Wege, die eigenen Unternehmensdaten mit Hilfe von LLMs auszuwerten und zu nutzen. Der Datenspezialist Cloudera hat mit dem LLM "Chatbot Augmented with Enterprise Data" gerade erst eine Blaupause für ein Large Language Model (LLM) im Unternehmenskontext vorgestellt. Betriebe könnten auf diese Weise gewährleisten, dass sie KI in einer sicheren, vertrauenswürdigen und verantwortungsvollen Weise nutzen, verspricht der Anbieter.

Öffentlich verfügbare KI-Dienste seien für Unternehmen zwar attraktiv, jedoch müssten sie ihre Daten dafür mit externen Diensten teilen, warnen die Cloudera-Verantwortlichen. Mit einem Open-Source-LLM ihrer Wahl könnten Betriebe dagegen ihre eigenen KI-Anwendungen erstellen, ohne dass Daten extern geteilt werden müssten. Zudem würden sämtliche Entwickler und Anwender in den Fachabteilungen, also nicht nur Data Scientists und Machine-Learning-Teams, in die Lage versetzt, KI zu nutzen.

"Der KI-Markt verändert sich rasant. Daten und der Unternehmenskontext sind die Konstante für den Erfolg von LLM- oder KI-Modellen", sagte Benjamin Bohne, Group Vice President Central EMEA bei Cloudera. Generative AI und Large Language Models seien nur so gut wie die Daten, mit denen sie trainiert würden. Es brauche den richtigen Kontext. "Damit diese Modelle und KI erfolgreich sein können, müssen sie vertrauenswürdig sein - und das Vertrauen in KI beginnt mit dem Vertrauen in die Daten", so Bohne.

Hier fühlt sich Cloudera mit seinem Angebot wohl: Insgesamt würden 25 Millionen Terabyte an Daten mit hauseigenen Lösungen verwaltet, so Bohne. Damit sei man in einer guten Position, um Anwendungen auf Basis generativer KI mit einem Open Data Lakehouse im Unternehmenskontext voranzutreiben.

KI-Apps für Databricks Lakehouse

Auch Databricks, ebenfalls Anbieter eines Lakehouse - gemeint ist, vereinfacht gesagt, eine Kombination aus Data Lake und Data Warehouse - setzt darauf, die KI und die großen Sprachmodelle zu den Daten zu bringen. Sogenannte Lakehouse Apps sollen den Zugriff auf Daten und KI-Funktionen vereinfachen. Die Softwareanbieter müssten erhebliche Hürden überwinden, um sicher auf Kundendaten zuzugreifen, sich in die Sicherheits- und Governance-Lösungen der Kunden zu integrieren und effizient in der Nähe der Kundendaten zu arbeiten, heißt es in einer Mitteilung von Databricks.

Einen Weg, dies zu gewährleisten, sollen die kommenden Apps bieten. Diese liefen direkt auf der Databricks-Instanz des Kunden und könnten einfach und sicher in die eigenen Datenbestände integriert werden, verspricht der Anbieter. Entwickler könnten zudem jede beliebige Technologie und Sprache zur Erstellung von Apps verwenden und seien nicht auf ein proprietäres Framework beschränkt.

Zu den ersten App-Partnern von Databricks gehört Lamini. Dabei handelt es sich um eine LLM-Plattform, die es Entwicklern ermöglicht, maßgeschneiderte private Modelle zu erstellen. Das soll laut Anbieter einfacher, schneller und leistungsfähiger funktionieren als mit Allzweck-LLMs. Der Datenspezialist will auch die gemeinsame Nutzung von KI-Modellen im Databricks Marketplace anbieten. Kunden erhielten damit Zugang zu den besten Modellen, die schnell und sicher auf ihre Daten angewendet werden könnten, hieß es. Databricks selbst werde Open-Source-Modelle für gängige Anwendungsfälle kuratieren und veröffentlichen, wie zum Beispiel die Verfolgung von Anweisungen und die Zusammenfassung von Texten.

Die Erweiterung des Databricks Marketplace um KI-Modelle und Apps erfülle einen entscheidenden Bedarf in der heutigen Geschäftswelt, sagte Matei Zaharia, Mitbegründer und CTO bei Databricks. Die Zusammenarbeit zwischen Unternehmen entwickle sich weiter über den bloßen Austausch von Datensätzen hin zu sicheren Berechnungen und KI-Modellen auf gemeinsamen Daten. Databricks Marketplace wird ab dem 28. Juni 2023 allgemein verfügbar sein. Lakehouse Apps und die gemeinsame Nutzung von KI-Modellen im Databricks Marketplace werden voraussichtlich im kommenden Jahr in der Preview verfügbar sein.

Der Ansatz, die Daten auch beim Einsatz von Generative AI im eigenen Unternehmen zu halten, sichert Governance und die Einhaltung von Compliance-Richtlinien. Der Nachteil: LLMs müssen selbst mit den eigenen Datenbeständen verknüpft und eingerichtet werden. Über vorkonfigurierte Modelle, Apps und Self-Service-Portale lässt sich der damit verbundene Aufwand allerdings reduzieren.