Text-Classifier

NLP hilft zu verstehen, was geschrieben steht

26.08.2019 von Martin Stolberg und Torben Meyer zu Natrup
Die Datenmengen explodieren - um informationsgetriebene Geschäftsmodelle voranzubringen, braucht es künstliche Intelligenz, gerade bei der Analyse von Texten. Glücklicherweise steht die Technik dafür zur Verfügung – von der Stange oder maßgeschneidert.

Die Prognosen über die von Mensch und Maschine produzierten Datenmengen wachsen fast so schnell wie die Datenmasse selbst. So gingen die Marktforscher von IDC Ende 2018 davon aus, dass das weltweite Datenaufkommen bis zum Jahr 2025 auf stolze 175 Zettabyte ansteigen wird. 80 Prozent dieser Daten, so die gleiche Studie, liegen in Unternehmensnetzwerken. Würde man diese Daten auf handelsübliche DVDs pressen, ergäbe das einen Stapel, der 23-mal der Entfernung zwischen Erde und Mond entspricht. Im Jahr davor, 2017, kamen die Marktforscher auf eine Gesamtmenge von "nur" 163 Zettabyte.

Inhalte aus Texten zu erfassen kann auch für eine KI manchmal ganz schön knifflig werden.
Foto: Fedor Selivanov - shutterstock.com

Mit der absoluten Datenmenge wächst auch der Anteil der unstrukturierten Daten, Informationen also, die sich nicht ordentlich in die Spalten und Zeilen einer Datenbank einsortieren lassen. IDG prognostiziert, dass in zwei bis drei Jahren schon 93 Prozent aller digitalen Daten eben solche unstrukturierten Daten sein werden – bei Wachstumsraten jenseits von 60 Prozent. Die Marktforscher von Gartner kommen zu ähnlichen Einschätzungen. Ein Großteil davon werden Unternehmensdaten wie E-Mail- und Textnachrichten, Audiodateien, Servicedaten, Videodateien, Social-Media-Posts sein.

Wertvolle Erkenninsse aus diesen Daten zu ziehen, die das eigene Geschäft voranbringen, wird damit nicht einfacher. Die absolute Menge von Daten und der relativ große Anteil in unstrukturierter Form erfordern Lösungen, die auf dem letzten technologischen Stand sind. Das heißt heute und in den kommenden Jahren: Lösungen, die mit künstlicher Intelligenz (KI) arbeiten.

Text-Classifier helfen mit KI beim Textverständnis

Wenn intelligente Roboter und Algorithmen für die Verarbeitung unstrukturierter Informationen eingesetzt werden, brauchen sie die Fähigkeit, den Inhalt von Texten zu "verstehen", also die wichtigsten Begriffe (und ihre Synonyme) zu erkennen. Nur so ist es möglich, die Inhalte als Anfragen zu bearbeiten oder zur weiteren Bearbeitung weiterzuleiten.

Viele weitere nützliche Informationen zum Thema künstliche Intelligenz finden Sie hier in unserem Online-Special

Die Anführungszeichen an dieser Stelle sind wichtig: Denn Maschinen werden mutmaßlich niemals in der Lage sein, ein menschenähnliches Verständnis für was auch immer zu entwickeln, weil Sensoren und ein auf statistischen Methoden beruhendes Textverständnis das komplexe System Mensch nicht ersetzen können. Aber das macht nichts: So genannte Text-Classifier, Computerprogramme mit der Fähigkeit zur Texterkennung, können trotzdem eine große Hilfe bei der Bewältigung der riesigen Datenmengen sein.

Use Cases entlang der gesamten Prozesskette

Use Cases für Text-Classifier gibt es in jedem Unternehmen, das sich, auch in Teilschritten, mit Prozessautomatisierung beschäftigt. So kann automatische Texterkennung zum Beispiel im Inputmanagement eingesetzt werden, über das eingehende E-Mails oder Supportanfragen an zentrale Stellen ("info@firma.de") geschickt und den zuständigen Bearbeitern zugewiesen werden sollen. Normalerweise müsste jemand solche Mails lesen, wissen, wer für das Thema zuständig ist oder wessen Skills benötigt werden, und die Mails entsprechend weiterleiten. Mithilfe eines Text-Classifiers auf der Basis von KI geht das nicht nur wesentlich schneller, sondern auch ohne echten Personalaufwand.

Text-Classifier lassen sich aber auch auf Daten angewendet werden, die bereits im Unternehmen liegen. Jedes Unternehmen verfügt wahrscheinlich über eine große Menge solcher Informationen, die durchaus sehr wertvoll sein und neue Erkenntnisse liefern könnten – wenn sie denn klassifiziert sind, also auf wertige Inhalte hin analysiert wurden.

NLP in Zeiten künstlicher Intelligenz

Text-Classifier arbeiten mit dem Natural Language Processing (NLP) genannten Verfahren an der Verarbeitung von natürlicher Sprache, für die es logisch mehr oder weniger nachvollziehbare Regeln gibt. In ihrer Summe sind diese Regeln aber sehr komplex und ändern sich zudem auch laufend mit der Veränderung von Sprache insgesamt. Zudem werden zentrale Informationen in natürlich gesprochener oder geschriebener Sprache nicht so strukturiert übermittelt wie in einem Datensatz. NLP muss somit auch in der Lage sein, wichtige Informationen in einem Umfeld unwichtiger Rohdaten zu erkennen – zum Beispiel anhand von Schlüsselwörtern oder eines bestimmten Kontextes.

Lesen Sie mehr zum Thema Natural Language Processing:

Natural Language Processing, im Deutschen oft auch als Computerlinguistik bezeichnet, ist keine ganz neue Erfindung, sondern begleitet die ebenfalls nicht neue Entwicklung der künstlichen Intelligenz (KI) im Grunde genommen schon seit mehr als 60 Jahren. Damals wie heute wurde und wird versucht, immer bessere – intelligentere – Maschinen für das Verständnis unter anderem von Texten zu entwickeln – über die Definition von Regeln. Ein streng regelbasiertes Verständnis stößt bei vielen Texten aber schnell an Grenzen, denn Regeln alleine reichen in dem komplexen und alles andere als eindeutigen System nicht aus. Ironie, Mehrdeutigkeit, Subtext – das alles lässt sich allein mit Regeln schwer oder gar nicht erfassen. Machine Learning verfolgt daher einen anderen Ansatz: Hier erarbeitet sich der Algorithmus, zunächst und auf absehbare Zeit mit menschlicher Anleitung, seine Regeln selbst auf Basis statistischer Wahrscheinlichkeiten und in Abhängigkeit vom Kontext.

Das so genannte Deep Learning geht noch einen Schritt weiter und schafft es, über künstliche neuronale Netze und eine Vielzahl von Ebenen auch komplexe Sprachzusammenhänge zu erkennen und zu "verstehen". Regeln benötigt Deep Learning nicht, weil es sich eigene schafft.

Training on the Job: So lernt KI

Künstliche Intelligenz lernt mit Daten. Am Anfang handelt es sich um gelabelte oder klassifizierte Daten, bei denen beispielsweise von menschlicher Hand hinterlegt ist, um welche Art von Information es sich handelt oder welche Informationen aus einem Text destilliert werden sollen. Je mehr dieser Hinweise der Algorithmus bekommt, desto besser kann er Zusammenhänge daraus ableiten und die gewonnenen Erfahrungen auf neue, völlig unbekannte Texte anwenden.

Um entsprechende Algorithmen zu trainieren, brauchen alle einschlägigen Projekte Trainingsdaten, also in diesem Fall Textdokumente. Das sind im Idealfall Dokumente, die das Unternehmen selbst gesammelt hat und die dem Business Case entsprechen oder ihm mindestens schon sehr nahekommen. IT-Dienstleister wie Sopra Steria Consulting können aber auch vortrainierte Algorithmen anbieten, die bereits mit einem einsatzfertigen Fundus an Wissen und Informationen kommen. Wichtig zu wissen: Diese vortrainierten Algorithmen werden nicht inklusive der Daten geliefert, die nach dem Training eher unwichtig sind. Sie kommen vielmehr mit erlernten Erfahrungen, sogenannten Modellen, die ihnen ein angemessenes Verhalten gemäß den speziellen Use Cases ermöglichen.

Egal, wie KI arbeitet – Hauptsache, das Ergebnis stimmt!

Die Blackbox KI lässt sich nicht immer aufschrauben. Wie der Algorithmus bei seiner Arbeit vorgeht, ist daher oft intransparent. Aber es lässt sich nachvollziehen, ob das Ergebnis stimmt. Intelligente Programme wie beispielsweise Text-Classifier haben anhand einer großen Anzahl an Trainingsdaten gelernt, ihre Entscheidungen zu treffen. Über die Berechnung statistischer Wahrscheinlichkeiten sind sie in der Lage, Vorschläge zu machen, was die eine oder andere Aussage im Text bedeuten könnte. Anwender sollten das aber so hinnehmen, wie es gemeint ist: Der Classifier macht Vorschläge, trifft aber keine endgültigen Entscheidungen.

Wie Anwender mit den Themen Machine Learning und Deep Learning umgehen, lesen Sie in einer aktuellen IDG Studie

Zum jetzigen Stand von KI ist es deshalb unerlässlich, dass Menschen die Vorschläge oder Empfehlungen von Algorithmen überprüfen und notfalls auch verifizieren, was im Sinne eines "Lifelong Learnings" auch der kontinuierlichen Verbesserung der Treffergenauigkeit des Algorithmus dient. Dazu ist es auch möglich, über die Zeit nutzerbasiertes Feedback zu den Vorschlägen des Text-Classifiers zu schulen und so die Texterkennungsmodelle kontinuierlich zu verbessern.

Von der Stange oder maßgeschneidert?

Alle großen Cloud-Anbieter wie Google, Microsoft, Amazon oder SAP bieten Tools zur Textklassifizierung an. Für standardisierte Aufgaben eignen sich die Werkzeuge von der Stange allemal, weil sie ohne lange und aufwändige Konfiguration oder gar Programmierung implementiert werden können. Aufgrund ihrer Herkunft aus dem angelsächsischen Sprachraum können sie ihre Stärken vor allem bei der Klassifizierung englischer Texte ausspielen.

Je spezieller aber die Anforderungen an das Textverständnis, an den Business Case oder an das (zum Beispiel deutsche) Sprachniveau sind, desto eher ist Anwendern allerdings zu eigenen, maßgeschneiderten Lösungen zu raten. Doch auch dafür werden von den genannten Herstellern Services, Plattformen und Tools angeboten: Cognitive Services von Microsoft etwa, TensorFlow von Google oder PyTorch von Facebook. Mit solchen Tools lassen sich dann praxisfertige KI-Services konfigurieren oder selbstständig implementieren – und, ganz wichtig, speziell auf den Business Case hin trainiert sowie anschließend in die IT-Infrastruktur des Unternehmens integriert.

Faktor Mensch in Zeiten der Digitalisierung

Wenn Maschinen oder, wie hier, Algorithmen die Tätigkeiten übernehmen, die bisher von Menschen ausgeführt wurden, stellt sich zwangsläufig auch die Frage nach den Folgen für die menschliche Arbeit. Algorithmen, Text-Classifier schaffen einen Teil der menschlichen Arbeit ab. Genau betrachtet, handelt es sich dabei allerdings sicher nicht um den beliebtesten Teil: Das Sortieren und Klassifizieren von Texten ist eine monotone Arbeit. Wichtig festzuhalten bleibt: Menschliche Arbeitskraft wird damit nicht überflüssig, sondern verlagert sich. Algorithmen entlasten Mitarbeiterinnen und Mitarbeiter von in diesem Fall stumpfsinniger Arbeit und schaffen Raum für anspruchsvollere Tätigkeiten.

Diesen Aspekt zu betonen und zu definieren, worin die anspruchsvollere Arbeit besteht, muss Teil eines jeden Automatisierungsprojekts via Text-Classifier sein. Das kann eine organische Veränderung sein, die zum Beispiel an der Kundenschnittstelle die menschliche Arbeitskraft für qualifizierte Beratungsleistungen aufwertet, oder auch eine Tätigkeit beim fortlaufenden Training von Algorithmen.

Vollständig autark jedenfalls werden auch gut trainierte Text-Classifier in naher Zukunft und auf Dauer nicht arbeiten. Und selbstverständlich können das auch völlig andere Aufgaben sein, die den Mitarbeitern nach entsprechender Fort- und Weiterbildung eröffnet werden. Am Ende ist der erfolgreiche Einsatz von Automatisierungen mit KI eben auch eine Frage eines sorgfältigen Change-Managements.