Was ist Natural Language Processing?

21.10.2020
Von 
Thor Olavsrud ist Senior Writer bei CIO.com und beschäftigt sich mit IT-Security, Big Data, Open Source Technologie sowie Microsoft-Tools und -Servers. Er lebt in New York.
Natural Language Processing kommt für viele Zwecke zum Einsatz - zum Beispiel in digitalen Assistenten wie Siri und Alexa. Das müssen Sie über NLP wissen.
Wenn Computer Sprache "verstehen", steckt Natural Language Processing dahinter. Das müssen Sie zum Thema wissen.
Wenn Computer Sprache "verstehen", steckt Natural Language Processing dahinter. Das müssen Sie zum Thema wissen.
Foto: Pdusit - shutterstock.com

Heutzutage reden wir mit unseren technischen Gerätschaften: Sie machen Termine, verwalten Einkaufslisten, übersetzen und vieles mehr. Die Technologie, die dahintersteht, heißt Natural Language Processing (NLP) und hat sich im Laufe der letzten Jahre maßgeblich verbessert.

Natural Language Processing - Definition

Natural Language Processing (NLP) - im deutschen Sprachraum auch Computerlinguistik oder linguistische Datenverarbeitung genannt - bezeichnet die algorithmische Verarbeitung von natürlicher Sprache. NLP stellt eine Unterkategorie von Künstlicher Intelligenz dar und ist einer der Haupt-Use-Cases für Deep Learning.

Ursprünglich bezog sich der Terminus lediglich auf die Lesefähigkeit von Computersystemen, heutzutage umfasst er sämtliche Aspekte der Linguistik. Zu den Unterkategorien von Natural Language Processing gehören:

  • Natural Language Generation (ein Rechner erzeugt selbstädnig Kommunikationsinhalte)

  • Natural Language Understanding (ein Rechner versteht Slang, erkennt falsche Aussprache oder Schreibweise und andere Varianten von Sprache)

NLP funktioniert auf der Grundlage von Machine Learning: ML-Systeme speichern Wörter und ihren Aufbau wie jede andere Form von Daten. Sie werden mit Redewendungen, Sätzen und manchmal ganzen Büchern gefüttert und verarbeiten die Daten auf Grundlage grammatikalischer Regeln, sprachlichen Gepflogenheiten - oder beidem. Diese Daten können Rechner anschließend nutzen, um Datenmuster zu erkennen und "vorherzusagen", welches Wort als nächstes folgt.

NLP - Einsatzzwecke

Der eben beschriebene Fall fällt in die Kategorie Machine Translation und stellt nur einen Einstzzweck von Natural Language Processing dar:

Einer der gängigsten Use Cases für NLP ist die Internetsuche: Jedesmal, wenn Sie etwas über Google oder Bing suchen, pflegen Sie Daten in das jeweilige System ein. Ein Klick auf ein Suchergebnis wertet das System als Bestätigung dafür, die richtigen Ergebnisse präsentiert zu haben.

Chatbots funktionieren auf ganz ähnliche Art und Weise: Sie sind in Slack und anderen Chat-Programmen integriert und analysieren, wie ihr Benutzer schreibt. Bei bestimmten Schlüsselsätzen springt der Bot schließlich an. Dasselbe Prinzip wenden auch intelligente Sprachassistenten wie Siri und Alexa an, die bei Ruf ihres Namens "parat" stehen.

Darüber hinaus kommt NLP in vielen weiteren Bereichen zum Einsatz. So hilft die Technik beispielsweise Recruitern dabei, Lebensläufe nach geeigneten Kandidaten zu durchforsten. Auch Spam Detection oder Sentimentanalysen funktionieren mit Natural Language Processing.

Natural Language Processing - Software

Egal welchen NLP Use Case Sie in der Praxis umsetzen wollen: Dazu brauchen Sie die richtigen Tools. Laut Technology Evaluation Center gehören folgende Lösungen zu den beliebtesten in Sachen Natural Language Processing Software:

  • Natural Language Toolkit (NLTK): Bei NLTK handelt es sich um ein quelloffenes Framework, um in Python erstellte Applikationen für die Verarbeitung von Sprachdaten fit zu machen. Entwickelt wurde NLTK an der Universität von Pennsylvania - das Framework enthält mehr als 50 lexikalische Ressourcen, eine Suite mit Text Processing Libraries und entsprechende Wrapper, sowie ein Diskussions-Forum. NLTK steht mit Apache 2.0 Lizenz zur Verfügung.

  • SpaCy: Diese quelloffene Bibliothek für fortgeschrittenes NLP ist nicht für Forschungszwecke, sondern für den Produktiveinsatz gedacht. SpaCy erlaubt Deep Data Mining und ist lizenziert vom MIT.

  • Gensim: Hierbei handelt es sich um eine Python Library für Natural Language Processing. Die Plattform-unabhängige Bibliothek unterstützt beispielsweise skalierbare statistische Semantiken oder die semantische Analyse von Plaintext-Dokumenten. Gensim ist darauf konzipiert, große Mengen von Text ohne menschliche Eingriffe zu verarbeiten.

  • Amazon Comprehend: Dieser NLP-Service von Amazon erfordert keinerlei Kenntnisse in Machine Learning und soll Unternehmen dabei unterstützen, Insights aus E-Mails, Kunden-Reviews, Social Media, Support-Tickets und anderen Textdokumenten zu extrahieren. Um die Bedeutung hinter den Worten zu erkennen, nutzt der Amazon-Service Sentimentanalysen, Part-of-Speech-Extraction und Tokenization.

  • IBM Watson Tone Analyzer: Diese cloud-basierte Lösung von IBM ist für Social Listening, Chatbot-Integration und Customer Service Monitoring gedacht. Der Tone Analyzer kann die Emotionen der Kunden in Postings, Support-Anrufen oder Chat-Gesprächen erkennen.

  • Google Cloud Translation: Diese API nutzt Natural Language Processing, um die Sprache eines Textes zu ermitteln und diesen anschließend mit Hilfe von neuronaler Machine Translation dynamisch zu übersetzen. Die Schnittstelle erlaubt es den Benutzern, die Funktionalitäten in ihre eigene Software zu integrieren. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com.