Forschungsobjekt Plidis:

Verwässerter Dialog in natürlicher Sprache

26.08.1977

Den Traum vom Mensch-Maschine-Dialog in natürlicher Sprache soll "Plidis" zu einem Stück realisieren helfen: Mit Fördergeldern aus dem 3. DV-Programm finanziert das Institut für deutsche Sprache in Mannheim ein problemlösendes Informationssystem mit Deutsch als Interaktionssprache. Über das Endziel des Systems, das als Pilotversion für die Kontrolle der Industrieabwässer im Regierungsbezirk Stuttgart entwickelt wird, kursiert ein Schnack: Bieder fragt ein schwäbischer Wasser-Amtmann den Computer: "Schwemmd da Dreck?" Und die Maschine antwortet: "Da schwemmd Dreck."

Derzeit sind Informationssysteme so konzipiert, daß ihre selbständige Bedienung für einen Nicht-Fachmann fast unmöglich ist. So muß die Formulierung von Abfragen in einer bestimmten, formal

eingschränkten Abfragesprache (wie IQL, SEQUEL) erfolgen. Anfragen an das System kommen aber meist von einem EDV-ungeschulten Personenkreis (zum Beispiel Management) und werden zunächst in der Alltagssprache, etwa Deutsch, formuliert; es kann ja von diesen Personen nicht verlangt werden, daß sie sich zuvor in die Ausdrucksmittel der Abfragesprache einarbeiten. Die Abfrage muß deshalb vor der Eingabe in einem Zwischenschritt von einem eigens ausgebildeten Spezialisten in die erwähnte Abragesprache umformuliert und möglicherweise in mehrere Unterfragen aufgeteilt werden. Unnötig, zu beschreiben, welche Fehlerquellen und Mißverständnisse da auftreten können.

Ein zweites, noch gravidierendes Problem ist, daß der Benutzer für eine erfolgreiche Abfrage eines Datenpools auch noch die Datenstruktur kennen muß. So muß in einem relationalen Modell auf die Relationen und ihre Attribute Bezug genommen werden. Die Kenntnisse solcher Einzelheiten kann man von einem Nicht-Spezialisten (selbst in der EDV-Bereich) erst nicht erwarten.

Auf Spezialisten angewiesen

All diese formalen Hindernisse bedeuten, daß die eigentlichen Interessenten in der Praxis zur Benutzung eines Informationssystems auf Spezialisten angewiesen sind. Die Wirksamkeit eines solchen Systems wird durch diese Umstände oft empfindlich beeinträchtigt.

Wünschbar ist demgegenüber, daß der potentielle Benutzer so spontan und direkt wie möglich Zugang zu seinem Informationssystem hat. Dies wird dadurch ermöglicht, daß das System ohne Zwischenschritte direkt in Deutsch abgefragt werden kann. Auch ein Benutzer ohne EDV-Kenntnisse wird so in die Lage versetzt, selbständig und ohne Spezialisten-Hilfe Zugang zu den gespeicherten Informationen zu bekommen. Erst so ist es auch möglich, ein Informationssystem direkt in die Lösung von Planungs- und Entscheidungsaufgaben zu integrieren.

Auf natürlich sprachlichen Zugang zum Informationenpool zielt die Entwicklung eines Informationssystems "PLIDIS" am Institut für deutsche Sprache, Mannheim, das auf einer 4004/151 implementiert wird. Die Grundkonzeption sieht als Hauptkomponenten

- einen linguistisch-logischen Teil

- einen Problemlösungsteil vor.

Im linguistisch-logischen Teil werden die deutschsprachigen Eingabesätze in eine formale Darstellung (Konstruktsprache oder kurz KS genannt) überführt. Die Konstruktsprache ist eine prädikatenlogisch orientierte Sprache, die sowohl als Datenspeicherungs- wie als Datenabfragesprache verwendet wird. Dateneingabe und Datenabfrage können so mit genau den gleichen Komponenten verarbeitet werden. Ihrer Struktur nach ist die Konstruktsprache anwendungsbereichsunabhängig. Sie kann für die Darstellung beliebiger Sachverhalte eingesetzt werden. Für einen bestimmten Anwendungsbereich muß lediglich die zusätzliche Festlegung eines fachspezifischen Vokabulars erfolgen.

20 000 Datei-Einträge

Der Problemlösungsteil übernimmt die eigentlichen Speicher- und Retrievalaufgaben. Retrieval wird dabei in einem sehr umfassenden Sinn verstanden, (daher auch die Bezeichnung "Problemlösungsteil"): Nicht nur direkt vorhandene und erfragbare Daten werden als Antwort auf eine Abfrage zur Verfügung gestellt, sondern auch Informationen, die lediglich implizit vorhanden sind und aus anderen Informationen aufgrund von logischen Überlegungen oder Regeln erschließbar sind.

Eine Anfrage eines Benutzers durchläuft zur Beantwortung folgende Schritte:

- Morphologische Analyse: Jedes Wort des Eingabesatzes erhält aufgrund des morphologischen Lexikons die entsprechende Beschreibung (zum Beispiel Wortklasse etc.). Das morphologische Lexikon ist in einer ISAM-Datei gespeichert und umfaßt zur Zeit etwa 20 000 Einträge.

- Syntaktische Analyse: Der Eingabesatz wird grammatisch analysiert, erzeugt. Mit der zugrunde gelegten Grammatik sind praktisch alle vorkommenden Satztypen des Deutschen erfaßbar.

- Überführung in KS: Der syntaktisch analysierte, Eingabesatz wird umgeformt in einen konstruktsprachliechen Satz. Dies geschieht mit Hilfe von Übersetzungsregeln, die die konstruktsprachliche Entsprechung zu jedem deutschen Ausdruck angeben.

- Retrieval: Aufgrund der konstruktsprachlichen Frageformulierung erfolgt das Aufsuchen von Daten in der Datenbasis. Ist eine Frage nicht direkt zu beantworten, wird die Frage entweder automatisch so umformuliert, daß Daten gesucht werden, aufgrund derer die eigentliche Anfrage beantwortet werden kann, oder die Frage wird automatisch in Teilfragen aufgeteilt, die wiederum die Voraussetzung für die Beantwortung der ursprünglichen Anfrage bilden. Diese Schritte können beliebig wiederholt werden.

Die Ausgabe der Antworten erfolgt zur Zeit in Tabellenform. Es wird jedoch angestrebt, die in konstruktsprachlicher Form vorliegenden Antworten wieder in eine deutsche Formulierung zu übersetzen.

Die Eingabe von Daten erfolgt in der derzeitigen Version über Formulare, die direkt über den Bildschirm ausgefüllt werden. Zu dieser Realisierung der Eingabe haben rein praktische Erwägungen geführt (im Amwendungsbereich sind fast ausschließlich stereotype Massendaten einzugeben). Von der Konzeption des Systems her stellt jedoch die Eingabe in Deutsch kein Problem dar.

*Guntermann und Lötscher sind Mitarbeiter des Instituts für deutsche Sprache in Mannheim.