Künstliche Intelligenz: Ein weites Feld mit verschwimmenden Grenzen, Folge 10

Wie versteht der Rechner räumliche Beziehungen?

11.11.1988

Aus der herkömmlichen Informatik ist er zwar so gut wie ausgeklammert - doch in der realen Welt, im Bereich der KI und dort natürlich besonders in der Welt der Roboter spielt er eine immense Rolle: der dreidimensionale Raum, in dem wir alle uns bewegen. Und dessen Repräsentation innerhalb eines - beispielsweise "natürlichsprachlichen" - KI-Systems die Wissenschaft vor vielfältige Probleme stellt.

Räumliches Wissen, so bemerkt zum Thema Raum und KI Prof. Christopher Habel von der Universität Hamburg, wird, gleich dem zeitlichen Wissen, "fast überall benötigt and eingesetzt"; denn "menschliches Handeln" (und somit auch Kommunizieren, Planen und so weiter) ist ja "in Raum und Zeit verankert". Und deshalb werden sich wohl schon bald "in fast allen Bereichen der Informatik" Anwendungen für Systeme finden, die räumliches Wissen verarbeiten können, und die beispielsweise aus Texten in natürlichen Sprachen räumliche Konfigurationen aufbauen sollen. Oder die Geschriebenes auch im Kontext von räumlichem Wissen, also beispielsweise an Hand beigefügter Grafiken, "verstehen" können.

Betrachtet man die herkömmliche DV in Bereichen wie etwa Personalinformations-Systemen, finanziellen Transaktions-Systemen oder auch Maschinen zur Steuerung von Fabrikationsprozessen, so sieht man: Entweder sind räumliche Aspekte hier von vornherein belanglos, können also unbeachtet bleiben. Oder aber man hat sich damit beholfen, daß man - wie etwa bei der systeminternen Repräsentation einer komplizierten Produktionsanlage - auf "nicht-echt-räumliche Konzepte" übergeht, wie Habel sagt.

Und das diese Pseudo-Räume dann mit Hilfe von Prädikaten, Formeln und Regeln repräsentiert; also, wie das schöne Fachwort lautet, auf "propositionale" Weise.

Beschreibung reicht nicht aus

In der realen Welt ist es nun aber leider vielfach so, daß der Kunstgriff mit der propositionalen Repräsentation räumlicher Beziehungen in Gestalt "nicht-echt-räumlicher" Konzepte für die adäquate Verarbeitung des Wissens nicht ausreiche und also nach weiteren Möglichkeiten gesucht werden muß. Habel nennt hier als zweiten Weg "ein quasianaloges Format", das man als "depiktional" beziehungsweise "bildhaft" bezeichnen kann, und das sich vage als grobe Schemazeichnung der Situation ohne genauere Angabe von Details auffassen läßt.

In diesem Zusammenhang ist aus dem Bereich der Philosophie und der kognitiven Psychologie nun noch das Phänomen der sogenannten "mentalen Bilder" zu erwähnen, die auch gern als "bildhafte Vorstellungen" bezeichnet werden. Wobei an der Diskussion um diese bildhaften Vorstellungen in Zusammenhang mit der KI-Forschung vor allem interessiert, ob diese mentalen Bilder nicht vielleicht "eine geeignete Form zur Repräsentation räumlichen Wissens" sein könnten.

Deskriptionalisten und Depiktionalisten

Zwar ist auf dem ganzen, hier diskutierten Feld noch immens viel an Grundlagenforschung zu leisten, doch immerhin kann schon jetzt angemerkt werden: Es gibt die Denk-Schule der sogenannten "Deskriptionalisten". Sie meint, man komme allein mit der Benutzung rein propositionaler Repräsentationen aus, wolle man Wissen über Räume darstellen.

Umgekehrt meint die Schule der "Depiktionalisten", neben den propositionalen existierten auch depiktionale Repräsentationsformate im Gehirn; und deshalb müsse die Wissenschaft depiktionale (und außerdem auch propositionale) Repräsentationen räumlichen Wissens entwickeln. Und sich außerdem auch gleich noch um die Interaktion zwischen den beiden Repräsentationen kümmern...

Ist bisher Ausgeführtes vielleicht auch ein wenig abstrakt-theoretisch, so handelt es sich hier doch um Unterscheidungen, die, an Hand eines Beispiels, leicht nachvollzogen werden können. Dazu, so Habel, stelle man sich nur kurz mal einen Würfel von 3 Zoll Kantenlänge vor, der zwei einander gegenüberliegende Flächen in der Farbe Rot und eine weitere in Blau aufweist.

Nun stelle man sich weiter vor, dieser 3-Zoll-Würfel werde in kleinere Würfel von je 1 Zoll Kantenlänge zersägt, indem man, parallel zu jeder seiner Flächen, je zwei Schnitte führt. Und dann beantworte man bitte zwei Fragen:

* Wieviele der kleinen Würfel besitzen genau eine rote und eine blaue Fläche?

* Wieviele kleine Würfel gibt es?

Hier ist es sinnvoll, zunächst selbst die Antworten auf beide Fragen zu suchen und zu prüfen, wie das Gehirn beim Suchen nach den Antworten eigentlich vorgegangen ist.

Die meisten Probanden, so Habel, gehen bei Frage 1 so vor, daß sie sich erst einen Würfel vorstellen, diesen dann in Gedanken einfärben, ihn zerschneiden und dann im geistigen "Bild" dieses zerschnittenen, gefärbten Würfels "schauen", wo man blaurote Würfel "sieht". Letztere werden am Ende zusammengezählt, wobei

übrigens sechs gefunden werden.

Anders aber gehen die Leute im allgemeinen bei Frage 2 vor. Denn hier wird einfach und simpel 3 x 3 x 3 errechnet und 27 als Lösung gefunden. Was dies alles nun mit der Diskussion zwischen Deskriptionalisten und Depiktionalisten zu tun haben soll?

Ganz einfach. Macht man sich eine bildhafte Vorstellung vom gefärbten und zersägten Würfel, so "sieht" man ja unmittelbar und direkt-einleuchtend, daß die blaue Fläche die beiden roten Flächen sozusagen miteinander verbindet - und daß eben nur an den beiden Kanten zwischen je einer roten und der blauen Fläche die gesuchten blau-roten Würfel liegen können. Habel: in der bildhaften Vorstellung ist "dieser Sachverhalt direkt gegeben", während dies für eine propositionale Repräsentation keineswegs gilt. Hier nämlich müßte "die ,Brückenfunktion' der blauen Fläche erst noch erschlossen" und dann mit den entsprechenden Formalismen niedergeschrieben werden.

Da die KI-Forscher laut Habel aber gern Systeme bauen würden, die, im obigen unmittelbaren Sinne, "das-sieht-man-ja!"-Erkenntnisse gewinnen sollen, scheint es mithin wohl nicht völlig falsch, den Gedanken des depiktionalen Repräsentierens räumlichen Wissens systematisch weiter zu verfolgen.

Dabei braucht man nicht zu meinen, räumliche Objekte müßten fortan "stets nur depiktional repräsentiert werden", doch sollte immerhin eines akzeptiert werden, nämlich, daß die Form der Repräsentation eben einfach "abhängig von der Aufgabenstellung gewählt werden" sollte. Denn für die Frage nach der Gesamtzahl aller Würfel mag es wohl zweckmäßig sein, das Wissen in anderer Gestalt als depiktional verfügbar zu haben. Und "insbesondere bei komplexen Aufgaben ist davon auszugehen, daß beide Repräsentationsformen interagierend verwendet" werden, die depiktionale wie die propositionale.

Der beste Weg von Poppenbüttel nach Hamburg

Nicht nur die Repräsentation räumlichen Wissens in Rechnern, auch dessen spätere Anwendung durch die Maschine erfordert noch viel Forschungsarbeit. Das läßt sich am Beispiel eines fiktiven Systems erläutern, mit dessen Hilfe in - beispielsweise - Hamburg Mitfahrgelegenheiten vermittelt werden sollen.

So ein System benötigt zunächst Wissen über das Hamburger Straßennetz, doch tritt hierbei ein Problem auf: Wollte man nämlich das Hamburger Straßennetz etwa in Gestalt eines Netz-Graphen speichern, so müßte man etwa 20 000 Kanten, also Straßen-Teilstücke von je einer Kreuzung bis zur nächsten, abspeichern. Und würde man diese 20 000 Kanten dann mit Hilfe von Algorithmen zum Auffinden von Routen bearbeiten, so müßte man sich - endlos - mit rund 70 Millionen einzelnen Routenproblemen abplagen, wie Habel bemerkte. - Was also tun?

Will man die Mitfahr-Routenprobleme "adäquat behandeln", so geht man laut Habel am besten von komplexeren Basiseinheiten aus, als bloß von einzelnen Straßen-Teilstrecken. Also beispielsweise von ganzen Straßen oder gar von komplexen Routen-Abschnitten. Was übrigens auch der Beobachtung entsprechen würde, daß wir den Weg meist nur "im großen und ganzen" kennen, Details aber noch im Stadtplan nachschlagen müssen.

Soll das System Wege von A nach B nun möglichst benutzergerecht generieren und dann beschreiben, so gestaltet man es wohl am besten so, daß es mit strukturierten, formellen Routen- Beschreibungen operiert, in denen wiederum vergleichsweise komplexe Teil-Routenbeschreibungen verwendet werden. So ein Vorgehen würde, betont Habel, nicht allein die Generierung der Wegebeschreibungen deutlich erleichtern, sondern gleich auch Probleme der Routenfindung, die primär aus der erwähnten, großen Komplexität des Netzes resultieren, "erheblich vereinfachen".

Eine weitere Aufgabe für ein System zum Beschreiben von Routen wäre: "erfolgreiche Routenabschnitte", also beispielsweise das Zurücklegen weiter Distanzen auf stadtinternen Schnellstraßen, immer dann selbsttätig zu erlernen, wenn diese Routen sich bei zahlreichen Wege-Problemen wieder und wieder bewährt haben. Denn natürlich ist es ja sinnvoll, auf diese Schnellstraßen-Teil-strecken später wieder und wieder zurückzugreifen.

Ein System, das statt einfacher, elementarer Kanten eines vielmaschigen Netzes komplexe Routen kennen und benützen soll, will es einen Weg von A nach B suchen, muß, so Habel, "Wissen über die Strukturierung der räumlichen Gegebenheiten in einzelne Distrikte" der Stadt besitzen. Denn dann kann es Routen dadurch planen, daß es zunächst feststellt, in welchen Distrikten sich Start- und Ziel-Punkt befinden, um im nächsten Schritt dann die sozusagen "allgemein übliche", immer wieder bewährte Standard-Route vom Start- zum Ziel-Distrikt zu planen. Und schließlich kann es in einem dritten Schritt dann noch jene Wege-Feinplanungen ausführen, die in Start- und Ziel-Distrikt zur exakten Ansteuerung der Punkte A und B anfallen.

Teils propositional, teils depiktional

Betrachtet man die hier skizzierten Eigenschaften eines Routenplanungs-Systems nun im Zusammenhang mit den obenstehenden Ausführungen über die verschiedenen Möglichkeiten, Wissen über räumliche Konstellationen darzustellen, so sieht man laut Habel: Während das Wissen über die Lage der einzelnen Straßen in ihren jeweiligen Distrikten "propositional, aber auch depiktional" dargestellt werden kann, "sollte das Wissen über die räumlichen Beziehungen zwischen den Distrikten bildhaft", also depiktional repräsentiert werden. Denn die kognitive Psychologie zeigt, daß die Repräsentation und die Verarbeitung des Konzepts "Orientierung" - und dieses ist für die Planung von Routen ja doch gewiß ganz grundlegend - bildhafte Darstellungs-Formate erfordern.

Ein KI-System zur Planung von Routen muß zunächst in der Lage sein, aus Paaren von Start- und Zielpunkten, die jeweils einen Anbieter von und einen Nachfrager nach einer Mitfahrgelegenheit repräsentieren, durch Abgleich die jeweils zueinander passenden herauszufinden; und dabei muß es auch Paare, die sich nur in etwa decken, zusammenführen. Denn die Start- und Zielpunkte zweier Paare werden ja praktisch nie völlig deckungsgleich sein.

Wegen dieser "Unschärfe" wiederum wird es wohl sinnvoll sein, daß so ein System die Frage nach passenden Paaren einfach auf Grundlage seines Wissens über die Distrikte zu beantworten sucht, also auf Basis depiktionaler interner Repräsentationen. Und dabei wird es Vermittlungswünsche, die nicht gleich erfüllt werden können, zunächst speichern und eventuell später erledigen.

Das Vermittlungs-System muß also erstens über einem fest vorgegebenen, räumlichen Wissens-Bestand operieren und zweitens auch noch sofern gewünscht, mit seinen Benützern in natürlicher Sprache verkehren können. Doch da es aus Gründen der Komplexität einer großen Stadt ja "nicht über dem kompletten Wegenetz arbeiten soll", kommt, wie Habel betont, nun noch eine zusätzliche Komplikation hinzu. Denn wegen dieser letzteren Bedingung muß das Wissen des Systems über die räumlichen Gegebenheiten im Detail unvollständig bleiben: Das System "weiß" also dann beispielsweise nur, daß ein Gesuch und ein Angebot auf der Ebene der Distrikte (oder eventuell kleinerer Distrikts-Teilabschnitte) zueinander paßt; es kennt aber nicht die genaue Lage der Straßen oder gar Häuser.

Wie aber soll nun so ein, in seinen Kenntnissen leider beschränktes System, dem Fahrer genau sagen, wo er seinen Mitfahrer abzuholen hat? - Dazu, so Habel, benötigt es zusätzliche Angaben, die es sich vom Mitfahrer im Zuge eines Mensch-Maschine-Dialogs geben lassen kann, und die es - so die naheliegendste, einfachste Lösung - ohne weitere Bearbeitung einfach an den Fahrer weiterleitet.

Doch so verlockend simpel diese elementar-direkte Vorgehensweise auch wäre, so schlecht wäre sie auch. Denn, so findet der Hamburger Professor, da ja im allgemeinen nicht mal jede dritte von einer Person gegebene Beschreibung eines Wegs korrekt und außerdem leicht nachvollziehbar ist, sollte das Vermittlungs-System wohl doch stets besser erst kurz prüfen, ob die erhaltene Beschreibung überhaupt stimmt. Und außerdem könnte das System bei entsprechender Ausgestaltung aus dem Wissen, das es über die Wege-Kenntnisse des Fahrers hat, doch gleich auch noch schließen: Die Beschreibung des Wegs bis zum genauen Abholpunkt muß im Falle dieses speziellen Fahrers nur so und so genau sein - den Rest weiß er nämlich selbst.

So einfach sich beim bloßen Hinhören die Leistung anhören mag, die von so einem, etwas raffinierteren Vermittlungs-System zu fordern wäre, so viel an mühevoller KI-Kleinarbeit müßte in ein entsprechendes Projekt investiert werden. Denn das System kann in allen diesen Punkten ja nur dann ein "kooperatives System-verhalten" zeigen, meint Habel, wenn es aus seinen menschlichen Partner-Wegebeschreibungen "die entsprechenden räumlichen Konstellationen aufbauen und bearbeiten kann".

In Verbindung mit dem hier skizzierten Vermittlungs-System läßt sich, wie schon angedeutet, unter Umständen auch gleich noch ein Zusatz-System einrichten, das dem Erwerb völlig neuen Wissens dient und somit bewirkt, daß die Vermittlungen immer treffsicherer werden. Denn das Vermittlungs-System kann ja jeden, von den Menschen angenommenen, Vermittlungs-Vorschlag intern als "erfolgreich" markieren und diese Information wieder als Input für eine Lern-Komponente nutzen. Mit dem Resultat, so Habel, daß hier "einer der für den Bereich des maschinellen Lernens seltenen Fälle vorliegt", in denen ein System "auf eigenen Erfahrungen aufbauen kann", statt auf explizite Bewertungen angewiesen zu sein.

Räumliches Wissen in Systemen der Künstlichen Intelligenz zu repräsentieren - das wird sich kaum sinnvoll machen lassen, so besagen die Ausführungen Habels, setzt man dabei nicht immer wieder auch depiktionale, also bildhafte Vorstellungen und Repräsentationsformen, ein. Wobei diese Feststellung sogar dann gelte, wie man abschließend erfahren kann, wenn "nicht durch eine Anwendungs-Domäne ausschließlich auf räumliche Konstellationen Bezug genommen wird".

Habels Paradebeispiel zur Untermauerung dieser Aussage ist ein Satz aus einer der - immer wieder ungenau und mißverständlich formulierten - Nachrichtensendungen des ARD-Fernsehens. Denn dort war unter anderem die Rede von

* der Werra, einem Fluß, der in Thüringen entspringt (...) und nach der Vereinigung mit der Fulda in die Weser "mündet".

Nun sollte zwar jedes Kind wissen, daß die Weser überhaupt erst dort "beginnt", wo Werra und Fulda sich vereinen; dennoch aber erzeugt das Gepappel der Fernsehnachrichten leider eine völlig falsche depiktionale Vorstellung, denn das Wort "münden" legt eben nahe, sich eine typische "Münden-Situation" vor Augen zu führen. Eine Situation nämlich, bei der der einmündende Fluß seine eigenständige Existenz beendet, während sein - meist breiteres - Gegenstück seinen Namen vor der Einmündung wie auch hinterher beibehält.

Daß es bei alledem nicht um Beckmesserei geht, verdeutlicht Habel mit den mahnenden Worten: Beim Verstehen von Texten können zahlreiche Ausdrücke nur dann korrekt interpretiert werden, "wenn über propositionale Repräsentation hinaus auch depiktionale Repräsentationen verwendet werden".

Denn: "Wo Werra sich und Fulda küssen, sie ihre Namen lassen müssen..."

Im Schnittpunkt von Sprach- und Bildverarbeitung

Die Erforschung von Systemen mit der Fähigkeit, räumliche Situationen zu behandeln, ist nicht allein deshalb von Interesse, weil jene hohen praktischen Nutzen versprechen, sondern auch aus mehr theoretischen Gründen: Denn hier, so Habel, liegt quasi der "Schnittpunkt" zwischen den beiden KI-Teilbereichen der Sprach- wie der Bildverarbeitung.

Sollen Systeme sowohl Sprache als auch Bilder "verstehen", so müssen sie die analogen Informationen, die aus dem Vorgang des Bildverstehens resultieren, mit den präpositionalen Repräsentationen, die aus dem Prozeß der Sprachverarbeitung gewonnen wurden, "in eine wohldefinierte Beziehung zueinander setzen" können. Doch muß in diesem Zusammenhang dann auch noch die Frage untersucht werden, ob aus sprachlichen Eingaben nicht vielleicht auch non-propositionale, also beispielsweise depiktionale, Repräsentationen erstellt werden können.

Sollte nun diese Frage zu bejahen sein, so stellt sich das Forschungsgebiet "Repräsentation und Verarbeitung räumlichen Wissens" laut Habel als Bereich dar, in dem "das Zusammenspiel von Wahrnehmung und Erkenntnis eine wesentliche Rolle spielt". Und der mithin wohl weit über das Feld der Informatik hinaus wichtige Erkenntnisse verspricht.

Im Rahmen des IBM-Forschungsprojekts Lilog bearbeitet Habel zusammen mit Forschern aus anderen KI-Teilgebieten die Frage, wie man die Bedeutung natürlichsprachlicher Texte in einer Maschine adäquat repräsentieren kann. Und das wiederum besagt natürlich, man muß auch gleich konkret der Frage nachgehen, wie "räumliche Gegebenheiten in geeigneter Weise dargestellt und verarbeitet werden" können. Also erstens der elementaren Fragestellung, wie werden räumliche Konstellationen von beziehungsweise in unserer Sprache denn eigentlich beschrieben; und zweitens dann auch der Frage, wie diese Beschreibungen sich - im nächsten Schritt - in formalen, systeminternen Repräsentationen, darstellen und schließlich auch noch aufgabengerechtes verarbeiten lassen.

Vom Rechen-Knecht zur intelligenten Maschine

Künstliche Intelligenz, Expertensysteme, Lernende Maschinen, Neuronale Netze, Konnektionismus das sind nur einige der Stichworte, unter denen eines der interessantesten Gebiete der aktuellen Computer-Technik behandelt wird: jenes nämlich, das die Weiterentwicklung der früheren Rechen-Knechte zu - scheinbar - intelligenten Maschinen behandelt.

Mit dem aktuellen Stand und den weiteren Tendenzen befaßt sich die COMPUTERWOCHE im Zuge einer losen Folge von Beiträgen (Bisher erschienen Beiträge in CW 29, 32, 34, 37, 40, 42, 43, 44 und 45). Sie sollen eine plastische Vorstellung von einigen Problemen geben, mit denen der wachsende Kreis der KI-Experten täglich zu kämpfen hat.