Die Natur dient als Vorbild:

Roboter beginnen zu sehen und zu erkennen

09.11.1984

Von Prof. Dr.-Ing. Eike Mühlenfeld*

CLAUSTHAL - Elektronische Rechner können noch mehr: Rechnen. Daten aufnehmen. speichern und verarbeiten sind alte Hüte. Im Gewand des Roboters entscheiden sie schon eigenständig über ihre nächsten Operationen. Durch Wahrnehmungshandlungsketten findet eine solche intelligente Maschine nicht nur auf verschiedenen Wegen zum Ziel. Sie kann dabei auch noch den Weg mit den geringsten Kosten erkennen. Roboter werden nicht mehr von Menschen belehrt. sie lernen zunehmend unbeaufsichtigt.

Der Mensch muß als Programmierer das einbringen, was dem Rechner fehlt: der Rechner besitzt keinerlei systemeigene Intelligenz. In der Praxis steht der Ingenieur oft vor Aufgaben, für die er dem Rechner eine bestimmte Fähigkeit vermitteln muß, die man als intelligent bezeichnen kann. Eine grundlegende Fähigkeit dieser Art ist diejenige, dargebotene Information mit gespeicherter zu vergleichen und nicht nur die Gleichheit, sondern bereits die Ähnlichkeit, zum Beispiel zwischen den Bildern von Schriftzeichen oder von Werkstücken, zu erkennen. Mit diesem Aspekt der Intelligenz eines Systems, Entscheidungen aufgrund eines Erkennungsprozesses zu treffen, befassen wir uns vorrangig. Dabei geht es generell darum, ähnlichen Signalen, Bildern oder Situationen ähnliches Verhalten zuzuordnen.

Aus psychologischen und neurophysiologischen Untersuchungen hat man sehr viel gelernt über die Bildverarbeitung in der Netzhaut des Auges und in den anschließenden, noch nicht zum Zentralhirn gehörenden Nervennetzen und kann diese Verarbeitung weitgehend mit den Methoden der Nachrichtentechnik theoretisch beschreiben.

Bisher nutzt man für technische Realisierungen nur die biokybernetische Erkenntnis, daß Konturen für die Bildauswertung offenbar besondere Bedeutung haben und durch teilweise Subtraktion der Helligkeit der jeweiligen Nachbarpunkte zu extrahieren sind. Dazu wird die gesamte Bildinformation einer Fernsehkamera in ein Datenfeld des Rechners gebracht, auf deren Elemente dann entsprechende mathematische Operatoren angewandt werden. Bei 500x500 Bildpunkten mit 2 8 = 256 Helligkeitsstufen, die durch 8 Bit darstellbar sind müssen 500x500x8=2 000 000 Nullen und Einsen, also 2 MB übertragen, gespeichert und verarbeitet werden.

Der technische Aufwand hierfür ist derzeit bei nicht zu detailreichen Bildern mit deutlichen Konturen vertretbar. Aber auch unter Berücksichtigung des zu erwartenden technischen Fortschritts, insbesondere durch Mehrprozessorsysteme, ist fraglich, ob ein hinreichend großes Bildfeld hinreichend fein gerastert schnell genug unter Einbeziehung einer hinreichend großen Umgebung jedes einzelnen Bildpunkts verarbeitet werden kann. Das Datenfeld im Rechner entspricht einem Mosaikbild oder einem grob gerasterten Zeitungsbild und wer hat nicht schon Zeitungsbilder gesehen, in denen die zur Erkennung wesentliche Konturinformation durch die grobe Rasterung verlorengegangen ist?

Das biologische Prinzip, die angepaßte Filterung zur Ermittlung von Konturen bereits mit der Bildwandlung noch in der Peripherie des visuellen Systems vorzunehmen, erscheint daher auch für technische Systeme zweckmäßig.

Bestimmte Fernsehkameras bieten bei entsprechender Abtaststeuerung die Möglichkeit die Umgebung eines Bildpunktes strahlenförmig abzutasten, wobei die auf den einzelnen Abtaststrahlen gemessene Helligkeit elektronisch durch einen geschalteten Integrator gemittelt wird. Eine Differenz zwischen den integrierten Abtastwerten benachbarter Strahlen zeigt eine Kontur an, wobei die Richtung dieser Abtaststrahlen die Konturrichtung angibt. Der Abtaststern ist an die zu ermittelnden Konturen im Sinne der Nachrichtentechnik angepaßt, das heißt rauschähnliche Bildstörungen werden durch die Mitteilung über die Helligkeiten zu beiden Seiten der Kontur weitgehend herausgemittelt. Daher findet ein solcher Sensor auch kontrastschwache linenhafte Konturen in strukturreicher Umgebung auf, sofern das Auge sie erkennt.

Den Luxus, die gesamte Bildinformation in den "Zentralrechner" also in den visuellen Cortex zu schaffen, leistet sich die Biologie nicht, obwohl sie im Cortex eine große Verarbeitungskapazität bereithält. Die Bildinformation wird stufenweise auf das Wesentliche reduziert: sie wird von Redundanz befreit, also von Daten, die sich aus zeitlichen oder räumlichen Zusammenhingen extrapolieren lassen. Ein erster Schritt hierzu ist die Reduktion der Bildinformation auf ihre Konturen, also auf die linienhaften Teile des Bildes, in denen sich die mittlere Helligkeit (oder ein anderer statistischer Parameter der Helligkeitsverteilung) ändert; innerhalb einer gleichmäßig hellen Fläche läßt sich die Helligkeit jedes Bildpunktes aus seiner Umgebung extrapolieren.

Auch die Menge aller Konturpunkte enthält noch Redundanz. Solange sich eine Kontur zum Beispiel durch einen Kreisbogen annähern läßt, ist ihr Verlauf aus den Daten weniger Konturpunkte vorhersagbar. Erfolgt diese Vorhersage durch einen Kalmanfilter, so läßt sich beispielsweise das Fadenmolekül in einer Mikroskopaufnahme automatisch mit dem Abtastern verfolgen. Dabei werden Länge und andere relevante Formmerkmale des Moleküls automatisch berechnet.

Solange der Kalman-Filter den Konturverlauf richtig vorhersagt liefert die Bildabtastung nur redundante Information. Erst wenn sich der Kalman-Filter irrt, haben wir einen Punkt erreicht, der interessant ist, weil sich dort der Konturverlauf ändert. Die Positionen dieser Segmentierungspunkte und die Konturrichtungen in diesen Punkten beschreiben daher beispielsweise die Konturen der Objekte vollständig.

Sind diese Daten für alle in Betracht kommenden Objekte in einem Lernvorgang gemessen und gespeichert worden, so hat der Rechner zur Erkennung eines Objektes dessen Meßdaten mit den gespeicherten Daten zu vergleichen und festzustellen, welches gespeicherte Objekt in den Lagerelationen zwischen Segmentierungspunkten und in den dort gemessenen Konturrichtungen die größte geometrische Ähnlichkeit zum beobachteten Objekt aufweist.

Für diesen Datenvergleich stehen mehrere progammtechnisch realisierte Klassifikationverfahren zur Verfügung. Auf die genannte Weise haben wir die im Bild enthaltene Information von zwei MB für die Erkennung eines einfachen Objekts auf etwa 200 Bit reduziert. Die von der Netzhaut des Auges aufgenommene Information wird zur Übertragung in das Zentralhirn in ähnlichem Maße reduziert

Man hat die Bewegungen des menschlichen Auges während eines Erkennungsvorgangs vermessen und dabei festgestellt, daß das Auge keineswegs die gesamte Kontur des zu erkennenden Objektes abtastet, sondern sehr bald recht gezielt von einer Kontur zur nächsten springt. Nach wenigen solcher Augenbewegungen(Sakkaden) ist das Objekt erkannt.

Offenbar wird die Motorik des Auges aufgrund der Erkenntnisse aus bereits vorliegenden sensorischen Wahrnehmungen gesteuert. Wie dies im einzelnen geschieht, ist ungeklärt. Anscheinend werden die bereits erfaßten Bilddaten laufend mit Daten erlernter Bilder verglichen, um Ähnlichkeiten zu entdecken und Hypothesen über das zu erkennende Objekt zu bilden.

Daraufhin wird das Auge dorthin gesteuert, wo aufgrund der wahrscheinlichsten Hypothese eine weitere Objektkontur erwartet wird. Läßt sich diese tatsächlich dort beobachten, wird die zugrundeliegende Hypothese verstärkt, andernfalls wird diese Hypothese geschwächt. Nicht bestätigte Hypothesen werden sicher nicht sofort verworfen, denn die gesuchte Kontur könnte durch ein anderes Objekt verdeckt sein, und das Auge muß auch Dinge erkennen, die nur teilweise sichtbar sind.

Nicht nur im visuellen System bilden Sensor und Motor einen Rückkopplungskreis, in dem sensorische Wahrnehmungen eine motorische Handlung auslösen, die ihrerseits - durch die Hand - die Umwelt verändert oder nur deren Wahrnehmung durch den Sensor. Der neuen Wahrnehmung folgt eine neue Handlung. In der Technik regelt man das Verhalten von Systemen mit solchen Rückkopplungskreisen, wo immer dies möglich ist, da sich auf diese Weise störende Veränderungen ausregeln lassen.

Die bisher dargestellten Prinzipien sind in einem Musterkennungssystem der TU Clausthal realisiert worden. Das System erkennt und ortet ungeordnet überlagerte Werkstücke, solange diese Objekte nicht durch zu starke Neigung perspektivisch verzerrt sind. Ein Roboter kann dann die Werkstücke greifen, um Stanzen, Pressen oder ähnliche Fertigungseinrichtungen zu beschicken.

Die programmtechnische Realisierung der Wahrnehmungs-Handlungs-Assoziationen durch index-sequentielle Adressierung ist den Gegebenheiten von Digitalrechnern angepaßt, die zu gleicher Zeit nur einen Speicherplatz auslesen und hierfür eine numerische Adresse benötigen.

Man weiß nicht viel über die Speicherstruktur des Gehirns, aber man weiß, daß dort Speicherplätze durch einen Teil ihres Inhalts adressiert werden, so daß zeitraubende Suchvorgänge entfallen. Das muß im Prinzip ähnlich ablaufen wie in assoziativen Halbleiterspeichern: dort wird gleichzeitig für jeden Speicherplatz der tatsächliche Inhalt mit dem gesuchten verglichen. Assoziative Speicher sind allerdings wesentlich aufwendiger als normale Adreßspeicher und wurden bisher nur mit geringer Speicherkapazität für rechnerinterne Aufgaben hergestellt.

Mehrere Biokybernetiker sind der Ansicht, daß gespeicherte Daten im Gehirn nicht exakt lokalisierbar sind, sondern in einer Weise gestreut gespeichert werden, daß ein zum Beispiel durch Verletzungen bewirkter Ausfall von Gehirnzellen keine Information vollständig vernichtet. Diese Eigenschaft findet sich ebenfalls bei der holographischen Informationsspeicherung, in der zwei Lichtwellenfelder überlagert photographisch aufgezeichnet werden.

Wird das so entstandene Hologramm von einem der beiden Wellenfelder durchstahlt, wird das andere Wellenfeld genauso rekonstruiert, als ob seine Quelle, zum Beispiel ein Muster leuchtender Punkte, noch vorhanden wäre. Wurde ein Teil des Hologramms zerstört, wird das rekonstruierte Wellenfeld zwar schwächer, seine Quelle bleibt aber vollständig erkennbar. Durch das eine der holographisch aufgezeichneten Leuchtpunktmuster sei in verschlüsselter Form die sensorische Wahrnehmung, durch das andere die motorische Handlung spezifiziert, welche auf die Wahrnehmung folgen soll.

Da sich im gleichen Hologramm viele Wellenfeldpaare in aufeinander folgenden Aufnahmen überlagern lassen können durch ein Hologramm vielen Wahrnehmungen Handlungen assoziiert werden. Je mehr Leuchtpunkte eine Wahrnehmung mit einer ausgezeichneten Leuchtpunktcodierung übereinstimmen desto heller wird die dazu aufgezeichnete Handlung holographisch rekonstruiert.

Eine neue optische Technik - die Holografie - kann also die Elektronik digitaler Rechner in sinnvoller Weise ergänzen, zumal Hologramme in dreidimensionalen Kristallen eine größere Informationsdichte besitzen als andere Speichermedien. In der Holographie übertragen dreidimensionale Lichtwellenfelder die Information, während dies im Gehirn durch gewachsene, dreidimensionale Nervennetze geschieht.

In Erweiterung der dargestellten Prinzipien wollen wir jetzt assoziativ den Wahrnehmungen eines beliebigen optischen, akustischen oder taktilen Sensors Handlungen einer beliebig spezifizierbaren Motorik zuordnen, die das Auge, die Glieder oder die Hand eines Roboters bewegt.

Das Auge erkennt beispielsweise ein zu greifendes Objekt; dieser Wahrnehmung wird eine Armbewegung zugeordnet, woraufhin die Hand in der Nähe des Objekts erkannt wird. Assoziierte Handlungen ergreifen das Objekt, was zu einer spezifischen taktilen Wahrnehmung führt. In solchen Wahrnehmungs-Handlungs-Ketten lassen sich Montagevorgänge durch sensorische Wahrnehmungen steuern. Entspricht diese Wahrnehmung nicht der erlernten und zusammen mit der Handlung assoziierten Erwartung, so wird die Assoziation nach Möglichkeit in eine andere erlernte Kette verzweigen, die der tatsächlichen Situation angemessener ist.

Auf diese Weise kann sich der Roboter veränderten Situationen anpassen, sofern er das Verhalten in ähnlicher Situation, deren Daten nur wenig von den wahrgenommenen abweichen, erlernt hat. Auch jetzt kann sich ein Roboter nur so verhalten, wie er programmiert wurde oder wie er in ähnlicher Situation vom Lehrer gesteuert wurde. Wie flexibel er ist, hängt davon ab, wie gut Ähnlichkeiten zwischen Situationen durch Ähnlichkeiten zwischen Wahrnehmungsdaten wiedergegeben werden.

Hat ein Roboter lange genug gelernt, so wird er fast jeder Wahrnehmung eine oder mehrere Handlungen zuordnen können. Bevor er sie ausführt, muß er prüfen, welche Handlung sich seiner Erfahrung nach bis zu dem jeweils vorgegebenen Ziel fortsetzen läßt. Dazu betrachtet er die gemeinsam mit einer Handlung assoziierte Erwartung vorerst als tatsächliche neue Wahrnehmung. Er verhält sich also, als wäre die Handlung tatsächlich ausgeführt und erwartungsgemäß verlaufen und assoziiert dieser vorausgesagten Wahrnehmung weitere Handlungen. Diese vorausschauende Simulation von Wahrnehmungs-Handlungs-Ketten setzt er fort, bis die Erwartung der Zielvorgabe entspricht.

Hierbei wird sich zeigen, daß verschiedene Wege zum Ziel führen Werden im Lernvorgang mit jeder Handlung auch deren Kosten gespeichert, so kann der Roboter die Handlungskette mit den geringsten Kosten aussuchen und diese ausführen Durch diese Optimierung kann ein Roboter Wege finden, die er nicht gelernt hat und die besser sind als die erlernten.

Führt ein solcher Weg erwartungsgemäß zum Erfolg, werden die dabei benutzten Assoziationen im Gedächtnis verstärkt: der Roboter ist nicht mehr belehrt worden, er hat unbeaufsichtigt gelernt.

* Professor Eike Mühlenfeld ist Dozent an dem Institut für Elektrische Informationstechnik Technische Universität Clausthal. Der Beitrag ist eine gekürzte Fassung aus Forschung-Mitteilungen der Deutschen Forschungsgemeinschaft, 3/84