Maschinen sollen Strukturen selber erkennen

Zwischen Abgrenzen und Einordnen

07.04.1977

Computer werden immer häufiger zur Identifikation von Mustern und Strukturen eingesetzt, die in graphischflächiger Form oder, wie bei der Stimm-Identifikation, als Wellenzüge vorliegen können. Man kann ohne die Rechner heute weder bei der Analyse von kernphysikalischen Blasenkammeraufnahmen auskommen noch etwa bei der Stahl-Qualitätskontrolle oder in biochemischen Laboratorien, wo es etwa um die Vermessung von Bakterienkulturen und das Zählen von Krebszellen geht.

Ein für den Stand dieser Technik typisches Vorgehen sieht heute so aus, daß Mensch und Maschine interaktiv kooperieren: Einerseits wird das hohe Arbeitstempo der Maschine beim Aussortieren "problemlos" erkennbarer Strukturen genützt, andererseits die, Fähigkeit des Menschen, komplexe Zweifelsfälle zu entscheiden. Diese Arbeitsteilung ist heute bei der Blasenkammerphoto-Auswertung oder auch bei der Spracherkennung gang und gäbe.

Realität ist nicht sortierfähig

Will man jedoch zur vollautomatischen Strukturerkennung übergehen, so stößt man auf ein Problem: Es liegt in der Schwierigkeit, die praktisch unendlich komplexe Wirklichkeit zu Sortierzwecken in mathematisch eindeutige, maschinell unterscheidbare Strukturen - praktisch in n-dimensionale "Vektoren" - zu fassen und diese Strukturen überdies noch mit vertretbarem Aufwand in bestimmte Gruppen zusammenzufassen. Ein Beispiel dafür, die Identifikation weißer Blutkörperchen, gibt im "New Scientist" Prof. Julian Ullmann von der Universität Sheffield.

Um ein solches Blutkörperchen zu identifizieren, müssen charakteristische Formen seines Zellkerns, typische Farben und andere Meßwerte ermittelt werden. Angenommen, pro Zelle seien 20 verschiedene Meßwerte wichtig, so muß der Computer für jeden "Satz" oder "Vektor" aus diesen 20 Komponenten entscheiden, ob er eine weiße Blutzelle repräsentiert oder nicht.

Zur Klassifizierung wäre es an sich am einfachsten, den Endpunkt eines jeden dieser 20dimensionalen Vektoren mit einer festgelegten Liste "wahrer" Endpunkte zu vergleichen und danach zwischen "gesuchten" und "falschen" Zellen zu unterscheiden. Doch dieses Vorgehen verbietet sieh wegen der immensen Zahlenmengen, die dabei behandelt werden müßten.

Der Ausweg besteht darin, daß man aus den Endpunkten der Vektoren Punkte-Ballungen bildet die jeweils eine bestimmte Zellart repräsentieren. Dazu genügt es, der Maschine ein paar tausend Vektoren pro Zelltyp beizubringen. Dieses Vorgehen scheitert jedoch, wenn die Punkte-Wolken+ unterschiedlicher Zellarten einander durchdringen, also keine klare Abgrenzung mehr möglich ist.

Kunstpausen einlegen

Es gibt heute bereits Verfahren, mit denen man Maschinen automatisch nach solchen Parametern suchen lassen kann, die für Sortierzwecke die klarste Gruppenbildung ermöglichen. Das ist eines der wichtigsten Gebiete beim automatischen Lernen beziehungsweise bei der Entwicklung lernfähiger Systeme, betont Ullmann.

Ein anderes Problem der automatischen Muster-Erkennung fällt unter das Stichwort "Abgrenzung". Die gesprochene Rede beispielsweise umfaßt pausenlos aufeinanderfolgende Tone, bei den bisherigen Spra-Erkennungsautomaten muß man jedoch zwischen den Worten Kunstpausen einlegen, da die Maschine die einzelnen Worte noch nicht selber abgrenzen kann. Auch die Aufteilung der kontinuierlich gezogenen Handschrift in einzelne Buchstaben gehört in dieses Gebiet.

Für dieses Problem gibt es heute noch keine endgültige Theorie, doch scheint Rückkopplung zwischen den Vorgängen des Abgrenzens und des Erkennens eine wesentliche Rolle zu spielen. Der Mathematiker I. J. Good schrieb darüber 1963: ". . . ein brauner Fleck auf der Retina dürfte wahrscheinlicher zu einer Kuh als zu etwas anderem gehören, wenn nach unten nicht sechs, sondern vier Auswüchse, die Beinen ähneln, herausragen. Jeder Auswuchs ist um so wahrscheinlicher das Bein eines Lebewesens, je mehr der braune Fleck einer Form nach einer Kuh als einem Tisch gleicht."

"Ein automatisch lernendes System gibt es noch nicht"

Dieses Hin- und Her-Kombinieren wird bei der Entschlüsselung von gesprochenen Worten und Phonemen (Lautkürzeln) genutzt: Zwischen semantischen, syntaktischen und lexikalischen Bedeutungsalternativen wird so lange hin- und herkombiniert, bis eine alle Erfordernisse befriedigende Sinnerklärung gefunden ist.

Bei der automatischen Abgrenzung von Bildinhalten bestimmt gleichfalls der Kontext der Darstellung die möglichen Abgrenzungen und diese wiederum den möglichen Kontext. Praktisch ist man heute aber darauf angewiesen, der Maschine zur Abgrenzung ad hoc bestimmte Regeln vorzugeben; ein automatisch lernendes System gibt es noch nicht.

Man weiß überhaupt noch nicht, ob ein solches Lernen logisch überhaupt möglich und, wenn ja, auch sinnvoll ist. In diesem Zusammenhang ist abschließend die Feststellung interessant, daß die hier erwähnte Trennung zwischen Abgrenzung von Strukturen einerseits und ihrer Identifikation oder Zuordnung zu bestimmten Gruppen andererseits - letztere wird ja mit der Vektor Gruppierungsmethode relativ gut beherrscht - im Gehirn des Menschen scheinbar nicht stattfindet: Klassifizieren und Abgrenzen scheinen in unserem Gehirn, wann immer wir jemanden sprechen hören oder ein Bild betrachten, gleichzeitig und in einer Art Wettlauf abzulaufen.

- Egon Schmidt ist freier Wissenschaftsjournalist