Was neuronale Netze sind und wie sie arbeiten (Teil 1):

Als wär's ein Stück vom Hirn...

01.04.1988

Ob als sture Rechenknechte in Forschung und Technik, oder ob als treue Lohn- und Gehaltsbuchhalter in der Wirtschaft: Seit ihren Anfängen schon schlagen Computer dort jeden Menschen. Und auch auf dem zukunftsträchtigen Gebiet der sogenannten "Künstlichen Intelligenz" (KI) erstaunen Computer immer häufiger mit beachtlichen Leistungen. Dennoch: Bei bestimmten Aufgaben stellen sie sich auch heute noch dümmer an als jedes Kleinkind. Aber das soll anders werden.

Je eindrucksvoller Computer sich nun auf all diesen Feldern bewähren, desto seltsamer scheint es, daß sie auf anderen Gebieten immer noch weit dümmer als jedes beliebige Baby, ja sogar dümmer als irgend ein Hund sind. Denn welcher Computer erkennt schon sein "Herrchen" einfach an dessen Stimme - und obendrein aus großer Distanz? Und welcher sieht auch der krakeligsten Zeichnung noch sofort an, daß hier ein künstlerisches Portrait Donald Ducks versucht worden ist?

Die offenkundigen Mängel insbesondere unserer heutigen KI-Computer lassen den bekannten KI-Fachmann Professor Scott E. Fahlman von der Pittsburgher Carnegie-Mellon-Universität vermuten, daß an den gängigen Techniken der "symbolischen Repräsentation" der Wirklichkeit sowie der "heuristischen Suche" irgend etwas Grundlegendes nicht zu stimmen scheint: vielleicht, weil man sich dabei "seriell arbeitender Rechners" bedient?

Diese seriellen Rechner der heutigen Machart nämlich, so Fahlman, könnten zwar, ähnlich dem Gehirn des Menschen, "immense Mengen an Informationen speichern"; doch anders als jenes könnten sie einen momentan gerade benötigten Sachverhalt keineswegs in Blitzesschnelle wiederfinden und sich in einer konkreten Lage nutzbar machen. Was ja ein Baby wiederum sofort tut, sagt man ihm etwa, es soll auf den Ball und nicht auf den Teddybären zeigen.

Etwas Grundlegendes scheint nicht zu stimmen

Ob aber nun ein Baby bloß schnell mal ohne Zögern den Ball richtig erkennt, oder aber ob ein Internist ohne Zögern die Verdachtsdiagnose Colitis ulcerosa stellt - jedesmal, so Fahlman, scheinen Menschen vor allem eine ganz grundlegende Fähigkeit auszuspielen: Sie "sehen" blitzschnell, welcher unter allen zur Wahl stehenden Gegenständen oder welche unter allen denkbaren Diagnosen oder Hypothesen der beziehungsweise die "passendste" ist.

In dem einen Fall wird sozusagen "vorwärts" und im anderen "rückwärts" gesucht. Dieses blitzartige Identifizieren des jeweils passenden Kandidaten durch menschliche Nerven-Systeme kann genauso beobachtet werden, wenn jemand einer Rede zuhört oder die Bilder einer Ausstellung anschaut. Oder wenn man sich plötzlich der Tatsache bewußt wird, daß "Bilder einer Ausstellung" ja auch der Titel eines bekannten Musikstücks ist.

Aber menschliche Gehirne sind nicht allein beim Identifizieren des Balles schnell, sie kommen selbst im Falle verrauschter, gestörter Eingabe-Daten - und sogar nach anfänglichen Irrungen - verblüffend oft noch zum Ziel: denn auch der krakelig gestrichelte Donald Duck wird schließlich doch noch richtig erkannt; und auch Hans Mosers Wiener Genuschel verstehen, nach etwas Training, sogar die Nordlichter von der Waterkant.

Dabei ist festzuhalten, daß all diese Leistungen uns Menschen sehr einfach und mühelos erbringbar erscheinen, während wir beim Ziehen der dritten Wurzel aus 456 749 doch nahezu verzweifeln möchten. Obwohl dies ja nun wieder für fast jeden Taschenrechner lachhaft einfach erscheint.

Befaßt man sich näher mit den ebenso unbestreitbaren wie verblüffenden Unterschieden zwischen den Fähigkeiten der Menschen und denen der Computer - und zwar sogar jener aus der KI-Welt - , so zeige sich, hebt Fahlman hervor, daß zwar jeder von uns Menschen einen Elefanten kennt und ihn sowohl in natura als auch im Kino oder in einer Karikatur sogleich als solchen erkennt, daß wir uns aber schwer tun, ihn völlig eindeutig so zu beschreiben, wie es die symbolischen Sprachen der Kl verlangen: Irgend etwas bleibt immer unklar und mehrdeutig. Denn was beispielsweise heißt denn schon "großes Säugetier", soll man einen Elefanten auf einer Briefmarke erkennen? Oder ihn bei anderer Gelegenheit von einem beliebigen Bison-Bullen unterscheiden?

Immer komplexere und klügere Strategien

Wir Menschen, so konstatiert der Pittsburgher Wissenschaftler, haben offensichtlich Schwierigkeiten, für Bewegungen, Formen, Klänge und räumliche Beziehungen eindeutige symbolische Beschreibungen nach Art der KI-Technik zu formulieren - und dennoch hindert uns dieses Manko in keiner Weise, uns in einer Welt der Formen, Räume und Klänge mit Leichtigkeit zurechtzufinden: Könnte es also nicht vielleicht sein, daß wir zwar schon unsere internen, ganz speziellen symbolischen Darstellungen dieser Formen, Räume und Klänge besitzen, daß wir sie uns aber nur einfach nicht bewußt machen können? Oder ist es nicht vielleicht eher so, daß wir intern in unserem Gehirn die Welt auf ganz andere Weise abbilden, als in den symbolischen Repräsentationen der herkömmlichen KI-Techniken?

In der traditionellen KI, so bittet Fahlman zu notieren, entwickelt man heute "immer komplexere und klügere Strategien" zur Behandlung von Problemen des Erkennens und der Verarbeitung des Erkannten - und diese Strategien zielen vor allem darauf ab, "die nötigen, exzessiven Such- und Berechnungs-Arbeiten so gut es geht zu minimieren". Doch vielleicht, so gibt der amerikanische KI-Experte zu bedenken, führt ein ganz anderer Weg viel eher zum Ziel, indem man die entsprechenden Erkennungs-Probleme unter Einsatz vieler Millionen sehr einfacher Prozessoren - und in einer sehr zyklenintensiven Weise - behandelt?

Heute beispielsweise werden ausgefeilte Schlußfolgerungs-Algorithmen eingesetzt, um bei der Interpretation visuell vorliegender Eingabe-Daten jene Bild-Flächen möglichst eng abzustecken, die später dann ein spezieller - und rechentechnisch sehr aufwendig arbeitender - "Kanten-Finder" untersuchen soll. Man könnte aber auch, notieren Fahlman und seine Kollegen, dieses Kanten-Suchen auf Basis entsprechender Hardware einfach über das ganze Bild hinweg vornehmen und dabei im Interesse der Gesamt-Effizienz ruhig in Kauf nehmen, daß örtlich auch belanglose Partien des Bildes durchmustert werden.

Intern wird nur wenig Information gespeichert

Zur Überwindung der Grenzen, an die die herkömmliche, symbolische Datenverarbeitung immer wieder zu stoßen scheint, untersuchen Forscher heute "massiv strukturell" strukturierte Systeme mit Millionen und - einstmals - vielleicht gar Milliarden von einzelnen Rechenelementen. Von ihnen wiederum gehören viele zur Klasse jener Architekturen, bei denen das "Wissen", über das sie verfügen und das sie im Laufe der Zeit aufgenommen haben, in einer Gestalt vorliegt, bei der zwischen den einzelnen Prozessoren netzartig ganz bestimmte Verbindungen von jeweils auch noch einer ganz bestimmten "Stärke" - die durch eine Zahl zwischen 0 und 1 ausgedrückt wird - geschaltet sind.

Bei solchen konnektiven Architekturen oder auch "Neuronalen Netzen" - denn sie ähneln vage der Anordnung der Nervenzellen (Neuronen) unseres Gehirns samt all ihren wechselseitigen Verbindungen - bestimmt das in Form der "Stärke"-Werte gespeicherte Wissen unmittelbar, wie intensiv die einzelnen Verarbeitungs-Elemente des Netzes - seine Knoten - miteinander interagieren.

Im Bereich der konnektiven Strukturen kennt man teils Konzepte, die das Wissen in eher analoger Form repräsentieren, und teils Strukturen mit eher formalen, streng symbolorientierten Darstellungen. Und vor allem kennt man Formen, bei denen das Netz bei Vorlage mehrerer Beispiele der Muster oder Beziehungen, die es künftig intern repräsentieren soll, eben diese interne Darstellung selbsttätig entwickelt und schrittweise immer klarer ausprägt.

Für die einzelnen Knoten eines neuronalen Netzes, die untereinander durch Leitungen variierenden "Gewichts" verbunden sind, ist kennzeichnend, daß sie intern nur sehr wenig Information gespeichert halten; allenfalls - und kurzzeitig - ein paar Markierungs-Bits oder, bei analoger Betrachtung, einfach einen skalaren Wert für, sozusagen, das jeweilige Aktivitätsniveau des Knotens.

Ein weiteres Merkmal dieser Knoten ist, daß sie nicht etwa individuelle Programme abarbeiten, sondern daß sie nur wenige, einfache Dinge tun können: Sie nehmen ankommende Signale auf, vollführen mit den Daten ein paar boolesche oder arithmetische Operationen und senden dann ihrerseits wieder Daten aus; und zwar entweder über alle oder wenigstens über ein paar der an ihnen hängenden Leitungen. Dabei sei notiert, daß diese Operationen entweder völlig autonomer Natur und sozusagen einfach Teil des konstruktiv festgelegten Knotens sein können; oder aber, daß sie durch Befehle gesteuert sein können, die eine externe Steuereinheit - wie etwa ein Rechner herkömmlicher Bauweise - an die Knoten sendet.

Konnektive Strukturen der skizzierten Art bestechen durch die Tatsache, daß alle Leitungen hier zur gleichen Zeit Signale befördern können und daß alle Knoten diese Signale parallel miteinander verknüpfen. Denn das bedeutet ja, daß ein derartiges System beim Vorgang des Entscheidens zwischen mehreren Aussagen - beispielsweise "das ist ein Ei, ein Apfel, eine Zwetschge etc." - eine "große Menge an Wissen gleichzeitig nutzen, und zahlreiche Antwort-Möglichkeiten im gleichen Arbeitsschritt gegeneinander abwägen" kann.

Die vorhin schon erwähnten, unterschiedlichen konnektiven Strukturen unterscheiden sich bei der praktischen Arbeit darin, daß einige mit ihren vielen Knoten eher eine Art simultaner, paralleler "brute-force"-Suche nach der passenden Antwort durchführen, wobei jeder Knoten dann ein bestimmtes Stück Teil-Information der gesamten Wissens-Basis darstellt. Andere hingegen operieren mit vielgestaltigeren Differenzierungen, denn bei ihnen wird je ein Stück Information durch das entsprechende Aktivitäts-Muster innerhalb einer großen Gruppe von Knoten und Verbindungen repräsentiert. Diese Art Netze arbeiten zunächst mit einem bestimmten Anfangs-Zustand und reagiert auf spätere Eingaben dann dadurch, daß mit der Zeit ein bestimmtes, ihnen speziell entsprechendes (Aktivitäts-)Muster herausgebildet wird.

Viele Signale können auf einmal empfangen werden

Die Knoten eines neuronalen Netzes kommunizieren miteinander durch Austausch entweder von Ein-Bit-Markierungen oder von kontinuierlichen variierbaren, skalaren Werten; man spricht daher auch teils von Markierungs- und teils von Werte-übertragenden Parallelsystemen. Jeder Knoten kann zur gleichen Zeit viele dieser Signale auf einmal empfangen, wobei jedes über eine andere Leitung einläuft, und direkt beim Eintreffen werden dann alle miteinander verknüpft. Alle logisch zusammengehörenden Markierungs-Bits gehorchen dabei den einfachen Regeln einer ODER-Verknüpfung mit einem einzigen, dualen Ausgangs-Wert; und alle skalaren Werten werden zu einer einzigen Summe aufaddiert. Dabei werden dann aber auch noch die Gewichte der einzelnen Verbindungen, über die sie jeweils eingelaufen sind, berücksichtigt.

Bei einem seriell arbeitenden, konventionellem Rechner wächst die Zeit, die er zum Durchsuchen einer bestimmten Zahl von Speicherinhalten - oder auch, bei Erkennungs-Tasks, zur Entscheidung für eine bestimmte Aussage oder Hypothese unter mehreren - benötigt, linear mit der Zahl der Speicherinhalte beziehungsweise der zur Wahl stehenden Hypothesen an. Doch während selbst Systeme mit beispielsweise vier oder acht parallel arbeitenden Rechenwerken allenfalls versuchen können, diese Zeit auf ein Viertel oder ein Achtel zu verkürzen, denken die Väter der neuronalen Netze völlig anders, betont Fahlman.

Knoten als neue Art von Speicherzelle sehen

Denn sie wollen diese elementaren Arten von Such- und Entscheidungsproblemen unabhängig von deren Umfang, stets nur in der gleichen, elementaren Zeit gelöst sehen. Und sie unterstellen daher bei ihren Konzepten einfach, die Zahl der Prozessoren je Netz werde dazu eben jeweils dem Umfang des Problems - also der Zahl der zu durchsuchenden Speicherinhalte oder auch der zur Wahl stehenden Alternativen - angepaßt.

Wem diese Vorstellungen allzu exotisch vorkommen mögen, der könne sich, empfiehlt der CMU-Professor, die einzelnen Knoten der konnektiven Architekturen doch einfach als seltsame, neue Art von Speicherzelle - und nicht mehr als Prozessor-Element - vorstellen. Als eine Art Speicherzelle nämlich, die ihren Inhalt in Gestalt der Größe und der lokalen Verteilung der variablen Gewichte speichert, die den einzelnen Verbindungen zu anderen Zellen zugeordnet werden. Und die, wie erwähnt, Werte zwischen Null und Eins annehmen können.

Für Neulinge mag all dies ziemlich schwer vorstellbar sein, obwohl diese Art der internen Darstellung doch vielleicht noch am ehesten dem entspricht, wie Neurologen sich auch wesentliche Speicher- und Verarbeitungs-Prozesse im menschlichen Gehirn vorstellen. Denn nach heutiger Denkweise ist es ja wohl so, daß der Mensch beispielsweise den Begriff "Pferd" nicht etwa in einem einzigen speziellen "Pferde"-Speicher-Neuron parat hält und jenes fallweise aktiviert, sondern so, daß diesem Begriff und den dazugehörenden visuellen - und vielleicht noch anderen - Vorstellungen ein kompliziertes, viele Neuronen umfassendes Aktivierungsmuster entsprechen dürfte.

Holographie gibt eine vage Vorstellung

Am ehesten gibt heute vielleicht die Technik der Holographie - die ja inzwischen schon bis auf unsere alltäglichen Scheckkarten vorgedrungen ist - eine vage, dafür aber technische Vorstellung von den Speicher-Eigenschaften eines neuronalen Netzes. Denn auch bei einem Hologramm wird ja jeder einzelne, kleinste Abschnitt des dabei sichtbaren Bildes aus Informationselementen zusammengesetzt, die über die gesamte Fläche des Hologramms verstreut sind. Und zerstört man einen Teil, des Hologramms, so verschlechtert sich das resultierende Bild zwar ein wenig in seiner Klarheit, doch bleibt es dennoch in voller Größe und Ausdehnung erhalten.

Diese Eigenschaft der Hologramme, die sie ja gravierend von herkömmlichen Photos unterscheidet, findet sich bei der Betrachtung Neuronaler Netze wieder; mögen sie nun aus Nervenzellen oder aus Silizium-Chips bestehen. Denn auch hier wird der Ausfall eines Teils der Zellen beziehungsweise Knoten die gespeicherte Information zwar unklarer beziehungsweise unschärfer werden lassen, doch bleibt sie meist noch nutzbar.

Es ist wichtig, daß man diesen Vorteil der konnektiven Architekturen in voller Klarheit sieht. Denn das robuste Verhalten gegenüber Defekten bedeutet nicht nur, daß man hier eine Art inhärenter Fehlertoleranz erwarten kann; es besagt vor allem auch, daß man für diese Art neuronaler Prozessor-Netze mit günstigen Produktionskosten rechnen kann.

Heute können Riesen-Chips im Ausmaß einer großen 20-Zentimeter-Siliziumscheibe einfach deshalb nicht hergestellt werden, weil unvermeidlich hier und da Defekte auftreten. Die stören nicht weiter bei Scheiben, die später in einzelne und sehr kleine Chips zerschnitten werden, denn dabei bleiben immer noch genügend intakte Chips übrig. Doch sie stören sehr wohl bei herkömmlichen Schaltungs-Strukturen, die ja für gewöhnlich keinen Defekt vertragen, ohne völlig auszufallen. Und die deshalb nicht als ganze Scheiben hergestellt werden können, so verlockend dies auch wäre.

Netze sind von außen nur schwer durchschaubar

Hat man aber nun Netz-Strukturen der hier beschriebenen Art vor sich, so macht es nichts weiter aus, wenn auf der fertiggestellten Scheibe ein paar der Transistoren und Leitungen nur ungenügend funktionieren; denn das Netz kann sich sozusagen um sie herum konfigurieren. Fahlmann bemerkt dazu, es sei doch wohl zweifellos billiger, eine Milliarde Transistoren herzustellen, von denen dann nur 95 Prozent okay sind, als eine Million, die samt und sonders intakt zu sein hätten.

Ein gewichtiger Nachteil der ansonsten doch so bestechenden Techniken der verteilen Darstellung von Informationen liegt darin, daß Netze für einen außenstehenden Beobachter schwer durchschaubar sind - und daß man ihren Inhalt nur schwer modifizieren kann. Denn will man einen bestehenden Netz auch nur ein einziges neues Stück "makroskopischer Information" hinzufügen, so würde das bedeuten, daß man zahlreiche Verbindungen zwischen zahlreichen mikroskopischen Einheiten gezielt und exakt modifizieren müßte. Das ist manuell so gut wie undurchführbar, weshalb Neuronale Netze eigentlich nur dann eine brauchbare Technik darstellen, wenn sie gleich auch in der Lage sind, selbsttätig neues Wissen zu erwerben. Wenn sie also im wahrsten Sinne des Wortes lernen können.

Als erstes Beispiel eines semantischen Netzes skizzierte Fahlman im Gespräch eine Architektur, die im wesentlichen aus Knoten und diese verbindenden Leitungen besteht (siehe Bild 2). Dabei repräsentieren die Knoten Begriffe wie zum Beispiel "Rappe", "Pferd", "Tier", "Männchen", "Lebewesen", "Tier" oder auch die Farbe "Schwarz", während die Verbindungen - etwa zwischen Rappe und Pferd sowie Schwarz - jeweils festlegen, daß beispielsweise ein Rappe erstens ein Pferd ist und zweitens die Farbe Schwarz hat.

Jeder Knoten in einem derartigen Netz wird durch eine einfache Recheneinheit dargestellt, der einige Ein-Bit-Markierungen speichern und ein paar einfache, Boolesche Operationen ausführen kann; und ebenso ist jede Verbindung im Kern ein simpler, mit je zwei Knoten im Kontakt stehender Prozessor. Auch er kann einfache logische Operationen ausführen und beispielsweise eine Ein-Bit-Markierung von einem der Knoten zum anderen weiterreichen. Von den Knoten und den Leitungen könnten später viele Tausende auf einem einzigen Chip Platz finden; und die ganze Struktur arbeitet unter zentraler Steuerung durch einen herkömmlichen Rechner, wobei stets alle Knoten Leistungen simultan aktiv sind.

Ein Netz dieser Art betont Fahlmann, kann Suchangaben und einfache Schlußfolgerungen leisten und damit deutlich mehr bieten, als man von einem einfachen Assoziativ-Speicher erwarten kann. Denn will man zum Beispiel wissen, ob ein Tier namens "Sturmwind" etwa ein Vierbeiner ist, so setz die zentrale Steuereinheit im Knoten "Sturmwind" eine bestimmte (A-)Markierung, die dann Takt für Takt an die logisch "höheren" Knoten - Rappe, Pferd, Tier, Lebewesen sowie daneben auch Männchen - weitergeleitet wird.

Ist dieser Prozeß zum Stillstand gekommen, so veranlaßt die Steuerung weiterhin, daß nunmehr jede "hat-Beine"-Verbindung im Netz, die ja speziell etwas über die Zahl der Beine aussagt, genau dann eine zweite Art von (B-)Markierung weiterleitet, wenn sie von einem bereits A-markierten Knoten - hier wäre das der Knoten "Pferd" - ausgeht. Somit würde der Knoten "Vier" eine Markierung erhalten und die Steuerung braucht am Ende nun bloß noch jene Knoten zu aktivieren, die die B-Markierung tragen; sofort nämlich erscheint dann als Antwort auf die Ausgangsfrage, daß "Sturmwind" in der Tat ein Vierbeiner ist.

Ähnlich wie die hier nun grob skizzierte Suche nach bestimmen Eigenschaften bekannter Objekte verläuft auch eine Suche, die sozusagen in Gegenrichtung erfolgt. Denn man kann das Netz ja auch nach jenem Objekt befragen, das sowohl schwarz als auch Vierbeiner und ein Männchen ist, und würde im skizzierten Beispiel dann bei Sturmwind laden.

Ein solches System hat laut Fahlman den Vorteil, daß ohne komplizierte und das Resultat möglicherweise vorzeitig - und fälschlich - ausscheidende Regelwerke gearbeitet wird; und daß jene beliebige Kombination von Merkmalen, die ein Objekt eindeutig beschreiben kann, ausreicht, das Objekt zu identifizieren. "Männchen" kommt man ja ebensogut zur Auskunft, das sei der "Sturmwind", wie etwa mit den Beobachtungen "Vier", "Männchen" und - als hier zusätzlich angenommene Eigenschaft - "nahm am Rennen XY in UVW teil".