Parallelrechner für Geschäftswelt und Forschung, Teil 2

Von der naturnahen Simulation zu der blitzschnellen Datensuche

23.11.1990

*Jürgen Kesper ist Mitarbeiter der Thinking Machines GmbH, München.

Computer blicken nicht nur auf ein halbes Jahrhundert rasanter technologischer Entwicklung zurück, sondern gleichzeitig auch auf ein halbes Jahrhundert fehlgeleiteter Evolution. Denn immer noch arbeiten die meisten Rechner sequentiell, berechnen also immer nur ein Datenelement nach dem anderen. Die Welt um sie herum, deren Geschehen sie letztlich doch nachbilden beziehungsweise vorausberechnen sollen, ist aber ganz und gar nicht sequentieller Natur.

Sind Parallelrechner bei wissenschaftlichen Aufgabenstellungen oftmals nur einfach

schneller als herkömmliche Computer selbst der höchsten Leistungsklasse, so sind sie in anderen Bereichen - also abseits bekannter Gebiete wie FEM-Analyse, Strömungsmechanik, Streßanalyse oder Mikroelektronik - häufig überhaupt die einzigen Systeme, die sich zu einer Problemlösung einsetzen lassen. Erst mit ihrer Hilfe lassen sich beispielsweise jene immensen und laufend größer werdenden Datenbanken schnell durchsuchen, in denen Wissen über biologische Ketten- und Makromoleküle, Informationen über die DNS und über Proteine, abgespeichert ist.

Bei solchen Suchprozeduren im parallelen Ablauf wird eine bestimmte Proteinsequenz hinnen Minuten mit derzeit ungefähr 10000 in der Datenbank gespeicherten, bekannten Sequenzen verglichen. Ein Parallelrechner filtert allerdings nicht allein exakt gleiche Sequenzen heraus - solche Gleichheiten kommen ja in natura kaum vor -, sondern vielmehr auch all jene bekannten Sequenzen, die zumindest annähernd die gleiche Struktur wie das vorgegebene Muster aufweisen. Neben dieser schnellen Datensuche für technisch-wissenschaftliche Anwendungen gibt es mittlerweile aber auch ganz andere und bislang noch kaum bekannte Einsatzbereiche für moderne Parallelrechner. Dazu gehört beispielsweise die klassische Großrechner-Domäne des kaufmännisch-administrativen Sektors.

Das Kaufverhalten läßt sich auswerten

Man kann feststellen, daß Universalrechner zunehmend heutigen Leistungsanforderungen nicht mehr gewachsen sind und viel zu langsam wären, um etwa jene Hunderte GB an Primärdaten zu bewältigen, die sich im Gefolge moderner Kreditkarten- und POS-Zahlungssysteme vielfach angesammelt haben. Dem Handel eröffnen sich über diese Informationen wichtige Einblicke über das Kundenverhalten.

Ein schneller Parallelrechner kann mit Hilfe sogenannter CIuster-Analysen in kürzester Zeit Gruppen von Kunden erkennen, die sich in bestimmten Merkmalen ihres Kauf- und Zahlungsverhaltens gleichen. Die könnte man nun viel gezielter umwerben als bisher.

Bei diesen Prozeduren wird jeder einzelne Kunde zunächst einem bestimmten Marktsegment zugeordnet. Der Parallelrechner mit, seinen vielen Einzelprozessoren bildet anschließend - zufallsgesteuert - immer neue Kundenpaare. Gehören dabei nun zwei Kunden zusammen, so wird dies vermerkt, während andernfalls weitergearbeitet und erneut eine Paarbildung versucht wird.

Auf diese Weise werden nach Milliarden einzelner Vergleiche - immer prägnanter abgegrenzte Kategorien von Kunden sichtbar, die der Rechner schließlich in einige hundert klar definierte Affinitätsgruppen gliedert. Mit diesem Material lassen sich Auswertungen über Kaufverhalten und -gewohnheiten eruieren.

Das setzt allerdings immense Rechenleistungen voraus: Oftmals müssen bei solchen Rechenprozeduren bis zu 10 MIP-Jahre an Rechenarbeit bewältigt werden. Ein MlP-Jahr ist dabei jene Leistung, die ein 1-MIPS-Rechner erbringt, der tagaus, tagein ein ganzes Jahr lang ohne jede Pause aktiv ist. Parallelrechner mit ihren 10 GFlops und mehr halten zusehends auch in der kommerziellen Welt, Einzug. Als Beispiel kann die Installation beim US-Verlag Dow Jones & Co., dem Herausgeber des renommierten "Wall Street, Journals" wie auch des gleichnamigen Börsen-Indexes, genannt werden. Dort dient ein Parallelsystem für die Arbeit in einer umfangreichen Datenbank.

Diese Datenbank enthält Hunderttausende ausgewählter Texte aus 175 Wirtschaftsperiodika. Will man über einen hochparallelen Rechner in ihr beispielsweise

Informationen über den Chef jenes Unternehmens erhalten, das mit optischen Kompakt-Plattenspeichern in Flachbauweise zuletzt den höchsten Umsatz in Korea erzielt hat, so tippt man entsprechende Suchkriterien in beliebiger Reihung ein. Die etwa 32 000 Prozessoren (32 K) des Rechners durchsuchen - jeder einzelne ist nur mit acht bis neun Texten befaßt, - gleichzeitig alle vorliegenden Daten und geben eine Liste von Beiträgen aus, die primär das fragliche Thema zu behandeln scheinen.

Antwort auf verzwickte Fragen

Gibt man nun die Kennziffern jener - maximal drei Artikel aus der Liste ein, die das Thema nach Meinung des Benutzers am ehesten behandeln dürften, so suchen die parallelen Prozessoren erneut. Nun benutzen sie jedoch nach dein Relevanz-Rückkoppelungs-Verfahren den gesamten Inhalt dieser Artikel als Suchbegriff. Selbst auf sehr verzwickte Abfragen, die mit der üblichen Technik des Einkreisens durch immer feiner abgrenzende und per UND beziehungsweise ODER verknüpfte Suchworte nicht oder nur schwer bearbeitbar sind, erhält der Benutzer rasch eine Antwort.

Diese Suchaufgabe erledigt ein hochparalleler Rechner binnen einer Zehntelsekunde. Die Formen des rechenaufwendigen Suchens per Relevance-Feedback waren zwar früher theoretisch schon bekannt, konnten bislang aber nicht praktisch genutzt werden, da solche Aufgabenstellungen auf den üblichen Rechnern viel zu langsam abliefen.

Das Relevance-Feedback-Suchverfahren, bei dem der Rechner die im ersten Durchgang gefundenen und vorn Benutzer manuell ausgewählten Artikel - oder auch Teile von ihnen - als Schlüsselworte zur Suche nach weiteren Texten verwendet, hat vor allem den Vorteil, daß man mit ihm die gefürchtete Synonymen-Klippe überwinden kann. Mit ihm findet man nämlich auch Beiträge über "Rechner", obwohl man bei der Eingabe der Suchbegriffe vielleicht bloß das Wort "Computer" benutzt hatte. Im zweiten Suchdurchgang taucht im nun als Schlüsselwort-Text dienenden Beitrag nämlich so gut wie sicher auch das Synonym Rechner auf und schon "weiß" der Rechner, wonach er auch noch zu suchen hat.

Diese Suche erfolgt so, daß aus den Artikeln, die im zweiten oder einem späteren Durchgang als Suchwort-Liste dienen sollen, nur jene 100 Ausdrücke als Suchwörter benutzt werden, die in den Texten am seltensten vorkommen, da diese die für die Abfrage relevantesten sein dürften. Es genügt mithin, daß der Rechner seine Suche allein auf sie beschränkt. In der Praxis führt diese Vorgehensweise wie die Erfahrung lehrt - zu überaus befriedigenden Resultaten. Mit einem Rechner herkömmlicher Art jedoch wäre eine solche Vorgehensweise aus Zeitgründen undenkbar.

Die Praxis zeigt, daß parallele Rechner mittlerweile nicht nur im Bereich der technisch-wissenschaftlichen Forschung und Entwicklung eine höchst attraktive Alternative zu herkömmlichen Maschinen darstellen. Deshalb werden parallele Computer bald auch in das Feld der kaufmännisch-administrativen Anwendungen vordringen.