Computer verwalten Daten über das Erbgut der Menschen

Eine Gen-Landkarte für die Online-Datenbankabfrage

15.12.1989

Selbst das komplizierteste Programm des gewaltigsten Computersystems überhaupt ist letztlich eine simple Abfolge von Einsern und Nullen. Und selbst der Bauplan des kompliziertesten Lebewesens - des Menschen - ist letztlich als simple, lineare Folge von lediglich vier verschiedenen Symbolen kodiert; nämlich als genetische Chromosomensequenz sogenannter Nukleinsäurebasen, die gemeinhin mit den Abkürzungen G, C, A und T (für Guanin, Cytosin, Adenin und Thymin) bezeichnet werden.

Eines der spannendsten und auch heftig umstrittenen Forschungsprojekte der modernen Genetik zielt nun letztlich darauf ab, den vierwertigen genetischen Quattro-Code speziell des Menschen in all seinen Feinheiten voll zu entschlüsseln. Und dabei nun wieder ist es für Computerkenner höchst spannend zu sehen, wie Rechner mit ihrem zweiwertigen (Dual-) Code die Entzifferung des G-C-A-T-Codes unterstützen. Denn hierzu ist eine Reihe keineswegs trivialer Aufgaben zu bewältigen.

Am Projekt beteiligt sich seit kurzem auch ein spezielles Team der US-amerikanischen nationalen Gesundheitsinstitute (NIH), dem man vor allem zwei Jobs zugewiesen hat. Es soll nämlich erstens die schon heute zahlreichen, aber leider breit verstreut und bloß in ebenso inhomogener wie inkompatibler Form vorliegenden Informationen über das Erbgut des Menschen - sein Genom - zusammentragen und harmonisieren.

Und es soll zweitens neue Wege erschließen, auf denen die immense Fülle des heutigen - und erst recht des noch zu erwartenden - Wissens selbst für jene leicht greifbar wird, die, wie eben typische Biologen, Computer eher vom Geldautomaten her kennen.

Betrachtet man nun die heutige Lage allein nur in den USA, so sieht man, daß manche der relevanten Bio-Datenbanken nur Informationen über DNA-Sequenzen, also über die Bausteine unserer Gene, vorweisen können; während andere Bit-Silos nur Daten über jene Aminosäureketten parat haben, die in der lebenden Zelle jeweils strikt nach Vorschrift der G-C-A-T-Ketten zusammengestellt werden und die am Ende komplizierte Proteine - also die Bausteine aller tierischen Lebewesen - ergeben. Und schließlich gibt es dann noch besonders raffinierte Datensammlungen mit der Fähigkeit, sogar die dreidimensionale Gestalt verschiedener Proteine abrufbereit vorzuhalten.

Viele der konkreten Datenhandhabungsprobleme, die von einer Arbeitsgruppe der Nationalen Medizin-Bibliothek (NLM) nun künftig einer Lösung zugeführt werden sollen, basieren allerdings nicht allein bloß darauf, daß Gen-Datenbanken wie etwa Genbank einerseits und Protein-Datenbanken wie etwa PIR (protein identification resource database) andererseits mit unterschiedlichen Datenformaten arbeiten; sie haben außerdem damit zu tun, daß wichtige Querverweis-Informationen in beiden vielfach noch fehlen. Hinweise nämlich, die man zum sachgerechten Weiterarbeiten mit Hilfe der jeweils anderen Datenbank unbedingt benötigen würde, will man sich Schritt für Schritt ein Gesamtbild der vielfältig wechsel- und rückwirkenden Biologie des Erbguts machen. Zur Bewältigung der hier skizzierten Aufgabe dürfte die Gruppe der NLM nicht zuletzt deshalb ganz besonders geeignet sein, als ihre Bibliothek ja die bislang einzige der USA ist, die - für den US-Kongreß - ganz offiziell das Thema "Datenbanken für die Biotechnik" zu bearbeiten hat.

Und daß Gruppen-Chef David Lipman und Kollegen es außerdem verstehen, der Fachöffentlichkeit hilfreich die Hand entgegenzustrecken das zeigen sie speziell am Beispiel ihres allerersten Projekts, nämlich der allgemeinen Biotechnik-Datenbank Geninfo.

Geninfo soll eine Art Basis-Datensammlung für das hier zur Debatte stehende Fachgebiet werden und schon Mitte 1990 so stabil sein, daß man fortan private Programmierbüros einladen kann, einfach handhabbare Geninfo-Daten-Such- und -Abruf-Programmpakete zu entwikkeln und auf den Markt zu bringen. Dabei sollen diese Programmpakete aber selber wiederum so einfach modifizierbar sein, daß weitere Programmierer aus ihnen dann spezielle und höchst effiziente Werkzeuge eigens für Biologen machen können; Werkzeuge nämlich, mit denen Fachleute der Bio-Wissenschaften dann auf einfache Weise unterschiedliche Texte und unterschiedliche Arten von Informationen aus aller Welt - so sie sich nur im Grunde auf das gleiche Thema beziehen - verknüpfen können.

Das nun ist allerdings leichter gesagt als getan - denn Lipman muß dabei ein völlig neues, mathematisches Modell molekularbiologischer Verknüpfungen und Zusammenhänge erproben.

Auf diesem Modell wiederum baut ein neuer Such-Algorithmus auf, mit dem man ein Protein normaler Größe, also beispielsweise eines mit ein paar Hundert Aminosäuren, auch dann binnen maximal fünf Sekunden finden kann, wenn die Information darüber sich in einer Datenbank mit vielen Millionen Zeichen verstecken sollte. Und damit will Lipman herkömmliche Algorithmen abhängen, die für die gleiche Aufgabe mehrere Minuten - und mithin vielleicht 30- bis 80mal so lang - brauchen würden.

Das rekordverdächtige Tempo rührt vor allem daher, sagt Lipman, daß molekularbiologische Daten dank des erwähnten, mathematischen Modells ohne Einbußen an wissenschaftlicher Exaktheit auf eine völlig neue Art beschrieben werden können. Und so kann der Such-Algorithmus nun schon in einer frühen Phase des Suchens erkennen, welchen Teil der gesamten Datenbank zu durchsuchen sich überhaupt lohnen dürfte; und auf welche Teile er seine kostbare Zeit besser nicht verschwendet.

Um zu verstehen, wie trickreich der neue Such-Algorithmus aufgebaut ist, muß man sich kurz mal den Kern dessen vor Augen führen, wonach erfahrende Molekularbiologen denn eigentlich zu suchen pflegen. Dann erkennt man nämlich, daß sie sich beim Studium eines neuen, unbekannten Proteins vor allem danach umsehen, ob Aminosäure-Sequenzen des neuen Makro-Moleküls auch in einem Molekül auftreten, dessen Daten schon gespeichert sind. Doch dabei wiederum kommt es ihnen nun nicht etwa auf simple, direkte Eins-zu-Eins-Gleichheiten an, sondern - je nach den speziellen Gegebenheiten des einzelnen Falles - auf sozusagen qualitativ definierte Gleichheiten.

QuidProQuo spart viel Aufwand

Es kann in einer bestimmten Situation also beispielsweise sein, daß der Molekül-Forscher seinen Computer anweisen möchte: such' mir vor allem bei Thymin-Paaren nach Ähnlichkeiten.

Ein anderer Computer-dienst, den die Gruppe der NLM in Kürze anbieten möchte, basiert auf einer Datenbank mit dem Kurznamen QuidProQuo. Sie soll bislang unveröffentlichte DNA-Sequenzen umfassen und jenen Forschern dienen, die bei ihrer konkreten Experimentierarbeit im Labor auf bislang unbekannte DNA-Sequenzen stoßen. Denn künftig sollen sie jene Sequenzen nur noch in den Rechner eingeben - und schon sagt ihnen die Datenbank, welcher der Kollegen vielleicht schon die gleiche Entdeckung gemacht hat und eventuell sogar für Kooperationen offen ein könnte.

Das heiße Thema Gen-Landkarte und das nicht minder heiße Thema der Künstlichen Intelligenz - diese zwei Spitzen-Forschungsgebiete moderner Wissenschaft zusammenzubringen, haben sich inzwischen japanische Wissenschaftler entschlossen. Denn Kazuhiro Fuchi, der Chef des bekannten, japanischen Zehnjahres-Forschungsprogramms zur Entwicklung einer völlig neuen Generation von Computern, ist inzwischen zu der Auffassung gelangt: gerade KI-Techniken und -Maschinen werden unschätzbare Dienste bei dem Versuch leisten können, die Geheimnisse des menschlichen Genoms zu enträtseln: im Guten wie im Bösen.

Schon jetzt, so wird aus Tokio berichtet, sollen Fuchis Mannen mindestens die Hälfte aller Daten der erwähnten Genbank in eine Datenbank eigener Machart, eingespeist haben. Und zwar in eine spezielle KI-Datenbank namens Kappa, mit der Biologen auf besonders einfache Weise sollen umgehen können. Und die ihnen Verbindungen zwischen den Strukturen und den Funktionen neuer wie altbekannter - und wenigstens partiell schon verstandener - Gene ausweisen soll.

Bei diesem Vorhaben soll es sich um ein Projekt in der Größenordnung von 600 Millionen Mark handeln, das sich mit der logischen Programmierung einer Inferenz-Maschine befaßt; denn diese Art von KI-Abfrage soll endlich die Suche nach DNA-Sequenzen ohne starre Beschränkung der maximalen Sequenzlänge ermöglichen. Und außerdem könne der Biologe, so erfährt man weiter, hier ohne langes Schreiben eines hochspeziellen Suchprogramms nach Sequenzen fahnden lassen, die eine ganz bestimmte Gruppe von Basen in einer ganz bestimmten Reihung enthalten.

In Fachkreisen hat Interesse erregt, daß das Einspeichern der halben Genbank in Kappa bloß zwei Wochen gedauert haben soll. Und manche jener Amerikaner, die - mit Blick auf Genbank - schon seit Jahren für die Einführung der logischen Programmierung plädieren, sehen sich durch Berichte aus Japan nun bestätigt: denn via KI scheinen nun ja Fortschritte möglich, die auf konventionelle Weise nicht so leicht erreichbar sein dürften.

Doch entschieden ist dieser ganze Streit um die optimale Technik noch lange nicht. Denn es könnte ja durchaus auch das NLM-Team recht behalten, das sich bei seinen Ansätzen eher auf das moderne Konzept der objektorientierten Datenbanken stützen möchte. Und das meint, für seine Endanwender - nämlich die Biologen - auch damit alles Wesentliche leisten zu können.