Speichernetze/Krebsforschung

DNA-Analysen werden auf Raid-Systemen gespeichert

14.06.2002
Für seine Krebsforschung setzt das Berliner Biotech-Unternehmen Epigenomics Raid-Systeme ein. Mit dieser Speicherlösung verwahren die Forscher ihre wertvollen Analysedaten der DNA-Methylierung. Das Speichersystem ist an eine Linux-basierende IT-Infrastruktur angeschlossen. Von Roland Brutscher*

Über die DNA-Methylierung einer Zelle, die krankheitsbedingte Veränderungen im genetischen Code anzeigt, kann Epigenomics maßgeschneiderte Medikamente für Patienten entwickeln. Dieser noch junge Forschungszweig baut dabei voll auf leistungsfähige IT-Systeme, die den Großteil der diagnostischen Analysen automatisieren.

"Das gesamte Know-how unseres Unternehmens steckt in 30 MB großen Tiff-Bildern, die aus hellen und dunklen Punkten bestehen", sagt Alexander Olek, Vorstandsvorsitzender des internationalen Biotech-Unternehmens Epigenomics AG mit Hauptsitz in Berlin. "Diese Aufnahmen sind das digitale Abbild der DNA-Methylierung in Zellen und beherbergen Informationen darüber, ob eine Zelle gesund oder krank ist."

Die DNA-Methylierung selbst ist eine chemische Veränderung der DNA, die in jeder Zelle stattfindet. Die entscheidende Rolle spielt dabei die wenig bekannte fünfte Base der DNA: das methylierte Cytosin (mC), also Cytosin, das an eine Methylgruppe gebunden ist. Neben den vier klassischen Basen Adenin, Cytosin, Guanin und Thymin, die das Erbgut speichern, übt mC Einfluss auf die Aktivität von Genen aus. Jeder Mensch hat ungefähr 30000 unterschiedliche Gene, die in jeder Körperzelle als vollständiges Genom vorhanden sind, doch die Zellen nutzen dieses genetische Know-how nur teilweise: Hautzellen aktivieren beispielsweise andere Gene als Leberzellen.

Das Muster der DNA-Methylierung liefert Informationen über den Zelltyp an sich und über genetisch bedingte Krankheiten wie Autoimmunkrankheiten oder Krebs. So weicht bei Krebserkrankungen das Methylierungsmuster auf der DNA stark vom Normalzustand ab. Wissenschaftler und Mediziner setzen auf die DNA-Methylierung, weil sie gerade in der Krebsforschung neue Diagnoseverfahren und Behandlungsansätze ermöglicht. So können Mediziner mit dieser Zellinformation maßgeschneiderte Medikamente entwickeln, die individuelle Erkrankungen von Patienten bekämpfen.

Digitale Bilder von der DNA-Methylierung

Epigenomics wendet das Verfahren 5th Base genomics an, bei dem zunächst das mC-Muster einer DNA gelesen wird. Dieses ist die Basis für den digitalen Phänotyp eines Zellgewebes, der das Erscheinungsbild eines Organismus beschreibt, der durch Erbanlagen und Umwelt beeinflusst wurde. Mit 5th Base genomics ermitteln die Forscher in einem einzigen Versuch die DNA-Methylierung an tausenden von Stellen des Genoms.

Um sich ein optisches Bild von der DNA-Methylierung zu machen, wird das Zellmaterial zunächst auf einen Biochip (Foto) aufgetragen, der die mC-Stellen markiert. Über eine UV-Bestrahlung fluoresziert diese Probe genau an jenen Stellen, an denen die DNA methyliert ist. "Die Fluoreszenz fotografieren wir mit einer optischen Kamera und scannen das mC-Muster ein. Daraus ergeben sich eben jene 30 MB großen Tiff-Dateien, die für uns von unschätzbarem Wert sind", erklärt Wissenschaftler Olek.

Durch die Zuordnung der Werte 0 und 1 wird die genetische Information digitalisiert, wobei jedes Zellgewebe und jede Krankheit eine eigene charakteristische digitale Sequenz besitzt. Über den Vergleich von gesundem und krankem Gewebe werden beispielsweise Tumorzellen in einem sehr frühen Stadium diagnostiziert und so der Schlüssel für einen neuen therapeutischen Ansatz geliefert.

Basis von 5th Base genomics ist eine speziell entwickelte Computerarchitektur, die eine schnelle, reibungslose und vor allem sichere Datenanaylse erlaubt. Dabei läuft die softwarebasierende Analyse auf einem Host-Rechner mit vier Pentium-III-Xeon-Prozessoren von Intel, die jeweils mit 700 Megahertz getaktet sind. Die zentrale Host-Anlaufstelle zu den digitalen Daten ist eine RAID-Speicherlösung (Raid = Redundant Array of Independent Disks), die der Tübinger IT-Systemhersteller transtec AG für Epigenomics entworfen hat: Neben einer hohen Datensicherheit ist das Speichersystem skalierbar, kann also jederzeit mit neuen Speichereinheiten aufgerüstet werden.

Ein sicheres Server-System mit RAID-Level 5

"Wir haben im Fall von Epigenomics insgesamt fünf SCSI/IDE RAID-Systeme "transtec 5000" eingesetzt, die mit Raid-Level 5 konfiguriert sind und sich gegenüber dem restlichen IT-System wie jeweils eine einzige SCSI-Festplatte verhalten", beschreibt Franz Bochtler, Senior Vice President des strategischen Geschäftsbereichs Storage bei der transtec AG. "Selbst wenn eine Festplatte komplett zerstört wird, stehen so alle wichtigen Unternehmensdaten ohne jede Ausfallzeit weiter zur Verfügung."

Hinter den Raid-Systemen verbirgt sich eine Speicherlösung, bei der mehrere Festplatten zusammengeschaltet sind und der Datenstrom über einen Controller gesteuert wird. Raid-Level 5 vereint dabei sowohl eine hohes Maß an Datensicherheit als auch eine Steigerung der Rechnerleistung, da der Datenzugriff beschleunigt wird. Die Level von 0 bis 5 beschreiben verschiedene Verfahrensweisen der Raid-Systeme: Während beim Level 0 nur die Rechnerleistung verbessert wird, indem der Controller die digitalen Daten auf mehrere Festplatten verteilt, erhöht der Level 1 nur die Datensicherheit. Hier werden die Daten immer doppelt auf zwei Festplatten abgespeichert. Fällt eine davon aus,dann sind die Daten ohne Zeitverzögerung von der zweiten Platte abrufbar. Raid-Level 5 hingegen verteilt einerseits die Daten auf verschiedene Platten für den schnellen Datenzugriff und arbeitet andererseits mit speziellen Prüfsummen für die Datensicherheit. Denn über diese Prüfsummen können beim Totalausfall einer Festplatte die verlorenen Daten rekonstruiert werden.

"Unser Speichersystem ist der unternehmenskritische Flaschenhals und wir müssen uns voll und ganz darauf verlassen können, dass unsere Daten sicher sind", sagt Olek. "In jeder einzelnen digitalen Aufnahme steckt nicht nur unser Know-how und unsere Zeit, sondern auch das ganz persönliche Schicksal eines Patienten."

Kostengünstig und stabil dank Linux und IDE

Um die sicherheitsspezifischen Anforderungen von Epigenomics zu erfüllen, wurden fünf transtec-5000-Systeme als eine IT-Lösung konfiguriert. Das Herzstück jedes Raid-Systems sind acht E-IDE-Festplatten, die jeweils über ein Speichervolumen von 76,8 GB verfügen. Somit ergibt sich eine gesamte Speicherkapazität von rund 3 TB. Mit der Speicherlösung werden aber nicht nur die digitalen Daten für die DNA-Methylierung verwahrt, sondern auch die Verwaltung der internen Home-Verzeichnisse und der Dokumente des Unternehmens organisiert.

Die Raid-Systeme sind in eine IT-Infrastruktur integriert, die auf dem Betriebssystem Linux läuft. Linux steht unter der General Public License und sorgt gerade im Serverbereich für eine hohe Stabilität. Die Daten werden dem Netzwerk über die Protokolle NFS und SMB zur Verfügung gestellt.

Eine Ultra2-LVD-SCSI-Verbindung

Zusätzlich verfügt das System über redundante Lüfter und Netzteile, die während des Betriebes ausgetauscht werden können. "Mit dem transtec-System konnten wir mehrere Fliegen mit einer Klappe schlagen: So garantieren wir gegenüber unseren Kunden ein hohes Maß an Datensicherheit und haben gleichzeitig ein System, das durch die IDE-Festplatten und das Betriebssystem Linux sowohl in der Anschaffung als auch im täglich Betrieb extrem kostengünstig ist", erklärt Robert Sander, Manager Information Systems der Epigenomics AG. "Und als letzter wichtiger Punkt ist natürlich die Skalierbarkeit des Systems zu nennen, deren Speicherkapazität problemlos mit unserem Unternehmen mitwachsen kann." (kk)

*Roland Brutscher ist freier Journalist in Stuttgart.

Angeklickt

Das Berliner Biotech-Unternehmen Epigenomics AG ist in der Krebsforschung tätig. Für die Analyse erstellen die Wissenschaftler Fotos der zuvor mit UV-Strahlen behandelten DNA-Partien. Diese Tiff-Dateien mit einem Volumen von 30 MB werden auf Festplattenspeichern abgelegt, die mit Raid Level 5 arbeiten. Gesteuert werden die Silos von Intel-Servern unter Linux: Hightech mit geringen Kosten.