Angst vor Gedächtnisschwund

Daniel Pelke kann auf eine 30-jährige Erfahrung in der IT-Branche zurückblicken und ist als CTO für EMC Deutschland tätig. Er ist bereits seit über 15 Jahren für EMC beziehungsweise der 2004 übernommenen Documentum GmbH tätig und hatte zuletzt die Position des Practice Directors im Presales-Bereich inne. Vor seiner Karriere bei EMC war er im Vertrieb und der Software-Entwicklung bei verschiedenen Unternehmen tätig, darunter bei der Hewlett-Packard GmbH, der Rücker GmbH, der ESG Elektroniksystem- und Logistik-GmbH und der Nixdorf Computer AG, in der er seine IT-Laufbahn 1983 als Trainee begann. Daniel Pelke ist Diplom-Informatiker und hat an der Fachhochschule München studiert.
Unternehmen brauchen Strategien für eine effiziente Dokumentenablage und erfolgreiche Langzeitarchivierung. Dafür gibt es im technischen Bereich keinen Königsweg.

Es ist fraglich, ob wir in 20, 30 oder 50 Jahren noch auf heute gängige Datenträger wie Festplatten, Tapes, DVDs, CD-ROMs oder Mikrofilme zugreifen können. Unternehmen sollten daher der steigenden Informationsflut des digitalen Zeitalters mit einem bezahlbaren Medienmix aus langlebigen Datenträgern und Archivlösungen entgegentreten. Diese müssen die Lesbarkeit von wichtigen Geschäftsinformationen für einen langen Zeitraum gewährleisten. Wer dabei nur auf offene Systeme und Standardformate setzt, springt indes zu kurz. Mit Lösungen für ein Enterprise-Content-Management (ECM) müssen sich die kostbaren Informationen auch in komplexen Umgebungen noch wieder finden lassen, Versionen von Software und Betriebssystemen wollen verwaltet und die Daten sollen unverändert digital archiviert werden.

Schrittweise zur Langzeitarchivierung

• Analyse der Geschäftsprozesse;

• Archivierungsregeln und Metadaten abteilungsübergreifend definieren;

• ECM-Phasen (Erfassung, Strukturierung, Speicherung/ Bereitstellung, Archivierung) schrittweise planen und umsetzen;

• Formatmix analysieren, Standardformate festlegen;

• bei großen Datenvolumina: Software zur automatischen Klassifizierung/Kategorisierung einsetzen;

• Speichernetze mit unterschiedlichen Speicherebenen einführen;

• Medienmix konsolidieren durch Ersatz, Migration oder Bildung virtueller Speicherpools;

• Vor- und Nachteile von Tape- oder CAS-Speichern abwägen;

• Migrationszyklen planen.

Hier lesen Sie …

Mehr zum Thema

www.computerwoche.de/

578087: Test E-Mail-Archive;

1214174: Rechtliche Fragen zur E-Mail-Archivierung;

566856: GDPdU und Archivierung;

576631: Information-Life- cycle-Management;

566855: Speicherarchitek- turen.

Die Wirtschaftstreibenden haben erkannt, dass die Konsolidierung von Speicherinseln für E-Mails, Bilder, Auftragsdaten und andere unstrukturierte Inhalte notwendig ist. Von einem umfassenden Content-Management sind sie allerdings noch weit entfernt, wie aktuelle Studien von Analysten zeigen. Welche effizienten und kostengünstigen Wege gibt es also, um weg von der unstrukturierten Datenablage auf diversen Speicherinseln und -medien hin zu einer durchgängigen Verwaltung unstrukturierter Inhalte und deren langfristiger Aufbewahrung zu kommen?

Schrittweise vorgehen

Um es vorwegzunehmen: Unternehmen müssen den ECM-Berg nicht an einem Tag besteigen (siehe Kasten "Schrittweise zur Langzeitarchivierung"). Die einzelnen Phasen der Datenerfassung, Strukturierung, Speicherung, Verteilung und Archivierung können in Teilprojekten schrittweise eingeführt werden. Doch vor der praktischen Umsetzung steht die Theorie: ECM-Strategien müssen gut durchgeplant und den Unternehmensprozessen angepasst sein. Bevor die IT-Abteilung die passenden Hard- und Softwarelösungen auswählen kann, sollten Archiv- und Rechtsexperten bei der Definition von Regeln und Metadaten helfen, so dass die Informationen automatisch auf das adäquate Medium gespeichert werden.

Formatwahl entscheidend

ECM beginnt bei der Erstellung unstrukturierter Dokumente durch einen Autor, oder der Erfassung durch Scannen, Bildbearbeitung oder Formularverarbeitung. Dabei ist es sinnvoll, alle Dokumente in Standardformaten wie XML, Tiff Group 4, Adobe PDF oder JPEG zu speichern und zu archivieren. Gleichzeitig sollten die bereits abgelegten Informationen auf ihre Formatvielfalt hin überprüft werden. Viele ECM-Systeme verwalten beispielsweise gedruckte COLD-Dokumente (Computer Output on Laserdisk), die getrennt nach Inhalten und Formulardaten umständlich gespeichert werden müssen. Sinnvoll ist hier eine frühe Konvertierung in den Archivierungsstandard PDF/A.

Im zweiten Schritt werden die erfassten Informationen mit Hilfe von Metadaten klassifiziert und kategorisiert. Informationen wie Dokumententyp, Autor, Zugriffsrechte oder Verfallsdatum strukturieren die Informationsflut und machen sie über Anwendungen hinweg recherchierbar. Bei größeren Unternehmen mit hohem Datenaufkommen kann diese Phase schnell zur Mammutaufgabe werden. Eine große Hilfe sind hier Softwaremodule, die die Unternehmensdaten automatisch klassifizieren. Die Ergebnisse dienen zur Kategorisierung oder als Suchbegriffe, die in die Metadaten der Inhalte einfließen.

Mammutaufgaben

Viele Anwender tun sich allerdings schwer, die Metadaten bei der Erzeugung von Inhalten konsistent einzugeben. Dies führt dazu, dass sich Inhalte schwer wiederfinden und verarbeiten lassen. Kommt hingegen ein entsprechendes Programm zum Einsatz, schlägt dieses bei der Datenerstellung automatisch Metadaten vor, die der Anwender annehmen oder ablehnen kann. Ebenfalls kann spezielle Software bei der Kategorisierung von Inhalten helfen. Dies ist normalerweise eine gewaltige Aufgabe, da hierbei zahlreiche Funktionen in der Organisation zusammenwirken müssen. Um diesen Prozess zu erleichtern, bietet entsprechende Software vorbereitete Taxonomien (Hierarchieren von Kategorien) für verschiedener Branchen und Aufgaben an.

Sind die Informationen organisatorisch für die digitale Ablage vorbereitet, müssen sich die IT-Experten mit der Konsolidierung der unterschiedlichen Speichermedien befassen. Hierbei lassen sich beispielsweise Speicherinseln in einem Storage Area Network (SAN) respektive Network Attached Storage (NAS) für File-Daten vernetzten. Innerhalb dieser Verbünde sollten die Informationen entsprechend ihrer Relevanz auf die jeweils passenden Speichermedien kaskadiert werden.

Speicherkosten beachten

Die Daten der zentralen SAP-Anwendung gehören demgemäß auf hochverfügbare Platten-Arrays, während der interne E-Mail-Verkehr sicher auch auf preisgünstigen ATA-Platten oder Magnetbändern gut aufgehoben ist. Wer für unterschiedliche Service-Level-Anforderungen die passenden Speicherebenen implementiert, differenziert auch seine Kosten. Hochverfügbarer primärer Speicher auf Highend-Raid-Systemen kostet derzeit laut Untersuchungen der Analysten von Gartner mindestens 13 Euro pro Gigabyte (GB). Im Lowend speichert ein Unternehmen auf ATA-Platten ein GB für etwa vier Euro. Eine traditionelle Tape-Sicherung ist schon für 90 Cent pro GB zu haben.

Neben der Einführung von Speicherstufen sollte auch die absolute Zahl der Speichermedien verringert werden, um die Administration zu vereinfachen. Mit dem Preisverfall bei Festplattenspeichern geht der Trend weg von magneto-optischen Technologien, CD-ROM oder DVDs. Auch Worm-fähige Magnetbänder laufen den Archiv-Jukeboxen von einst den Rang ab. Trotzdem müssen ältere Speichermedien nicht gleich entsorgt werden. Je nach Bedarf können sie nach wie vor ausreichen. Archivierungssoftware hilft zudem dabei, sämtliche Archivsilos in einem virtuellen Speicherpool zu verwalten.

Scheiben und Mikrofilme

Um die Lesbarkeit der Daten zu gewährleisten, empfiehlt das Bundesarchiv in Köln, CDs und DVDs alle fünf Jahre umzukopieren. Wer sich von den glänzenden Scheiben trennen möchte, sollte ihren Datenbestand sorgsam prüfen und auf andere Speichermedien übertragen. Auch Mikrofilme sind in Unternehmen immer noch ein weit verbreitetes Archivmedium. Da es sich um eine analoge Technologie handelt, sollten Mikrofilme nur der nachgeordneten Archivierung bereits digitalisierter Dokumente dienen. Einzig auf Mikrofilm gebannte steuerlich relevante Belege haben dort seit Einführung der GDPdU (Grundsätze zum Datenzugriff und zur Prüfbarkeit digitaler Unterlagen) im Jahr 2001 nichts mehr zu suchen. Sie sollten schnellstens gescannt und einem digitalen Speicher zugeführt werden.

Magnetband oder CAS?

Magnetbänder sind als Archivdatenträger weiterhin populär. Der Wermutstropfen dabei: Die Bänder sollten alle zwei Jahre ausgewechselt werden, da ihre Magnetisierung nicht von Dauer ist. Vor dem Zugriff lädt ein Lesegerät jedes Band, was zu Wartezeiten führt. Hier muss jede Organisation selbst entscheiden, wie schnell sie auf Archivdaten zugreifen muss und ob es lohnt, sich der schnelleren Plattenspeicherung zuzuwenden. Seit Einführung der CAS-Technik (Content-addressed-Storage) vor einigen Jahren drängen auch die Festplattenhersteller in den Archivierungsmarkt. CAS archiviert langlebige, gleich bleibende Informationen auf Plattenbasis revisionssicher. Direkt mit ECM- und Dokumenten-Management-Systemen gekoppelt, erlaubt ein solches Speichersystem den schnellen Online-Zugriff auf Archivdaten. Im Vergleich mit den Tape-Klassikern verbrauchen die CAS-Archive zwar mehr Strom und sind aufgrund ihrer Softwareintelligenz wartungsanfälliger. Vorteile wie der Raid-Schutz der Archivdaten, die automatische Migration auf neue Hardwaregenerationen, die programmierbare Löschung von Informationen, integrierte Rechteverwaltung sowie die höhere Performance stechen Tapelibraries allerdings rasch aus. Hinzu kommt, dass Anwender, die wenig Stellplatz zur Verfügung haben oder diesen mieten müssen, bei Plattenarchiven nur mit höchstens zwei 19-Zoll-Gehäusen im Rechenzentrum zu kalkulieren.

Wer sich zu lange ziert und seine Datenablage nicht kontinuierlich modernisiert, riskiert die digitale Erinnerungslosigkeit: Informationen können nicht in angemessener Zeit oder aufgrund mangelnder Indizierung gar nicht wieder aufgefunden werden. Starkes Augenmerk sollten Unternehmen, die ein ECM-System einführen, daher auf die Skalierbarkeit von Formaten, Anwendungen und Systemen legen. Denn um die regelmäßige Nachrüstung und Modernisierung der vorhandenen Medien und Infrastruktur kommt nach heutigem Stand der Archivierungstechnik keine IT-Abteilung herum. (as)