Datensicherung für Rechner unter VMS

Zwischen Band und Platte vernünftige Balance finden

11.01.1991

Datenkomprimierung für Datensicherungssysteme, die auf Hardware basiert, gab es bisher relativ selten in der DEC-Welt. Jetzt jedoch, wo die Speicherkapazitäten von Platten immer größer werden, bietet die in das Bandsystem integrierte Datenkomprimierung höhere Leistung zu geringeren Kosten.

Durch effektivere Rückcodierung von Dateien kann deren Größe mindestens um den Faktor zwei reduziert werden, während die gesamte Information vollständig erhalten bleibt. Für Banddaten-Sicherungssysteme bedeutet dies mindestens eine Verdoppelung der Speicherkapazität. Ist die Komprimierung auf Hardware gestützt, so erhöht sich die Aufzeichnungsgeschwindigkeit in ähnlicher Weise.

Komprimierung kann Leistung steigern

Anwender, die nur mit auf Software beruhender Komprimierung vertraut sind, werden vielleicht überrascht sein, daß Komprimierung auch Leistungsgewinn bedeuten kann. Die softwaregestützte Komprimierung mindert die Datensicherungsleistung, da ein gesondertes Programm jede Datei zuerst komprimieren muß, bevor sie auf das Band gespeichert wird. Ferner dauert es etwas länger, bis die Daten eingelesen sind, da sie a wieder dekomprimiert werden müssen. Bei der softwaregestützten Komprimierung wird die Zahl der geschriebenen beziehungsweise gelesenen Bits auf dem Band reduziert. Damit verringert sich auch der Zeitaufwand für diese Operationen. Allerdings ist dieser Geschwindigkeitsvorteil überschattet durch die relativ lange Zeit, die Komprimierung und Dekomprimierung durch Software in Anspruch nehmen.

Hardwaregestützte Komprimierung ist etwas völlig anderes. Die heutigen Komprimierungs-Chips arbeiten typischerweise um ein Vielfaches schneller als die Bandlaufwerke, mit denen sie arbeiten. Daher führt die Komprimierung keine Verzögerung in den Datensicherungs- oder Speicherungsprozeß ein. Da durch die Komprimierung die Zahl der Bits auf dem Band verringert wird, können andere Vorteile erzielt werden. Zusammenfassend läßt sich sagen, daß die softwaregestützte Komprimierung mehr Bits mit zusätzlichem Aufwand auf das Band bringt. Dieser Aufwand entfällt bei der hardwaregestützten Komprimierung.

Für DEC-Anwender bietet die hardwaregestützte Komprimierung im wesentlichen dieselben Vorzüge wie ein Hochleistungslaufwerk. So kann zum Beispiel ein DAT-Laufwerk (DAT = Digital-Audio-Tape) ohne Komprimierung 1 GB auf jedem 4-Millimeter-Band speichern. (Unformatiert beträgt die Kapazität des Bandes 1,3 GB.) Mit Komprimierung kann jedes Band etwa 2,5 GB speichern, wenn die Dateigröße auf 60 Prozent reduziert wird. Das heißt zum Beispiel, daß ein einziges DAT-Laufwerk den Anforderungen an die Datensicherung einer Micro-VAX mit sechs 400-MB-RF71-integrierten-Speicherelementen (ISE) gerecht wird, ohne daß das Band während des Sicherungsvorgangs gewechselt werden muß.

Eine Micro-VAX mit zwei Kfqsa-Adaptern kann für die Bereitstellung von Digital Storage Systems Interconnect oder DSSI-Möglichkeiten am Q-Bus zwölf 400-MB-RF71-Laufwerke unterstützen für eine Gesamtdatenmenge von 4,8 GB. Auch in dieser Konfiguration können zwei DAT-Laufwerke mit Komprimierung eine unbeaufsichtigte Datensicherung für alle Platten in einem Vorgang ermöglichen. Tatsächlich gibt es einige Micro-VAX-, Decstation- oder VAX-Station-Konfigurationen jenseits der Kapazität von zwei DAT-Laufwerken mit eingebauter Komprimierung.

Die Transferrate des Laufwerks steigt direkt proportional zum Komprimierungsverhältnis. So erhöht sich zum Beispiel die Transferrate eines DAT-Laufwerks von 144 KB/s auf 360 KB/s bei einem Komprimierungsverhältnis von 2,5:1. (Die Brutto-Transferrate des Laufwerks beträgt 183 KB/s. Berücksichtigt man aber die unvermeidbaren internen Ergänzungen, so ist 144 KB/s die höchste erreichbare Rate.)

Schnelleres Speichern und Sichern möglich

Reale Transferraten werden natürlich durch andere Faktoren außerhalb des Laufwerks begrenzt. Die effektive Geschwindigkeit des Laufwerks erhöht sich dennoch direkt proportional zur Komprimierung. Beträgt daher die effektive Übertragungsgeschwindigkeit für ein Bandsystem auf einer Micro-VAX ohne Komprimierung 100 KB/s, so liegt die effektive Transferrate bei einem Komprimierungsverhältnis von 2,5:1 etwa bei 250 KB/s.

Derartige Steigerungen der Bandgeschwindigkeit ergeben normalerweise direkt reduzierte Datensicherungs- und Speicherungszeiten, da sogar kleine DEC-Workstations Busgeschwindigkeiten haben, die die effektive Übertragungsgeschwindigkeit bei weitem übertreffen, und zwar auch dann, wenn zwei Laufwerke simultan arbeiten. Typischerweise unterstützt die TMSCP-Software nur zwei Laufwerke an einem einzigen SCSI-Controller. Daher sind die Leistungen im realen Betrieb normalerweise begrenzt durch die Möglichkeiten von zwei simultan arbeitenden Laufwerken.

20 Sekunden für die Dateisuche

Beispielsweise beträgt die Rohtransferrate 480 KB/s bei zwei zusammenarbeitenden 8-Millimeter-Bändern. Zwei DAT-Laufwerke schaffen 288 KB/s ohne Komprimierung und 720 KB/s bei einem Komprimierungsverhältnis von 2,5:1. (Hier werden die gewöhnlich zitierten Rohtransferraten für 8-Millimeter-Laufwerke von 240 KB/s zugrundegelegt. Möglicherweise ist dieser Wert ebensowenig erreichbar wie die Rohtransferrate von 183 KB/s beim Digital-Audio-Tape.)

All diese Zahlen sind sehr klein im Vergleich zur Transferrate des VAX-BI-Bus mit 13,3 MB/s für 16-Byte-Übertragungen. Dies gilt auch dann noch, wenn man in Kauf nimmt, daß während des Betriebs die halbe Busbandbreite typischerweise für das Lesen des Plattenspeichers benötigt wird. Sogar der Q-Bus mit seiner typischen Durchschnittstransferrate von 3,3 MB/s hat mehr als die doppelte Bandbreite, die notwendig ist, um einen Vorteil aus der erhöhten Geschwindigkeit zu ziehen durch das Komprimierungsverhältnis von 2,5:1. Nur der Uni-Bus mit 1,1 MB/s kann eventuell nicht die ganze Bandbreite ausnutzen, da hierbei nur 600 KB/s von der Bandbreite für die Laufwerke zur Verfügung stehen, während zwei Laufwerke 720 KB/s übertragen können.

Die Datenkomprimierung beschleunigt sowohl die Speicherung als auch die Wiedergewinnung der Dateien. Dieser Effekt ist besonders bemerkenswert bei großen Dateien oder einer großen Anzahl von Dateien. Bei der Wiedergewinnung weniger kleiner Dateien wird die meiste Zeit eher für das Suchen als für das Übertragen der Information auf die Platte benötigt. Ein DAT-Laufwerk dagegen braucht im Durchschnitt nur ein wenig mehr als 20 Sekunden, um eine Datei zu finden, mit oder ohne Komprimierung. Diese Zeitspanne ist im Vergleich zu den Ergebnissen anderer verfügbarer Technologien so kurz, daß der Anwender normalerweise sehr zufrieden damit ist. (Das 8-Millimeter-Laufwerk mit 2,2 GB Kapazität zum Beispiel benötigt ungefähr 14 Minuten für dieselbe Arbeit.) Beim Wiederherstellen vieler oder großer Dateien ist die Suchzeit relativ zum gesamten Ablauf kurz, und die Wiederherstellungsdauer wird im Verhältnis zur Komprimierungsrate verringert, genauso wie die Sicherungszeit.

Die Komprimierungsraten schwanken in Abhängigkeit von der Art der Daten, die komprimiert werden. Eine Verhältnis von 2,5:1 entspricht dem Durchschnitt. Datenbank- und Grafikdateien, die eine sehr hohe Redundanz aufweisen, können auch um ein Mehrfaches komprimiert werden - unter Umständen sogar 8:1. Bei Binärdateien dagegen kann die Rate unter 2,5:1 liegen.

Dateien können größer werden

Es ist sogar theoretisch möglich, daß ein Komprimierungsalgorithmus einige Dateien etwas vergrößert, obwohl es bei realen Daten äußerst selten vorkommt, weil dies bedeutet, daß die gesamte oder nahezu die gesamte Redundanz bereits aus der Datei entfernt wurde. Es würde typischerweise dann passieren, wenn man versucht, dieselbe Datei zweimal mit demselben Algorithmus zu komprimieren. Der Zuwachs beträgt immer etwa zehn Prozent bei jedem weiteren Komprimierungslauf.

Aufgrund der variablen Komprimierungsraten und der verschiedenen Bus-Geschwindigkeiten unterschiedlicher Computer ist es möglich, daß der Computer die erhöhte Geschwindigkeit, die das Bandlaufwerk mit Komprimierung bietet, nicht nutzen kann. Dennoch war in der Vergangenheit eher das Magnetbandsystem als der Computer oder der Peripherie-Bus der Flaschenhals. Wenn der Engpaß Magnetbandsystem beseitigt ist, kann der Computer normalerweise wenigstens etwas Nutzen aus der vergrößerten Bandbreite der Peripherie ziehen. Mittlere und Großrechner wie die VAX-6000-, 8000- und 9000-Familien werden sicher dazu in der Lage sein. Aber weniger leistungsfähige Rechner zeigen vielleicht auch bedeutende Steigerungen. Sogar Uni-Bus-Rechner mit einer durchschnittlichen Bus-Dauerübertragungsrate von nur 1,2 MB/s können merklich von der Verdoppelung der Peripherie-Bandbreite von 360 KB/s auf 720 KB/s profitieren. Da aber wahrscheinlich nur die Hälfte der 1,2 MB/s-Bandbreite für Bandlaufwerke E/A verfügbar sein wird, können Peripherie-Bandbreiten über 600 KB/s auf derartigen Rechnern ohne Vorteil sein.

Die Peripherie-Bus-Geschwindigkeit ist natürlich genauso wichtig wie die Computer-Bus-Geschwindigkeit. Die SCSI-Integrated-Interconnect(SII)-Tochterplatine für die Decstation kann zum Beispiel eine effektive Schreib- und Leserate von zirka 2,5 MB aufrechterhalten. Somit bleiben ungefähr 1,25 MB/s übrig zum Beschreiben oder Lesen. Dies liegt immer noch erheblich über der nominalen Transferrate von 720 KB/s, die zwei DAT-Laufwerke mit Komprimierung bieten.

Von Mythen und Mißverständnissen

Da Komprimierung auf Hardwarebasis für Magnetbandsysteme keine vertraute Technologie für die meisten DEC-Installationen ist, gibt es bei Anwendern möglicherweise einige Mißverständnisse. Ein solches liegt darin, daß einige Daten vielleicht im Komprimierungs- und Dekomprimierungs-Zyklus verloren gehen.

Es gibt tatsächlich "verlierende" Komprimierungsalgorithmen, die für bestimmte Datentypen verwendet werden, wie zum Beispiel für digitalisierte Audio- und Videodaten, wo der Verlust einiger weniger Bits hier und da die endgültige analoge Ausgabe nicht merklich beeinflußt. Für Computerdateien jedoch, wo jedes Bit kritisch ist, werden ausschließlich "verlustfreie" Algorithmen verwendet.

Außerdem arbeiten Bandlaufwerke normalerweise mit Fehlerraten, die weit unter denen von Plattenlaufwerken liegen, so daß sich keine weiteren Fehler während des Sicherungslaufs einschleichen können. 8-Millimeter-Laufwerke etwa haben üblicherweise weniger als einen Fehler in 1013 Bits, während die vergleichbare Zahl bei 4-Millimeter-DAT-Laufwerken bei 1015 Bits liegt. Plattenlaufwerke haben eine Bit-Fehlerrate von ungefähr einem Fehler in 1012 Bits.

Natürlich sind Bit-Fehler nur ein Maßstab für die Verläßlichkeit, aber auf dieser Skala sind sogar die 8-Millimeter-Laufwerke zehnmal und die 4-Millimeter-Laufwerke tausendmal so verläßlich wie Plattenlaufwerke.

Es gibt eine Reihe von Komprimierungsalgorithmen, und der Anwender wird sich vielleicht fragen, welcher der richtige für ihn ist. In manchen Fällen ist möglicherweise ein spezieller Algorithmus tatsächlich besser für eine spezielle Anwendung. Das ist dann der Fall, wenn der Lieferant die Anwendung und die Art der zu komprimierenden Daten kennt. Wenn zum Beispiel der Algorithmus nur für Video-, Audio-, Tabellenkalkulations- oder binäre Dateien verwendet wird, besteht die Möglichkeit, den Algorithmus auf die Daten abzustimmen.

Universalalgorithmen, wie sie zum Beispiel in Komprimierungs-Chips vorhanden sind, müssen mit allen Arten von Daten ziemlich gut umgehen können und lassen sich deshalb normalerweise nicht verändern, um besonders gute Ergebnisse für eine bestimmte Art von Daten zu liefern. Es gibt jedoch einige verschiedene Arten von Universal-Komprimierungsalgorithmen, die dennoch über verschiedene Charakteristika verfügen. Der Huffmann-Code beispielsweise stellt gewöhnliche Zeichen mit weniger Bits dar, als Standard-Codes wie ASCII (American Standard Code for Information Interchange) benötigen würden. Im ASCII ist jedes Zeichen als ganzes Byte mit acht Bits verschlüsselt. Wird der Huffman-Code benutzt, können zum Beispiel gewöhnliche Zeichen in vier oder sechs Bits verschlüsselt werden. Das verringert die Gesamtanzahl der Bits erheblich, wobei dieselbe Information erhalten bleibt. Der Huffmann-Code erzielt die besten Ergebnisse, wenn bestimmte Zeichen in der Information, die komprimiert werden soll, vorherrschen. Wenn eine ganze Datei im Extremfall nur aus einem Zeichen besteht, kann der Huffmann-Code dieses Zeichen auf drei Bits reduzieren, womit die Gesamtgröße der Datei auf das Verhältnis 2,7:1 verringert wird.

"Bit-für-Bit"- und "Byte-für-Byte"-Analyse

Die binäre arithmetische Verschlüsselung, wie sie bei IBM 3480-Bandlaufwerken benutzt wird, basiert auf einer "Bit-für-Bit"- und zusätzlich einer "Byte-für-Byte"-Analyse der Daten. Die arithmetische Verschlüsselung arbeitet am besten, wenn bestimmte Zeichen häufig wiederholt werden. Zudem sucht die binäre arithmetische Verschlüsselung nach wiederholten Zeichen und komprimiert am effizientesten, wenn die Datei lange Abschnitte enthält, in denen ein einzelnes Zeichen wiederholt wird. Im allgemeinen ist die arithmetische Verschlüsselung teuer in der Verwirklichung, ihr Einsatz deshalb auf relativ kostspielige Peripherien beschränkt.

Die beliebtesten Komprimierungsalgorithmen für Computerdaten sind die Lempel-Ziv-(LZ-)Algorithmen LZ-1 und LZ-2. Die LZ-Methode sucht nach wiederholten Zeichen oder Zeichenketten und ersetzt den wiederholten Abschnitt durch einen kürzeren Code. LZ-1 ist der Standard für Viertel-Zoll-Kassetten-(QIC-)Laufwerke, die den QIC122-Standard verwenden. Er wird jetzt auch in digitalen Audio-Bandlaufwerken (DAT) benutzt. LZ-2 ist die Grundlage einer Reihe von Algorithmen, einschließlich dem Lempel-Ziv-Welch (LZW) von Sperry and DCLZ (früher HPLZ) von Hewlett-Packard.

Es gibt bedeutende theoretische Unterschiede

Es gibt bedeutende theoretische Unterschiede zwischen LZ-1 und LZ-2. Bei Anwendungen in der Praxis erweist sich jedoch die Theorie normalerweise als nicht so wichtig wie Details bei der Verwirklichung, wie zum Beispiel die Größe der Puffer, die Daten vor und nach der Komprimierung vorübergehend speichern, und die Geschwindigkeit des Komprimierungs-Chips. So kann in bestimmten Fällen LZ-1 eine höhere Komprimierung bewirken, wo eigentlich LZ-2 theoretisch besser sein sollte und umgekehrt. Wenn man die heute verfügbaren Chips betrachtet, liefert jedoch LZ-1 bei gewöhnlichen Computerdaten die höheren Komprimierungsraten (kleinere Dateien) und eine viel größere Geschwindigkeit als LZ-2.

Die Balance muß aufrechterhalten werden

DEC-Anwender benötigen immer größere Disk-Kapazitäten. Hochleistungssysteme wie die VAX 9000 kann man kaum noch mit weniger als 1 GB Speicher finden. Konzentratoren mit 20-GB-Disk-Speicher oder mehr sind nicht ungewöhnlich. Mittlere Systeme können mehr als 5 GB Disk-Speicher haben. Sogar die Micro-VAX unterstützt in manchen Konfigurationen nahezu 5 GB Speicher.

Die immer größeren Datenmengen verlangen leistungsfähigere Sicherungstechniken. Datenkomprimierung bietet Kostenvorteile gegenüber auf wendigeren Methoden, die versuchen, die Probleme mit teurer Hardware zu lösen. In dieser Hinsicht kann ein DAT-Laufwerk mit Komprimierung mehr Kapazität und höhere Geschwindigkeit bieten als ein Standard-8-Millimeter-Laufwerk mit 2,2 GB Kapazität, und das zu einem günstigeren Preis. Komprimierung beschleunigt den Wiedergewinnungsprozeß ebenso wie den Sicherungslauf bei großen Datenmengen. Bei kleinen Datenvolumina ist die durchschnittliche Datei-Zugriffszeit von 20 Sekunden bei DAT schnell genug für die meisten Anwender. Für eine effiziente Handhabung von Datensicherung auf Band muß eine vernünftige Balance zwischen

Band- und Plattenkapazität aufrechterhalten werden. Hardware-orientierte Datenkomprimierung mit DAT ist ein überlegenes Mittel, um diese Balance aufrechtzuerhalten.