NoSQL, Whitelisting, MapReduce

Was wirklich wichtig wird

04.10.2010
Von Ruwen Schwerin

Plätze 4 und 3: I/O-Virtualisierung und Datendeduplizierung

Platz 4: I/O-Virtualisierung

I/O-Virtualisierung (Input/Output-Virtualisierung) behebt ein Problem, das Server mit Virtualisierungs-Software wie VMware oder Microsoft Hyper-V plagt. Wenn eine große Anzahl von virtuellen Maschinen auf einem einzigen Server läuft, wird der I/O zu einem kritischen Engpass, sowohl für VM-Kommunikation mit dem Netzwerk, als auch für den Anschluss von VMs an den Speicher des Backends. I/O-Virtualisierung erleichtert nicht nur die Bandbreite auf einem einzigen Server über mehrere VMs zu verteilen, sondern sie ebnet auch den Weg zur dynamischen Verwaltung der Verbindungen zwischen den Pools von physischen Servern und Storage-Pools.

Aber fangen wir mit den einzelnen Servern an. Nehmen wir zum Beispiel die Empfehlung von VMware, nach der man einen Gigabit-Ethernet-Anschluss pro VM zuteilen sollte. Ein Server, der 16 VMs unterstützt, würde also vier Vier-Port-Gigabit-Ethernet-Netwerkkarten, plus zusätzliche Ethernet (iSCSI), SCSI oder Fibre-Channel-Adapter für den notwendigen Speicherplatz benötigen. Viele Server haben nicht genügend leere Steckplätze, um so viele Adapter aufzunehmen, auch wenn die Kühlleistung grundsätzlich ausreichen würde. Und 16 VMs pro Host ist kaum das Maximum, wenn man bedenkt, dass die heutige Intel- und AMD-Server zwischen 8 und 24 Kernen haben und Hunderte Gigabyte RAM unterstützen. Da ist auch heute noch Spielraum nach oben.

Als Reaktion haben die Anbieter von I/O-Virtualisierung, wie Xsigo und Cisco, eine Möglichkeit gefunden, Server mit einer High-Speed-Verbindung statt mit mehrerer Ethernet- und Fibre Channel-Verbindungen zu versorgen. Ein Adapter pro Server ist dann für viele virtuelle Verbindungen zuständig. Diese Adapter sind keine benutzerdefinierten HBAs, sondern Standard-10-Gigabit-InfiniBand- oder Ethernet-Adapter mit Treibern, durch die das Betriebssystem die einzelnen schnellen Verbindung als multiple Netzwerk- und Storage-Verbindungen nutzen kann. Da alles über eine einzige Leitung läuft, kann das System immer flexibel die benötigte Bandbreite für die virtuellen Verbindungen zur Verfügung stellen und bietet deshalb die maximal benötigte Leistung immer genau da, wo sie benötigt wird.

Normalerweise befindet sich dann ein einzelner Adapter in jeden Server, der mit einem einzigen Kabel an das Gerät oder den Switch angeschlossen ist, der dann sowohl Netzwerk-, als auch Storage-Ports für Verbindungen zu anderen Netzwerken oder den Speichern bedient. Dies vereinfacht die Verkabelung in Rechenzentren ungemein und macht die Installation der einzelnen Server unkomplizierter. Wenn ein Server ausfällt, können die Adapter schnell für ein anderes System verwendet werden. In Lösungen wie UCS von Cisco macht die I/O-Virtualisierung die Bereitstellung, Einbindung und Ausfallsicherung von Servern extrem flexibel und solche Aufgaben können möglicherweise vollständig automatisiert werden, da die Steuerung durch die Software erfolgt. Weil die I/O-Virtualisierung für die Multiple-Ethernet- oder Fibre-Channel-Verbindungen unterschiedliche Geschwindigkeiten emulieren kann, kann die verfügbare Bandbreite schnell auf die Anforderungen der VM je nach Lastverteilung oder auch auf Veränderungen bei einer Migration reagieren.

Die I/O-Virtualisierung benötigt Treiber, die das jeweilige OS unterstützen. Die gängigen Betriebssysteme und Virtualisierungs-Plattformen werden unterstützt, einschließlich VMware ESX und Windows Server 2008 Hyper-V. Aber nicht unbedingt alle Versionen von Linux und Xen oder andere Open-Source-Virtualisierungs-Plattformen sind kompatibel. Wenn Sie Betriebssysteme verwenden, die unterstützt werden, kann die I/O-Virtualisierung das Betreiben eines großen Rechenzentrums viel einfacher und weniger teuer machen. Vor allem die erhöhte Rechenleistung und die erweiterte Speicher-Unterstützung ermöglicht es, auf Servern die Zahl der virtuellen Maschinen zu erhöhen.

Platz 3: Datendeduplizierung

Die Daten sind die Lebensader jedes Unternehmens. Das Problem ist, wie man mit ihnen umgeht. Laut IDC verdoppeln sich die Daten der Unternehmen alle 18 Monate, was die Speichersysteme teilweise bis an ihr Maximum belastet. Schuld an dieser Entwicklung ist die Vorratsspeicherung. Hier ist wesentlich, dass es kein Ablaufdatum für die einzelnen Daten gibt, da die Analyse der Daten aus den vorherigen Jahren zum erstellen von Prognosen und Aufdecken von Trends benötigt werden.

Es müsste eine Möglichkeit geben, die enormen Speicheranforderungen all dieser Daten zu reduzieren, ohne dabei nützliche Informationen zu verlieren. Und die gibt es dank einer Technologie, die als Datendeduplizierung bekannt ist.

Jedes Netzwerk enthält Unmengen von doppelten Daten, von identischen Backup-Daten, Tausenden Kopien eines Handbuchs, bis hin zu identischen Dateianhängen auf dem selben E-Mail-Server. Die Grundidee der Datendeduplizierung ist, doppelte Kopien der gleichen Datei zu suchen und alle außer dem Original zu beseitigen. Jedes Duplikat wird durch einen einfachen Platzhalter-Hinweis auf die Originaldatei ausgetauscht. Wenn der Benutzer eine Datei anfordern, leiten die Platzhalter sie an das Original weiter und in der Handhabung ist kein Unterschied ersichtlich. So können redundante Daten aufgespürt und überflüssig gemacht werden.

Deduplizierung gibt es in verschiedenen Formen, von der einfachen Datei-Erkennung bis hin zu fortgeschrittenen Methoden der Suche direkt in Dateien auf Block- oder Byte-Ebene. Grundsätzlich funktioniert Deduplizierungssoftware durch die Analyse von Daten, sei es ein Block, eine Reihe von Bits, oder die gesamte Datei. Durch einen Algorithmus erhalten die einzelnen Daten einen eindeutigen Hashwert. Wenn ein Hashwert bereits im Index ist, heißt das, dass diese Daten nicht erneut gespeichert werden müssen. Wenn nicht, wird der Hash in den Index aufgenommen. So geht es dann immer weiter.

Datendeduplizierung ist nicht nur für die Daten eines Datei- oder E-Mail-Systems angelegt. Die Vorteile für Backups, insbesondere im Hinblick auf die Wiederherstellung bei völligem Datenverlust, sind massiv. Der Prozentsatz der täglich geänderten Daten ist relativ gering. Bei der Übertragung eines Backups über das WAN gibt es wirklich keine Notwendigkeit, täglich die gleichen Bytes zu sichern, Nacht für Nacht. Durch die Verwendung der Deduplizierung reduzieren Sie die Größe der Sicherung erheblich. Die Ausnutzung der WAN-Bandbreite geht zurück und die Back-up-Möglichkeiten werden schneller und komfortabler.

Mehr und mehr Backup-Produkte nutzen die Vorteile der Deduplizierung und die entsprechenden Geräte und die Technik wurde in den vergangenen Jahren immer besser. Deduplizierung für das ganze Dateisystem ist ebenfalls auf einem guten Weg. Wenn es um die Lösung der drückendsten IT-Problemen geht, bieten nur wenige Technologien mehr Aussicht auf eine umfassende Problemlösung als die Datendeduplizierung.