InfoWorld Award 2019

Die besten Tools für Cloud, Analytics und Machine Learning

08.03.2019
Von 
Jens Dose ist Editor in Chief von CIO. Seine Kernthemen drehen sich rund um CIOs, ihre IT-Strategien und Digitalisierungsprojekte.

Elastic Stack

Elastic Stack
Elastic Stack

In kundenseitigen Web-Anwendungen sind ausgeklügelte Suchfunktionen ein Muss. Anwender bekommen stets Freitext-Suchmasken präsentiert, die ihre Rechtschreibung korrigieren, automatisch alternative Formulierungen vorschlagen und Suchergebnisse hervorheben, um ihnen zu zeigen, warum bestimmte Ergebnisse angezeigt werden.

Der Elastic Stack erfüllt all diese Anforderungen und noch einiges mehr. Seine Hauptkomponenten sind:

  • Kibana, eine Plattform, die Elasticsearch-Daten visualisiert und die Navigation innerhalb des Elastic Stack ermöglicht;

  • Elasticsearch, eine verteilte RESTful-Suchmaschine und -Analytics Engine;

  • Logstash, eine serverseitige Datenverarbeitungs-Pipeline, die Daten gleichzeitig aus verschiedenen Quellen aufnimmt, umwandelt und an Elasticsearch weiterleitet;

  • Beats, eine Plattform, die spezifische Daten über Agenten aus tausenden Maschinen und Systemen sammelt und an Logstash oder Elasticsearch übermittelt.

Mit diesem Aufbau unterstützt Elastic Stack Aufgaben wie kundenseitige Dokumentensuche, zentralisierte Log-Aggregation und Analytics.

Mit Logstash und Beats können Log-Daten aus einer beliebigen Anzahl von verschiedenen Services gesammelt werden. In einem zentralen Elasticsearch-Cluster ist es möglich, diese Daten für Fehlersuche und Analytics weiter zu verarbeiten. Elasticsearch lässt die Nutzer einzelne oder Gruppen von Dokumenten aus fast jeder Sprache schnell indexieren, inklusive der wahrscheinlichsten Mapping-Typen für alle Felder (ähnlich den Spalten-Datentypen in relationalen Datenbanken). Sobald die Log-Dateien indexiert sind, steht Kibana bereit, um Charts und Dashboards zu erstellen, die den Status des Systems auf einen Blick darstellen.

Damit haben Unternehmen eine vollwertige Such-API, die Fuzzy-Suche und die Hervorhebung und Facettensuchergebnisse unterstützt. Kombiniert mit einem Frontend-Tool wie Searchkit erhalten Anwender schnell einen Prototyp für facettierte Freitextsuche.

DataStax Enterprise

DataStax Enterprise
DataStax Enterprise

Apache Cassandra ist ein verteiltes, spaltenorientiertes NoSQL Datenbank-Managementsystem (DBMS). Die Open-Source-Lösung eignet sich dazu, hochskalierbare globale Dateninfrastrukturen zu betreiben. Da sie auf eine Master-Slave-Struktur mit einer übergeordneten Steuerungseinheit verzichtet (masterless), besitzt sie keinen Single Point of Failure (SPOF) und kann viele verschiedene Cloud-Anwendungen mit hohem Durchsatz ausführen.

Auf der anderen Seite ist das System aber umständlich in der Bereitstellung und Verwaltung. Zudem lassen die Fähigkeiten einiges zu wünschen übrig, wenn es gilt, verschiedene Anwendungsarten wie Analytics, Suche und Graph-Funktionen auszuführen. DataStax Enterprise (alias DSE) ergänzt das DBMS um diese Features. Gleichzeitig verbessert die Lösung die Performance, Sicherheit und Verwaltung. Außerdem bietet sie:

  • verbesserte Replikation;

  • In-Memory-OLTP (Online-Transaktionsverarbeitung);

  • einen Bulk Loader, um eine große Anzahl an Datensätzen gleichzeitig als "Paket" zu laden;

  • Tiered Storage, um die Gesamtspeicherkosten zu senken, indem verschiedene Kategorien von Daten unterschiedlichen Arten von Speichermedien zugeordnet werden;

  • Suchfunktionen;

  • Analytics;

  • ein Entwicklerstudio.

Wie Cassandra ist DataStax Enterprise am besten für große Datenbanken im Terabyte- bis Petabyte-Bereich geeignet. Für den größten Nutzen wird sie mit einem denormalisierten Schema verwendet, das mehrere Spalten pro Zeile hat. DataStax- und Cassandra-Anwender nutzen es hauptsächlich für sehr große Anwendungen. Ebay setzt beispielsweise DataStax Enterprise ein, um 250 TB an Auktionsdaten mit sechs Milliarden Schreib- und fünf Milliarden Lesezugriffen täglich zu speichern.

Mit der sechsen Version bekam DataStax Enterprise 2018 einige neue Features für DSE Analytics, DSE Graph, und DSE Search spendiert sowie detailliertere Sicherheits-Einstellungen. Verbesserungen im Entwickler-Tool DataStax Studio beinhalten Unterstützung für Spark SQL zur Analyse von Daten in DSE-Clustern und erweiterten Support der integrierten Entwicklungsumgebung (IDE) für DSE Graph mit interaktiven Graphen.

Einige Benchmarks wollen belegen, DSE 6 sei um ein Vielfaches schneller als Cassandra.

Apache Kafka

Apache Kafka
Apache Kafka

Seit mittlerweile acht Jahren bietet das Projekt Apache Kafka eine verteilte Open-Source-Plattform für Data-Streaming-Anwendungen. Ob Unternehmen sie mit Apache Storm oder Apache Spark für die Verarbeitung erweitern oder die eingebauten Tools von Apache Kafka verwenden: Anwendungen mit geringen Latenzen sind für die Plattform kein Problem. Durch ihren Log-basierten Speicher ist sie gut geeignet für Szenarien, bei denen es auf Verlässlichkeit ankommt.

Kafka Connect sorgt mit einer Reihe an Konnektoren für Microsoft SQL Server, Elasticsearch, HDFS, Amazon S3 und einigen mehr für die Anbindung von Datenbanken und andere Datenquellen. Um Daten in den Apache Kafka Cluster zu leiten, muss also lediglich eine Konfigurationsdatei bearbeitet werden. So kann beispielsweise eine komplette Pipeline aus einer Datenbank nach Amazon S3 aufgebaut werden, ohne eine einzige Zeile eigenen Code schreiben oder Java-Code modifizieren zu müssen.

Confluent, einer der Hauptentwickler von Apache Kafka, bietet eine Plattform, die auf dem Open-Source-Fundament aufbaut. Zum einen erweitert es das Grundgerüst um gängige Unternehmens-Features wie bessere operative Nutzer-Interfaces. Zum anderen beinhaltet es KSQL, eine Library, mit der die Daten in Kafka-Topics (Containern) mithilfe einfacher SQL abgefragt und verarbeitet werden können.

Will ein Unternehmen Kafka nicht selbst betreiben, bietet Google gemeinsam mit Confluent eine Managed Platform. Auch Amazon entwickelt gerade einen Service namens Managed Streaming for Kafka (Amazon MSK), der als öffentliche Vorversion verfügbar ist und wahrscheinlich 2019 fertiggestellt wird.