Datenintegration

Talend bringt Tool für Datenqualität als Open Source

21.08.2008
Von 


Sascha Alexander ist seit vielen Jahren als Redakteur, Fachautor, Pressesprecher und Experte für Content-Strategien im Markt für Business Intelligence, Big Data und Advanced Analytics tätig. Stationen waren unter anderem das Marktforschungs- und Beratungshaus BARC, die "Computerwoche" sowie das von ihm gegründete Portal und Magazin für Finanzvorstände CFOWORLD. Seine Themenschwerpunkte sind: Business Intelligence, Data Warehousing, Datenmanagement, Big Data, Advanced Analytics und BI Organisation.
Die Software Talend Data Quality soll bei der Suche nach Dubletten und fehlerhaften Dateneinträgen helfen.

Zu den wenigen Anbietern quelloffener Datenintegrationssoftware gehört Talend. Dieser hat in den vergangenen Monaten sein Werkzeug für die Datenbewirtschaftung "Talend Open Studio" um Funktionen für die Datenbereinigung ergänzt, um so zu einer vollständigen Produktplattform zu gelangen. So könne man mittlerweile Aufgaben wie Data Profiling (Datenuntersuchung und Datenerkennung),Data Identification (Datenqualitätsprüfung in Datenbanksätzen), Data Cleansing (Datenkorrektur) und Data Enrichment (Daten) adressieren.

Allerdings steht dem Anwender derzeit nur das Tool "Talend Open Profiler" für das Data Profiling als Download zur Verfügung. Erst im September sollen mit dem grafischen Tool Talend Data Quality auch Aufgaben wie die Dubletten- und Adressprüfung und gängige Datenformatierungen bewältigen lassen. Beide Werkzeuge lassen sich einzeln oder kombiniert mit dem Talend Open Studio einsetzen. Sie unterliegen der Gnu General Public License (GPL) und sind kostenlos. Unternehmen, die technischen Support benötigen, können diesen bei Talend gegen eine jährliche Abogebühr ab 15 000 Dollar beziehen.

Standardfunktionen

Laut Marktbeobachtern ist Talends Suite aus Datenqualitätswerkzeugen noch nicht komplett und kann sich mit anderen kommerziellen Produkten nur bedingt messen. Dennoch biete etwa der Talend Open Profiler Standardfunktionen, die sich beispielsweise mit denen vergleichen ließen, die Hersteller wie Oracle oder Microsoft in ihren Datenbanken bieten, behauptet beispielsweise Data-Warehouse-Experte Markt Madsen in seinem Blog.

Talend Data Quality bietet Basisfunktionen, weshalb der Anbieter bereits auf Partnersuche ist, um Zusatzfunktionen und Datenquellen zu ergänzen. Zudem ist es für Anwender möglich, Talend Open Studio über Web-Services mit eigenen Lösungen für das Datenqualitäts-Management zu ergänzen. Hierfür existiert ein entsprechendes Software Development Kit. Im Vergleich zu anderen Open-Source-Tools wie beispielsweise der Software für die Stammdatenverwaltung "Mural", stelle Talend aber das funktionsreichste Angebot bereit und verfüge als erster in der Community über eine Suite für das Datenqualitäts-Management, so Madsen.