Digital Marketing

Warum ein Online-Shop gute Datenqualität braucht

02.01.2016
Von 
Carsten Kraus ist Gründer und CEO der Omikron Data Quality GmbH (www.fact-finder.de). Zu den Themen Datenqualität und Kundendaten-Management hat er bereits eine Vielzahl von Beiträgen veröffentlicht.
Big Data und Realtime Analytics wecken hohe Erwartungen bei Digital-Marketing-Profis. Nach Einführung modernster Analysetechnik kommen aber viele E-Commerce-Unternehmen und Online-Shop-Betreiber wieder in der Realität an: Die Daten sind falsch oder lückenhaft.
  • Gepflegte Stammdaten sind im E-Commerce erfolgskritisch;
  • So können Shopbetreiber den Share of Wallet erhöhen;
  • Fehlerquellen Personalisierung und Recommendation Engine

Grundsätzlich haben Entscheidungen, die auf Daten basieren, das Potenzial besser zu sein, als solche, die Menschen aufgrund ihrer individuellen Erfahrungen treffen. Das gilt allerdings nur dann, wenn die Menge der erfassten Daten groß und relevant genug ist. Bei aller Datengläubigkeit vergessen wir leicht, dass Menschen einen großen Datenvorteil gegenüber Maschinen haben: Er besteht im kontextuellen Wissen und semantischen Verständnis.

Menschen kennen die Zusammenhänge. Wenn ein Mensch eine Anzahl Kleidungsstücke sieht, kann er mit einer ziemlich hohen Treffsicherheit sagen, ob sie von jungen Frauen oder von älteren Männern gekauft werden - ohne auch nur einen einzigen direkten Kaufvorgang beobachtet zu haben.

Schwillt die Datenmenge an, wird die Maschine besser. Menschen tendieren zu Vorurteilen, sie sind auch dann noch von ihren Ideen überzeugt, wenn die Statistik schon klar in eine andere Richtung weist. Im Idealfall sollten daher objektive maschinelle Auswertungen mit kontextbezogener menschlicher Interpretation Hand in Hand gehen. Grundlage ist aber in jedem Fall ein gut gepflegter Datenbestand.

Stammdaten und Transaktionsdaten

Bekanntlich wird zwischen zwei Datenarten unterschieden, die für Analysen relevant sind: Transaktionsdaten (Transactional Data, früher auch Bewegungsdaten genannt) und Stammdaten (Master Data). Transaktionsdaten sind alle Daten von einzelnen Vorgängen: eine Rechnung, ein Kaufvorgang, aber auch ein einzelner Mausklick. Sie dokumentieren einen Vorgang, der abgeschlossen ist. Daher sind sie nach ihrer Erfassung keinen Änderungen unterworfen. Ein einmal erfolgter Mausklick ändert sich nicht, der nächste Mausklick auf ein anderes Produkt ist ein weiterer Datensatz (siehe auch: So geht Stammdaten-Management).

Kaufwahrscheinlichkeit in Webshops - März 2014, Umfrage von Statista
Kaufwahrscheinlichkeit in Webshops - März 2014, Umfrage von Statista
Foto: Statista

Transaktionsdaten beziehen sich auf Stammdaten. Diese beschreiben Objekte beziehungsweise Subjekte. Ein Produkt in einem Onlineshop wird durch einen Stammdatensatz beschrieben, ebenso ein Kunde. Der Transaktionsdatensatz Mausklick im Onlineshop beschreibt beispielsweise, dass Kunde Nr. 4711 (Heinz Mustermann) auf Produkt 123456 (iPhone Cover Leder schwarz für 19,90 €) geklickt hat und zwar am 17. Juni 2015 um 14:51 Uhr. Zuvor hat er "iPhone Hüllen" gesucht und besagtes Produkt an Position vier gefunden.

Die Stammdaten zu Produkt 123456 enthalten neben einer Bezeichnung beispielsweise die Farbe, den Herstellernamen, den Preis und den Lagerbestand sowie oft zusätzliche Informationen. Die Stammdaten zu Kunde 4711 enthalten neben Namen und Adresse vielleicht das Geburtsdatum, die Bankverbindung und die Email-Adresse.

Im Gegensatz zu Bewegungsdaten können sich Stammdaten ändern. Der Shop kann den Preis von Produkt Nr. 123456 erhöhen oder senken, der Lagerbestand ändert sich nach jedem Kauf. Kunde 4711 kann umziehen oder seine Bank wechseln. Während die Anzahl von Transaktionsdaten in den Big-Data-Bereich anschwellen kann, ist die Anzahl der Stammdaten selten höher als ein paar Millionen.

Die Stammdaten sind entscheidend

Wenn also die Stammdaten zahlenmäßig so deutlich in der Minderheit sind - warum sind sie dann so wichtig? Weil Transaktionsdaten sich immer auf Stammdaten beziehen. Liegen in den Stammdaten Fehler vor, multiplizieren sich diese mit der Menge dieser Beziehungen. Ist also für das oben genannte iPhone Cover in den Stammdaten eine falsche Farbe hinterlegt, so werden in einer Analyse alle Klicks auf dieses Produkt falsche Farbpräferenzen des jeweiligen Kunden ermitteln.

Ganz abgesehen davon würde die Retourenquote massiv ansteigen. Steht Herr Mustermann fälschlich als Frau Mustermann in der Datenbank, würde ein verstärktes Interesse von Frauen an Rasierklingen und Technikspielzeugen erkannt - mit entsprechenden Folgen für das automatisierte Empfehlungssystem (Recommendation Engine).

Normalisierung der Produktdaten ist wichtig

Hersteller stellen ihre Produkte gerne als etwas ganz Besonderes dar, indem sie diese wolkig beschreiben. So sind Farben nicht mehr rot oder blau, sondern "Volcano" oder "Deep Ocean". Aus dem Material Baumwolle wird "Fil d’ecosse" oder auch "pure cotton" - klingt doch schon viel wertiger, oder? Damit aber die Personalisierungs-Engine im Online-Shop erkennen kann, dass der Kunde gerne Baumwolle trägt, müssen Sie wieder überall als Produktmerkmal "Baumwolle" eintragen. Das klingt zwar langweilig, funktioniert aber besser.

Tragen Sie diese Normalisierung in ein eigenes Feld zusätzlich zu den Phantasiebezeichnungen ein. Für die Conversion funktioniert die emotional aufgeladene Phantasiebezeichnung allerdings sicher besser, in der Produktbeschreibung sollte deshalb durchaus ein Satz stehen wie "Erhältlich in den Farben Volcano, Deep Ocean und Spring Blossom".

Sorgen Sie für Vollständigkeit!

Ist in einem Feld gar nichts eingetragen, kann auch nichts analysiert werden. Merkmale von Produkten sind für die Personalisierung der wichtigste Einflussfaktor. Fehlen Produktmerkmale, ist Personalisierung gar nicht mehr oder nur noch eingeschränkt möglich. In der gelebten Praxis fehlen aber oft Informationen. Viele Felder sind nicht befüllt, weil die Angaben vom Lieferanten nicht zur Verfügung gestellt werden.

Hier lohnt sich oftmals ein genauerer Blick. Nicht selten sind relevante Informationen im Fließtext enthalten: "Dieses wunderschöne Sommerhemd aus reiner Baumwolle bringt durch seine taillierte Form ohne aufgesetzte Taschen …" und schon weiß der Mensch, der das liest: Material: Baumwolle, Passform: tailliert, Taschenanzahl: 0. Maschinen können das heute auch. Doch dazu später mehr (siehe auch: Zehn Gebote für mehr Datenqualität).

Welche Daten sind relevant?

Vom Anwendungsfall hängt ab, welche Daten relevant sind. Für die Personalisierung im Onlineshop (oder auch in In-Store-Lösungen oder kundenindividuell gedruckten Katalogen) gibt es ein paar zentrale Merkmale, die auf besondere Präferenzen der User hindeuten. "Unterwäsche kaufe ich nur von Schiesser" oder "Computerzubehör nehmen wir von Logitech" sind typische Aussagen, die einige User treffen würden. Das sind Präferenzen auf dem Merkmal Marke.

Hier handelt es sich ähnlich wie bei "Preissegment" um relevante Merkmale, die relativ sortimentsunabhängig sind. Zudem kaufen manche User nur ein ganz bestimmtes Produktsegment, also zum Beispiel nur das Zubehör für ein Elektrogerät, nicht aber das Gerät selbst. Wollen Shopbetreiber hier den Share of Wallet erhöhen, sollten Sie die Aussteuerung an dieser Stelle nicht der selbstlernenden Maschine überlassen.

Wohlgemerkt, Obiges gilt für die Personalisierung. Andere Maßnahmen erfordern andere Daten: Für die Empfehlung ergänzender Produkte durch eine Recommendation Engine (Cross Selling) ist es sinnvoll, das Produktsegment mitlernen zu lassen. Das wird häufig nicht getan und führt dann etwa dazu, dass ein Kunde nach dem Kauf eines Fernsehers einen weiteren Fernseher angeboten bekommt. Manche Recommendation Engines sind dieser Herausforderung nicht gewachsen, oder die Produktdaten sind nicht klaren Produktkategorien zugeordnet.

Manuelle oder automatisierte Pflege? Beides!

Was tun, wenn wie aufgeführt viele Daten nicht ordnungsgemäß in den Feldern der Produktstammdaten eingetragen sind, sondern nur im Fließtext stehen? Manuelle Pflege empfiehlt sich, wenn der Datenbestand klein ist (wenige tausend Produkte und nur wenige hundert mit Unzulänglichkeiten) und sich nicht oft ändert. Dann ist dies der kostengünstigste Weg.

Schauen Sie, welche Felder leer sind (das geht mit Excel) und ob Sie die Information an anderer Stelle finden. Kopieren Sie etwa das Feld mit der Farbe, machen Sie eine Tabelle aller Farben und lassen Sie "Suchen & Ersetzen" laufen. Verfahren Sie ebenso mit allen weiteren Feldern, die Sie normalisieren wollen. Kontrollieren Sie die Ergebnisse nochmals manuell. Unterschätzen Sie den Aufwand nicht. Diese Vorgehensweise kann zehn Minuten je Datensatz in Anspruch nehmen. Wenn sich Daten ändern oder neu hinzukommen, wiederholen Sie das Vorgehen entsprechend.

Mit Datenqualitäts-Software lassen sich solche Vorgänge automatisieren, die Informationen aus dem Text extrahieren, Farben und Größen normalisieren, Millimeter in Zentimeter umrechnen etc. Geht es um größere Datenmengen, empfiehlt sich dieser automatisierte Weg, besonders wenn sich Daten häufig ändern. Neben der Kostenersparnis ist die Geschwindigkeit der zweite große Vorteil: Neue Daten werden umgehend optimiert und neue Produkte in optimaler Weise berücksichtigt. Es hilft hier, einen passenden Berater an der Seite zu haben, da viele Vorgänge komplexer sein können, als es zunächst den Anschein hat.