Web of Data

NSA zum Selberbauen

Dirk Stähler befasst sich seit vielen Jahren mit der innovativen Gestaltung von Organisationen, Prozessen und IT-Systemen. Er unterstützt privatwirtschaftliche Unternehmen und öffentliche Verwaltungen in Europa, dem Mittleren Osten und Nordamerika dabei, Mehrwert durch die kreative Nutzung ihrer Informationstechnologie zu gewinnen. Ein besonderes Augenmerk seiner Arbeit liegt auf den Chancen und Risiken, die sich aus der Verwertung öffentlich verfügbarer Inhalte des Internets ergeben. Die "Wissensmaschine" Internet und den Wert ihrer Inhalte für jeden zugänglich zu machen, ist sein erklärtes Ziel.
Das Internet zu überwachen wird immer einfacher. Jeder kann Inhalte auswerten und für sich arbeiten lassen. Die Kombination kostenfrei verfügbarer Werkzeuge macht es beispielsweise möglich, automatisch Flugtickets zum Nulltarif aufzuspüren oder das eigene Unternehmen zu überwachen.
Das Internet denkt mit.
Das Internet denkt mit.
Foto: Anton Balazh, Fotolia.de

Als Edward Snowden im Juni 2013 gegenüber der britischen Tageszeitung The Guardian die Überwachung des weltweiten Internetverkehrs durch die NSA enthüllte, waren viele von dem Ausmaß überrascht. Grundsätzlich verwundert das Ganze aber nicht: Dass staatliche Organisationen und Konzerne mit großem IT-Budget die Inhalte im Netz auswerten, ist lange bekannt. Weniger bekannt ist, dass auch Nutzer ohne Programmierkenntnisse die Inhalte weitaus intensiver nutzen können als erwartet.

Das Internet stellt - für viele immer noch unbemerkt - Werkzeuge bereit, die ein "mitdenkendes" Netz für jeden schaffen. Sie helfen, gewinnbringend Entscheidungen zu treffen und Geld beim Einkauf von Produkten und Dienstleistungen zu sparen. Aber sie ermöglichen auch Ausspähung und Überwachung. Sie sind einfach zu bedienen und stehen jedem kostenfrei zur Verfügung. Das ist Bereicherung und Gefahr zugleich.

Fliegen für lau? Kein Problem!

Eine Bereicherung - im wahrsten Sinn des Wortes - erlebten einige Nutzer am 12. September 2013. An diesem Tag ermöglichte ein Fehler im Buchungssystem von United Airlines eine Stunde lang, über die Website der Airline Flüge für 0 (in Worten: null!) Dollar zu buchen. Die Nachricht über das "Sonderangebot" verbreitete sich in kürzester Zeit auf Twitter und Facebook. Haben auch Sie eines der "günstigen" Tickets gebucht? Nein? Wäre es nicht toll gewesen, das Netz hätte Sie rechtzeitig und automatisch über diese Gelegenheit informiert? Der Flug nach Hawaii wäre eine ganze Stunde lang nur einen Klick entfernt gewesen.

Ich bin sicher, viele denken jetzt, das sei ein Einzelfall gewesen. Weit gefehlt: Am 26. Dezember 2013 gerieten die Preise im Buchungssystem von Delta Airlines in "Unordnung". Zwei Stunden wurden Tickets für null US-Dollar verkauft. Auch in diesem Fall gab es bereits Berichte im Netz, während die Tickets noch verfügbar waren.

In beiden genannten Fällen war die Voraussetzung dafür, eines der "günstigen" Tickets zu erhalten, im richtigen Moment den richtigen "Online-Ort" zu überwachen oder rechtzeitig informiert zu werden. Einigen Nutzern ist das gelungen. Suchen Sie selbst einmal nach "Error Fares". Sie werden erstaunt sein, wie häufig solche Fehler auftreten.

Mit den Fehlern anderer selbst Kasse machen: Das gilt nicht nur für Flugreisende, sondern besonders für Portale, die nichts anderes tun, als auf fehlerhafte Buchungssysteme hinzuweisen.
Mit den Fehlern anderer selbst Kasse machen: Das gilt nicht nur für Flugreisende, sondern besonders für Portale, die nichts anderes tun, als auf fehlerhafte Buchungssysteme hinzuweisen.

Das Beispiel ist auf beliebige Produkte und Dienstleistungen im Internet übertragbar. Es steht exemplarisch für die Tatsache, dass im Netz für jeden Nutzer interessante Informationen stecken. Im Jahr 2012 wurden 43,5 Exabyte an Daten über das Netz transportiert. Mehr als 13 Milliarden Websites versorgen uns aktuell mit Inhalten. Da ist für jeden etwas dabei - ganz sicher. Die Frage ist allerdings: Wie schaffen es einige Nutzer, gezielt und wiederholbar die für sie individuell wertvollen Informationen zu gewinnen? Hilft ihnen dabei vielleicht das Netz selbst?

Web of Data

Mit dem Versuch, auf diese Frage eine technische Antwort zu finden, befassen sich Forscher seit langem. Das World Wide Web Consortium (W3C) - das Gremium zur Standardisierung der Technologien im World Wide Web - versucht den Schatz der im Internet "versteckten" Informationen mit dem Aufbau eines semantischen Netzes zu heben. Die Kernidee ist, Inhalte für Computer "verständlich" aufzubereiten, damit sie selbstständig darauf reagieren können. Zur Umsetzung möchte das W3C dem bestehenden Netz, das sich über das Web of Documents (Web 1.0) zum Web auf Content (Web 2.0) entwickelt hat, eine dritte für Maschinen lesbare Ebene hinzufügen. Ihr Name: Web of Data (Web 3.0).

Als "Web of Documents" wird die erste Phase der Entwicklung des World Wide Web zwischen 1990 und 2000 bezeichnet. Es beschreibt eine rein statische Ansammlung, hauptsächlich über Hyperlinks verbundener Dokumente. Im Grunde war das Web 1.0 nichts anderes als eine große Bibliothek. Wer über einen Zugang verfügte, konnte Inhalte aufrufen, betrachten und mit etwas Mühe auch kopieren. Viel mehr aber auch nicht. Maschinen konnten mit den Inhalten im Web 1.0 nahezu nichts anfangen.
In der Phase des "Web of Content", die rund um das Jahr 2000 begann, war die Erzeugung von Inhalten nicht mehr auf wenige Website-Betreiber beschränkt. Jeder konnte sich ohne umfassendes technisches Wissen an deren Erstellung und Bearbeitung beteiligen (z.B. in sozialen Netzwerken). Das Web 2.0 demokratisierte die Erstellung, Bearbeitung und Verwendung von Inhalten. Es ermöglichte Beteiligung.
Seit dem Jahr 2010 ist das Internet in die nächste Phase der Entwicklung eingetreten: das "Web of Data" respektive das "semantische Netz". Noch kann keiner genau sagen, was es ist oder wie es final aussehen wird. Sicher ist aber, das sich entscheidende Veränderungen ergeben haben, die eine Abgrenzung zum Web 2.0 erforderlich machen. Das Web 3.0 wird zum "mitdenkenden Netz". Es wird uns individuell und automatisch bei der Bewältigung alltäglicher Fragen unterstützen. Es bringt Intelligenz (ins Netz).

Die Agenten kommen

Schon 2001 schrieb WWW-Erfinder und W3C-Direktor Tim Berners-Lee: "Der Nutzen eines semantischen Netzes wird erst freigesetzt, wenn Menschen beginnen, Software-Agenten (Programme) zu bauen, die Inhalte aus diversen Quellen sammeln, verarbeiten und mit anderen Programmen austauschen. Der Effekt solcher Software-Agenten wird exponentiell wachsen, je mehr maschinenlesbare Inhalte und automatische Dienste zu deren Verarbeitung bereitstehen."

Die Vision des W3C für ein Web of Data ist aber nicht auf breiter Basis umsetzbar. Wie zum Beweis ist seit der Vorstellung der Idee durch Berners-Lee wenig passiert. Die Praxis hat gezeigt, dass der Ansatz in großem Maßstab nicht funktioniert. Berners-Lee hat mit seiner Aussage aber grundsätzlich Recht. Nur erfolgt die Umsetzung anders als von ihm erwartet. Wir müssen akzeptieren, dass es keine umfassend geschlossene Struktur geben kann, die alle Inhalte im Netz miteinander in maschinenlesbare Beziehungen setzt.

In der Praxis sehen wir vielmehr individuelle Lösungen, die jeder selber zusammenstellt. Dies sind indes Lösungen, die funktionieren - für den einzelnen Nutzer vollkommen ausreichend und in jedem Fall besser als nichts. Die erforderlichen Werkzeuge entstehen seit ein paar Jahren im Netz. In den letzten 24 Monaten hat sich deren Entwicklung fast unbemerkt beschleunigt. Jeder von uns hat heute Zugriff auf Werkzeuge, die eine Vielfalt individueller Möglichkeiten zur Auswertung und Überwachung des Netzes bieten.

Spion & Spion

Wo Chancen liegen, lauern auch Risiken. Wer sich darüber freut, dass das Netz automatisch über Fehler in den Buchungssystemen von Fluggesellschaften informiert, muss auch damit leben, mit simplen und allgemein zugänglichen Werkzeugen ausspioniert zu werden.

Stellen Sie sich vor, jemand möchte ihr Unternehmen kontinuierlich bezüglich der Personalwechsel im Management und der Mitarbeiterentwicklung an bestimmten Standorten überwachen. Auf den ersten Blick erscheint es, dass sich Informationen dazu im Internet ohne technische Kenntnisse nur sehr schwer kontinuierlich ermitteln lassen. Denn was würden Sie sagen, wenn Ihr Wettbewerber diese Informationen automatisch im Internet sammelt und auf diesem Weg ein genaues Bild über ihre zentralen Schlüsselmitarbeiter, die regionale Personalentwicklung und vielleicht auch die Stimmung in Ihrem Unternehmen erhält? Und weiter, wenn dafür kein zusätzliches Personal erforderlich ist, keine Unterstützung der IT-Abteilung benötigt wird und er die Werkzeuge auch noch kostenfrei erhält?

Utopie? Leider nein. Um ein gutes Bild über die Mitarbeiterentwicklung Ihrer ersten und zweiten Leitungsebene zu erhalten, genügt häufig bereits der regelmäßige Blick in soziale Netze. Geben Sie doch einmal bei einer großen Suchmaschine die folgende Zeile für Ihr Unternehmen ein:

site:<URL eines bekannten beruflichen Online-Netzwerk inklusive .com oder .de> intitle:"<Ihr Unternehmensname>"

Sie erhalten eine Liste aller registrierten Mitarbeiter des gesuchten Unternehmens. Meistens handelt es sich dabei um genau den interessanten Personenkreis. Die Entwicklung auf diesen Positionen ist für Ihre Wettbewerber natürlich besonders spannend.

Jetzt stellt sich nur noch die Frage, wie sich diese Ergebnisse kontinuierlich automatisiert auswerten lassen. Schließlich möchte niemand möchte per Hand eine Excel-Liste pflegen und regelmäßig mit den neusten Daten abgleichen. Die Lösung für dieses Problem liegt erneut im Netz. Ihr Wettbewerber verwendet dazu zum Beispiel den Dienst Yahoo Pipes. Der erlaubt es, Inhalte aus Feeds, Websites und anderen strukturierten Datenquellen zu lesen und auf vielfältige Weise miteinander zu verbinden. Die Daten können gefiltert, ergänzt, verändert und kombiniert werden. Pipes stellt dafür eine Vielzahl von Funktionen bereit. Auch komplizierte Bearbeitungsschritte werden einfach in einem graphischen Editor zusammengestellt. Umfangreiche Informatik-Kenntnisse sind nicht erforderlich. Als Ergebnis erhält Ihr Konkurrent eine maschinenlesbare Ausgabe der Schlüsselpositionen in Ihrem Unternehmen, deren Veränderungen und auf Wunsch weitere Informationen. Alles jederzeit aktuell.

Gefährliche Jobportale

Als nächstes betrachtet Ihr Konkurrent Ihre regionale Planung. Dazu reicht es häufig, wichtige Jobportale zu untersuchen. Viele dieser Angebote informieren per Email über neu geschaltete Anzeigen. Das ist aufwändig, da die E-Mails nicht direkt automatisiert verarbeitet werden können. Viel besser wäre es, wenn die aktuellen Stellenangebote direkt in einer maschinenlesbaren Form verfügbar wären. Auch dazu findet sich im Netz ein kostenfreies Werkzeug: Yahoo Dapper. Das macht es möglich, Inhalte aus vielen Webseiten zu extrahieren und in maschinenlesbaren Formaten bereitzustellen. Auf diesem Weg wertet ihr Mitbewerber regelmäßig große Jobportale nach den geschalteten Arbeitsangeboten aus. Auch hier werden keine Programmierkenntnisse benötigt. Heißt: Die Lösung baut der Vorstand oder Geschäftsführer abends auf dem Sofa.

Stellen Sie sich das wie ein Spiel mit Steckbausteinen vor. Zur Herstellung und Verarbeitung gibt es zwei Gruppen von Werkzeugen. In der ersten Gruppe finden Sie Dapper. Es ist das Werkzeug, um Bausteine aus den Inhalten des Netzes zu erzeugen. In der zweiten Gruppe finden Sie Pipes. Es sortiert und verteilt die Bausteine nach bestimmten Kriterien.

Inhalt dieses Artikels