Kimono

Die Schere für das Internet

01.08.2014 von Dirk Stähler  
Informationen sind das Gold des 21. Jahrhunderts. Wer über die richtigen Informationen verfügt, spart oder verdient Geld und wer keinen Zugang hat wird schnell abgehängt.

Der wichtigste Zugangsweg zu Informationen ist heute das Internet. Soziale Netzwerke, Wikis, Blogs, Foren, Nachrichtenportale, Suchmaschinen, Vergleichsportale, Branchenverzeichnisse und viele andere Dienste stehen als Quellen bereit. Aber mit dem wachsenden Angebot entsteht auch ein neues Problem: ohne Unterstützung bei der automatischen Suche, Analyse und Verarbeitung wird es immer schwieriger aus digitalen Inhalten brauchbare Informationen zu gewinnen. Die Fähigkeit, individuell und computergestützt auf Inhalte im Netz zuzugreifen wird zur wichtigen Kompetenz. Aber nicht jeder ist Programmierer. Wie kann eine Lösung aussehen, die auch technisch weniger versierten Anwendern erlaubt die digitalen Schätze im Internet automatisiert zu nutzen?

So surfen Sie absolut anonym im Internet -
Private Browsing
Alle gängigen Internet-Browser bieten eine Funktion für so genanntes „Private Browsing“. Manche Nutzer glauben, mit dieser Funktion wären sie unerkannt im Internet unterwegs. Hier liegt ein Missverständnis vor. Die Private-Browsing-Funktion ist in erster Linie dafür gedacht, keine Surfspuren auf dem PC zu hinterlassen. Sie löscht am Ende eines Internetausflugs den Browser-Verlauf und die Cookies. Fazit: Unerkanntes Surfen klappt mit dieser Funktion nicht.
Tor - Der Anonymisierungs-Dienst
Die Software Tor-Browser kostet nichts und kommt fertig konfiguriert mit dem Internet-Browser Firefox in einer portablen, also sofort startfähigen Version. Tor arbeitet ähnlich wie ein Peer-to-Peer-Dateitauschprogramm. Ruft ein Nutzer eine Internetseite auf, verbindet ihn die Software zunächst mit einem anderen Tor-Nutzer, bei dem die Software läuft. Dieses Tor-Programm baut eine getrennte Verbindung zu einem weiteren PC auf, auf dem sich wiederum Tor befindet. Bei jedem PC ändert sich die IP-Adresse. Frühestens der vierte Tor-Computer arbeitet als so genannter „Tor-Exit-Server“ und ruft die angeforderte Seite aus dem Internet ab und liefert ihre Inhalte an alle Glieder der Verbindungskette zurück. Ein besuchter Internetdienst hat es sehr schwer, einen Tor-PC zu identifizieren. Allerding ist auch das Tor-System angreifbar. Bereits zwei mal ist bekannt geworden, dass ein Großteil der aktiven Tor-Rechner zumindest zeitweise von einem Geheimdienst betrieben wurden. Und wenn eine Partei genügend Tor-Rechner kontrolliert, dann kann er auch die Daten der anderen Teilnehmer verfolgen. Fazit: Tor ist ein wirkungsvolles System fürs unerkannte Surfen im Web. Perfekt ist auch dieser Schutz nicht.
JonDo / JAP
Die Software JonDo / JAP leitet Ihre Anfragen ins Internet über eine Kaskade von Anonymisierungs-Servern. Das System wurde an deutschen Universitäten entwickelt und ist gut dokumentiert. Die Version JAP (http://anon.inf.tu-dresden.de/) kann kostenlos genutzt werden. Wer eine höhere Übertragungsgeschwindigkeit nutzen möchte, kann den kommerziellen Ableger JonDo verwenden. Fazit: JAP ist sowohl in der freien als auch der kommerziellen Variante empfehlenswert. Ihre IP-Adresse wird effektiv verschleiert.
VPN-Dienst als Tarnkappe einsetzen
Per VPN (Virtual Private Network) baut Ihr PC eine verschlüsselte Verbindung zu einem VPN-Server im Internet auf. Von dort aus surfen Sie mit der IP-Adresse des VPN-Servers wie gewohnt im Internet. Sollte ein Gesetzeshüter oder jemand anderes die Internet-Spur eines VPN-Nutzers zurückverfolgen, würde er beim Betreiber des VPN-Servers landen. Fazit: VPN-Dienste verschleiern die IP-Adresse eines PCs effektiv. Abhängig von der Konfiguration des PCs und natürlich abhängig von Ihrem Surfverhalten, können Sie per VPN weitgehend unerkannt im Internet agieren.

Maschinenlesbares Internet für jeden

Das World Wide Web durchlief in den 25 Jahren seiner Entwicklung verschiedene Phasen. In der ersten Phase (Web 1.0) war das Netz nicht mehr als eine Sammlung von Webseiten, vergleichbar mit einer Bibliothek. Wer über einen Zugang verfügte konnte Inhalte aufrufen, betrachten und mit etwas Mühe auch kopieren. Viel mehr aber auch nicht.
In der zweiten Phase (Web 2.0) war die Erzeugung von Inhalten nicht mehr auf wenige Betreiber von Webseiten beschränkt. Heute kann sich jeder ohne technisches Wissen an deren Erstellung und Bearbeitung beteiligen. Facebook, Twitter und viele andere Dienste basieren auf der redaktionellen Einbindung der Nutzer. Mittlerweile haben wir mit dem Web 3.0 die dritte Phase erreicht. Eine Entwicklung, bei der es nicht primär um die Schaffung eines neuen technischen Netzes geht. Ziel ist vielmehr ein Netz zu etablieren, in dem Inhalte durch Maschinen interpretiert werden. Neben der Identifikation der passenden Quellen ist dafür ein maschinenlesbarer Zugriff auf die Inhalte im Netz zentrale Voraussetzung.

Wie dieser Zugriff aussehen könnte, zeigt ein Internet-Dienst der seinen Ursprung im Hanoi Social Club in Vietnam hat. Dort saßen im August 2013 Pratap Ranade und Ryan Rowe vor ihren Laptops und schrieben die ersten Programmzeilen für ein Werkzeug mit Potenzial die Art und Weise zu verändern, wie wir Inhalte im Internet sammeln und nutzen. Ranade und Rowe kannten sich aus dem Doktoranten-Programm der Columbia University in New York, das sie gemeinsam vorzeitig abgebrochen hatten, um eine Arbeit in der Wirtschaft aufzunehmen. Ranade wechselte zu McKinsey in New York, während Rowe einem Angebot von frog design in Shanghai folgte. Frog design, gegründet im Jahre 1969 von Hartmut Esslinger in Altensteig im Schwarzwald, ist bekannt als Design-Partner von Apple. Unter anderem war das Unternehmen in den frühen achtziger Jahren am Entwurf der ersten Macintosh Rechner beteiligt.

Ranade und Rowe verbrachten durch ihre Arbeit bei McKinsey und frog design viel Zeit auf Geschäftsreisen, oft verbunden mit Langstreckenflügen. Dabei stellten sie sich häufig die Frage, welche Spielfilme im Bordprogramm des nächsten Fluges gezeigt würden? Auf den ersten Blick keine Frage, die erkennen lässt, dass sich mit ihr der Zugriff auf Inhalte im Web 3.0 verändern könnte. Um zukünftig leichter eine Antwort zu finden, beschlossen sie im Winter 2012 das Angebot verschiedener Airlines zentral auf einer Webseite zusammenzufassen. Obwohl viele Fluggesellschaften die erforderlichen Daten veröffentlichen, stellte sich doch heraus, dass die Zusammenstellung keine leichte Aufgabe war. Während der Entwicklung des zentralen Portals standen sie regelmäßig vor der Herausforderung, verschiedene Datenquellen im Netz abzufragen und deren Inhalte in maschinenlesbare Form zu überführen. Immer wieder mussten die erforderlichen Schnittstellen individuell programmiert werden. Ein komplizierter, ermüdender und extrem zeitaufwändiger Prozess. Ranade erläutert das technische Motiv, das zur Entwicklung eines Programms zum Auslesen von Inhalten fremder Webseiten führte: "Wir fühlten die Schwierigkeit bei der Erstellung eines Web Scrapers aus erster Hand. Dabei wurde uns bewusst, dass die Entwicklung und Wartung individueller Scrapers oft der einzige Weg war Inhalte aus dem Netz zu beziehen, aber so auch wertvolle Entwicklungszeit für hochwertigere Tätigkeiten verloren ging". Aus diesem Grund entwickelten sie ein Werkzeug, um die erforderlichen Schnittstellen zum Auslesen von Webseiten graphisch zu erstellen. Damit konnten die Inhalte von den Webseiten der Airlines schnell und wiederholbar in maschinenlesbare Formate überführt werden.

Nach ein paar Monaten Programmierung war airpapa (www.airpapa.com) online. Anhand des Start- und Zielflughafens sowie des Reisedatums ist dort das aktuelle Bordprogramm für einige US Fluggesellschaften abrufbar. Was die beiden Gründer zunächst nicht ahnten, airpapa - oder genauer der entwickelte Scraper - war der Startpunkt für eine größere Idee. Bei McKinsey und frog design entdeckten sie ein viel attraktiveres Einsatzgebiet. Ranade beschreibt das betriebswirtschaftliche Motiv, das zur Entwicklung eines Dienstes zum Auslesen von Webseiten führte: "Als wir unsere Kollegen bei frog design und McKinsey beobachteten wurde uns klar, wir waren umgeben von extrem intelligenten Menschen mit einem sehr guten Verständnis und Expertenwissen über Daten und deren Analyse - aber ohne Programmierfähigkeiten. Oftmals Experten in einem bestimmten Fachbereich, die sehr genau wissen, welche Daten akkurat und für weiterführende Analysen geeignet sind. Leider sind sie aber oft nicht in der Lage die informationstechnologische Umsetzung zur Gewinnung der Daten vorzunehmen. Wir wollten die Lücke zwischen Domänenexperten und Programmierern schließen, indem wir jedem Zugang zu den Werkzeugen ermöglichten die sonst nur Programmierer haben".

Fast hätten Ranade und Rowe die Idee der Veröffentlichung ihres Web-Scrapers verworfen. Zu groß erschien das Risiko darauf basierend ein Unternehmen zu gründen. Erst nach der Veröffentlichung der Beta-Version im Januar 2014 vertrauten sie dem Potential. Auf die Frage, wann ihm klar wurde dass ihre Lösung auf einen größeren Bedarf stoßen würde antwortet Ranade: "Wir erstellten einen einzigen Eintrag auf dem Portal Hacker News. Er schoss direkt unter die am häufigsten gelesenen Nachrichten und wir erhielten mehr als 5000 Registrierungen innerhalb eines Tages". Ein Erfolg, auf den auch Investoren aufmerksam wurden. Der Venture-Kapitalgeber Y Combinator zeichnete das Startup im März 2014 auf den Demo-Days aus.

Als sie mit den Arbeiten begannen, verwendeten sie nicht viel Zeit darauf einen Namen für ihr Werkzeug festzulegen. Zunächst erhielt das Projekt den Codenamen Kimono, basierend auf dem Text 'Open the Kimono', was soviel bedeutet wie die Enthüllung des inneren Teils eines Projektes oder einer Organisation. "Den haben wir dann einfach beibehalten", beschreibt Ranade den pragmatischen Prozess der Namensgebung. Das zugehörige Unternehmen nannten sie einfach KimonoLabs.

Kimono Startbildschirm
Foto: KimonoLabs

Das Web 3.0 aus Sicht von KimonoLabs

Fragt man die Gründer nach ihrer Sicht auf die zukünftige Entwicklung des Web 3.0, beginnt Ranade direkt mit einer ausführlichen Erläuterung wie er sich die nahtlose Verknüpfung von Geräten und Daten vorstellt. Für ihn steckt noch viel ungenutzter aber wertvoller Inhalt im Netz: "Das Web 1.0 bestand aus Webseiten, die dafür gemacht waren von Menschen vor traditionellen Bildschirmen betrachtet zu werden. Je weiter wir uns in die Welt der verknüpften Geräte bewegen, wird es mehr und mehr darauf ankommen Daten im Netz maschinenlesbar für Programme und andere Geräte zugänglich zu machen. Daten und Dienste müssen im Netz über APIs erreichbar sein. Auch wenn die 'digitalen Ureinwohner' - wie zum Beispiel Facebook und Twitter - APIs für ihre Dienste bereitstellen, ist doch der größte Teil an Inhalten im Netz nicht maschinenlesbar. Der Ansatz des semantischen Netzes von Timothy Berners-Lee und dem W3C versucht eine Lösung aufzubauen, indem die Betreiber von Webseiten umschmeichelt werden ihre Inhalte mit dem Resource Description Framework maschinenlesbar zu kennzeichnen. Bei KimonoLabs verfolgen wir im Gegensatz dazu einen 'crowd sourcing' Ansatz. Eines der faszinierenden Dinge im Internet ist, wie viel Wert im 'Long Tail' des Netzes steckt. Dort liegen 'Tonnen' von Nischen-Informationen, individuell erzeugt durch Millionen Nutzer und kleine Organisationen. Wenn das Internet nur die Summe aus Diensten wie Facebook, Twitter, Google oder LinkedIn darstellen würde, wäre es ziemlich uninteressant. Es ist aber der 'Long Tail', der enorme Mengen an wertvollen Inhalten bietet. Und die Daten, die jeder von uns täglich im Netz hinterlässt bestätigen das".

In der Statistik versteht man unter einem 'Long Tail' eine Verteilungsform, bei der eine große Menge Zahlen erst weit entfernt vom Kopf oder dem zentralen Teil der Verteilung auftritt. Das Konzept wurde 2004 von Chris Anderson auf das Internet übertragen und beschreibt die Verteilung von populären und Nischeninhalten im Netz. Die zentrale Aussage ist, dass Millionen Anbieter von Inhalten in Nischen existieren und keinen maschinenlesbaren Zugriff bereitstellen. Diese Inhalte für jeden automatisiert zugänglich zu machen ist das Ziel von KimonoLabs.

Den größten Nutzen seiner individuellen APIs sieht Ranade deshalb beim Zugriff auf Nischenanbieter: "Größere Webseiten und Dienste stellen Inhalte über APIs zur Verfügung. Kleinere Dienste und Betreiber von Webseiten sind häufig nicht in der Lage dazu. Mit Hilfe von Kimono befähigen wir jeden User seine eigenen APIs für den 'Long Tail' des Internets zu erstellen und den Aufbau des Daten-Backbones im Web 3.0 zu unterstützen. Wir wollen den besten Web-Scraper entwickeln und die Notwendigkeit zur individuellen Programmierung von APIs zum Zugriff auf die Inhalte des 'Long Tails' überflüssig machen".
Heute erlaubt Kimono bereits Inhalte aus dem Internet ohne technisches Wissen zu analysieren, sammeln und maschinenlesbar zu extrahieren. (bw)

Zehn Tipps für die Tool-Auswahl interner Suchmaschinen -
Zehn Tipps für die Tool-Auswahl
Die folgenden zehn Ratschläge können wertvolle Anhaltspunkte für die Auswahl und Implementierung eines Enterprise-Search Tools im Unternehmen liefern.
1. Über den Tellerrand hinaus blicken
Viele Anwender denken darüber nach, eine Suchlösung für eine spezielle Abteilung anzuschaffen und einzuführen. Bedenken Sie im Vorfeld, dass eine Technologie nicht nur für eine einzige Abteilung einen großen Nutzen bringen kann. So profitiert beispielweise ein interner User-Helpdesk genauso von einer Suchlösung wie ein Customer Support, bei dem ebenfalls diverse Datenquellen zur Lösungsfindung eingesetzt werden. Ein Anbieter, der Mandantenfähigkeit mitbringt, erspart so eine separate Anschaffung und liefert beiden Abteilungen eine erhöhte Produktivität und eine gesteigerte Qualität im Kundenservice.
2. Kräfte bündeln und gemeinsam antreten
Bilden Sie ein gemeinsames Team über Ihren eigenen Fachbereich hinweg, um mögliche Synergien zu schöpfen. In gemeinsamen Workshops und Diskussionen ergeben sich oftmals weitere Ansatzpunkte, die das Projekt erfolgreich werden lassen. Berücksichtigen Sie auch im Vorfeld die Möglichkeit, Prozesse im Projekt zu parallelisieren. Dies betrifft vor allem die Bereitstellung interner Ressourcen, wie zum Beispiel Aufbau einer Entwicklungsumgebung, eines Testsystems oder auch rechtliche Fragestellungen.
3. Für jeden Topf der passende Deckel
Bei der Auswahl eines Anbieters stellt sich oftmals die Frage, ob eine Open Source Software (OSS) oder Standardsoftware angeschafft werden soll. OSS gewinnt zunehmend an Bedeutung in verschiedensten Bereichen und kann eine mögliche Alternative sein. Betrachtet werden sollte in diesem Zusammenhang die Wirtschaftlichkeit, da den entfallenden Lizenzgebühren häufig ein höherer Implementierungsaufwand entgegenstehen kann.
4. Key-User einbeziehen
Erfahrungsgemäß ist es wichtig, frühzeitig die späteren Nutzer in die Tool-Auswahl einzubeziehen. Dies beginnt bei einer groben Definition der Anforderungen, der relevanten Datenquellen und des aktuellen Suchverhaltens und zieht sich durch die gesamte Auswahl bis zum späteren Akzeptanztest. So lassen sich zum einen die Erwartungen an das Tool immer wieder abgleichen. Zum anderen kann eine Priorisierung der notwendigen Datenquellen vorgenommen werden.
5. Sicherheit
Nicht jede Information ist für alle Augen bestimmt. Deshalb ist es umso wichtiger, sich frühzeitig um die Sicherungsmechanismen Gedanken zu machen und dies kritisch bei den Anbietern zu hinterfragen. Dazu gehören Punkte wie die Unterstützung vorhandener Rechte- und Benutzersysteme (AD/NTFS/LDAP), Single Sign On oder auch die Verschlüsselung für Zugriffe, Übertragungswege oder der Indexdatei an sich. Auch eine entsprechende Datenschutzerklärung sollte vom Anbieter vorliegen. Wie sich in unseren Projekten gezeigt hat, ist auch die frühzeitige Einbindung unternehmensinterner IT-Security-Ansprechpartner von großem Vorteil, da es je nach Unternehmen unterschiedliche Sicherheitsstandards gibt, denen das zukünftige Produkt entsprechen muss.
6. Datenquellen definieren
Stellen Sie frühzeitig eine Übersicht der einzubindenden Datenquellen auf. Diese sollte sowohl die Anzahl der Dokumente oder Einträge in einer Datenbank, als auch die zu erwartende Datenmenge beinhalten, auf deren Grundlage nicht selten verschiedene Lizenzmodelle der Anbieter basieren. Legen Sie in diesem Zuge auch zusammen mit den späteren Nutzern die Wichtigkeit der einzelnen Datenquellen fest, um beispielsweise mit der Anbindung der relevantesten Quellen zu beginnen. So kann schnell eine Lösung geschaffen werden, durch die die wichtigsten Informationen abrufbar sind.
7. Mehrwert der Anbieter evaluieren
Oftmals unterscheidet sich der „Unterbau“ einer Suchmaschine zwischen den Anbietern nur unwesentlich. Wichtig ist es hierbei zu ermitteln, welcher zusätzliche Nutzen durch die Weiterverarbeitung der indexierten Daten geschaffen werden kann. Besteht beispielsweise die Möglichkeit, bestimmte Suchresultate automatisch in ein Helpdesk-System zu übernehmen oder aber kann man über Business Rules weitere Prozesse ansteuern. Die Einführung einer Suchmaschine bietet auch immer die Möglichkeit, verteilte Datenquellen zu zentralisieren und so den Aufwand zur Administration von unterschiedlichen Systemen zu reduzieren. Im Rahmen eines Analyseprozesses kann sich so beispielsweise ergeben, dass es von Vorteil wäre, die gesammelten Informationen in einem einheitlichen System abzulegen. Verschiedene Hersteller bieten daher auch die Möglichkeit, neben der reinen Suche auch Dokumente in einem Dokumenten-Management- System abzulegen. So profitieren Sie neben einer reinen Suchmaschine auch von redaktionellen Funktionen, wie beispielsweise Workflows zur Bearbeitung von Dokumenten oder einem Versionierungssystem.
9. Risikominimierung
Die Einführung eines neuen Tools birgt auch immer Risiken bei der Integration in die Systemlandschaft. Auch kann die Usability nur schwer „vom Papier“ her beurteilt werden. Eine Möglichkeit, um Risiken zu reduzieren ist daher die Durchführung eines Proof-of-Concepts zusammen mit einer kleinen Anzahl an Anbietern. So kann überprüft werden, ob die beschriebenen Funktionen tatsächlich umgesetzt werden. Auch können die zukünftigen Nutzer überprüfen, ob die Bedienbarkeit den Vorstellungen entspricht. Dies ist nicht zuletzt auch ein wichtiges Kriterium für die Akzeptanz der Lösung. Üblicherweise werden im Rahmen eines solchen Prototyps einige Kernfunktionalitäten bereitgestellt, die den größten Nutzen bieten.
8. Die Nachbarn im Blick
Nutzen Sie Messen oder Kongresse, um sich mit Ansprechpartnern auszutauschen und davon zu profitieren. Anwender stehen oft vor der Herausforderung, die angefallene Informationsflut zu bewältigen. Besprechen Sie mit den Anbietern mögliche Referenzen und versuchen Sie, mit den ehemaligen Kunden in Kontakt zu treten. Unter Umständen besteht für Sie so die Möglichkeit, das Tool direkt im Einsatz zu erleben. Auf diese Weise können Sie bereits abschätzen, ob es für Sie in Frage kommt.
10. Motivieren und messen
Zur Überprüfung des Projekterfolges ist es sinnvoll, sich frühzeitig Gedanken über Messgrößen zu machen und diese gemeinsam zu beschließen. Messpunkte für die Einführung einer Suchlösung können beispielsweise die Reduzierung der Suchzeit sein oder auch die Verringerung der Einarbeitungszeit neuer Mitarbeiter. Der Vergleich der Ausgangssituation vor Einführung des Tools mit der benötigten Zeit nach der Implementierung liefert einen ersten Anhaltspunkt. Die Messergebnisse sind nicht nur als harter Maßstab für den Projekterfolg oder den Business-Case interessant, sondern können auch dazu genutzt werden, für das Tool zu werben. Oftmals wird nur mit einer kleinen Gruppe an Key-Usern gearbeitet, die später das Tool verwenden. Eine Zeitersparnis kann andere Mitarbeiter dazu motivieren, das Tool ebenfalls einzusetzen und sich nicht mehr manuell auf die Suche nach Dokumenten zu begeben.