Was nach den Suchmaschinen kommt

Fischen in den Tiefen des Internets

08.02.2002
Wie lange sind meine geschalteten Banner und Popups tatsächlich "aktiv"? Was läuft gerade in Online-Foren? Braut sich Ungemach in der weltweiten Internet-Gemeinde zusammen? Fast alle Unternehmen dürfte dies und vieles mehr interessieren. Eine Reihe noch kleiner Softwareanbieter und Dienstleister verspricht hier Antworten - gegen Bezahlung. Von Lars Reppesgaard*

Vor der Detektivleistung der Digitalen Hanse würde sogar Sherlock Holmes seinen Hut ziehen. Banner, Bannerrotationen, Popups, Richmedia, Affiliate-Buttons, Micro-Sites oder Keyword-abhängige Werbung auf Suchmaschinen - das Hamburger Unternehmen beobachtet alle grafischen Werbemittel, die über Browser angezeigt werden. 350- mal am Tag durchforsten digitale Suchagenten für die Hanseaten 4000 Internet-Angebote. Aus ihnen herauszulesen, wie lange eine bestimmte Banneranzeige tatsächlich geschaltet war, gleicht der Suche nach einer Nadel im Heuhaufen. "Wir haben es nicht mit statischen HTML-Seiten, sondern mit komplexen Redaktionssystemen zu tun", erklärt Geschäftsführer Andreas Sappelt. Beim Internet-Auftritt eines Senders wie RTL beispielsweise kommen die Daten, aus denen eine Internet-Seite besteht, von etlichen Servern. Die Suchsoftware "W3Scan.com" fischt aus diesem sich ständig verändernden Datenmeer haargenau das Stück HTML-Code heraus, aus dem zum Beispiel die Anzeige einer Online-Bank besteht. Dann misst sie, wie lange die Anzeige auf welchem Server von RTL wirklich aktiv ist.

Was taugt die Online-Werbung?Die Digitale Hanse hat sich darauf spezialisiert, etwas in den Untiefen des Internet zu finden, was Unternehmen wirklich interessiert: Die tatsächliche Lebensdauer flüchtiger Online-Werbekampagnen. Internet-Agenturen wie die Argonauten bezahlen dafür, dass sie beobachtet, wie Wettbewerber im Netz werben; InternetSeiten-Vermarkter wie ActiveAgent nutzten das Monitoring, damit sie ihren Kunden den Erfolg ihrer Online-Banner vorrechnen können.

"Gefischt" wird in einem Bereich, den Fachleute des Suchsoftwareentwicklers Brightplanet Corp. aus South Dakota als das "Deep Web" bezeichnet. Das Tiefe Netz besteht aus den Inhalten der Datenbanken, die dynamische Internet-Auftritte füttern, aber auch aus den Einträgen laufend aktualisierter Datensätze wie den Regierungs- und Patentdatenbanken, aus Online-Foren oder Dateien auf FTP-Servern. Das "Deep Web" ist Brightplanet-Researcher Michael Bergmann zufolge 400- bis 550-mal größer als das allgemein bekannte, vor allem HTML-basierte World Wide Web und soll 7500 Terabyte Information enthalten - ein Wissensrohstoff, den heute noch kaum ein Unternehmen anzapft.

Nicht gehobene Schätze im WebTextbasierte Suchmaschinen wie Google oder Alta Vista tun sich schwer damit, alles, was in Newsbrettern, Chatforen und erst recht auf dynamischen Web-Seiten, FTP-Servern und in Peer-to-Peer-Tauschbörsen an Informationen entsteht und vorgehalten wird, auffindbar zu machen. Das NEC Research Institute geht davon aus, dass selbst die leistungsfähigsten Volltextsuchmaschinen lediglich einen Bruchteil der im Web verfügbaren HTML-Seiten in ihrem Index haben - im besten Fall ein Drittel, vermutlich eher ein Sechstel. Die Suchagenten erkennen in der Regel nur Textinformationen. Um beispielsweise Bilder katalogisieren zu können, müssen ihre Suchagenten sie mühsam in Textinformationen runter rechnen. Das kostet Zeit. Vor allem aber müssen diese Informationen für die gigantischen Indexe der Suchmaschinen ausgewertet werden, damit die Surfer sie nutzen können. Selbst Branchenprimus Google benötigt für die Aktualisierung seines gesamten Indexes vier Wochen. Dies vor allem auch, weil man Online-Anwendungen entwickeln muss, die auch für unerfahrene Nutzer geeignet sind.

Die Suche im "Deep Web", die Software-Tools wie Brightplanets "Lexibot" ermöglichen, ist dagegen nichts für Ungeübte. Zehn bis zwanzig Minuten müssen Rechercheure auf Ergebnisse warten. Anders als bei Google oder Alta Vista ist das Ganze auch nicht zum Nulltarif zu haben. Die Software ist nicht Web-basiert, sondern wird in Privat- und Unternehmenseditionen im Paket verkauft.

Wie groß der Markt für solche Suchprogramme in Deutschland ist, ist kaum einzuschätzen. Im nächsten Jahr sollen der Meta Group zufolge im Bereich Knowledge Management, wo man solche Tools und Dienstleistungen wohl ansiedeln muss, 480 Millionen Euro umgesetzt werden. Die Services werden dabei mit 288 Millionen Euro den Löwenanteil ausmachen. Rund 130 Millionen Euro sollen in Deutschland in Software fließen. Wie groß der Anteil der Suchspezialisten an dieser Summe sein wird, vermag aber kein Analyseunternehmen zu beziffern. "Unternehmen kommt es nicht darauf an, zum wiederholten Male eine neue, noch effektivere Suchmaschine auszuprobieren, sondern zu wissen: Wo finde ich was mit welchem internen oder externen Aufwand und vor allem in welcher Zeit", stellt Meta-Group-Analyst Marc Tenbieg klar. "Weil die populärsten Maschinen im Internet in der Regel umsonst sind, sieht aber kaum jemand die Notwendigkeit, für so einen Internet-bezogenen Recherche-Service Geld zu bezahlen. Es sei denn, dass dieser Service einen klar messbaren Mehrwert besitzt - etwa Schnelligkeit, Informationsgehalt, Qualität." Für die Digitale Hanse und ähnliche Unternehmen ist es also geradezu eine Existenzfrage, diesen Mehrwert einer fest umrissenen Zielgruppe wie der Werbewirtschaft aufzuzeigen.

Vielschichtige KundenerwartungenBei der Tiefensuche sind in jedem Fall auch Spezialisten gefragt, denn jede Branche interessiert etwas anderes. Während Shopbesucher Warenverfügbarkeit und Preis, die Werbebranche Klickraten und Bannerlebensdauer interessieren, haben die Software- oder die Modeindustrie andere Interessen: Sie wollen etwas über die Inhalte von FTP-Servern erfahren, auf denen möglicherweise raubkopierte Programme angeboten werden, oder über Shopping-Sites, die Plagiate anbieten. Plattenfirmen interessiert der Inhalt von Peer-to-Peer-Netzten, die auch für den Tausch von urheberrechtlich geschützten Musikdateien genutzt werden. Und börsennotierte Unternehmen wollen wissen, welche Gerüchte über sie in den Chat-Räumen kursieren.

Um diese Teile des Netzes transparent zu machen, bietet das Hamburger Unternehmen Mediatime für deutsche Unternehmen einen "Überwachungsdienst gegen Wirtschaftskriminalität" an. Unter dem Namen Gridpatrol fahndet ein intelligenter Suchroboter im Internet nach Markenmissbrauch, Softwarepiraterie und Falschinformationen. Die Technologie haben Absolventen der englischen Cambridge University entwickelt. Ihre Ausgründung Envisional betreut bereits internationale Unternehmen.

Gridpatrol überwacht WWW-Seiten, Newsgroups, Message-Boards, FTP-Downloadserver und Chat-Kanäle. "Damit geben wir den Unternehmen ein Stück der Kontrolle über das Internet zurück, die sie durch die zunehmende Komplexität des Mediums verloren haben", erklärt Sten Franke, Geschäftsführer von Mediatime. Besonders Musiktauschbörsen wie Gnutella, MusicCity oder Grokster will man durchleuchten. Der Bundesverband der phonographischen Wirtschaft geht davon aus, dass der Schallplattenindustrie durch illegale Musik-Downloads Umsatzverluste in Höhe von rund 1,7 Millionen Euro pro Jahr entstehen.

Aufbereitung der Infos notwendigDoch ein Problem bleibt. Ist die Ausgabenstellung nicht einhundert Prozent genau umrissen, haben die Ergebnisse, die Mediatime und andere Tiefensucher liefern, einen entscheidenden Haken: Sie sind oft noch umfangreicher als die endlosen Linklisten, die herkömmliche Suchmaschinen ausspucken. Ohne eine professionelle Aufbereitung des gewonnenen Wissens drohen die Kunden in der Informationsflut zu ertrinken. Firmen wie Henkel unterhalten deshalb eigene "Aufklärungsabteilungen", um das zu verhindern. Dort arbeiten Menschen wie der Information Manager Dominik Scherler. "Die Maschinen helfen Datenmengen zu kanalisieren und zu steuern und intelligent zu verteilen. Aber es muss irgendwo jemand sitzen, der einer Nachricht ihren Wert beimisst", sagt er.

Wer so eine Abteilung nicht hat, muss trotzdem menschliches Know-how zur Technik dazukaufen. Auch Markus Andrezak, Senior IT-Consultant bei Cap Gemini Ernst & Young, warnt davor, allein auf Such- und Sortiersoftware zu setzen: "Bislang sind die gängigen Klassifizierungsverfahren kaum effektiver, als mit dem Münzwurf zu entscheiden, ob ein bestimmter Inhalt interessant ist oder nicht. Mit viel manueller Arbeit schaffen es die Anbieter, nur noch zwei von zehn Seiten falsch zu bewerten. Aber selbst diese Trefferquote ist für das Privatvergnügen akzeptabel, aber für Geschäftsprozesse ist das nicht gut genug." Es scheint also, als müssen Mensch und Maschine bis auf weiteres gemeinsam in die Tiefen des Internet tauchen, um die dort liegenden Wissensschätze zu bergen.

*Lars Reppesgaard ist freier Journalist in Hamburg.

Links zum Themawww.digitalehanse.com

(Web-Monitoring)

www.brightplanet.com

(Suchanbieter)

www.lexibot.com

(Suchsoftware)

www.at-web.de

(Informationsdienst)

www.brox.de

(Suchsoftware)

www.gridpatrol.de

(Suchmaschine)

www.media-time.de

(Dienstleister)