Der Markt steckt noch in den Kinderschuhen

Intranet: Schwierige Suche nach der Suchmaschine

18.10.1996

Während populäre Search-Engines wie "Yahoo", "Altavista" oder "Lycos" dazu konzipiert wurden, Web-Seiten oder Adressen im weltweiten Netz aufzustöbern, dienen Produkte wie Microsofts "Index Server 1.0" oder Netscapes "Catalog Server 1.0" dazu, die Dateien bestimmter Lokationen zu indexieren und für eine Recherche verfügbar zu machen. In dieser Übersicht sollen neben den Engines von Microsoft und Netscape folgende Produkte näher betrachtet werden: "Excite for Web Servers 1.0" vom gleichnamigen Hersteller, "Live Link Search 6.0.5" von der Open Text Corp. und "Cyber Search" von Frontier Technologies. Letzteres Produkt wird als Teil des kompletten Intranet-Pakets "Intranet Genie" vermarktet.

Die von der CW-Schwesterpublikation "Computerworld" vorgenommene Untersuchung berücksichtigt einige wichtige Player nicht, da diese sich nicht oder zu spät für eine Teilnahme interessierten. Dazu gehören die Intranet Solutions Inc., die Excalibur Technologies Corp. und die Verity Inc., deren Suchmaschine jedoch Kernbestandteil von Search-Engines wie Catalog Server und Cyber Search ist. Außen vor blieb ebenfalls Digitals Intranet-Variante der Suchmaschine Altavista, die erst kürzlich vorgestellt wurde und als außerordentlich leistungsfähig gilt.

Die gängigen Suchmaschinen sind in der Regel lokal oder remote über Browser administrierbar und bauen einen Index von Dateien auf, die an bestimmten Standorten lokalisiert wurden. Für die Beurteilung der Engines gibt es vielfältige Kriterien. Die Unterschiede beginnen bei der Frage, ob die zu indexierenden Dokumente auf einem Server liegen müssen oder über mehrere Systeme verteilt sein können.

Differenzierungen sind auch bei der Palette der aufzuspürenden Dokumententypen zu machen. Alle Suchmaschinen sind in der Lage, Hypertext-Markup-Language-(HTML-) und reine Text-Files zu indexieren. Für unternehmensweite Intranets kommt es jedoch darauf an, auch Briefe, Reports, Spreadsheets oder Präsentationen aus den Office-Pakten von Microsoft, IBM und Corel zu durchsuchen - und hier trennt sich die Spreu vom Weizen. Einige Produkte erledigen dies problemlos und indexieren darüber hinaus noch Portable-Document-Format-(PDF-)Files von Adobe, E-Mails sowie Internet-Newsgroups.

Sehr verschieden gestalten sich auch die Recherchemöglichkeiten: Die Abfragen können - je nach Eigenschaften der Maschine - über Schlüsselworte und/oder Begriffe (Concepts) erfolgen. Bei der Schlüsselwortsuche kommt es auf die zeichengenaue Übereinstimmung von Suchbegriff und abgefragtem Inhalt an, während sich bei einer konzeptbasierten Abfrage mittels eines Thesaurus auch sinnverwandte Wörter finden lassen. Gibt man etwa den Begriff "Sport" ein, würden hier beispielsweise auch einzelne Sportarten wie "Schwimmen" und "Fußball", aber auch "Sportartikel" berücksichtigt.

Die Konzeptsuche ist jedoch nicht die Regel. Gewöhnlich arbeiten die Suchmaschinen mit Booleschen Operatoren (and, or, not) sowie der exakten Nachverfolgung eingegebener Zeichenreihen und der Recherche von Wörtern und Satzteilen, die innerhalb oder in der Nähe eines bestimmten Suchbegriffs lokalisiert sind (Bereichssuche). Auch bieten einige Produkte die Möglichkeit, numerische Abfragen, etwa über Kunden- und Auftragsnummern oder das Kalenderdatum, zu starten. Teilweise lassen sich sogar Abfragen über den Urheber eines bestimmten Excel-Spreadsheets, den Titel des Dokuments oder die File-Größe durchführen.

Die Bewertung im einzelnen

In der Bewertung der Produkte schneidet Netscapes Catalog Server 1.0 überdurchschnittlich gut ab. Das Produkt indexiert unterschiedliche File-Typen auf mehreren Servern. Flexibel und schnell serviert die Maschine Unternehmensdaten und Web-Seiten gleichermaßen. Für ein "Internet-Feeling" sorgen die "What's-New"- und "What's-Popular"-Buttons - Eigenschaften, die kein anderes System mitbringt. Der Catalog Server offeriert Suchmöglichkeiten, die nicht nur HTML- und Textseiten, sondern auch Unternehmensdaten aus Office-95-, Wordperfect- und Wordpro-Dokumenten sowie PDF-Files einschließen.

Für verschiedene Benutzergruppen können unterschiedliche Indexe festgelegt werden - ein aus Sicherheitsgründen wichtiger Aspekt. So läßt sich beispielsweise verhindern, daß der Vertrieb die Dokumente der Buchhaltung einsehen kann. Das Netscape-Produkt arbeitet mit jedem Web-Server, läßt sich aber naturgemäß am besten via NSAPI in die hauseigenen Commerce- und Enterprise-Server integrieren.

Schwierig gestaltet sich die Administration, die über den Net- scape-Browser Navigator erfolgen muß: Um den Server zu konfigurieren, sind lange Directory- und HTTP-Pfade (HTTP = Hypertext Transport Protocol) zu den jeweiligen Files einzugeben. Da der Browser jedoch keinen Browse-Button zum Durchblättern der Directorys bietet, haben die Tester immer wieder den Windows 95 Explorer verwendet, um Pfade schneller definieren und Namen eingeben zu können. Ein weiterer Nachteil: Die Suche erfolgt ausschließlich nach Schlüsselworten, konzeptuelle Abfragen sind nicht möglich.

Die Suchmaschine Live Link Search von Open Text, ebenfalls für die Indexierung von Dokumenten auf mehreren Servern geeignet, schneidet in diesem Punkt besser ab. Sie besticht durch sehr differenzierte Suchmöglichkeiten sowie mit der Unterstützung vieler unterschiedlicher Dokumenttypen. Gefunden werden neben HTML- und Textdateien Microsoft-Office-95-Dokumente und Adobe-PDF-Dateien. Besonders interessant ist das Produkt, weil es im Gegensatz zu den Erzeugnissen der Wettbewerber auch erlaubt, Internet-Newsgroups und Internet-Mail-Files zu finden.

Die Tester beschreiben die Engine als "agnostisch" - gemeint ist, daß das System mit jedem Betriebssystem, jedem Rechner und jedem Browser fertig wird. Der Anbieter liefert die Suchmaschine mit einer Kopie des "Net-scape Commerce Server". Indexierungstempo und Arbeitsgeschwindigkeit der Search-Engine sind vergleichbar mit denen der anderen Produkte - allerdings ist die Konfiguration von Live Link Search komplizierter als bei der Konkurrenz. Die Tester empfehlen, das Produkt mit anderen Tools der Live-Link-Produktfamilie einzusetzen, die für Wide Area Workflow und Projektkoordination konzipiert sind. Für einfache Aufgaben sei das System zu komplex und zu teuer.

Einfache Benutzbarkeit ist dagegen eines der hervorstechendsten Merkmale des Microsoft Index Server 1.0 (Codename: "Catapult"). Die Suchmaschine ist schnell und leistungsstark, bietet bei der Abfrage jedoch keine Thesaurus-Eigenschaften. Wie der Catalog Server von Netscape stellt das Microsoft-Produkt lediglich die Standard- und erweiterten Suchfunktionen zur Verfügung und findet Daten, die in HTML- und Textseiten sowie in Office-95-Files verborgen sind. Allerdings ermöglicht es zusätzlich die Suche über Namen, Dokumentgröße und Kalenderdatum sowie - in Office-Dokumenten - über Attribute wie Titel oder Autor.

Der Index Server kann einzelne oder mehrere Indexe für Dokumente in verschiedenen Directories oder auf unterschiedlichen Servern pflegen. Er nutzt die Sicherheitseigenschaften des NT-Betriebssystems, so daß Anwender davon abgehalten werden können, auf unerlaubtem Terrain Nachforschungen anzustellen. Die Administration erfolgt über ein Server-basiertes Programm oder einen remoten Browser und verläuft alles in allem komplikationslos.

Ein typisches Microsoft-Handicap macht den Index-Server allerdings zu einer problematischen Wahl: Die Search Engine arbeitet nur auf Basis von NT-Maschinen mit Microsofts "Internet Information Server" (IIS). Keine Probleme haben also nur solche Unternehmen zu erwarten, die ihr Intranet allein auf Basis der Microsoft-Welt aufbauen wollen. Ist dies der Fall, ist der Index Server als Bestandteil von NT Server vergleichsweise preiswert.

Kostengünstig und einfach bedienbar, aber in den Abfragemöglichkeiten stark eingeschränkt ist die Allzwecksuchmaschine Excite for Web Servers 1.0. Die auch für Web-Recherchen im Internet verwendbare Software indexiert ausschließlich HTML- und Textseiten. Lauffähig auf Plattformen unterschiedlicher Art, ist die Excite-Engine nicht dafür geeignet, mehrere Server zu durchsuchen. Andererseits sind die Indexierungs- und Antwortzeiten sehr gut.

Mit der Suchmaschine lassen sich HTML- und Textseiten im Internet oder Intranet leicht finden, da genügend Boolesche Operatoren verfügbar sind, um Abfragen zu konkretisieren. Außerdem besteht die Möglichkeit, konzeptbasierte Abfragen mit Thesaurus-Unterstützung durchzuführen.

Excite beschränkt sich auf HTML- und Textseiten

Das Problem der Excite-Engine ist ihr Alter: Anders als bei den neueren Systemen ist weder die Durchsuchung von Office-Dokumenten noch die Recherche anhand numerischer Reihen oder Kalenderdaten möglich. Excite ist in der heutigen Form eine gute Wahl, wenn es vor allem darum geht, unternehmenseigene Web-Seiten abzufragen. In der schon bald erwarteten Version 1.1 dürfte sich eine Reihe der genannten Probleme erledigen.

Sowohl als Intranet- wie als Internet-Search-Engine ist das Produkt Cyber Search von Frontier Technologies vorgesehen. Das mit der Verity-Suchmaschine ausgestattete Produkt sollte ausschließlich zusammen mit dem Intranet-Authoring- und Web-Paket Intranet Genie vom selben Hersteller eingesetzt werden.

Dieses Bundle ist explizit für die Microsoft-Betriebssysteme Windows 95 und Windows NT (Server und Workstation) geschrieben worden und arbeitet im Gegensatz zu den anderen Engines in einer Peer-to-peer-Umgebung. Zum Lieferumfang gehören Web-, News- und Mail-Server, Tools für das Web-Design und die HTML-Dokumentenkonvertierung sowie Client-Software. Im Unterschied zu den anderen Engines funktioniert Cyber Search Programm- und nicht Browser-basiert.

Die Benutzeroberfläche ist komplex, aber im Prinzip leicht erlernbar. Indexierungs- und Retrieval-Geschwindigkeit werden als gut bezeichnet. Die Testmannschaft rät, Cyber Search nur als Teil von Intranet Genie in kleineren und mittleren Netzkonfigurationen einzusetzen. Sind unterschiedliche Server im Einsatz, sollte ein anderes Produkt gewählt werden.