Test: Sharepoint for Search 2007

22.11.2007
Von 
Andrej Radonic ist Experte für Virtualisierung, Cloud-Technologien und Open Source Anwendungen. Der Fachbuchautor ist Vorstand der interSales AG und entwickelt für mittelständische Unternehmen anspruchsvolle E-Commerce Lösungen.
Die Suchmaschine "Sharepoint for Search" von Microsoft punktet beim Funktionsumfang und der Verwaltung. Zu den Schwächen zählt die Integration zusätzlicher Datenquellen und die fehlende Suche nach Personen.
Der Administrator kann mit Hilfe eines integrierten Auswertungs-Tools die getätigten Abfragen analysieren.
Der Administrator kann mit Hilfe eines integrierten Auswertungs-Tools die getätigten Abfragen analysieren.

Microsoft bietet schon seit längerer Zeit Suchmaschinen für den firmeninternen Einsatz an. Mit dem Option Pack für Windows NT 4 ergänzte der Hersteller sein Server-Betriebssystem um entsprechende Funktionen, ("Index Server") die allerdings nur Dokumente auf der betreffenden Maschine indexieren konnten. Dem Anspruch einer Lösung für Enterprise Search kam der Sharepoint Portal Server näher, der die Recherche-Features mit dem Portal-Server und einfachen Dokumenten-Management-Funktionen kombinierte. Auch das Nachfolgesystem Office Sharepoint Server 2007 (MOSS 2007), dessen Funktionsumfang erheblich erweitert wurde, enthält weiterhin eine Suchmaschine für den unternehmensweiten Einsatz. Von ihr existiert eine Stand-alone-Ausführung unter der Bezeichnung MOSS for Search 2007. Im nächsten Jahr soll es davon unter der Bezeichung "Search Server Express 2008" eine kostenlose Einsteigerversion geben.

Plus/Minus

Funktionsumfang;

schlüssiges Sicherheitskonzept;

durchgängige XML-basie-rende Konfiguration von Suche, Ergebnislisten oder Crawling;

vollständige, nahtlose Integration in MOSS;

SOA-Konzept.

Magerer Auslieferungszustand: kein Online-Rendering der Dokumentenformate zur sofortigen Ansicht im Browser, keine PDF-Suche;

keine Integration zusätzlicher Datenquellen, da der Business Data Cata-log nur zum Lieferumfang der Vollversion von MOSS zählt;

Personensuche zur Erschließung von Kontakten und Wissen nur in der Vollversion von MOSS;

keine Wildcards in der Suche möglich/zulässig.

Lizenzierung

n Lizenzierung pro Server, keine Client Access Licences (CALs) benötigt;

n Microsoft Office Sharepoint Server 2007 for Search, Standard Edition Server License: Stand-alone Produkt, limitiert auf 500 000 Dokumente. Preis ab etwa 7800 Euro;

n Microsoft Office Sharepoint Server 2007 for Search, Enterprise Edition Server License: wie Standard, aber ohne Begrenzung bei der Zahl der Dokumente. Preis ab zirka 54 000 Euro;

n Upgrade zu MOSS 2007 möglich.

IBMs Lowend-Suchmaschine

Die IBM Omnifind Yahoo Edition (YED) bedient sich im Kern der Open-Source-Suchmaschine "Apache Lucene" und verfolgt im Gegensatz zu eher rohen Konkurrenzprojekten aus der quelloffenen Welt wie "Apache Solr" oder "Nutch" ganz offensichtlich die Strategie, ein gebrauchsfertiges und benutzerfreundliches Produkt zu bieten. Die Software nutzt daneben das UIMA-Framework, eine von IBM als Open Source freigegebene Technik zur Analyse unstrukturierter Textinformationen. Außerdem werden eine Reihe proprietärer Komponenten, beispielsweise Lexika, Crawler und Sprachverarbeitungskomponenten, eingesetzt, so dass YED unter keiner Open-Source-Lizenz steht.

Installation und Verwaltung

Die in Java geschriebene Software verfügt über eine einfache Installationsroutine für Windows und Linux, wobei die benötigte Java Virtual Machine Bestandteil des Pakets ist. Unmittelbar nach dem Setup lässt sich YED als Dienst beziehungsweise Daemon starten und kann über die URL http://<SERVER>/admin erreicht und konfiguriert werden. Über die teilweise mit Ajax gestaltete, benutzerfreundliche Oberfläche können Website-Adressen angemeldet werden, welche der integrierte Crawler besucht und indexiert.

IBMs Einsteigersuche beschränkt sich auf zwei Datenquellen, nämlich auf Web-Server und Dateisysteme. Zu Letzteren zählen auch Freigaben auf Datei-Servern, die mit dem lokalen Rechner verbunden sind. Die Software lässt sich nicht erweitern, um zusätzliche Unternehmensdaten in anderen Quellen anzuzapfen. Das bleibt der Enterprise-Ausführung von Omnifind vorbehalten. Die YED kann Dokumente in bis zu 200 Formaten lesen. Dabei fehlen bis dato die neuen XML-Formate von MS Office 2007. RSS-Feeds sind zwar nicht gelistet, können aber dennoch durchsucht werden, allerdings versteht die Software nicht die Bedeutung der RSS-spezifischen Felder.

Die Aufnahme von Websites und Netzwerkordnern in den Index erfolgt über den Eintrag der Adresse im Verwaltungs-Tool. Mittels einfacher Wildcards kann der Administrator Ausschlussregeln für den Spider definieren. Die Crawler-Prozesse für Dateien und Websites können unabhängig gesteuert und überwacht werden.

Der Systemverwalter kann zudem Synonyme zu häufigen Suchbegriffen definieren, um bessere Ergebnisse zu erzielen. Daneben gibt es lediglich noch die Möglichkeit, in gewissen Grenzen die Rangfolge von Ergebnissen mittels dreier Parameter zu beeinflussen (Aktualität, Pfadtiefe und Link-Popularität). Interessant ist die Möglichkeit, "Sponsorenlinks" einzupflegen, die den Anwendern bei Eingabe zuvor spezifizierter Suchanfragen als erste angezeigt werden.

Dem Anwender präsentiert sich YED wie vom Web gewohnt, und auch die bekannten Suchoperatoren sind verwendbar. Dabei ist es möglich, die Optik in gewissen Grenzen, etwa durch Einbindung des Unternehmenslogos, anzupassen. Sämtliche nachgewiesenen Dokumente lassen sich nicht nur im Original abrufen, sondern auf Wunsch auch in einer automatisch erzeugten HTML-Ansicht. Was Komfortfunktionen angeht, bleibt die Oberfläche weit hinter Desktop-Suchprogrammen zurück. Immerhin dürfen Wildcard-Operatoren verwendet werden. In der erweiterten Suche lassen sich unter anderem gezielt Felder von Dokumenten als Suchbereiche definieren, außerdem kann der Nutzer die Suche auf bestimmte Dateiformate einschränken.

Bedenklich dürfte IT-Verantwortliche stimmen, dass die Software benutzerbezogene Zugriffsrechte auf Dokumente nicht berücksichtigt, da der Crawler alles indexiert, worauf er Zugriff bekommt, und der Index für alle Anwender offen ist.

Programmier-Schnittstellen

Nützlich für die tiefere Integration der IBM-Suchtechnik in vorhandene Umgebungen, beispiels-weise in Intranets, ist das mitgelieferte API, das Funktionen sowohl über Rest als auch über eine Kommandozeile zur Verfügung stellt. Über diese können Suchfunktionen sowie Features zum Hinzufügen und Löschen von Indexeinträgen und für das Starten und Stoppen des Crawlers ausgelöst und somit in andere Applikationen integriert werden. Beispielsweise könnte man darüber YED auch über fremde Crawler mit suchrelevanten Daten füttern. (ws)u

Plus/Minus

Einfache Installation und Benutzung;

APIs, Kommandozeilen-Nutzung im Batch-Modus, PHP-Integration;

gute Administration, sowohl grafisch als auch über die Kommandozeile. Es wird konsequent auch den Bedürfnissen und Gewohnheiten typischer Linux-Administratoren Rechnung getragen.

Bei der Präsentation der Suchergebnisse werden die individuellen Dateirechte nicht berücksichtigt;

keine weiteren Datenquellen neben Websites und Dateisystemen integrierbar;

unerwünschte Werbung: Im Suchergebnis erscheint an zweiter Stelle immer ein Yahoo-Suchergebnis-Link;

Crawler beherrscht keine Bandbreiten- oder CPU-Begrenzung;

keine integrierte Zeitsteuerung für den Crawler; Beschränkung auf 500 000 Dokumente.

Suchmaschinen gefragt

Der Softwarehersteller möchte mit seinen Produkten der wachsenden Nachfrage nach Suchlösungen für Unternehmen entsprechen. Mehrere Analysten gehen davon aus, dass derartige Anwendungen vor dem großen Durchbruch stehen und ein großes Marktpotenzial haben. So setzt von den insgesamt sechs Millionen amerikanischen Firmen derzeit nur ein Prozent eine unternehmensweite Suchlösung ein.

Glaubt man Microsoft-eigenen Studien, dann sind die heutigen Informationsarbeiter in Unternehmen zu immerhin einem Viertel ihrer Arbeitszeit mit der Suche nach Informationen beschäftigt - ob diese nun in Dokumenten, Datenbanken, auf Datei-Servern oder in Köpfen von Menschen liegen. Die fehlende Technik koste die Unternehmen demzufolge bares Geld.

MOSS für das mittlere Segment

Microsoft positioniert Moss for Search in der mittleren Markt-ebene unterhalb von Spezia-listen wie Fast und Autonomy, aber beispielsweise neben der Google Appliance. MOSS for Search verfügt über umfangreiche Programmier-Schnittstellen zur Integration in SOA-Frameworks, aber auch zur Erweiterung der Funktionen. Interessant kann dabei gerade für etwas kleinere Unternehmen sein, dass MOSS for Search nicht nur interne Sites indexieren, sondern auch Inhalte aus dem öffentlichen Web durchsuchbar machen kann, etwa zur Wettbewerbsbeobachtung.

Suchtechnik

MOSS for Search ist spezialisiert auf die Erschließung strukturierter und unstrukturierter Datenquellen in Unternehmen. Es ist dementsprechend ausgestat-tet mit einem Crawler für Websites, Dateifreigaben, Sharepoint-Sites inklusive Benutzerdaten, öffentliche Ordner in Exchange und Datenbanken von Lotus Notes. Unterstützt werden unter an-derem die Dokumentenformate von MS Office, HTML, Text und XML. Das System kann durch installierbare "iFilter" frei um weitere Formate erweitert werden. Solche sind kostenlos zum Beispiel für PDF, Visio, JPG, OneNote, Lotus Notes oder ZIP verfügbar.

In MOSS for Search widmet sich eine Reihe von Mechanismen der Ermittlung der Relevanz von Dokumenten. Sie sind speziell an die Gegebenheiten in Unternehmen angepasst. Enterprise-Suchmaschinen müssen sich etwa nicht mit zahllosen Manipulationsversuchen von Site-Betreibern herumschlagen, wie das im öffentlichen Web der Fall ist. Das von dort bekannte Kriterien der Link-Popularität spielt intern keine wesentliche Rolle, so dass andere Algorithmen benötigt werden. MOSS for Search wertet daher automatisch die URL-Tiefe eines Dokuments aus, also wie weit unten in einem gedachten Verlinkungs- beziehungsweise Verzeichnisbaum ein Dokument angesiedelt ist. Je weiter es von der Wurzel entfernt ist, als desto weniger relevant wird es eingestuft. Gleiches gilt für die Klick-Distanz, welche die Entfernung von Dokumenten misst, die als "autoritativ" gelten. Höher eingestuft werden im Ranking die Hyperlink-Wörter, also jener Text, mit dem ein Hyperlink hinterlegt ist. Für die Ermittlung der Relevanz werden außerdem Metadaten wie Titel in Dokumenten herangezogen. Ein Kuriosum ist das "File Type Biasing", das für eine unterschiedliche Gewichtung von Suchergebnissen je nach Typ des zugrundeliegenden Dokuments sorgt: HTML sticht Powerpoint, dieses wiederum Word, danach folgen XML, Excel und Text.

Relevanz beeinflussen

Der Administrator kann die Relevanzbewertung auf mehrere Arten beeinflussen, etwa indem er Synonyme für häufige Suchwörter definiert, Stichwortdefinitionen vorgibt oder für häufige Anfragen gezielt das "Beste Suchergebnis" bestimmt ("Best Bet"). Duplikate werden vom System zwar automatisch ausgefiltert, lassen sich aber auch wahlweise ausweisen. Außerdem lassen sich für häufige Suchbegriffe passende Ergebnistexte festlegen.

Wie von einem Enterprise-Produkt zu erwarten, wird der As-pekt der Sicherheit großgeschrieben: Beispielsweise werden die unternehmensweiten Zugriffsberechtigungen vom Sys-tem bei der Indexierung wie auch der Auslieferung der Ergebnisse berücksichtigt. Dafür ist das Modul ASP.net Authentication auf Basis von LDAP oder Active Directory sowie ADFS zuständig. Um zu bestimmen, welcher Anwender welche Arten von Informationen suchen und abrufen darf, kann der Verwalter rollenbasierende Konzepte implementieren.

Suchmaske und Ergebnisse

Der Anwender findet ein von Google & Co. bekanntes Browser-Frontend vor, über welches Suchanfragen gestellt und Ergebnisse ausgewertet werden können. Optik und Funktionen lassen sich individuell beziehungsweise firmenspezifisch anpassen. Alternativ zur interaktiven Bedienung der Suchmaske kann man sich Benachrichtigungen (Alerts) bei neuen Suchergebnissen per E-Mail oder per RSS zukommen lassen.

MOSS for Search unterstützt den Anwender über folgende Funktionen beziehungsweise dieser kann Ergebnisse damit selbst beeinflussen:

Suche frei oder über Eigenschaften (Properties), definierbar, zum Beispiel Dokumententyp, Autor, Änderungsdatum.

Relevanzermittlung mit automatischen Mechanismen und nach manuell konfigurierbaren Parametern.

Suchvorschläge macht das System passend zur Anfrage.

Definition von inhaltlichen Suchbereichen, Einschränkung der Suche auf Bereiche.

Der Suchdienst schließt automatisch Variationen von Wörtern auf der Basis des Wortstamms ein, zum Beispiel Plurale. Beispielsweise werden beim Suchen nach dem Wort "Seite" auch Ergebnisse für "Seiten" ausgegeben.

Platzhalterzeichen wie das Sternchen (*) können leider nicht verwendet werden.

Installation

Der rein technische Teil der Installation und Basiskonfiguration ist relativ überschaubar. So kann eine Demoversion als ISO-Datei heruntergeladen werden. Die Installation wird nach dem Booten der damit erstellten CD automatisch gestartet und bringt alle benötigten Komponenten mit. Die Herausforderungen bei der Einführung des Systems liegen eher in organisatorischen und fachlichen Aspekten. Dazu zählt etwa, welche Daten und Formate sowie Datenhaltungssysteme die Software indexieren soll, ferner die Definition der Zugriffsrechte oder die Kalkulation der benötigten Bandbreite, wenn die Indexierung und Suche über WAN-Verbindungen erfolgen soll.

Administration

MOSS for Search stellt eine zentrale Administrationsoberfläche bereit, die sich je nach Variante nahtlos in die MOSS-Administration einklinkt. Diese ist unter anderem aufgrund der sinnvoll eingesetzten Ajax-Elemente durchaus komfortabel, aber teilweise etwas unübersichtlich geraten. So sucht man mitunter be-stimmte Punkte immer wieder an den falschen Stellen.

Das Admin-Frontend erlaubt es, den Crawler auszuwerten und zu überwachen, den Spider zu parametrisieren und zeitlich zu steuern (vollständiges oder inkrementelles Crawling). Dazu kommt die Verwaltung von Managed Properties, so dass unternehmensübergreifend gleiche Metadatenbezeichnungen verwendet und in einer zusammengeführt werden, um gezielt feldbezogen suchen zu können. Zudem lassen sich die getätigten Suchanfragen verfolgen, Debugging und Problembehebung erfolgen über das Microsoft Operations Manager (MOM) Pack.

Der Erweiterbarkeit des Systems hat Microsoft viel Aufwand gewidmet. Sie darf zu seinen Stärken gezählt werden, wobei insbesondere wichtig erscheint, dass die Anwender ohne Programmierung viel erreichen. Dies ist der konsequenten Implementierung von verschiedenen Schnittstellen auf Basis von XML und XSLT zu verdanken, welche weitgehende Definitionen und Konfiguration sowie Nutzung vorhandener Funktionen zulassen. Allerdings kann das Arbeiten mit diesen Dateien auch schnell unübersichtlich werden.

Fazit

Insgesamt vermag das Microsoft-Suchprodukt vor allem im Hinblick auf die gewählte Zielgruppe zu überzeugen. Funktionen, Bedienung und besonders die Berücksichtigung der spezifischen Anforderungen von Unternehmen sind sehr gut. Leider sind gerade die sehr tief gehenden Integra-tionsfunktionen, die der Business Data Catalog bereitstellt, nur in Verbindung mit einer vollständigen Sharepoint-Installation zu haben. Somit fehlt der Stand-alone-Suchmaschine aus Redmond eine Fähigkeit, die als Kernfunktion von Enterprise Search gilt: die Einbeziehung von beliebigen externen Datenquellen. Außerdem ist das Produkt nur Unternehmen mit starker Microsoft-Ausrichtung zu empfehlen, zumal entsprechen-de Kenntnisse im Umgang mit dem Internet Information Server, SQL Server und auch AD Server zwingend notwendig sind. (ws)