Nach mehreren Übernahmen ist das Produktangebot unübersichtlich

Content-Management: IBM muss aufräumen

16.04.2004
MÜNCHEN (ws) - Hersteller benötigen ein üppiges Produktportfolio, um die Erwartungen in das Enterprise-Content-Management (ECM) zu erfüllen. Die IBM kann damit zwar aufwarten, die Mixtur aus altem Code, zugekauften Tools und redundanten Funktionen macht das Angebot aber unübersichtlich. Die geplante Unterstützung für Content-Standards soll Besserung bringen.

Die rund 20 Jahre alte Dokumenten-Management-Branche reagierte nur zögerlich auf die rasante Verbreitung von Web-Technologien. Deshalb schossen in der zweiten Hälfte der 90er Jahre Startup-Unternehmen wie Pilze aus dem Boden, die sich auf die Erfassung, Verwaltung und Veröffentlichung von HTML-Dokumenten spezialisierten. Ihre Web-Content-Management-Systeme (WCMS) duplizierten eine Reihe von Funktionen, die bereits von den Dokumenten-Management-Systemen (DMS) her bekannt waren, etwa Check-in und Check-out, Versionierung, Suche, Workflow oder Rechteverwaltung. Sie fügten aber auch spezifische Features zur Verwaltung von Web-Content hinzu. Dazu gehören die Aufspaltung von Inhalt und Layout, das Management von Hyperlinks oder Tools für die Interaktion mit Besuchern einer Website, beispielsweise Diskussionsforen.

Mit der raschen Zunahme von schwach strukturierten Daten und der verstärkten firmeninternen Nutzung von Web-Technologien wird die Trennung zwischen WCMS und DMS zu einem Hindernis für den Informationsfluss. Die größeren Anbieter aus beiden Welten haben sich daher in den letzten Jahren den Begriff des Enterprise-Content-Management (ECM) auf ihre Fahnen geschrieben. Der ist indes relativ vage und wird von jedem Hersteller etwas anders interpretiert. Dennoch verbinden alle damit einen weitgehenden Anspruch, indem sie übergreifende Lösungen für nahezu beliebige Formate, Medien und Anwendungen in Aussicht stellen. Im Gegensatz zu DMS oder WCMS handelt es sich bei ECM nicht nur um einzelne Applikationen, sondern vor allem um aufwändige Integrationsvorhaben. Der Endbenutzer soll nämlich im Idealfall unternehmensweit transparent auf schwach strukturierte Informationen zugreifen können, egal aus welchen Quellsystemen sie stammen.

Herkulesaufgabe für Anwender und Hersteller

Ein solches Anliegen erfordert eine Zusammenführung von Informationen auf mehreren Ebenen, typischerweise in zentralen Content-Repositories, mittels Recherche-Instrumentarien oder am Frontend unter einer Portaloberfläche. Hinzu kommt, dass ECM den gesamten Lebenszyklus eines Dokuments abdecken will, also von der teamorientierten Erstellung über das Speichern und die Verwaltung bis hin zu personalisierter Ausgabe und Langzeitarchivierung. ECM wird aus diesem Grund häufig mit Document-Lifecycle-Management (DLM) in einem Atemzug genannt.

ECM gilt im Allgemeinen als ein erstrebenswertes Ideal, das in der Praxis kaum vollständig zu erreichen ist. Die damit verbundene Herkulesaufgabe stellt nicht nur Anwender, sondern auch die Hersteller vor große Herausforderungen. Das dafür nötige Produktportfolio zwingt selbst große Anbieter zu Kooperationen oder Firmenübernahmen. Das gilt häufig etwa bei Technologien zur automatischen Kategorisierung von Dokumenten oder ihrer Darstellung in Portalen.

Die IBM wird von allen Analysten als einer der großen Player im entstehenden ECM-Markt gehandelt. Da ECM vor allem mit Integrationsaufgaben verbunden ist, finden sich in diesem erlauchten Anbieterkreis andere große Hersteller von Infrastruktursoftware, so etwa auch Microsoft und Oracle. In diesem Umfeld kann indes der IT-Riese aus Armonk das umfangreichste Portfolio an ECM-Software vorweisen. Allerdings finden sich dort einige Lösungen, die im Lauf der Jahre zugekauft oder auf einigen IBM-eigenen Plattformen parallel entwickelt wurden. Der Preis dafür sind eine unklare Arbeitsteilung zwischen den Produkten, Funktionsüberlappungen sowie eine unvollständige Integration. Zu dieser Einschätzung kommt auch eine Bewertung der Gartner Group von Ende 2003.

Vorgänger seit 15 Jahren

Kernstück von IBMs ECM-Portfolio ist der "DB2 Content Manager" (CM). Es handelt sich dabei um eine Produktfamilie, deren Hauptkomponente ein DMS ist. Als solches blickt es auf eine rund 15-jährige Geschichte diverser Vorgängersysteme zurück, die im Jahr 2000 unter der neuen Bezeichnung zusammengeführt wurden. Sie könnte zu Missverständnissen führen, weil der Namensbestandteil Content im Allgemeinen mit Web-Inhalten assoziiert wird. Als Vertreter der DMS-Gattung beherrscht der CM Funktionen wie Workflow, Versionierung oder in der "On-Demand"-Ausführung auch Computer Output on Laser Disk (Cold).

Im Rahmen von IBMs ECM-Strategie fungiert der Content Manager allerdings primär als zentrales Repository, in dem gering strukturierte Daten aus verschiedenen Quellen hinterlegt werden sollen. Als DMS weist die Software eine Reihe von Defiziten auf, die Big Blue im letzten Jahr veranlassten, die Firma Green Pasture zu übernehmen. Deren DMS hört nun auf den Namen "DB2 Document Manager". Er bietet Unterstützung für zusammengesetzte Dokumente (wie sie etwa von Office- oder CAD-Anwendungen erstellt werden), rollenbezogene Rechteverwaltung und ein Lifecycle-Management, das den Vorgaben der amerikanischen Gesundheitsbehörde FDA genügt - lauter Features, an denen es dem Content Manager auch in der aktuellen Version 8.2 mangelt.

Deshalb setzt der Document Manager auf den CM auf und nutzt ihn bloß als Datenablage. In diesem Fall treten solche Funktionen des CM in den Hintergrund, die sich mit jenen der ergänzenden Anwendung überschneiden - im Fall des Document Manager etwa kümmert sich dann dieser selbst um den Workflow oder die Versionierung. Eine derartige Konstellation ergibt sich auch in der Zusammenarbeit des CM mit anderen Content-orientierten Anwendungen aus dem Hause IBM. So übernahm Big Blue im letzten Jahr die Firma Aptrix, deren WCMS nun unter der Bezeichnung "Lotus Workplace Web Content Management System" firmiert. Dieses liegt in Ausführungen für Lotus Domino und die neue Workplace-Plattform auf Basis von Websphere und DB2 vor. In Kooperation mit dem CM speichert es die Web-Inhalte in dessen Repository, trägt selbst aber Funktionen zur Erstellung und Veröffentlichung von HTML-Seiten bei. Das Gleiche gilt für den "IBM Lotus Domino Document Manager" (ehemals Domino.doc), der mit Hilfe des Gateways "Common Store for Lotus Domino" seine Daten in den CM transferieren kann. Diese Brücke zu Fremdsystemen existiert auch in Ausführungen für "Microsoft Exchange" und SAP-Software.

Ein Geflecht von Integrationsoptionen

Das Zusammenspiel von CM und den um ihn herum gruppierten Content-Lieferanten ist nicht einseitig auf das zentrale Repository gerichtet. Das Verhältnis der Produkte untereinander stellt sich eher als ein Geflecht möglicher Integrationsoptionen dar. So kann der DB2 Document Manager nicht bloß den CM als Content-Speicher nutzen, sondern dafür auch die Notes-Datenbank hinter Domino.Doc verwenden. Ähnliches gilt für den "Records Manager", der ebenfalls Daten in beiden DMS-Welten verwalten kann. Er gelangte durch die Übernahme der kanadischen Tarian Software an die IBM. Seine wichtigste Aufgabe besteht darin, Aufbewahrungsregeln für ausgesuchte Kategorien von Dokumenten zu definieren. Das Werkzeug leistet damit einen wesentlichen Beitrag zum Lifecycle-Management, wobei sich seine Funktionen mit jenen des Document Manager überschneiden. Gemeinsam ist beiden Anwendungen zudem, dass sie im Gegensatz zu den anderen Produkten aus der CM-Familie nur unter Windows laufen.

Einen weiteren Baustein in IBMs ECM-Portfolio wird die portalbasierende Collaboration-Umgebung Lotus Workplace in der Version 2.5 hinzufügen. Sie soll neben dem bestehenden WCMS-Modul ein solches für Dokumenten-Management enthalten. Dieses wird voraussichtlich ebenfalls den CM als Repository nutzen können, über eine mögliche Unterstützung für Lotus Domino ist noch nichts bekannt.

ECM mit zentralem Repository

Mit der Positionierung des Content Manager als zentralem Repository begegnet die IBM einer gängigen Anforderung an ECM. Ein derartiger Speicher dient als wesentliches Integrationsmedium für unternehmensweit vorhandene, gering strukturierte Informationen. Die Anbindung von hauseigenen Produkten sowie wichtigen Fremdsystemen leistet die IBM selbst durch entsprechende Brückentechnologien. Sollen andere Applikationen den CM als Repository nutzen, müssen sie mittels dafür verfügbarer Toolkits und APIs angedockt werden. Im Normalfall weisen die Meta- und Nutzdaten bei jeder Applikation eine eigene Struktur auf. Ihre Speicherung im zentralen CM-Repository erfordert dessen Anpassung, indem die dafür nötigen Tabellen in der Datenbank erzeugt werden.

In der Praxis dürfte das Ideal eines zentralen Repositorys für alle schwach strukturierten Informationen eines Unternehmens kaum zu erreichen sein. Das gilt besonders dann, wenn sich in Abteilungen oder an Standorten eigene Lösungen für das Dokumenten- und Content-Management etabliert haben. Anstatt einen hohen Migrationsaufwand in Kauf zu nehmen, wäre es in diesem Fall wünschenswert, wenn sich die vorhandenen Dokumentenspeicher auf einheitliche Weise durch Anwendungen ansprechen ließen. Im Rahmen des Java Community Process (JCP) entsteht unter dem JSR 170 eine herstellerunabhängige Spezifikation, die eine Programmier-Schnittstelle für Content-Repositories definiert. Mit ihrer Hilfe sollen Java-Applikationen die gängigsten Funktionen nutzen können, wie etwa Dokumente lesen und schreiben, Versionierung, Volltextsuche oder Inhalte sperren. Damit eröffnen sich Integrationsoptionen auf der Ebene der Repositories, ohne dass ein zentraler Speicher eingerichtet werden muss. Vielmehr könnte eine eigene Middleware den transparenten Zugriff auf verteilt gespeicherte Inhalte gewährleisten. Die IBM kündigte auf der diesjährigen Lotusphere an, alle Content-Systeme mit einem JSR-170-kompatiblen API auszustatten.

Diese Java-Spezifikation legt aber keine Schnittstelle für Workflows fest. Daher will Big Blue über eine Erweiterung von JSR 170 ein einheitliches API für diesen Zweck schaffen. Damit ließe sich IBMs vielfältiges Angebot unter einen Hut bringen, zumindest aus der Sicht von Java-Anwendungen. Derzeit besitzt der Client des Content Manager ein Workflow-Modul, der Document Manager bringt sein eigenes mit. Unter Domino.doc lässt sich für komplexere Abläufe "Domino Workflow" einbinden, das Lotus Workplace WCMS bietet dafür eigene Funktionen, und der "DB2 Information Integrator for Content" beinhaltet den "Advanced Workflow Service".

Beim Information Integrator handelt es sich um ein Paket an Werkzeugen, das neben einer DB2-Datenbank auch den Einsatz eines Websphere-Applikations-Servers voraussetzt. Die darin enthaltenen Tools ermöglichen Integration auf zwei Ebenen. Die Komponente "Federated Search" erlaubt die gleichzeitige Recherche in einer Vielzahl von Datenquellen, und zwar nicht nur in Dokumentenspeichern, sondern auch in relationalen und Notes-Datenbanken. Die Software baut auf das mittlerweile in der Version 4 vorliegende "Lotus Extended Search" auf. Eine derartige Verknüpfung von Content-Repositories führt Daten aus verschiedenen Quellen im Rahmen einer Recherche zusammen. Eine solche Integration eignet sich primär für den Lesezugriff und ist nicht so eng wie jene, die Informationen in einem zentralen Repository konzentriert. Für die Anlieferung der Dokumente, die über die Ergebnisseite einer Suche abgerufen werden, sind in diesem Fall immer die jeweiligen Datenquellen selbst zuständig. Die solcherart gewonnenen Informationen lassen sich mit Hilfe des bereits genannten Workflow-Service in Abläufe einspeisen, wenn diese in der "Websphere MQ Workflow Engine" oder in jener des Content Manager definiert wurden. Der Integrator enthält zusätzlich noch eine Komponente für das Information Mining, die dem "Lotus Disco-very Server" entnommen wurde. Sie ist in der Lage, große Dokumentenbestände nach Kategorien zu sortieren und inhaltlich ähnliche Texte zu Clustern zusammenzufassen. Dazu kann diese Software ebenfalls auf eine Vielzahl von Datenquellen zugreifen.

Aggregation am Client

Einen weiteren Ansatzpunkt zur Zusammenführung von Dokumenten bildet der Client. Dies gilt insbesondere für die IBM, die Unternehmensportale als bevorzugte Frontends propagiert. Deren Aufgabe besteht vornehmlich darin, Daten aus verschiedenen Anwendungen unter einer personalisierbaren Benutzeroberfläche zu aggregieren. Tatsächlich umfasst der Lotus Workplace 1.1 ein Portlet für das hauseigene WCMS, so dass die daraus stammenden Inhalte im Portal nicht nur dargestellt, sondern auch bearbeitet werden können. Ein solches existiert auch für Domino.Doc, das den gleichen Funktionsumfang bietet wie der Web-Client. Ähnliches soll auch die in Version 2.5 vorgesehene DMS-Komponente leisten. Für die anderen ECM-relevanten Anwendungen der IBM ist die Portalintegration noch nicht so weit gediehen: Beispielsweise kann das Portlet für den CM Inhalte nur anzeigen oder suchen, lässt aber deren Bearbeitung nicht zu. Die volle Funktionalität eines CM-Frontend bieten nur der Windows-Client sowie der Web-basierende "eClient". Ähnliches gilt für den Document Manager, der ebenfalls einen eigenen Client mitbringt.

WebDAV als Alternative

Neben der vollwertigen Integration aller Content-Produkte in das Websphere-Portal plant die IBM auch auf der Client-Seite eine gemeinsame Schnittstelle auf Basis eines IETF-Standards. Es handelt sich dabei um WebDAV (http://www.webdav.org/), das Autorenwerkzeugen auf einheitliche Weise Zugriff auf Content-Repositorys gibt. Derzeit herrscht bei Big Blue eine Vielfalt an Zugriffsmechanismen für solche Tools. Die hauseigenen Dokumenten-Management-Systeme bieten Unterstützung für das Open Document Management API (ODMA), das aber dann nur auf Windows-PCs verfügbar ist und etwa im Fall des Document Manager die Installation der Client-Software erfordert. WebDAV hingegen basiert auf HTTP und wurde bereits in zahlreichen Autoren-Tools auf verschiedenen Plattformen implementiert. Dazu zählt unter anderem auch Microsoft Office. Die IBM kündigte ebenfalls auf der diesjährigen Lotusphere an, alle Content-Repositorys mit WebDAV-Unterstützung zu versehen.

Fazit: Nachholbedarf

ECM erfordert die möglichst unternehmensweite Integration verteilter und heterogener Content-Anwendungen, seien es Systeme für das Dokumenten- oder Web-Content-Management, E-Mail oder kaufmännische Applikationen. Diese allseits geäußerte Einschätzung richtet sich an Anwenderunternehmen, die ihren Mitarbeitern auf diese Art einen transparenten Zugriff auf einen reichen Informationsfundus geben können. Im Fall der IBM bekommt diese Empfehlung eine andere Bedeutung: Dort obliegt es einem Anbieter zahlreicher ECM-relevanter Anwendungen, Ordnung und Konsistenz in sein Portfolio zu bringen. Die Mischung aus Legacy-Code, hinzugekauften Programmen und Parallelentwicklungen auf verschiedenen Plattformen führt zu Funktionsüberschneidungen und schwieriger Koexistenz. Die Ausstattung von Repositorys mit Standard-Schnittstellen wie JSR 170 oder WebDAV ist dafür ein wichtiger Beitrag. Eine weitere zentrale Integrationsoption bietet die IBM mit ihrer Portalstrategie, indem sie nach und nach Portlets für ihre Anwendungen entwickelt. Auf diese Weise lassen sich Inhalte aus unterschiedlichen Quellen unter einer Benutzeroberfläche zusammenführen.

IBMs Content-Produkte

DB2 Content Manager: IBMs langjähriges Dokumenten-Management-System sowie zentrales Repository für gering strukturierte Daten;

DB2 Document Manager: mit der Firma Green Pasture übernommenes Dokumenten-Management-System, das auf dem Content Manager aufsetzen kann und diesen mit zusätzlichen Features ausstattet;

DB2 Information Integrator: auf DB2 und Websphere aufsetzende Tools-Sammlung für Recherche (Lotus Extended Search) und Information Mining (Lotus Discovery Server) in unterschiedlichen Datenquellen sowie zur Zusammenführung der gefundenen Informationen;

DB2 Records Manager: mit der Firma Tarian Software übernommenes Produkt zur Definition von Aufbewahrungsregeln für spezielle Dokumentenkategorien (Lifecycle-Management);

Lotus Workplace Web Content Management System: mit der Firma Aptrix übernommenes Web-Content-Management-System;

Lotus Domino Document Manager: aus der Lotus-Welt stammendes Dokumenten-Management-System (ehemals Domino.doc);

Lotus Workplace: portalbasierende Collaboration-Umgebung, die Daten aus verschiedenen Anwendungen auf einer personalisierten Oberfläche aggregiert.