Formatierte, deskriptive, thesaurierte Datenspeicherung:Grundformen von Informationssystemen

21.12.1979

MÜNCHEN - Eine jüngst erschienene Siemens-Broschüre aus der Reibe "data praxis" enthält eine Verfahrensbeschreibung über "Golem BS2000", in deren Einleitung einige grundsätzliche Überlegungen zu Informationssystemen in ihren verschiedenen Ausprägungen angestellt werden. Die ersten Abschnitte dieser Einleitung sind im folgenden wiedergegeben.

Informationssysteme

Informationssysteme dienen zur Speicherung, Wiedergewinnung und Auswertung von Informationen. Wird zur Verarbeitung der Information ein Computer eingesetzt, spricht man von computerunterstützten Informationssystemen. In solchen Systemen werden die Informationen als Daten in einer dem Rechner verständlichen Form dargestellt. Für eine solche Verwendung sind Computer durch ihre Fähigkeit, sehr große Mengen von Daten zu speichern und auch aus großen Mengen von Daten sehr schnell gezielt bestimmte Daten herauszufinden, ganz besonders geeignet.

Informationssysteme - daß von computergestützten Systemen gesprochen wird, setzen wir im folgenden voraus - werden heute auf den verschiedensten Gebieten eingesetzt. Personalinformationen, Flugbuchungen, Verwaltung von Lagerbeständen, das Einwohnermeldewesen, Sozialversicherungsinformationen, Literaturdokumentation sind nur einige wenige Beispiele. In den meisten dieser Fälle ist die Zahl der Informationen und gleichzeitig die Notwendigkeit, die Informationen in kürzester Zeit zur Verfügung zu haben, so groß, daß ohne den Einsatz von Computern solche Systeme überhaupt nicht arbeitsfähig wären.

Aus den unterschiedlichen Anwendungsgebieten lassen sich unterschiedliche Anforderungen an die Art der benötigten Daten sowie die benötigten Verarbeitungsprozesse ableiten, nach denen man Informationssysteme in verschiedene Arten einteilt.

In der Praxis sind die zwei wichtigsten:

þDatenbanksysteme (DBS)

þInformationswiedergewinnungssysteme oder Information-Retrieval-Systeme (IRS), bei denen man wiederum eine besondere Art als Dokument-Retrieval-System bezeichnet.

Datenbanksysteme

In Datenbanksystemen werden überwiegend formatierte Daten verarbeitet. Formatierte Daten bestehen aus Strukturen, meistens Satz genannt, die eine Zusammenfassung von Feldern sind. Felder können entweder numerische oder alphanumerische Werte annehmen. Der Aufbau der Sätze, die in einem Datenbanksystem verarbeitet werden können, wird in Satzbeschreibungen festgelegt, in denen die Reihenfolge, die Namen und die möglichen Werte der zugehörigen Felder beschrieben werden. Die Bedeutung eines Datenwertes wird durch seine Position im Satz bestimmt. Der Zugriff auf Sätze erfolgt über Feldwerte sowie über logische Beziehungen, die sich aufgrund gleicher Datenwerte in verschiedenen Sätzen ergeben oder beim Abspeichern von Sätzen in das System mit angegeben werden. Formatierte Daten können als Darstellung von Fakten in einer vom Computer verarbeitbaren Form aufgefaßt werden. Da die Form der Daten bereits beim Aufbau des Systems festgelegt wird, eignen sich diese ganz besonders zur Weiterverarbeitung in Computerprogrammen. In den meisten Fällen bildet ein Datenbanksystem deshalb nur einen Teil eines Anwendersystems, in dem große Datenmengen effizient gespeichert und verarbeitet werden müssen.

Informations-Retrieval-Systeme

Diese Systeme dienen überwiegend zur Speicherung und Suche von Texten, den Dokumenten. Die Information wird in einem IRS direkt in Schriftform dargestellt, und nicht wie bei einem DBS in formatierte Daten umgesetzt. Deshalb gibt es in einem IRS auch keine Satzbeschreibungen und die Bedeutung der Daten ergibt sich durch das Verständnis der Sprache, aus der die gespeicherten Daten stammen. Um das gezielte Wiederfinden von Informationen in einem IRS zu ermöglichen, ohne jeweils die gesamten gespeicherten Daten zu durchsuchen muß der Speicherung von Texten ein inhaltlicher Erschließungsprozeß vorausgehen.

Dabei werden den Dokumenten beschreibende Merkmale, die Deskriptoren, zugeordnet. Deskriptoren können formale Kriterien, wie etwa den Verfasser oder das Erscheinungsjahr eines Textes, im Text auftretende Wörter oder auch den Inhalt eines Textes charakterisierende Begriffe sein. Das Aufsuchen der Dokumente erfolgt dann fast ausschließlich über Deskriptoren, die in einem Wörterbuch gesammelt werden.

Dokument-Retrieval-Systeme

Bei diesen Systemen werden nicht die Dokumente selbst, sondern nur Referenzen, das heißt die diesen zugeordneten. Deskriptoren sowie ein eindeutiger Verweis auf das Dokument (beispielsweise eine Archivierungsnummer), gespeichert. Die Dokumente selbst werden außerhalb des Systems, so etwa in einer Bibliothek oder einem Mikrofilmarchiv gespeichert.

In der Praxis ist es allerdings oft nicht möglich, klar zwischen Anwendungen der verschiedenen Systemarten zu trennen. Deshalb sollte ein IRS auch in einem gewissen Umfang formatierte Daten und ein DBS nicht formatierte Daten verarbeiten können. Auch in einem Dokument-Retrieval-System werden oft Teile von Texten, wie Titel oder Kurzfassung, mit abgespeichert.

Nach der Art der Informationserschließung werden die IRS auch in

þDeskriptorsysteme und

þFreitextsysteme unterschieden.

In Deskriptorsystemen werden die Deskriptoren den Dokumenten durch eine intellektuelle Erschließung zugeordnet. Dabei wählt der Erschließer, beispielsweise ein Dokumentar oder ein Informationsingenieur, die Begriffe aus einem Wörterbuch, dem Thesaurus, intellektuell aus. Der Thesaurus besteht meist aus zwei Teilen, einem strukturierten Teil, etwa einem Klassifikationsschema, und einer Liste von freien Begriffen. Zwischen den im Thesaurus enthaltenen Begriffen bestehen meist Beziehungen, wie zum Beispiel Oberbegriff, Unterbegriff, Synonym, durch die die Struktur des Thesaurus gebildet wird.

In Freitextsystemen wird die Zuordnung von Deskriptoren zu Dokumenten durch eine maschinelle Analyse des Textes vorgenommen. Dabei werden in den Texten auftretende Wörter als Deskriptoren ausgewählt und in das Wörterbuch des Systems übernommen. Um die Anzahl der Begriffe im Wörterbuch zu reduzieren und gleichzeitig die Formulierung der Suchfrage zu erleichtern, ist es nützlich, bei der Textanalyse eine Zurückführung von auftretenden Wörtern auf Grundformen vorzunehmen. Treten in verschiedenen Texten zum Beispiel die Flexionsformen der Vater, die Väter, des Vaters auf, so wird in das Wörterbuch nur der Begriff Vater aufgenommen.

Im vorliegenden data praxis-Heft wird das Informationswiedergewinnungssystem Golem (BS2000) vorgestellt.

Zuvor soll der Leser jedoch einen kurzen Überblick über die wesentlichen Eigenschaften eines universell einsetzbaren, modernen Information-Retrieval-Systems erhalten, wie sie dem Stand der heutigen Technik entsprechen.

Ein solches System besteht aus Komponenten zur Erfassung und Speicherung sowie zur Wiedergewinnung und Ausgabe von Informationen.

Dabei gilt im einzelnen:

þDas System ist sowohl als IRS als auch als Dokumentationssystem einsetzbar.

þDas System unterstützt sowohl die intellektuelle als auch die maschinelle Indexierung.

þDie Recherche erfolgt über eine komfortable, flexible und leicht erlernbare Kommunikationssprache für den Mensch-Maschine-Dialog.

þDas System enthält eine externe Schnittstelle zum Anschluß von Benutzerprogrammen zurr Informationsauswertung.

þDas Suchen, von Information ist sowohl online als auch im Stapelbetrieb möglich.

þDas System ermöglicht vielen Benutzern den gleichzeitigen Zugriff auf die Informationen.

þDie Menge der gespeicherten Daten ist im Prinzip unbegrenzt (Open-End-System).

þDer Datenbestand kann jederzeit ergänzt oder geändert werden.

þDas System unterstützt den Datenschutz.

þDie Daten im System sind gesichert so daß während des Betriebs wegen Hardware- oder Softwarefehlern keine Daten verlorengehen oder verfälscht werden.

þDas System ist geräteunabhängig, der Betrieb ist mit verschiedenen peripheren Hardware-Einrichtungen wie Plattenspeichern und Datenstationen möglich.

þDas System bietet die Möglichkeit zur Datenfernübertragung und den Anschluß an Informationsnetze.

Golem (BS2000)

Golem (BS2000) - im folgenden kurz Golem genannt - ist die Weiterentwicklung der bereits seit 1969 eingesetzten Systeme Golem 1 und dessen Nachfolger Golem 2. Golem ist ein dialogorientiertes Informations-Retrieval-System, mit dem Daten beliebigen Formats, lnhalts und Länge gespeichert werden können.

Golem bietet sowohl einen Suchdialog über ein Datenendgerät, als auch die Möglichkeit, von einem Programm aus über eine Hauptspeicherschnittstelle auf die im System gespeicherten Daten zuzugreifen.

Die Broschüre data praxis, Titel: Golem BS2000 - Ein System zum Speichern und Wiedergewinnen von Informationen, wird herausgegeben vom Bereich Daten- und Informationssysteme der Siemens AG, Postfach 832 940, 8000 München 83, Tel.: 089/67 82/31 99