IT in der Medienbranche/Goethe elektronisch

Was die Geisteswissenschaft von der Digitalisierung alter Texte hat

08.10.1999
Inzwischen wurden auch die Textwissenschaften von der weltweiten Digitalisierung erfaßt. Auf zahlreichen Arbeitsgebieten werden heute Computer eingesetzt, und die Anwendungsmöglichkeiten wachsen mit der Zahl digitaler Texte. Fotis Jannidis* hat zusammengefaßt, was heutige IT für Forschung und Archivierung leisten kann.

Am auffälligsten ändert sich die Arbeit von Geisteswissenschaftlern durch die Existenz neuer Medien mit neuen Kunst- und Gebrauchsformen. Linguisten untersuchen die Veränderung des Briefeschreibens durch den E-Mail-Stil und moderne Kulturwissenschaftler analysieren Computerspiele und künstlerische Hypertexte. Wichtiger aber noch als diese Veränderungen sind die Auswirkungen des allgegenwärtigen Computers auf die alltägliche Arbeit.

Ein notwendiger Arbeitsschritt ist zum Beispiel die Ermittlung der Beiträge von Fachkollegen, die zu einem Thema bereits veröffentlicht wurden. In vielen Fächern erscheint jedes Jahr ein Verzeichnis der Schriften, die in den letzten zwölf Monaten erschienen sind, und früher mußte man jeden Jahresband einzeln durchsuchen um seine Literaturliste zusammenzustellen. Inzwischen gibt es digitale Bibliografien, die nach Eingabe eines Suchbegriffs solche Listen automatisch erstellen.

Auch der Zugriff auf die Literatur selbst hat sich inzwischen grundlegend geändert. Von der Öffentlichkeit fast unbemerkt wurden in den letzten Jahrzehnten die Kataloge der wissenschaftlichen Bibliotheken digitalisiert. Außerdem hat man einen Standard geschaffen, der dem Benutzer den Zugriff auf mehrere Kataloge von ganz unterschiedlichen Bibliotheken erlaubt, obwohl diese verschiedene Systeme verwenden. So kann man über den virtuellen Katalog in Karlsruhe in zahlreichen wissenschaftlichen Bibliotheken gleichzeitig recherchieren. Kataloge großer Bibliotheken haben insbesondere für ältere Literatur auch den Zweck, ein Verzeichnis darüber zu bieten, was überhaupt gedruckt wurde, wie der Titel der Werke genau hieß etc. Auch für solche historisch motivierten Fragestellungen sind die digitalen Bibliothekskataloge von unschätzbarem Wert.

Wer heute einen Blick in den Zeitschriftenlesesaal einer wissenschaftlichen Bibliothek wirft, dem werden zwei Dinge auffallen: Erstens liegen sehr viel mehr Zeitschriften aus als noch vor zehn oder 20 Jahren. Zweitens stehen Computer in den Lesesälen.

Diese beiden Phänomene hängen eng zusammen: Die Zahl und damit die Spezialisierung der Fachzeitschriften hat stark zu- genommen und damit ist auch ihr Preis gestiegen. Insbesondere im naturwissenschaftlichen Bereich führt das in sehr prestigeträch- tigen Bereichen zu absurden Geldforderungen der Verlage; aber auch in den Geisteswissenschaften ist die Situation kritisch, da die Etats der Bibliotheken nicht im gleichen Maß wachsen können.

Deshalb suchen Wissenschaftler nach Möglichkeiten, das Internet als neue Publikationsplattform zu nutzen. Zahlreiche Zeitschriften erscheinen inzwischen in einer elektronischen Parallelausgabe, um die Suche in den Beiträgen zu ermöglichen. Eine ganze Reihe von Zeitschriften versucht es mit einer rein elektronischen Publikation. Deshalb die Computer in den Lesesälen der Bibliotheken. Allerdings sind viele Probleme noch nicht geklärt: Wie lassen sich elektronische Zeitschriften ebenso dauerhaft wie ihre gedruckten Gegenstücke archivieren, wie kann man sicherstellen, daß sie auch langfristig lesbar sind.

Die gleichen Probleme bringen elektronische Texte mit sich, die langfristig sicherlich die wichtigste Veränderung im Handwerkszeug der Geisteswissenschaften darstellen. Historiker digitalisieren in Großprojekten die Quellen aus früheren Zeiten, also Berichte, Dokumente, kurzum alle Schriftstücke, die Einblick in die politische, soziale, kulturelle Existenz früherer Gesellschaften geben. Literaturwissenschaftler erstellen elektronische Editionen der Werke, die für die Geschichte der Literatur eine besondere Bedeutung hatten. Eine der ersten Ausgaben, die digitalisiert wurden, waren die Werke von Goethe, die inzwischen sogar in verschiedenen elektronischen Editionen vorliegen.

Editionen in elektronischer Form

Es gibt einfache Leseausgaben, die nur möglichst viele Texte zusammenstellen möchten, und deren Bedeutung vor allem in der Möglichkeit liegt, in Zehntausenden von Seiten auf einmal recherchieren zu können. Wissenschaftliche Editionen von Texten enthalten zusätzlich meist Erläuterungen von Worten oder Passagen, die ohne historisches Wissen nicht verständlich sind. Besonders aufwendige Ausgaben, sogenannte historisch-kritische Editionen, verzeichnen außerdem die Unterschiede zwischen verschiedenen Drucken eines Werks und wie sich die Handschriften des Autors zu den gedruckten Texten verhalten.

Wenn es solche Editionen in elektronischer Form gibt, tun sich Verwendungsmöglichkeiten auf, von denen frühere Generationen nur träumen konnten: Verweise zwischen verschiedenen Textstellen, die manchmal durch Tausende Seiten getrennt sind, können per Mausklick verfolgt werden. Begriffe, deren genaue Verwendung den Forscher interessiert, lassen sich auch in einem sehr umfangreichen Textkorpus schnell finden und mit Parallelstellen vergleichen. Anders als bei Suchmaschinen im Internet, die als Treffer immer ein Dokument liefern, muß literaturwissenschaftlich brauchbare Text-Retrieval-Software eine sehr viel größere Gra- nularität aufweisen: Sie sollte Treffer im Satz von Treffern im nächsten Satz unterscheiden können.

Die Arbeit an wissenschaftlichen Editionen ist teuer und nimmt Jahre, wenn nicht Jahrzehnte in Anspruch. Computer wurden zuerst vor allem verwendet, um gedruckten Editionen zu helfen. 1949 begann Roberto Busa mit seiner Arbeit an einer Konkordanz zu den Werken von Thomas von Aquin - eine Arbeit, die erst Jahrzehnte später abgeschlossen wurde. Solange man die digitale Datenform nur als Durchgangsstadium zum Druck ansah, überließ man sich dem Datenformat des Programms, mit dem die Ausgabe produziert wurde. Man glaubte, daß die elektronische Form nach dem Druck ohnehin überflüssig würde. Sobald aber die Vorzüge digitaler Editionen deutlich wurden, änderte sich die Sachlage. Es war bald klar, daß solche Editionen nicht dem proprietären Format irgendeines Retrieval-Programms anvertraut werden konnten. In der schnellebigen Softwarebranche konnte die Firma schon wieder vom Markt verschwunden sein, bevor das Editionsprojekt überhaupt abgeschlossen war, oder sie hatte ein Update herausgebracht, das zwar viele interessante Features hatte, aber den Zugriff auf die Texte im alten Format unmöglich machte. Mit solchen Problemen hatten auch Projekte zu kämpfen, die nur Druckeditionen erstellen wollten, wenn sie ihre Texte einer Textverarbeitung anvertraut hatten, die beim nächsten Versionssprung aus markttechnischen Gründen sehr gezielt die Konvertierungsfilter für frühere Versionen des eigenen Programms "vergessen" hatte.

Schon in den 80er Jahren nahm eine internationale Kooperation von Philologen die Arbeit an einem Standard auf, der diese Probleme beseitigen sollte. Man stützte sich auf einen bereits in Großunternehmen etablierten Standard für die Spezifizierung von programm- und plattformunabhängigen Auszeichnungen: SGML (Standard Generalized Markup Language). Auf dieser Basis entwickelte die Text Encoding Initiative (TEI) ein umfangreiches Auszeichungssystem, das möglichst allen philologischen Ansprüchen genügen sollte und sogar einen Erweiterungsmechanismus für die Fälle enthält, in denen man bei der Arbeit feststellt, daß man mit den verhandenen Auszeichnungen nicht auskommt. Der Standard wurde, sobald dies erlaubt war, auch im Internet veröffentlicht und steht dort kostenlos zur Verfügung (http://www.tei-c.org/). Inzwischen wird TEI weltweit in zahlreichen Projekten eingesetzt. Vor kurzem hat ein Konsortium, getragen von mehreren Forschungsinstitutionen, die Arbeit an der Weiterentwicklung und Pflege des Standards übernommen.

SGML, das dadurch bekannt sein wird, weil es auch der Spezifikation von HTML zugrunde liegt, ist sehr komplex; tatsächlich ist es so komplex, daß SGML-Software auch heute noch sehr teuer ist. Es war daher naheliegend, eine Untermenge von SGML zu bestimmen, die diejenigen Features enthält, die am häufigsten verwendet werden. Diese Untermenge trägt den werbewirksamen Namen XML (EXtensible Markup Lan- guage) und revolutioniert zur Zeit das Internet, E-Commerce und Electronic Publishing. Einer der Redakteure der TEI-Empfehlungen, Michael Sperberg-McQueen, hat auch wesentlich zur Gestaltung von XML beigetragen, und die Hyperlink-Syntax von XML ist an die von TEI angelehnt. Inzwischen existiert eine XML-Version der TEI-Auszeichnungssprache - zumindest der einfacheren Untermenge namens "TEI lite", während sich die Konvertierung der gesamten TEI noch im Betastadium befindet.

Auch für die elektronischen Wissenschaftszeitschriften ist XML der Weg, die ökonomische Publikation in mehreren Medien mit zukunftssicherer Archivierung zu verbinden. Texte, die mittels TEI ausgezeichnet sind, sei es in SGML- oder in XML-Form, sind langfristig archivierbar und können immer wieder die Grundlage neuer Publikationen sein. Die Spezifizierung neuer Standards zur typografischen Gestaltung wie XSL (Extensible Stylesheet Language) oder Cascading Stylesheets in der Version 2 oder der eben entstehenden Version 3 versprechen nicht nur die inhaltliche Auszeichnung, sondern eine ebenso langfristige Speicherung der typografischen Information.

Ob derart gestaltete Texte wirklich so dauerhaft sind wie gedruckte Texte, muß sich noch zeigen. Immerhin arbeiten heute noch viele Goethe-Philologen mit der Weimarer Ausgabe seiner Werke, die vor mehr als 100 Jahren erschien. Und manchmal muß man auch die Erstausgaben seiner Werke in die Hand nehmen. Öffnet man ein solches Bändchen, das über 200 Jahre alt sein kann, dann bekommt man Respekt vor diesem so dauerhaften wie anspruchslosen Medium, dem Papier. Wenn dann allerdings der Blick auf die Frakturschrift fällt, die vielen heute nicht mehr ohne weiteres verständlich ist, dann sieht man, daß auch hier schon Übertragungsleistungen notwendig sind. Elektronische Texte werden den Griff nach einem Buch und auch nach den alten Quellen, seien sie nun gedruckt oder handschriftlich, nicht überflüssig machen, doch sie sind schon heute ein unverzichtbares Werkzeug für die Arbeit des modernen Geisteswissenschaftlers geworden.

Die Arbeit an wissenschaftlichen Editionen ist teuer und nimmt häufig Jahre, wenn nicht Jahrzehnte in Anspruch. Die heute mögliche Digitalisierung der Texte tut durch Text-Retrival-Software Beschleunigungsmöglichkeiten auf, aber auch neue Verwendungsmöglichkeiten, von denen frühere Generationen von Wissenschaftlern nur träumen konnten.

*Dr. Fotis Jannidis ist wissenschaftlicher Assistent in München und Mitherausgeber eines Jahrbuchs zur Computerphilologie, dessen erste Nummer soeben erschienen ist.