RSS als Wunderwaffe gegen die Informationsflut?

15.03.2004 von Wolfgang Sommergut
Bei "Rich Site Summary" (RSS) handelt es sich eigentlich nur um ein einfaches XML-Dokumentenformat. Es war ursprünglich für die Verbreitung von Schlagzeilen gedacht, findet nun aber immer neue Anwendungsgebiete. RSS-Tools könnten daher bald zu Informationsschaltstellen werden, denn im Gegensatz zu E-Mail leiden RSS-Feeds nicht unter Spam.

Als XML in der zweiten Hälfte der 90er Jahre seinen Siegeszug antrat, erwarteten viele Anhänger dieser Technik, dass sie früher oder später HTML verdrängen würde. Dahinter stand der Wunsch nach intelligenten Websites, welche die Bedeutung von Inhalten durch entsprechende Kennzeichnungen (Markups) ausweisen. HTML dient fast ausschließlich der Darstellung von Web-Seiten und gibt kaum Aufschluss über deren Inhalte.

Die Vision eines XML-Web war verbunden mit der Aussicht auf neuartige Anwendungen. So sollten Suchmaschinen mehr bieten können als bloß Volltextrecherche. Programme sollten gezielt Daten aus Web-Seiten extrahieren können. Anstatt etwa Wetter- oder Börsendaten aus dem Dickicht von HTML-Tabellen zu filtern, ließen sich derartige Informationen direkt abrufen.

Bis dato freilich gibt es keine Anzeichen dafür, dass HTML gegenüber XML an Bedeutung verliert. Es bleibt das dominierende Darstellungsformat des Web, auch wenn alle modernen Browser XML-Dokumente mit Hilfe von Cascading Stylesheets (CSS) gefällig präsentieren können. Konkurrenz kommt für bestimmte Anwendungen eher von proprietären Technologien wie "Flash" oder "PDF".

Einfache Struktur

Dennoch bleibt der Wunsch, Web-Inhalte in Form konsistenter Daten maschinell zu verarbeiten und sie nicht erst von Layoutinformationen befreien zu müssen. Diesem Bedürfnis begegneten relativ bald Web-Services, die mit Soap ein Protokoll auf Basis von HTTP und XML definieren. Allerdings folgen Web-Services stark dem Muster entfernter Prozeduraufrufe (RPCs), die sich für Enterprise Application Integration (EAI) eignen.

Web-Services definieren zudem primär Programmierschnittstellen, indem sie Parameter und Datentypen für Methodenaufrufe beschreiben. Sie legen sich aber nicht auf irgendwelche Standardformate für die Nutzlast der übertragenen Daten fest. Solche existieren für viele Geschäftsdokumente wie Bestellungen, Rechnungen oder Warenkataloge. Ihre Definition obliegt typischerweise Branchenverbänden oder Standardisierungsgremien. Beispiele dafür sind Rosetta.net, cXML oder BMECat. Ihre Nutzung ist auf klar definierte Aufgaben bei der automatischen Abwicklung von Geschäftsprozessen eingeschränkt.

Auch RSS fällt in die Kategorie der (zwar nicht offiziell) standardisierten Dokumentformate. Aber im Gegensatz zu den genannten Beispielen fällt seine Struktur ziemlich einfach aus und wurde sehr allgemein gehalten. Meist werden RSS-Daten nicht über Soap versandt, sondern direkt über HTTP. Dieses Verfahren firmiert unter der Bezeichnung Representational State Transfer (REST).

Der Einsatz von RSS beschränkte sich ursprünglich auf den Austausch von Web-Inhalten. Netscape versuchte Site-Betreiber davon zu überzeugen, Schlagzeilen ihrer Web-Seiten auf diese Weise bereitzustellen, damit sie in das Portal My Netscape eingebunden werden können. Die Nutzung aller RSS-Varianten konzentriert sich bis dato auf derartige Headline-Services. Dabei transportieren sie nicht das gesamte Dokument, sondern nur einige beschreibende Informationen und verweisen ansonsten auf die HTML-Version der Site des Anbieters.

RSS-Dateien dienen aber nicht mehr nur als Input für einige große Internet-Portale, sondern werden von interessierten Anwendern direkt abgerufen. Dazu benötigen sie entsprechende Client-Software, so genannte RSS-Reader. Das Angebot (www.google.de/ search?q=RSS-Reader) an solchen Programmen ist mittlerweile unüberschaubar, die meisten davon sind frei erhältlich.

Anwender bestimmt die Quellen

Ihren Wert entfalten diese Frontends dadurch, dass sie Daten im RSS-Format aus verschiedenen Quellen ("RSS-Feeds") unter einer Oberfläche zusammenführen. Sie dienen als Aggregatoren für eine Vielzahl an Informationen, die sich dort schnell überschauen oder durchsuchen lassen. Der Anwender bestimmt selbst die Herkunft der Informationen, mit denen er seinen Reader füttert. Im Gegensatz zu E-Mail werden so unerwünschte Inhalte ungeklärten Ursprungs vermieden.

Die enorme Zunahme von Spam-Mails lässt Marketing-Experten darüber nachdenken, ob RSS-Feeds die bessere Alternative zu Newslettern sein können. Es liegt auf der Hand, dass der Nutzen von RSS mit der Zahl verfügbarer Quellen steigt. Lange Zeit hatte RSS nur geringe Bedeutung und wurde erst durch die stark steigende Zahl an Weblogs populär. Deren Betreiber ("Blogger") produzieren meist nur wenige eigene Inhalte und konzentrieren sich darauf, auf Beiträge anderer Publikationen hinzuweisen.

Zu diesem Zweck müssen sie sich in kurzer Zeit einen Überblick über zahlreiche Nachrichten aus vielen Quellen verschaffen. RSS-Reader gehören daher schon länger zur Standardausrüstung von Bloggern. Bei Weblogs zählen RSS-Feeds zu den Basisfunktionen. Herkömmliche Publikationen hingegen zögerten lange, bis sie ihre Schlagzeilen über RSS veröffentlichten.

Im deutschsprachigen Raum erkannten Ende 2003 die großen Nachrichtenmagazine "Spiegel", "Stern" und die "Zeit" die steigende Bedeutung von RSS an. Seit Anfang des Jahres bietet auch die COMPUTERWOCHE (www.computerwoche.de/rss/news.xml) einen RSS-Feed für ihre IT-Nachrichten an. Die Zurückhaltung der großen Verlage erklärt sich neben Zweifeln am Geschäftsmodell auch damit, dass die meisten Content-Management-Systeme die Ausgabe von Inhalten im RSS-Format nicht von Haus aus unterstützen.

Durch die zunehmende Zahl an RSS-Angeboten unter den Online-Publikationen hat die Technik ihren stärksten Zuwachs in ihrem angestammten Bereich. Mit steigender Popularität erschließt sich RSS aber Einsatzgebiete jenseits von Headline-Services. So eignet es sich für den Transport von Informationen, die sich als diskrete Einheiten auffassen lassen, in relativ regelmäßigen Abständen publiziert werden, mittels Uniform Resource Identifier (URI) auf eine Web-Ressource verweisen sollen und mit dem Aufbau aus Titel, Kurzbeschreibung, Entstehungsdatum sowie einigen urheberrechtlichen Angaben versehen werden.

Vorreiter Amazon

Es überrascht wenig, dass das reichhaltige Informationsangebot der E-Business-Riesen Amazon und Ebay schon früh als Quelle für mögliche RSS-Dienste entdeckt wurde. Amazon ergriff die Initiative und bietet etwa Bestseller-Listen von Büchern und DVDs als RSS-Feed an. Findige Entwickler nutzten das Web-Service-API von Ebay, um Interessenten über Angebote beim Online-Auktionshaus per RSS auf dem Laufenden zu halten. Zudem entwickeln eine Reihe kleiner Anbieter eine Vielzahl von RSS-Services. Technorati (http://www.technorati.com) bietet Betreibern von Websites an, mittels Web-Crawler herauszufinden, wer im Web per Hyperlink auf sie verweist ("Find out who’s linking to you"). Das Ergebnis wird kontinuierlich per RSS zugestellt.

Die Fähigkeit von RSS, im Pull-Verfahren über Ereignisse zu informieren und auf Web-Ressourcen zu verlinken, erschließt ihm Einsatzmöglichkeiten auch hinter der Firewall. Da die meisten RSS-Reader in einstellbaren Intervallen die abonnierten Quellen abrufen, könnten Mitarbeiter damit auf neue Einträge im Intranet hingewiesen werden. Eine weitere Anwendung bestünde in Workflow-Systemen, wo sich Statusänderungen von Vorgängen per RSS statt per E-Mail publizieren ließen. Darüber hinaus können Programmierer mit dieser Technik über Änderungen in Code-Repositorys unterrichtet werden, die Benachrichtigung über Börsenkurse scheint eine genauso nahe liegende Anwendung wie die Paketverfolgung.

Zentrale Infoschaltstelle

Der Charme derartiger Ideen liegt darin, dass sich wegen der Einfachheit von RSS aus allen möglichen, sich regelmäßig ändernden Datenbeständen ziemlich leicht ein Feed erzeugen lässt. Mit der Zahl an Quellen steigt der Nutzen des RSS-Readers als zentrale Informationsschaltstelle. Die Aggregierung von heterogenen Nachrichten an einer Stelle erhöht die Effizienz bei der Bewältigung von großen Informationsmengen erheblich. Einige Frontends bieten Filter bereits auf Basis von Suchbegriffen an.

Foto: Joachim Wendler

Aus historischen Gründen existieren mehrere rivalisierende RSS-Varianten, von denen keine durch ein Standardisierungsgremium abgesegnet wurde. Der steigenden Beliebtheit von RSS tut dies aber keinen Abbruch, die konkurrierenden Versionen stellen in der praktischen Nutzung kein nennenswertes Hindernis dar. Eine Hürde stellen in der Praxis vielmehr ihre gemeinsamen Defizite dar.

Sam Ruby, Nestor des Atom-Projekts, das sich der Zukunft von RSS verschrieben hat, bemängelt eine Unterspezifzierung von RSS. Sie lasse Programmierer von Tools häufig im Unklaren über die korrekte Implementierung. Ein Manko sei der ungeklärte Umgang mit HTML-Markup in RSS-Daten. Im Rahmen des Atom-Projekts will eine Gruppe von Entwicklern keine weitere RSS-Version erarbeiten, sondern hat einen Nachfolger dieses Formats zum Ziel. Dieser soll die Beschränkungen von RSS überwinden und es ermöglichen, dass vollständige Dokumente übertragen werden.

Derzeit wird das "description"-Element häufig dazu missbraucht, um komplette Texte über RSS zu versenden. Das Atom-Projekt möchte neben einem Dokumentenformat auch eine Programmier-Schnittstelle definieren, über welche sich Atom-konforme Inhalte in Content-Management-Systeme (CMS) einspeisen beziehungsweise dort bearbeiten lassen. Primäre Zielgruppe sind vorerst die Anbieter von Weblog-Software.

RSS kommt dem Bedürfnis nach einem Standardformat entgegen, das eine möglichst allgemeine und einfache Grundstruktur für Dokumente beschreibt. Als solches eignet es sich für viele Anwendungen, bei denen sich Benutzer im Pull-Verfahren über Updates in Datenbeständen informieren wollen. Dazu zählen primär Nachrichten in Online-Publikationen, für die RSS ursprünglich entworfen wurde. Z

ahlreiche alternative Szenarien zeigen jedoch, dass der Phantasie bei der Nutzung von RSS kaum Grenzen gesetzt sind. Mit der steigenden Zahl an Feeds können RSS-Reader eine wichtige Aufgabe im Informations-Management übernehmen. Derzeit spielt RSS in Nischen wie etwa bei Weblogs eine wesentliche Rolle bei der Informationsverteilung. Bei etablierten CMS-Herstellern und vielen Anwenderunternehmen fristet RSS ein Dasein als unterschätzte Technik. Die Unterstützung durch große Verlage und E-Business-Riesen wie Amazon könnte dies bald ändern.

RSS für Programmierer
Entwickler, die RSS-Daten in ihren Programmen verarbeiten wollen, müssen dafür nicht auf einen XML-Parser zurückgreifen. Dies wäre angesichts der verschiedenen RSS-Versionen eine mühevolle Aufgabe. Vielmehr stehen für fast alle populären Programmiersprachen Bibliotheken zur Verfügung, die den Zugriff auf mehrere RSS-Typen über eine einheitliche High-Level-Programmier-Schnittstelle erlauben. Hier einige Beispiele:

Java http://www.peerfear.org/rss/permalink/2003/11/10/

Perl http://search.cpan.org/~kellan/XML-RSS-1.02/lib/RSS.pm PHP magpierss.sourceforge.net

Python http://diveintomark.org/projects/feed_parser