RSS ist mehr als nur Headline-Service

Wunderwaffe gegen die Informationsflut?

06.02.2004
MÜNCHEN (ws) - Bei "Rich Site Summary" (RSS) handelt es sich eigentlich nur um ein einfaches XML-Dokumentenformat. Es war ursprünglich für die Verbreitung von Schlagzeilen gedacht, findet nun aber immer neue Anwendungsgebiete. RSS-Tools könnten daher bald zu Informationsschaltstellen werden, denn im Gegensatz zu E-Mail leiden RSS-Feeds nicht unter Spam.

Als XML in der zweiten Hälfte der 90er Jahre seinen Siegeszug antrat, erwarteten viele Anhänger dieser Technik, dass sie früher oder später HTML verdrängen würde. Dahinter stand der Wunsch nach intelligenten Websites, welche die Bedeutung von Inhalten durch entsprechende Kennzeichnungen (Markups) ausweisen. HTML dient fast ausschließlich der Darstellung von Web-Seiten und gibt kaum Aufschluss über deren Inhalte.

Die Vision eines XML-Web war verbunden mit der Aussicht auf neuartige Anwendungen. So sollten Suchmaschinen unter diesen Bedingungen mehr bieten können als bloß Volltextrecherche. Programme könnten in die Lage versetzt werden, gezielt Daten aus Web-Seiten zu extrahieren. Anstatt etwa Wetter- oder Börsendaten aus dem Dickicht von HTML-Tabellen zu filtern, ließen sich derartige Informationen direkt abrufen.

Bis dato freilich gibt es keine Anzeichen dafür, dass HTML gegenüber XML an Bedeutung verliert. Es bleibt weiterhin das dominierende Darstellungsformat des Web, auch wenn alle modernen Browser XML-Dokumente mit Hilfe von Cascading Stylesheets (CSS) gefällig präsentieren können. Konkurrenz kommt für bestimmte Anwendungszwecke eher noch von proprietären Technologien wie "Flash" oder "PDF".

Dennoch bleibt der Wunsch bestehen, Web-Inhalte in Form konsistenter Daten maschinell verarbeiten zu können und sie nicht erst von Layoutinformationen befreien zu müssen. Diesem Bedürfnis begegneten relativ bald Web-Services, die mit Soap ein Protokoll auf Basis von HTTP und XML definieren. Allerdings folgen Web-Services stark dem Muster entfernter Prozeduraufrufe (RPCs), die sich besonders für Enterprise Application Integration (EAI) eignen. Web-Services definieren zudem primär Programmier-Schnittstellen, indem sie (etwa mittels der Web Services Description Language) Parameter und Datentypen für Methodenaufrufe beschreiben. Sie legen sich aber nicht auf irgendwelche Standardformate für die Nutzlast der übertragenen Daten fest.

Formatstruktur einfach gehalten

Solche existieren für viele Arten von Geschäftsdokumenten, etwa Bestellungen, Auftragsbestätigungen, Rechnungen oder Warenkataloge. Ihre Definition obliegt typischerweise Branchenverbänden oder Standardisierungsgremien. Beispiele dafür sind etwa Rosetta.net, cXML oder BMECat. Ihre Nutzung ist auf klar definierte Aufgaben bei der automatischen Abwicklung von Geschäftsprozessen eingeschränkt. Auch RSS fällt in die Kategorie der (zwar nicht offiziell) standardisierten Dokumentformate. Aber im Gegensatz zu den vorher genannten Beispielen fällt seine Struktur ziemlich einfach aus und wurde zudem sehr allgemein gehalten. In den meisten Fällen werden RSS-Daten nicht über Soap versandt, sondern direkt über HTTP. Dieses Verfahren firmiert unter der Bezeichnung Representational State Transfer (REST).

Der Einsatz von RSS beschränkte sich ursprünglich auf einfache Fälle von Syndication, also den Austausch von Web-Inhalten. Netscape versuchte Site-Betreiber davon zu überzeugen, Schlagzeilen ihrer Web-Seiten auf diese Weise bereitzustellen, damit sie in das Portal My Netscape eingebunden werden können. Die Nutzung aller RSS-Varianten konzentriert sich bis dato auf derartige Headline-Services. Dabei transportieren sie im Allgemeinen nicht das gesamte Dokument, sondern nur einige beschreibende Informationen und verweisen ansonsten auf die HTML-Version der Site des Anbieters. RSS-Dateien dienen aber heute nicht mehr nur als Input für einige große Internet-Portale, sondern werden von interessierten Anwendern direkt abgerufen. Dazu benötigen sie entsprechende Client-Software, so genannte RSS-Reader. Das Angebot (http://www.google.de/search?q=RSS-Reader) an solchen Programmen ist mittlerweile unüberschaubar, die meisten davon sind frei erhältlich.

Anwender bestimmt die Quellen selbst

Ihren Wert entfalten diese Frontends vor allem dadurch, dass sie Daten im RSS-Format aus verschiedenen Quellen ("RSS-Feeds") unter einer Oberfläche zusammenführen. Sie dienen damit als Aggregatoren für eine Vielzahl an Informationen, die sich dort schnell überschauen oder durchsuchen lassen. Ein wesentlicher Aspekt dieses Modells besteht darin, dass der Anwender selbst die Herkunft der Informationen bestimmt, mit denen er seinen Reader füttert. Es folgt damit im Gegensatz zu E-Mail dem Pull-Ansatz und vermeidet so unerwünschte Inhalte ungeklärten Ursprungs. Die enorme Zunahme von Spam-Mails lässt Marketing-Experten darüber nachdenken, ob RSS-Feeds die bessere Alternative zu Newslettern sein können.

Es liegt auf der Hand, dass der Nutzen von RSS mit der Zahl verfügbarer Quellen steigt. Lange Zeit hatte RSS nur geringe Bedeutung und wurde erst durch die stark steigende Zahl an Weblogs populär. Deren Betreiber ("Blogger") produzieren meistens nur relativ wenige eigene Inhalte und konzentrieren sich darauf, auf Beiträge anderer Publikationen hinzuweisen oder diese zu kommentieren. Zu diesem Zweck müssen sie sich in kurzer Zeit einen Überblick über zahlreiche Nachrichten aus vielen Quellen verschaffen. RSS-Reader gehören daher schon länger zur Standardausrüstung von Bloggern.

Bei Weblogs zählen RSS-Feeds zu den Basisfunktionen. Herkömmliche Publikationen hingegen zögerten lange, bis sie ihre Schlagzeilen über RSS veröffentlichten. Im deutschsprachigen Raum erkannten Ende 2003 die großen Nachrichtenmagazine "Spiegel", "Stern" und die "Zeit" die steigende Bedeutung von RSS an. Seit Anfang des Jahres bietet auch die COMPUTERWOCHE (http://www.computerwoche.de/rss/news.xml) einen RSS-Feed für ihre IT-Nachrichten an. Die Zurückhaltung der großen Verlage erklärt sich neben Zweifeln am Geschäftsmodell auch damit, dass die meisten Content-Management-Systeme die Ausgabe von Inhalten im RSS-Format nicht von Haus aus unterstützen.

Durch die zunehmende Zahl an RSS-Angeboten unter den Online-Publikationen hat die Technik derzeit ihren stärksten Zuwachs in ihrem angestammten Bereich. Mit zunehmender Popularität erschließt sich RSS aber immer mehr Einsatzgebiete jenseits von Headline-Services. Aufgrund seiner allgemein gehaltenen Definition eignet es sich prinzipiell für den Transport von allen Informationen, die sich als diskrete Einheiten auffassen lassen, in relativ regelmäßigen Abständen publiziert werden, mittels Uniform Resource Identifier (URI) auf eine Web-Ressource verweisen sollen und mit dem Aufbau aus Titel, Kurzbeschreibung, Entstehungsdatum sowie einigen urheberrechtlichen Angaben versehen werden.

Es überrascht wenig, dass das reichhaltige Informationsangebot der E-Business-Riesen Amazon und Ebay schon früh als Quelle für mögliche RSS-Dienste entdeckt wurde. Amazon ergriff in dieser Hinsicht selbst die Initiative und bietet unter anderem Bestseller-Listen von Büchern und DVDs als RSS-Feed an. Findige Entwickler nutzten das Web-Service-API von Ebay, um Interessenten über Angebote beim Online-Auktionshaus per RSS auf dem Laufenden zu halten.

Darüber hinaus entwickeln eine Reihe kleiner Anbieter eine Vielzahl von RSS-Services. Technorati (http://www.technorati.com/) etwa bietet Betreibern von Websites an, mittels Web-Crawler herauszufinden, wer im Web per Hyperlink auf sie verweist ("Find out who''s linking to you"). Das Ergebnis wird kontinuierlich per RSS zugestellt.

Andere Dienstleister wiederum erbringen technische Leistungen, die sich stärker auf RSS selbst konzentrieren. So spezialisiert sich die Suchmaschine "Feedster (http://www.feedster.com/)" auf das Indizieren und Auffinden von RSS-Feeds. Andere kostenlose Angebote wie der Feed-Validator (http://feedvalidator.org/) überprüfen etwa, ob RSS-Daten syntaktisch korrekt sind.

Einsatz hinter der Firewall

Die Fähigkeit von RSS, im Pull-Verfahren über bestimmte Ereignisse zu informieren und dabei auf Web-Ressourcen zu verlinken, erschließt ihm eine Reihe von Einsatzmöglichkeiten auch hinter der Firewall. Da die meisten RSS-Reader in einstellbaren Intervallen die abonnierten Quellen abrufen, könnten Mitarbeiter damit auf neue Einträge im Intranet hingewiesen werden. Eine weitere Anwendung bestünde in Workflow-Systemen, wo sich Statusänderungen von Vorgängen per RSS statt per E-Mail publizieren ließen. Darüber hinaus können Programmierer mit dieser Technik über Änderungen in Code-Repositorys unterrichtet werden ("Change-Log"), die periodische Benachrichtigung über Börsenkurse scheint eine genauso nahe liegende Anwendung wie die Paketverfolgung.

Der Charme derartiger Ideen liegt darin, dass sich wegen der Einfachheit von RSS aus allen möglichen, sich regelmäßig ändernden Datenbeständen ziemlich leicht ein Feed erzeugen lässt. Mit der Zahl an Quellen steigt der Nutzen des RSS-Readers als zentrale Informationsschaltstelle. Die Aggregierung von heterogenen Nachrichten an einer Stelle erhöht die Effizienz bei der Bewältigung von großen Informationsmengen erheblich. Einige Frontends bieten schon heute Filter auf Basis von Suchbegriffen an, zukünftige Versionen dürften noch intelligentere Mechanismen zur Bändigung der Informationsflut enthalten.

Kaum Probleme durch Konkurrenzversionen

Aus historischen Gründen (siehe Kasten "Die Geschichte von RSS") existieren mehrere rivalisierende RSS-Varianten, von denen keine durch ein Standardisierungsgremium abgesegnet wurde. Der steigenden Beliebtheit von RSS tut dies aber keinen Abbruch, die konkurrierenden Versionen stellen in der praktischen Nutzung kein nennenswertes Hindernis dar. Sie belasten primär Entwickler von RSS-Tools, die sich aber durch entsprechende Bibliotheken von den RSS-Details abschirmen können (siehe Kasten "RSS für Programmierer"). Eine Hürde stellen in der Praxis weniger die Differenzen der RSS-Versionen dar als ihre gemeinsamen Defizite. Sam Ruby, Nestor des Atom-Projekts, das sich der Zukunft von RSS verschrieben hat, bemängelt eine Unterspezifzierung von RSS. Sie lasse Programmierer von Tools häufig im Unklaren über die korrekte Implementierung. Ein Manko dabei sei der ungeklärte Umgang mit HTML-Markup in RSS-Daten. Im Rahmen des Atom-Projekts will eine Gruppe von Entwicklern keine weitere RSS-Version erarbeiten, sondern hat einen Nachfolger dieses Formats zum Ziel. Dieser soll nach Bekunden des Projekts die Beschränkungen von RSS überwinden, die seinem Ursprung als Syndication-Format für News geschuldet sind. Eine wesentliche Erweiterung soll darin bestehen, dass zukünftig nicht nur Kurzbeschreibungen, sondern vollständige Dokumente übertragen werden. Derzeit wird das "description"-Element häufig dazu missbraucht, um komplette Texte über RSS zu versenden. Das Atom-Projekt möchte neben einem Dokumentenformat auch eine Programmier-Schnittstelle definieren, über welche sich Atom-konforme Inhalte in Content-Management-Systeme (CMS) einspeisen beziehungsweise dort bearbeiten lassen. Primäre Zielgruppe sind vorerst die Anbieter von Weblog-Software, allerdings könnten bei Entstehen eines entsprechenden Angebots an Atom-kompatiblen Autorenwerkzeugen auch die CMS-Hersteller nachziehen.

Fazit: Der Phantasie keine Grenzen gesetzt

RSS kommt dem Bedürfnis nach einem Standardformat entgegen, das eine möglichst allgemeine und einfache Grundstruktur für Dokumente beschreibt. Als solches eignet es sich für viele Anwendungen, bei denen sich Benutzer im Pull-Verfahren über Updates in Datenbeständen informieren wollen. Dazu zählen primär Nachrichten in Online-Publikationen, für die RSS ursprünglich entworfen wurde. Zahlreiche alternative Szenarien zeigen jedoch, dass der Phantasie bei der Nutzung von RSS kaum Grenzen gesetzt sind. Mit der steigenden Zahl an Feeds können RSS-Reader eine wichtige Aufgabe im Informations-Management übernehmen. Derzeit spielt RSS in Nischen wie etwa bei Weblogs eine wesentliche Rolle bei der Informationsverteilung. Bei etablierten CMS-Herstellern und vielen Anwenderunternehmen fristet RSS ein Dasein als unterschätzte Technik. Die Unterstützung durch große Verlage und E-Business-Riesen wie Amazon könnte dies bald ändern.

RSS für Programmierer

Entwickler, die RSS-Daten in ihren Programmen verarbeiten wollen, müssen dafür nicht auf einen XML-Parser zurückgreifen. Dies wäre angesichts der verschiedenen RSS-Versionen eine mühevolle Aufgabe. Vielmehr stehen für fast alle populären Programmiersprachen Bibliotheken zur Verfügung, die den Zugriff auf mehrere RSS-Typen über eine einheitliche High-Level-Programmier-Schnittstelle erlauben.

Hier einige Beispiele:

Java:

http://www.peerfear.org/rss/permalink/2003/11/10/FeedParserAnRSSParserAPIForJava

Perl:

http://search.cpan.org/~kellan/XML-RSS-1.02/lib/RSS.pm

PHP:

http://magpierss.sourceforge.net

Python:

http://diveintomark.org/projects/feed_parser

Die Geschichte von RSS

Da es sich bei RSS nicht um eine einheitliche Technik, sondern um einen Sammelbegriff für verschiedene Formate handelt, reklamieren mehrere Firmen die Ehre der Urheberschaft für sich. Eine Interpretation sieht die Ursprünge von RSS in Apples "Meta Content Framework", das 1995 publiziert wurde. Von dort habe der Weg über Microsofts "Channel Definition Format" (CDF) zum "RDF Profile" von My Netscape geführt.

Andere setzen hingegen den Ursprung von RSS mit Dave Winers Format "Scripting News" im Jahr 1997 an. Das habe Netscape für die Entwicklung von RSS 0.90 aufgegriffen. Diese Version basierte allerdings im Gegensatz zu Scripting News auf dem W3C-Standard Resource Description Framework (RDF). Winer, Begründer der Firma Userland und kontroverse Figur in der XML-Szene, konterte Netscapes RSS mit RSS 0.91. Hauptmotiv für diesen Gegenentwurf war Winers Abneigung gegen komplexe Standards wie RDF, die nach seiner Meinung von großen Herstellern in Gremien ausgeheckt würden und für kleinere Firmen und Endanwender kaum nutzbar seien.

Im Jahr 2000 veröffentlichte die RSS-DEV Working Group ihre Version 1.0 (http://web.resource.org/rss/1.0) von RSS. Sie verfolgte ein modulares Design, basierte wieder auf RDF und unterstützte im Gegensatz zu RSS 0.91 XML-Namespaces. Sie war indes mit keiner der Vorgängervarianten kompatibel. RSS steht im Fall von 1.0 für "RDF Site Summary" während es sonst als Abkürzung für "Rich Site Summary" oder "Really Simple Syndication" gilt.

Dave Winer sah sich durch die neue RDF-basierende Version herausgefordert und antwortete mit der RDF-freien Ausführung 0.92, die er über die Schritte 0.93 und 0.94 in kurzer Zeit bis RSS 2.0 (http://blogs.law.harvard.edu/tech/rss) vorantrieb. Diese ist zwar abwärtskompatibel mit 0.91, nicht aber mit 1.0. Als Reaktion auf die zunehmende Kritik an Winers eigenmächtigem Vorgehen stellte er RSS 2.0 unter die Lizenz des Berkman Center an der Harvard Law School.

Größere praktische Bedeutung haben mittlerweile nur noch die Versionen 0.91, 1.0 und 2.0. Die älteste Ausführung eignet sich aber nur für einfache Anwendungen und verliert an Bedeutung.

Die Entwicklung von RSS ist damit allerdings noch nicht abgeschlossen. Im Rahmen des Atom-Projekts (http://www.intertwingly.net/wiki/pie/FrontPage) (ursprünglich "Echo") hat sich ein Team um den bei IBM beschäftigten Open-Source-Entwickler Sam Ruby das Ziel gesetzt, nicht nur ein erneut RDF-freies Nachfolgeformat für RSS zu erarbeiten. Darüber hinaus soll ein zusätzliches API erlauben, solchermaßen strukturierte Texte an Content-Management-Systeme zu übertragen. Das Vorhaben richtet sich primär an Anbieter von Weblog-Software, wo es das von Dave Winer spezifizierte Blogger-API ersetzen könnte.