Web

Neuer Twitter-Index

Jeder Tweet ist jetzt suchbar

Thomas Cloer war viele Jahre lang verantwortlich für die Nachrichten auf computerwoche.de.
Er sorgt außerdem ziemlich rund um die Uhr bei Twitter dafür, dass niemand Weltbewegendes verpasst, treibt sich auch sonst im Social Web herum (auch wieder bei Facebook) und bloggt auf teezeh.de. Apple-affin, bei Smartphones polymorph-pervers.
Twitter hat es geschafft: Es gibt jetzt einen Index aller seit 2006 abgesetzten Tweets.

Die technische Umsetzung stellte eine nicht unerhebliche Herausforderung dar, wie man einem Post im Engineering Blog des Kurznachrichtendienstes entnehmen kann: Die Suche indexiert demnach derzeit etwa eine halbe Billion Dokumente und liefert trotzdem Ergebnisse mit einer durchschnittlichen Latenz von weniger als 100 Millisekunden. Ausprobieren kann man das Ganze in der Erweiterten Suche - etwa mit der Suche nach "New Years" im Zeitraum vom 30. Dezember 2006 bis 2. Januar 2007.

Twitter-Mitgründer Biz Stone mit Servern (die nichts mit dem beschriebenen Index zu tun haben)
Twitter-Mitgründer Biz Stone mit Servern (die nichts mit dem beschriebenen Index zu tun haben)
Foto: Twitter

Twitter hatte zuvor schon einen Echtzeit-Index. Dieser wird in Clustern mit fixer Größe betrieben und vollständig im RAM vorgehalten. Der neue, volle Index ist allerdings mehr als 100 Mal so groß wie der Real-Time-Index; ihn im Arbeitsspeicher vorzuhalten wäre viel zu teuer, als Kompromiss lagert er hauptsächlich auf SSDs. Das von Twitter entworfene System besteht aus einer Pipeline für Datenaggregation und Vorverarbeitung, einem Inverted Index Builder sowie Earlybird-Shards und -Roots.

Tweets werden jeweils tageweise gebatcht verarbeitet. Das ermöglicht erstens ein inkrementelles Aufbauen des Index und zweitens eine massive Parallelisierung auf Hadoop, was einen gelegentlichen vollständigen Neuaufbau (etwa nach Hinzufügen neuer Felder oder einer Änderung der Tokenisierung) ermöglicht. Weitere Details können Interessierte dem oben verlinkten Blogpost entnehmen.