Web

Neuer Twitter-Index

Jeder Tweet ist jetzt suchbar

19.11.2014
Von 
Thomas Cloer war Redakteur der Computerwoche.
Twitter hat es geschafft: Es gibt jetzt einen Index aller seit 2006 abgesetzten Tweets.

Die technische Umsetzung stellte eine nicht unerhebliche Herausforderung dar, wie man einem Post im Engineering Blog des Kurznachrichtendienstes entnehmen kann: Die Suche indexiert demnach derzeit etwa eine halbe Billion Dokumente und liefert trotzdem Ergebnisse mit einer durchschnittlichen Latenz von weniger als 100 Millisekunden. Ausprobieren kann man das Ganze in der Erweiterten Suche - etwa mit der Suche nach "New Years" im Zeitraum vom 30. Dezember 2006 bis 2. Januar 2007.

Twitter hatte zuvor schon einen Echtzeit-Index. Dieser wird in Clustern mit fixer Größe betrieben und vollständig im RAM vorgehalten. Der neue, volle Index ist allerdings mehr als 100 Mal so groß wie der Real-Time-Index; ihn im Arbeitsspeicher vorzuhalten wäre viel zu teuer, als Kompromiss lagert er hauptsächlich auf SSDs. Das von Twitter entworfene System besteht aus einer Pipeline für Datenaggregation und Vorverarbeitung, einem Inverted Index Builder sowie Earlybird-Shards und -Roots.

Tweets werden jeweils tageweise gebatcht verarbeitet. Das ermöglicht erstens ein inkrementelles Aufbauen des Index und zweitens eine massive Parallelisierung auf Hadoop, was einen gelegentlichen vollständigen Neuaufbau (etwa nach Hinzufügen neuer Felder oder einer Änderung der Tokenisierung) ermöglicht. Weitere Details können Interessierte dem oben verlinkten Blogpost entnehmen.