ReCaptcha: Das ist mal ein cooles Mash-up

25.05.2007
Captchas begegnen einem im Internet immer öfter. Das wollen Wissenschaftler der Carnegie Mellon University jetzt ausnutzen, um bei der Digitalisierung von Büchern zu helfen.

Falls Sie gerade mit dem Begriff "Captcha" nichts anfangen können: Das sind diese leicht verfremdeten oder verzerrten Bilder, aus denen man Buchstaben oder Zahlen herauslesen muss, um gegenüber einem Rechner zu beweisen, dass man ein Mensch ist und nicht irgendein böser Bot. Das Konzept wurde ebenfalls an der Carnegie Mellon entwickelt, nachdem Yahoo! angefragt und um eine Methode ersucht hatte, Spam-Rechner an der Einrichtung falscher E-Mail-Konten zu hindern.

ReCaptcha geht nun einen schlauen Schritt weiter: Statt zufälliger, vom Captcha zusammengewürfelter Zeichen wird dem zu überprüfenden Besucher ein Wort gezeigt, das von OCR-Software bei der Digitalisierung von Büchern nicht erkannt werden konnte. Und zwar zusammen mit einem "herkömmlichen" Captcha. Wer dieses richtig löst, dem traut man auch zu, das noch nicht korrekt texterfasst Wort herauszufinden. Zur Sicherheit wird ein solcher Begriff erst dann übernommen, wenn er dreimal identisch identifiziert wurde.

ReCaptcha wurde erst am Dienstag gestartet und ist bereits auf über 150 Websites im Einsatz, wie der Professor und "Executive Producer" Luis von Ahn mit Stolz verkündete. Allein gestern Vormittag wurden so 8000 Wörter digitalisiert. Dabei arbeitet Carnergie Mellon mit dem Internet Archive zusammen, das eine digitale Bibliothek kultureller Materialien erstellt und die "Wayback Machine" mit historischen Web-Momentaufnahmen betreibt.

ReCaptcha lässt sich über APIs in Webseiten einbinden. Entsprechende Software-Plug-ins gibt es als Open-Source-Pakete bei Google Code. (tc)