Unkonventionelle Computerforschung in Massachusetts

Verrueckte Ideen fuehren zu bahnbrechenden Erfindungen

19.03.1993

Die Ideen und Projekte, die am Media Lab entwickelt werden, sind sicher sehr interessant, und ich werde darueber auch einiges berichten. Was mir allerdings noch wichtiger scheint als einzelne Projekte, ist der unkonventionelle Denkstil, den wir am Media Lab pflegen.

An technischen Hochschulen machen die Leute leider allzu haeufig nur kleine Denkschritte. Fuer echte Durchbrueche braucht es aber den Mut, auch einmal Ideen auszuprobieren, die auf den ersten Blick voellig verrueckt erscheinen. Mich faszinieren solche Ideen, und ich setze alles daran, dieses Denken bei uns gezielt zu foerdern.

Wie kommt man auf unkonventionelle Ideen? Am besten erzaehle ich dazu ein Beispiel. Vor zehn Jahren war maschinelle Spracherkennung am Media Lab das grosse Thema. Spracherkennungssysteme reagieren sehr empfindlich auf Zeichen von Stress in der Stimme des Sprechers - das ist uebrigens auch heute noch so.

System sagt "aha" in den Sprechpausen

Ein System, das unter idealen Bedingungen perfekt funktioniert, kann voellig aus dem Konzept geraten, wenn es eine Veraenderung in der Stimme des Sprechers registriert - eine Veraenderung notabene, die ein menschlicher Zuhoerer nicht unbedingt feststellt. Das erlebten wir einige Male, als wir das System unseren Geldgebern demonstrieren wollten: Die Entwickler machten sich verstaendlicherweise Sorgen, dass bei der Vorfuehrung etwas schiefgehen koennte, und diese Nervositaet schlug sich in ihrer Stimme nieder. Das Resultat: Die Erkennungsrate war sehr viel schlechter als sonst, und die Enttaeuschung bei Forschern wie Sponsoren gross.

Ich erzaehlte das jeweils meinen neuen Assistenten, und vor fuenf Jahren hatte einer eine glaenzende Idee: Er schrieb ein Programm, das die Pausen beim Sprechen registriert und das System veranlasst, in diesen Pausen "aha" zu sagen, und zwar in unterschiedlichen Klangfaerbungen. Und was geschah? Die scheinbar unbedeutenden Rueckmeldungen beruhigten die Sprecher so sehr, dass die Erkennungsrate des Systems kraeftig anstieg!

Eine Erfolgsstory? Das kommt darauf an, wie man die Sache sieht. Die Tagespresse jedenfalls reagierte veraergert: "Ein weiteres Beispiel", schrieb ein Reporter, "wie das Media Lab Computerbenutzer zum Narren haelt, indem es ihnen suggeriert, ein System verstehe gesprochene Sprache, nur weil es laufend ´aha´ sagt."

Natuerlich hatte der Reporter etwas ganz Elementares uebersehen, das jedermann vom Telefonieren kennt: Wenn der Gespraechspartner nicht mindestens alle 30 Sekunden etwas sagt, wird man unruhig und fragt, ob er noch am Draht sei. Die Aeusserung "aha" bedeutet weder "ja" noch "nein", sondern lediglich "ich bin noch da". Das unscheinbare Woertchen ist also ein Kommunikationsprotokoll. Und zwar eines, das die meisten von uns brauchen.

Weshalb ist vorher niemand auf die Idee gekommen, dass das auch bei der maschinellen Spracherkennung eine Rolle spielen koennte? Weil die Spezialisten im inkrementellen Denken verhaftet waren.

Die CD-Spieldauer laesst sich verlaengern

Sie waren nicht an Sprachkommunikation interessiert, sondern nur an den technischen Fragen, wie man das akustische Signal in Buchstaben umsetzen koenne. Das mag zwar auch ein interessantes Problem sein, aber es hat nur wenig mit dem zu tun, was ablaeuft, wenn zwei Menschen miteinander sprechen.

Diese Interaktion spielt sich auf einer anderen Ebene ab. Erst wenn wir auch dort Einblick haben, wird es uns gelingen, Computer interessanter und brauchbarer zu machen.

Nun ein paar Schlaglichter auf neuere Projekte des Media Lab. Auf dem Gebiet der Musik zum Beispiel befassen wir uns nicht nur mit Kreation und Kognition, wie man uns immer wieder vorwirft, sondern auch mit beinharter Technologie.

Seit Jahren versuchen die Hersteller von Compact Discs, die Spieldauer der glaenzenden Scheiben zu verlaengern: von einer auf zwei, vier oder acht Stunden, je nach Projekt. Zum Beispiel koennte man die Signale geschickter codieren oder statt einem roten einen blauen Laserstrahl verwenden. Prototypen zeigen, dass das auch funktioniert. Aber das Vorgehen entspringt typisch inkrementalem Denken.

Da ist mir die Idee viel sympathischer, die einer meiner Studenten hatte. Statt Musik als akustische Information abzuspeichern, meinte er, waere es doch viel geschickter, die mechanischen Bewegungsablaeufe bei ihrer Erzeugung festzuhalten. Theoretisch liessen sich so naemlich ein paar Tausend Stunden Musik auf einer CD speichern.

Tatsaechlich haben wir am Media Lab einen Boesendorfer- Konzertfluegel, der mit einem ausgekluegelten Sensorsystem ausgeruestet ist, das saemtliche Tastenbewegungen minutioes aufzeichnet. Damit koennen wir jederzeit Musik abspielen, die exakt so toent wie bei der urspruenglichen Aufnahme.

Und diese originalgetreue Konserve braucht etwa 5000mal weniger Speicherplatz als herkoemmlich digitalisierte Musik! Das ganze Lebenswerk von Johann Sebastian Bach, rund 50 Millionen Bit, haette so auf einem Bruchteil einer CD Platz. Uebrigens hat auch Shakespeare rund 50 Millionen Bit geschrieben, was uns eine Vorstellung davon gibt, wieviel Output ein kreativer Mensch zu leisten imstande ist.

Ob die Idee, Musik so zu speichern, kommerziell realisiert wird und ob die CD-Kapazitaet dann 2000 oder 5000 Stunden sein wird, ist eigentlich irrelevant. Wichtig ist, dass die Verarbeitung musikalischer Signale einmal von einer ganz neuen Seite her betrachtet wird.

Ein radikales Umdenken waere auch in der TV-Technologie noetig. Leider stehen dem nationale und auch Firmeninteressen, die teilweise historische Gruende haben, im Wege. Wir meinen, dass in zehn Jahren ein Fernsehapparat und ein PC ein und dasselbe Geraet sein werden. Um das zu erreichen, muss man aber mehr tun als nur die Bildschirmaufloesung verbessern - einmal abgesehen davon, dass ueberhaupt nicht feststeht, dass die Zuschauer nach besserer Bildaufloesung lechzen. Fragt man naemlich die Leute auf der Strasse, was ihnen am Fernsehen nicht passe, so sagt sicher keiner "die Bildaufloesung", sondern die meisten "die Programme".

Es hapert noch bei der Bildqualitaet

Bleiben wir trotzdem einen Moment bei der Bildqualitaet, denn auch da hapert es betraechtlich. Fernsehzuschauer in Europa empfangen Bilder, die aus 625 Zeilen aufgebaut sind, und zwar unabhaengig davon, wie gross ihr TV-Schirm ist. Jeder Drucker kann bestaetigen, dass das voellig absurd ist: Wenn er ein Bild doppelt so gross macht, hat es doppelt so viele Zeilen beziehungsweise viermal so viele Punkte. Auch bei den PCs haelt dieses Denken (Punkte pro Inch, nicht Punkte pro Bild) Einzug: Grossbildschirme zeigen wesentlich mehr Punkte als ihre kleineren Brueder. Bis auch die Fernsehkonstrukteure einsehen, dass sie ihre Bilder skalierbar machen muessen, wird es allerdings noch eine Weile dauern - aber kommen wird es ganz bestimmt.

Ein anderes Fernsehprojekt am Media Lab hat zum Ziel, TV-Signale so aufzubereiten, dass man sie ueber normale Telefonleitungen senden kann. Auch wenn das viele fuer unmoeglich halten: Wir haben gezeigt, dass es geht - selbst wenn die Leitungen gestoert sind. Wie? Indem wir Bildelemente, die relativ stabil bleiben, von den bewegten trennen und beide Teile separat uebermitteln. So kann man beispielsweise das unbewegte Zimmer in einem Film als Standbild im TV-Apparat speichern und braucht dann nur noch die Bilder der vom Hintergrund getrennten Schauspieler zu uebermitteln, was sehr viel weniger Leitungskapazitaet in Anspruch nimmt. Einmal mehr ein unkonventioneller Weg, ein Problem anzupacken.

Ist die Verkabelung mit Glasfasern bis zum Endbenutzer einmal vollzogen, oeffnen sich ganz neue Moeglichkeiten, zum Beispiel die, TV-Sendungen im Zeitraffer zu uebermitteln. Man koennte Videomaterial, das in Echtzeit stundenlang laeuft, in wenigen Sekunden uebermitteln und im Empfangsgeraet speichern. Damit koennte der Benutzer auf ganz neue Art umgehen. Er koennte sich zum Beispiel die Nachrichten ansehen und dazu einem Spezialisten im Fernsehstudio Fragen stellen - das Kabel waere nach der Uebermittlung ja frei fuer solche Formen der Kommunikation.

Dass die Technologiestrategen bei der Wahl ihrer Mittel nicht immer sehr weise sind, zeigt das folgende Beispiel: Seit einigen Jahren ermoeglicht es ein Netz von Satelliten, mit einem Spezialempfaenger irgendwo auf der Erde auf Tastendruck den eigenen Standort zu bestimmen. Dieses sogenannte Global Positioning System (GPS) ist in der Zwischenzeit so weit eingefuehrt, dass die Hersteller der Empfangsgeraete bereits Systeme fuer die Navigation im Auto verkaufen. Zwischen Fahrer- und Beifahrersitz ist ein kleiner Bildschirm installiert, der eine Karte der Umgebung zeigt, wo man gerade durchfaehrt.

Tonkanal fuer die Fahrzeugnavigation

Fuer die Navigationshilfe in einem Fahrzeug, das sich bewegt, ist dieser Ansatz voellig verfehlt: Wenn der Fahrer seinen Blick wiederholt von der Strasse auf den Bildschirm und zurueck richten muss, ist das nicht nur anstrengend, sondern auch gefaehrlich, vor allem fuer Brillentraeger und aeltere Leute, die nicht mehr so rasch fokussieren koennen wie junge.

Fuer die Fahrzeugnavigation sollte besser ein Kommunikationskanal zum Einsatz kommen, den man nicht zum Steuern des Autos braucht, und das ist eindeutig der Tonkanal. Die elektronische Navigationshilfe sollte einen ortskundigen Passagier simulieren, der nicht nur die Gegend kennt, sondern auch weiss, wie man vernuenftige Fahranweisungen gibt - etwas, das nur wenige Leute gut koennen. Sprachausgabe ist weniger ein technisches Problem als vielmehr eines der Auswahl der richtigen Worte.

Wenn sich der Computer ueber Zahlen und Texte und gelegentlich auch ueber Bild oder Ton mitteilt, mag das recht eindruecklich sein. Aber damit ist ja nur ein Teil unserer Sinne angesprochen. Kommunikation zwischen Menschen ist viel komplexer, und diesem Vorbild sollten kuenftige Computer sehr viel naeher kommen.

Ein Beispiel: Wir sitzen mit Menschen am Tisch, deren Sprache uns fremd ist, und einer von ihnen fragt, ob er Wein nachschenken solle. Das verstehen wir ohne weiteres. Eine Diskussion ueber Politik hingegen koennen wir nicht verfolgen, da kriegen wir kaum ein Wort mit. Weshalb? Natuerlich ist die politische Diskussion das kompliziertere Thema. Aber das allein macht den grossen Unterschied nicht aus. Mit entscheidend sind vielmehr auch die Kommunikationskanaele, auf denen sich Verstaendnis entwickeln kann. Wer fragt, ob mehr Wein gewuenscht sei, unterstuetzt die akustische Mitteilung in der Regel durch entsprechende Gestik und Mimik: Die Hand zeigt auf die Weinflasche, die Augen sind auf das leere Glas gerichtet, und das Ganze wird begleitet durch einen Gesichtsausdruck, der gleichermassen fragend wie einladend ist. Es gehen so viele Signale gleichzeitig aus, dass man auf das akustische sogar verzichten koennte.

Ganz anders bei der politischen Diskussion: Da sind die Gespraechsgegenstaende physisch nicht praesent - keiner kann auf sie zeigen. Die Informationsvermittlung bleibt damit fast ausschliesslich auf akustische Mitteilungen beschraenkt, und das ist fuer den Sprachunkundigen viel zuwenig.

Genauso eingleisig funktioniert in der Regel die Kommunikation mit dem Computer: Man tippt etwas auf der Tastatur ein oder waehlt etwas mit der Maus an - fertig. Zwar gibt es jetzt allmaehlich auch Systeme, die auf das gesprochene Wort hoeren - aber Gestik und Mimik des Anwenders sind bisher noch nie einbezogen worden. Voellig zu unrecht: Unsere Augen zum Beispiel sind naemlich nicht nur gute Empfaenger, sondern auch hervorragende Sender von Nachrichten. Das weiss jeder, der schon einmal einen Vortrag besucht hat und vom Referenten mit den Augen fixiert wurde: Man merkt es sofort - selbst in der hintersten Reihe des Vortragssaals. Wie diese Nachrichtenuebertragung funktioniert, ist heute noch ein Raetsel. Sicher ist nur, dass weder Sender noch Empfaenger dafuer trigonometrische Berechnungen anstellen muessen.

Die Loesung dieses Raetsels koennte die Grundlage fuer einen intuitiveren, jedenfalls einen sehr viel direkteren Zugang zur Maschine Computer sein. Ob dies dann zu effizienteren und vor allem sinnvolleren Anwendungen fuehren wuerde, steht allerdings auf einem anderen Blatt.

Wie wird die Informationstechnologie in zehn Jahren aussehen? Bisher haben die Medienspezialisten stets angenommen, der direkte Computeranwender sei ein Mensch. Wir vom Media Lab sehen das ein wenig anders: Wir glauben, dass es geradesogut auch Maschinen sein koennen - Maschinen naemlich, die die Datenflut filtern. Ein solcher Apparat koennte zum Beispiel nachts fuer uns die - natuerlich elektronische - Zeitung lesen und am Morgen eine fuer uns massgeschneiderte Ausgabe praesentieren. Das waere vor allem deshalb praktisch, weil unsere Informationsbeduerfnisse eine Funktion von Zeit und Ort sind: Wenn wir am Montag frueh in der Kueche Kaffee schluerfen, interessieren uns bestimmt andere Themen als am Wochenende, wenn wir im Garten sitzen und keine dringenden Termine anstehen. Wie schoen waere es doch, fuer jede Gelegenheit die entsprechende Zeitung zu bekommen!

Auftraege an eine holografische Figur

Ueberhaupt werden wir in Zukunft sehr viel mehr Aufgaben an den Computer delegieren und die Maschine immer weniger selbst manipulieren. Wenn heute jemand in mein Buero kommt und mich nach der letzten Korrespondenz mit XY fragt, suche ich das Dokument bestimmt nicht eigenhaendig, indem ich mit der Maus in Festplattenverzeichnissen herumwuehle, sondern ich delegiere diese Aufgabe an eine Hilfskraft.

Nun kann ich mir gut vorstellen, dass diese Hilfskraft in Zukunft eine technische Einrichtung sein koennte: zum Beispiel eine holografische Figur, die im Buero steht und der ich Auftraege geben kann.

*Nicholas Negroponte ist Direktor des Media Lab am Massachusetts Institute of Technology. Sein Text ist die von Felix Weber uebersetzte und bearbeitete Fassung eines Vortrags vom 6. Februar 1992 an der ETH Zuerich.