Mit dem Pentium-Prozessor entwickelt Intel "CRISC"-Prozessor

13.11.1992

Mit Spannung wird er erwartet, Intels neuer PC-Chip mit dem Namen "Pentium". Mit ihm will das Unternehmen einerseits die Familie der x86-Prozessoren erweitern, andererseits soll er aber auch mit einigen Traditionen dieser Chip-Familie Schluß machen. Eine Neuheit, ist die superskalare Architektur, die man bislang nur von RISC-Prozessoren kennt. Mit ihr soll der Pentium in der Lage sein, mehr als einen Befehl Takt auszuführen und mit vergleichbaren RISC-Chips in den Wettbewerb treten. Damit deutet sich aber auch ein klarer Trend zu einer Verschmelzung der Welten von RISC und CISC an. Michael Wojatzek* geht im folgenden Beitrag auf die bislang bekannten Charakteristika des Pentium ein.

Die Ankündigungspolitik der Intel Corp. bleibt spannend. Hatte es doch zunächst geheißen, der neue Prozessor werde Mitte November der Öffentlichkeit präsentiert. Im August wurde die Markteinführung aber auf das nächste Jahr verschoben. Immerhin hat Intel mittlerweile den Namen des künftigen Topmodells der PC-Herzstücke bekanntgegeben: Mit "Pentium" nimmt das Unternehmen Abschied von der altbewährten Zählweise in der x86-Familie, denn Nummern wie 386 oder 486 lassen sich nicht als Handelsmarke registrieren und schützen. So konnten diverse Chip-Cloner ihren Produkten ebenfalls Namen mit diesen Nummern geben. Nachdem der Marktführer den Clonern das Geschäft schon nicht verbieten kann, will er es ihnen wenigstens erschweren und benutzt in Zukunft Eigennamen. Die Abkehr von bekannter Benennungssystematik ist aber nicht die einzige Neuerung, mit der Intel beim Pentium in die vollen gehen will.

Eine neue Architektur und verbesserte Herstellungstechniken sollen dafür sorgen, daß der Pentium in Sachen Leistung mit der RISC-Konkurrenz mithalten kann.

Neue Runde im Glaubenskampf

Der alte Glaubenskrieg zwischen CISC und RISC scheint damit in eine neue Runde zu gehen. Eine Auffassung, die Vertreter des Unternehmens Intel übrigens nicht ganz teilen. Nach Intel-Auffassung hat man das einzig Richtige gemacht und die positiven Elemente beider Systemwelten miteinander kombiniert. Nur damit läßt sich sowohl eine Leistungssteigerung als auch die weitere Pflege der installierten Basis gewährleisten.

Die ersten RISC-Konzepte basierten auf der Annahme, daß man durch Reduzierung der Befehlssätze auf dem Chip eine gewisse Anzahl der Hardware-Aufgaben auf die Software verlagern und damit die Gesamtleistung der Rechner steigern könnte. So gesehen war bereits

Intels 4004 mit seinen 16 Befehlen ein RISC-Chip. Das lag aber nicht am RISC-Konzept, sondern daran, daß man Anfang der siebziger Jahre einfach nicht die nötige Anzahl von Transistoren auf dem Prozessor-Chip zur Verfügung hatte, um mehr Befehle zu integrieren.

Mit dem Prozessortyp "801" schuf die IBM Mitte der siebziger Jahre dann den ersten echten RISC-Prozessor. Dieser Chip war allerdings nicht für Computer geplant, sondern als Steuerchip in Telefon-Vermittlungsanlagen. Auf Basis dieses 801 entstand jedoch dann bis 1985 der RT-Prozessor, der zur CPU der 6150-RT-Workstations wurde und damit zum Ahnen der jetzigen RS/6000-Prozessoren der IBM.

Weitere Pionierarbeit in Sachen RISC leistete David Patterson an der Berkeley-Universität. Die Chips vom Typ RISC I und RISC II arbeiteten mit 31 beziehungsweise 39 Befehlen. Daraus entwickelte sich dann Ende der 70er Jahre die Sparc-Architektur von Sun mit damals 75 Befehlen. An der Standford University begann im Jahre 1981 das MIPS-Projekt mit einem Prozessor, der es auf 39 Befehle brachte. Als dann Mitte der 80er Jahre daraus die Mips Computer Corp. entstand war man bei 74 Befehlen angekommen.

Etwa zur selben Zeit entwickelte Intel die Familie der 80386-Prozessoren. Diese Serie gilt nach Intel-Auffassung als letzter reiner CISC-Chip der X86-Familie. Zum letztenmal ließ sich hier die Steigerung, der Leistung allein durch eine höhere Komplexität der Chip-Architektur erreichen: Von 16 Bit wurde die Architektur auf 32 Bit erweitert, zusätzliche Hardware sorgte für virtuellen Speicher, und eine ganze Reihe von Befehlen kam neu hinzu. Die Welten von CISC und RISC waren damals noch klar und deutlich voneinander abgegrenzt. In der Szene der Forscher und Entwickler begann der Streit um die Frage, welche Architektur besser sei, welcher die Zukunft gehöre.

Aber bereits Ende der 80er Jahre war den meisten klar, daß beide Welten voneinder profitieren konnten. Nachdem es möglich geworden war immer mehr Transistoren auf dem Silizium zu integrieren, begannen auch die RISC-Designer immer mehr , Softwarefunktionen durch zusätzliche Befehle auf die Hardware zu verlagern. Gleichzeitig fingen die CISC-Designer an, ihre Befehlssätze durch Vereinfachung zu optimieren. Die Grenzen zwischen beiden Welten wurden unscharf.

So lag IBMs 801 noch ein einfaches, frühes RISC-Design zugrunde. Beim RT wurde dann eine 16-Bit-Architektur, Memory-Protection und virtueller Speicher , hinzugefügt. Der RS/6000-Prozessor schließlich ist im Vergleich dazu ein komplexes System mit Multiplikations- und Divisions-Funktionen, Fließkomma-Arithmetik und weiteren mathematischen Hardwarefunktionen.

Design-Techniken aus der RISC-Welt

Beim 486-CISC-Mikroprozessor wurden dann erstmals Design-Techniken eingesetzt, die man bislang nur in der RISC-Welt genutzt hatte. Damit war der 486 der erste Intel-Prozessor, bei dem die Entwickler eine Leistungssteigerung nicht mehr durch eine komplexere Architektur, sondern durch eine Reduktion der Taktzyklen pro Befehl erzielten. Fazit: Der RS/6000-Chip arbeitet mit 184 Befehlen, der 486 mit 156 Befehlen.

Diese Entwicklung führt auf Dauer zu einer Verschmelzung beider Welten: Die Designer verwenden jeweils die besten Elemente beider Technologien für ihre Produkte. Aus CISC und RISC wurde, wie Dave House, Intel Senior Vice-President und Direktor der Microprocessor Architecture and Applications Group, es einmal nannte, "der Schmelztiegel CRISC" - neue Prozessoren, die sich mit den alten Kategorien nicht mehr messen lassen, weil sie eine Kombination beider Welten sind. Der Pentium stellt nun aus Intels Sicht genau diesen neuen Prozessortypus dar. Er soll etwa die gleiche Leistung wie der R4000 von Mips erreichen, dabei aber volle Softwarekompatibilität zur bestehenden Intel-Basis bieten.

Zunächst einmal ein Blick auf die Leistungsdaten: In der ersten verfügbaren Version, der 66-Megahertz-Variante, soll der Pentium-Chip eine Rechenleistung von mehr als 100 MIPS bringen. Damit wird er 1,85mal so schnell rechnen wie der bislang schnellste Intel-Chip 486DX2 in der 66 Megahertz-Version (54 MIPS) und 2,4mal schneller als ein 486DX mit 50 Megahertz. Diese Meßdaten lassen sich jedoch nicht auf alle Anwendungsprogramme übertragen, da sie unter auf den Pentium optimierten Laborbedingungen zustande kamen

In Sachen Fließkomma-Berechnung wird die Rechengeschwindigkeit bei skalarem Code um das Vier- bis Sechsfache gesteigert, bei vektorisierbarem Code sogar um das Sechs- bis Zehnfache. Für den Anwendungseinsatz geht man hier von einer zwei- bis dreimal so schnellen Rechenzeit bei einem Pentium mit 66 Megahertz gegenüber einem 486DX2-66 aus. Die Zahl der Transistoren wuchs gegenüber dem 486 um das Dreifache auf etwa 3,1 Millionen.

Die Cache-Größe des Pentium wird 16 KB betragen und damit doppelt so groß wie beim 486 sein. Der Befehlssatz hat eine Breite von 32 Bit, beim Datenbus sind es 64 Bit Um diesen 64-Bit-I/0 zu nutzen, müssen die PC-Hersteller ihre Systeme überarbeiten .

Näheres ist hier bereits aus dem Hause Compaq bekannt: Die kürzlich vorgestellten "Systempro/XL"-Server sind mit ihrer "Triflex"-Busarchitektur für den Pentium-Prozessor bereits gut gerüstet. Triflex besteht aus einem 32-Bit EISA-Bus, einem 32/64-Bit CPU-Bus und einem 126-Bit Memory-Bus.

Was den neuen CPU-Bus betrifft so rechnet man allgemein damit, daß die meisten Hersteller sich hier an die Mitte 1992 vorgestellten Spezifikationen des PCI-Busses halten werden. Damit wurde ein neuer Standard definiert, der weit über alles hinausgeht, was EISA-oder Mikrokanal bietet können. So beträgt allein die Datenrate dieses Bussystems 130 MB/s. Damit lassen sich etwa bewegte Videobilder direkt im Prozessor verarbeiten und ohne aufwendige Hardwarezusätze auf dem PC abspielen .

Aus Intel-nahen Kreisen wurde mittlerweile bekannt, daß der Pentium sowohl in einer Bus-Konfiguration mit 32 Bit als auch in einer mit 64 Bit angeboten werden soll. Weiters sei eine spezielle Version für den Overdrive-Sockel geplant, mit dem sich CPUs vom Typ 486DX2 in Richtung Pentium-Leistungsniveau erweitern lassen.

Möglich wurden die Leistungssteigerungen durch die geschickte Kombination von RISC- und CISC-Technologien. Bei der Herstellung setzt Intel erstmals das Bicmos-Verfahren (Bipolar Complementary Metal Oxide) ein.

Nach Angaben von Albert Yu, Intel General Manager of Microprocessors, erhöht Bicmos die Komplexität des Chips um rund 10 Prozent, sorgt aber für eine Leistungssteigerung von 30 bis 35 Prozent, ohne daß man in den Bereichen Größe und Strombedarf Abstriche machen müsse.

Bicmos ist aber auch für zukünftige Chip-Generationen von Bedeutung.

Mit Cmos lassen sich Taktfrequenzen von mehr als 66 Megahertz nicht mehr erreichen, mit dem Bicmos-Prozeß sind dagegen nach dem heutigen Stand 100 bis 150 Megahertz möglich.

Der zweite wesentliche Faktor für die Leistungssteigerung des Pentium-Prozessors ist dessen superskalarer Aufbau - das heißt, daß Intel zwei Execution-Units auf den Pentium integriert - , der im Idealfall die Ausführung von zwei Befehlen pro Taktzyklus erlaubt. Der 386 benötigte noch zwei Taktzyklen pro Befehl, beim 486 wurde ein Befehl pro Takt abgearbeitet. Damit er in der Tat der erste Prozessor aus einer CISC-Familie, der superskalar aufgebaut ist.

Damit der Pentium die Superskalarität auch voll nutzen kann, müssen beim Programmieren beziehungsweise Kompilieren einige Grundregeln beachtet werden:

1. Bei beiden Befehlen muß es sich um "Simple instructions" handeln .

2. Der erste Befehl darf kein "Jump"-Befehl sein.

3. Der zweite Befehl darf nicht die Ergebnisse des ersten nutzen.

4. Beide Befehle dürfen nicht die gleiche "destination" haben.

Werden diese Bedingungen nicht erfüllt, dann wird zunächst der erste Teil des Befehlspaares in einem Takt alleine ausgeführt. Im nächsten Zyklus wird der zweite Befehl zusammen mit dem nächsten abgearbeitet, der eine duale Ausführung zuläßt. Die Gefahr, daß da bei einzelne Befehle verlorengehen, besteht nach Intel Angaben nicht, auch die richtige Reihenfolge und Ordnung der Befehle würde immer eingehalten.

Simple Instructions sind alle Befehle, die ALU- und Move-Instruktionen sowie Jumps enthalten. Der Bereich der "simplen" ALU und Move-Befehle umfaßt beim Pentium nicht nur die bislang RISC-üblichen "Register - to - register " und "Immediate to register forms", sondern auch "Memory-to-register-" und "Register-to-memory-forms" .

Beim Design der Integer-Pipelines (vgl. Abbildung 1) haben sich die Intel-Entwickler im wesentlichen an der Struktur des 486 orientiert.

Genau wie dort gibt es auch beim Pentium fünf Bereiche: "fetch", "decode1", "decode2", "execute" und "write back". Innerhalb der ersten beiden Bereiche wird ein Befehlspaar abgearbeitet. Die letzten drei Bereiche liegen in doppelter Form vor und bilden damit zwei getrennte Pipelines, die "U-Pipe" und die "V-Pipe". Wenn die oben beschriebenen Bedingungen für die Ausführung zweier Befehle pro Taktzyklus erfüllt sind, werden die Befehle an beide "Pipes" weitergeleitet. Andernfalls wird nur die U-Pipe benutzt. Jede der beiden Pipes verfügt über eine "Full integer ALU", die die Ausführung von zwei Integer Befehlen pro Taktzyklus erlaubt.

Wegen des ziemlich kleinen Registersatzes der x86-Architektur und der Befehle, die Speicherzugriffe mit Rechenarbeit verbinden, ist die Zahl der Data-Memory-References pro Befehl beachtlich höher als bei RISC-Prozessoren. Nach Intel-Schätzungen hat optimierter 32-Bit x86-Code durchschnittlich 0,6 Data References pro Befehl, während Standard-RISCs es auf einen Durchschnittwert von 0,3 Data-References pro Befehl bringen. Wegen des hohen Wertes bei der x86-Architektur zählte es zu den wesentlichen Anforderungen an den Pentium, daß sich zwei Data-References gleichzeitig abarbeiten lassen.

Der Single-Cache läßt sich größer dimensionieren

Diese Fähigkeit gewährleistet beim Pentium der sogenannte "Dual-Access-Daten-Cache" (vgl. Abbildung 2). Sowohl der Translation-Look-Aside-Buffer als auch die Cache-Tags sind beim Pentium dual ausgeführt. Der Cache-Data-Array ist zwar nur einzeln ausgefertigt, aber in mehrere "Interleaved banks" eingeteilt. So können zwei voneinander unabhängige Zugriffe durchgeführt werden, solange sie auf verschiedene "Banks" zugreifen. Sollte ein Zugriffskonflikt auftreten, unterbricht die V-Pipe den Datenfluß für die Dauer eines Taktes. Ursprünglich hatte man bei Intel zwar vor, von vornherein einen in seiner Gesamtheit dual ausgeführten Cache zu entwickeln, aber der dichtere Single-Cache läßt sich größer dimensionieren. Und diese Vergrößerung kompensierte schließlich die Leistungs-Verluste, die durch die Unterbrechungen des Datenflußes bei Bank-Conflicts entstehen.

Um die weiteren Leistungsmerkmale dieses Cache-Systems reihen sich diverse Gerüchte, zu denen Intel aber noch nicht Stellung nehmen will. So behaupten einige Insider, daß der Befehls-Cache zusätzliche Bits für "Predecoded Opcode Information" sowie erweiterte Felder, die für speziellen Einsatz vorbehalten sind, enthält.

Bestätigt ist dafür der sogenannte "Branch Target Buffer", der auch als "Branch History Table" bezeichnet wird. Er dient der Cache-Speicherung der Zieladresse vorheriger Datenströme und "historischer" Informationen über die Anzahl dieser Datenströme. Aufgrund dieser Daten lassen sich kommende Datenströme vorausplanen und ohne Pipeline-Verzögerungen ausführen. Dabei handelt es sich aber nicht um einen "Branch Target Cache", wie er bei der RISC-Serie 29000 von AMD eingesetzt wird. Der Branche-Target-Buffer des P5 speichert nur Adressen, während der Branch-Target-Cache des 29000 die ersten Befehlsgruppen an jeder Branch-Destination registriert.

Die Leistung der arithmetischen Koprozessoren (FPUs) der x86-Familie galt als mehr oder weniger niedrig, selbst beim 486. Dies lag nicht so sehr an der x86-Architektur, sondern an den Prioritäten, die Intel sich selbst gesetzt hatte: Um die Fließkomma-Berechnung zu beschleunigen, braucht man viele Transistoren; außerdem war eine hohe Fließkomma-Rechenleistung in den traditionellen PC-Märkten nicht so wichtig.

Beim Pentium ist das anders. Während sich die FPU-Bedürfnisse des klassischen PC-Anwenders zwar noch nicht sehr viel geändert haben, mußte Intel auf die Rechenleistungen der RISC-Chips reagieren - eine Frage von strategischer Bedeutung. Denn wesentliche Vorteile der RISC-Chips liegen seit dem Ende der 80er Jahre auch in der FPU-Performance. PC-Anwendungen werden aber auf Dauer immer FPU-intensiver, man denke nur an den verstärkten Einsatz von 3D-Grafiken und anspruchsvollen Datenblattberechnungen. Und schließlich hofft man bei Intel gar, mit dem Pentium in die Domäne der technischen Workstations vorzudringen, wo eine schnelle FPU extrem wichtig ist.

Die FPU im Pentium ist glaubt man Intel, vollständig kompatibel zu der im 486. Es gab zwar Gerüchte über eine neue FPU-Konzeption, bei der der Register-Stack durch ein Register-File ergänzt wird. Aber es sieht so aus, als würde diese Neuerung erst beim Pentium-Nachfolger P6 zum Einsatz kommen.

Die achtstufige Fließkomma-Pipeline wurde mit den Integer-Pipelines kombiniert, dabei sind die ersten vier Stufen identisch. Sowohl die U-Pipe als auch die V-Pipe dienen dem Aufnehmen der Operanden. Dabei können beide Datenzugriffspfade parallel benutzt werden, um 64 Bit Fließkomma-Werte in einem Taktzyklus zu laden. Die Ausführung der Fließkomma-Berechnung erfolgt dann in der U-Pipe.

Die "Integer Execute Stage" nimmt die Operanden auf, die dann in den drei nachfolgenden "Floating Point Execution Stages" weiterverarbeitet werden. Die letzte Stufe der Fließkomma-Pipeline dient der Fehleraufzeichnung, die Ergebnisse der Berechnungen liegen bereits am Beginn dieser Stufe vor, so daß sie nicht für Verzögerungen der Berechnungen sorgt. Wie bei High-end-RISC-Chips verfügt die FPU des Pentium über vollständige Pipelines für Addition, Subtraktion und Multiplikation. Neue Rechenoperationen können mit jedem einzelnen Taktzyklus beginnen, vorausgesetzt, daß es keine Rückbezüge zwischen den zu berechnenden Operanden gibt.

Bei einigen anderen neuartigen RISC-Architekturen, etwa DECs Alpha-Chip, gelang es, die FPU-Performance dadurch zu steigern, daß man Abstriche bei der Präzision der Befehlsabarbeitung machte. Das heißt, daß nach einem Befehl, der aufgrund von Ausnahmeregeln nicht sofort zu verarbeiten ist, ein oder mehrere Befehle noch ausgeführt werden können, bevor die Ausnahme erkannt wird. Intel konnte diese Möglichkeit beim Pentium nicht integrieren, da sonst die Abwärts-Kompatibilität zur vorhandenen x86-und x87-Software in Frage gestellt worden wäre.

Aus diesem Grund müssen im Falle einer Ausnahme die folgenden Rechenbefehle quasi in einer Warteschlange anhalten, bis die Ausnahmeberechnung geklärt ist. Erst dann wird der nächste Fließkomma-Befehl weitergegeben. Dies könnte im Falle von vielen Ausnahmen zu Einbußen bei der Rechen-Performance führen. Damit diese möglichst gering bleiben, entschied man sich bei Intel für einen anderen Weg, nämlich zusätzliche Hardware, die die Input-Operanden von vornherein daraufhin überprüft, ob sie zu Ausnahmen führen könnten.

Performance stieg um das Vier- bis Sechsfache

Eine Neuerung am FPU-Design des Pentium sind die "Transcendental Functions", die bislang nicht zum Befehlssatz von RISC-Prozessoren zählten. Motorola setzte diese Funktionen erstmals beim CICS-68040 ein. Als Basis dafür dienen tabellarische Algorithmen mit polynominaler Annäherung. Diese Algorithmen werden bei beiden Pipelines implementiert. Dadurch konnte die Rechenperformance der Pentium-FPU gegenüber der des 486DX-33 um das Vier- bis Sechsfache gesteigert werden.

Im allgemeinen sind FPU-Befehle nicht dualisierbar, weil jeder einzelne Befehl auf beide Pipes zugreift. Es gibt hier jedoch eine Ausnahme, nämlich den FXCH-Befehl. Dieser wechselt das oberste Register eines Stapels mit dem folgenden aus. Dieser Befehl läßt sich gleichzeitig mit einem FPU-Befehl ausführen. Von Bedeutung ist das deshalb, weil sich am oberen Ende des Stapels die FPU-Befehle stauen, wodurch sich die Abarbeitung der Befehle verzögert. Dieser "Flaschenhals" wird durch die parallele Verarbeitungsmöglichkeit des FXCH-Befehls abgebaut so daß die Verzögerungen eliminiert werden. Dafür spricht auch der registerorientierte Aufbau der FPU: Der FXCH-Befehl wird nach der erfolgten Berechnung ausgeführt und sofort an die zuständigen Register im Stapel weitergeleitet. Gleichzeitig fließt das Ergebnis dieses Registers in die Spitze des Stapels, so daß es bereits beim nächsten Befehl mitberücksichtigt werden kann.

Wie bei allen superskalaren Prozessoren läßt sich auch beim Pentium die volle Hardwareleistung nur dann ausnutzen, wenn ein Compiler zur Verfügung steht, der die Pipeline-Struktur des Prozessors sauber optimiert. Beim Pentium sind hier sämtliche gängigen Kompilierungsmethoden nutzbar: Instruction-Scheduling, Register-Allocation und Loop-Enrolling. Eine gute Register-Allocation ist deshalb wichtig, weil der Register-Satz relativ klein ist. Zusätzlich gibt es hier aber einige Punkte zu beachten, die von herkömmlicher RISC-Technologie abweichen. So muß der Compiler daraufhin abgestimmt werden, daß er einfache Opcodes sooft wie nur möglich selektiert. Denn nur diese lassen sich sofort dualisieren. Bei der Fließkomma-Kodierung werden wiederum andere Methoden benötigt, um die Parallelisierung des FXCH-Befehls mit den Berechnungen zu gewährleisten.

In der Welt der Intel Microsoft-PCs gibt es nun aber eine extrem große installierte Basis von Anwendungsprogrammen. Deshalb ist es nicht nur sehr wichtig, daß diese Programme auf dem Pentium laufen, sondern auch, daß sie die neuen Leistungsdimensionen dieses Chips ausnutzen. Wie und ob das funktioniert, werden die ersten Erfahrungen mit Pentium-Systemen zeigen. Programme, bei denen es auf höchste Rechenleistungen ankommt, werden wohl über kurz oder lang neu kompiliert werden

Diese neuen Codes werden aber auch auf den älteren x86CPUs laufen. Die ersten Pentium-Compiler, die übrigens gleichzeitig mit dem neuen Prozessor verfügbar sein sollen, bieten sowohl Intel als auch mehrere Compiler-Hersteller an.

Mit dem Pentium scheint Intel einige der Beschränkungen der x86-Architektur überwunden zu haben. So bedeutet der begrenzte Registersatz zwar, daß es ein Mehr an Speicherzugriffen geben wird, dafür trägt der Dual-Access-Data-Cache zu einer Steigerung der Performance bei. Die stapelorientierte Fließkomma-Registerdatei erzeugt zwar einen Datenstau innerhalb der FPU, der wiederum durch die parallele Ausführung des FXCH-Befehles abgebaut wird. Durch diese Kompromisse bleibt der P5 kompatibel zu x86-Architektur, erreicht aber ein höheres Leistungsniveau.

Andererseits zeigt der Pentium, wie man mehr Leistung aus einem Prozessor durch komplexeres Design und durch die Verschmelzung von RISC- und CISC-Technologien herausholt. So ist es bei reinen RISC-CPUs bislang nicht nötig gewesen, einen Dual-Access-Data-Cache zu implementieren, um vergleichbare Leistungssteigerungen zu erreichen.

Das zeigt auch, wie wichtig für Intel die einwandfreie Kompatibilität zu den x86-CPUs letztlich doch ist. Der Pentium ist nicht einfach ein RISC-Chip, der durch eine kleine Kompatibilitäts-Box erweitert wurde. Immerhin: Nur etwa ein Jahr nach dem R4000 erreicht Intel mit dem Pentium die gleiche Leistung - mit dreimal so vielen Transistoren und Bicmos-Technologie.

Gegenüber reinen RISC-CPUs der neuesten Zeit, etwa Supersparc und RS/6000, wirkt der Pentium wiederum relativ schwachbrüstig. Er bringt es nur auf zwei Befehle pro Taktzyklus, während die beiden anderen im optimalen Falle drei Befehle pro Takt schaffen. Der Pentium kann nicht Integer- und FPU Operationen im gleichen Taktzyklus abarbeiten, was sämtliche superskalaren RISC-CPUs ohne Probleme schaffen.

Die größere Komplexität der x86-Befehle hat aber gegenüber klassischem RISC den Vorteil, daß schon zwei Befehle zum selben Ergebnis führen wie drei oder mehr innerhalb einer RISC-Architektur. So benötigt der Pentium keine separaten Load-and-store-Befehle wegen der Memory-to-register-Befehle der x86-Architektur. Ähnliches gilt für eine ganze Anzahl von Befehlsgruppen. Duale Integer-Units finden sich sonst nur beim Supersparc und bei Motorolas 88110, andere superskalare Rechner erlauben wiederum lediglich die Abarbeitung eines Integer-Befehls pro Takt.

Wie der Pentium sich nun im praktischen Einsatz bewähren wird, bleibt abzuwarten. Nach Intel-Angaben wird die neue CPL offiziell Mitte März vorgestellt, gleichzeitig wollen auch die ersten PC-Anbieter ihre Systeme auf den Markt bringen.

Daß der neue Chip ein Erfolg wird, steht wohl außer Frage, man bedenke nur einmal die in installierte Basis an Hard- und Software.

Klar ist aber jetzt schon, daß der Pentium nur eine Zwischenstation auf dem Weg zur "CPU 2000" ist. War es noch bis zum 486er bei Intel üblich, die Chips nacheinander zu entwickeln, so werden die folgenden Generationen parallel zueinander erarbeitet. So soll der Pentium-Nachfolger P6 (etwa 1994) bereits 10 Millionen Transistoren integrieren, der 64- Bit-Chip P7 (1995) soll dann in erster Linie seinen Einsatz in Supercomputern finden und die 80860-Serie ablösen. Bis zum Jahr 2000 will Intel schließlich den ultimativen PC-Chip bringen, der selbst Anforderungen wie Handschriftenerkennung problemlos gewachsen sein soll. Warten wir's ab.