|
AMD Phenom - oder: Athlon aufgefrischt.Wenn AMD über Phenom spricht, darf natürlich nie der Hinweis fehlen, dass es sich bei AMDs Verständnis eines Quad Cores ausschließlich um "native" Quad Cores dreht. Darunter ist zu verstehen, dass alle Rechenkerne sich auf einem zusammenhängenden Stück Silizium befinden, was einen ganz entscheidenden Vorteil hat, aber auch einen ganz entscheidenden Nachteil. Der Vorteil findet sich in der einfacheren Kommunikation der einzelnen Teile des Prozessors miteinander. Der Nachteil dagegen liegt in der problematischeren Fertigung. Während Multi-Chip-Packages, wie die Quad Cores seitens Intel aus zwie selektierten Dual Cores zusammengesetzt werden können, die nur jeweils halb so groß sind, müssen für den monolithischen Quad Core alle Rechenwerke funktionieren, damit er als Quad Core fungieren kann. Zwar kann man im Defektfall einen solchen Prozessor immer noch als Triple Core verkaufen, doch kann das nicht das Ziel sein. Dabei gilt: Mit steigender Chipfläche sinkt die Ausbeute exponentiell. Dazu müssen alle Kerne nahezu die identischen Eigenschaften haben, da sie nicht passend zueinander ausgewählt werden können. Doch fokussieren wir uns hier auf die Eigenschaften, die ein monolithisches Quad Core Design ermöglicht, im speziellen AMDs K10 Architektur. AMD selbst umreist die neuen Features der Phenom-Prozessoren mit acht Eckpunkten. eben dem "Nativen" sind dies der gemeisame L3-Cache, Hyper Transport 3.0, DDR2-1066, durchgehende Fertigung in 65 nm und verbesserte Energisparoptionen.
Die vier Rechenkerne sowie der Speichercontroller gruppieren sich um einen überarbeiteten und mächtigeren Crossbar Switch. Der Crossbar-Switch ist in der Lage bis zu fünf Punkt-zu-Punkt Verbindungen zwischen einzelnen Cores, Speichercontroller und Hypertransport simultan zu schalten. Durch seine Möglichkeit, bis zu acht "Master" zu verwalten ist damit auch die Option von bis zu acht Rechenkernen möglich. Diese Zahl an Kernen peilt AMD ja schon für 2008 an. Alle einzelnen Cores enthalten im Phenom einen eigenen exklusiven L2-Cache. Dazu gibt es je Kern 64 kB Instruction- und 64kB Daten Level1-Caches. Ergänzt werden diese durch einen gemeinsam von allen genutzen 3rd Level Cache, der 2 MB groß ist. Die Kerne selbst wurden punktuell überarbeitet. Hervorzuheben sind die nun durchgehend (auch SSE) 128 Bit breiten Floating-Point Units sowie Optimierungen an der Sprungvorhersage, die laut AMD bessere Performance für C++ und Java bringt. Dabei werden Instruktionen bzw. Daten beim Zugriffsversuch der Recheneinheiten sowohl im L1, L2 und L3 als auch in den Caches der anderen Kerne gesucht. Sofern sie nicht im eigenen L1 oder L2 liegen kommt der zentral angeordnete Memory-Controller ins Spiel, der mit seinem 32 Byte großen Prefetcher die Daten zum jeweils anfordernden Rechenkern leitet. Da AMD die Kommunikation innerhalb der CPU vollständig über das System Request-Interface abwickeln kann, entfallen bei diesem Transfervorgang Latenzen eines eventuellen FSB. Beim Verschieben aus dem L2 in den L1 wird die Cacheline im L2 als ungültig erklärt und schafft somit Platz für neue Daten. Im L3 bleiben sie für andere Kerne vorhanden. Cache-Informationen werden bei Nichtbenutzung nacheinander in den nächsten Level verschoben, bis sie schließlich vollständig verworfen werden.
Der Speichercontroller kann seinerseits bis zu vier Cachelines zwischenspeichern, um Write-Kommandos in den Hauptspeicher zu verzögern und Read-Kommandos aus dem Speicher Vorrang zu gewähren. Er bietet zwei Kanäle, die die bis dato noch nicht endgültig durch die JEDEC spezifizierte letzte DDR2-Stufe unterstützen. Der Speicherbus taktet mit 533 MHz, durch die Double-Data-Rate des Protokolls ergibt das 1066 Transfers pro Sekunde, vulgo DDR2-1066 mit einer Bandbreite von 8,5 GB/s je Kanal. Von bisherigen K8-Prozessoren war man gewohnt, dass der Speichertakt durch einen Teiler aus dem Prozessortakt abgeleitet wurde, was bei DDR2 zu niedrigen und "ungeraden" Takten führte. In der K10-Architektur leitet AMD den Speichertakt nun über einen Multiplikator vom Referenztakt ab, so dass unabhängig vom Prozessortakt die korrekte DDR2-Geschwindigkeit vorherrschen sollte. |
Vorherige Seite |
Nächste Seite |