Intels Xeon-Prozessorfamilie Skylake-SP läuft vom Stapel: Erste Benchmark-Ergebnisse gegen AMD Epyc

Seite 2: Mesh statt Ringbus

Inhaltsverzeichnis

Neu ist ferner, wie die Kerne, die L3-Cache-Segmente, die nunmehr sechs Speichercontroller und die I/O-Interfaces für UPI (der Nachfolger von QPI) sowie PCIe 3 miteinander kommunizieren. Keine Ringbusse mehr, sondern ein Mesh, ähnlich wie beim Xeon Phi. Dabei haben die vertikalen und horizontalen Verbindungen unterschiedliche Laufzeiten, ein (Uncore-)Takt hier, drei da. Im Worst Case, wenn der Kern ganz links unten mit dem PCIe-Controller ganz rechts oben kommuniziert, kommen 20 Takte zusammen. Smarte Treiberprogrammierer werden vielleicht die Lage der Kerne im Chip heraustüfteln und so den bestgelegenen Kern auswählen. Ähnlich wie bei den Ringsystemen zuvor mit CoD (Cluster on Die) kann man aber auch das Mesh in zwei Teile aufspalten, die dann als zwei NUMA-Knoten mit je drei Speichercontrollern angesprochen werden. Bei guter NUMA-Programmierung kann man dann ein paar zusätzliche Prozent an Performance herauskitzeln.

Ein Mesh verbindet die bis zu 36 Einheiten (Kerne, Speicher-,UPI- und PCI-Controller) und sorgt für die Kommunikation. Vertikal braucht es einen Uncore-Takt, horizontal derer drei pro Hop.

(Bild: Intel)

AVX512 ist nicht gleich AVX512: es gibt hier verschiedene Spielarten, so dass die Befehlssätze vom Xeon Phi Knights Landing und die vom Skylake-SP nicht völlig identisch sind. So kennt der Xeon Phi trigonometrische und reziproke AVX512-Instruktionen (AVX512ER) – die bietet der Skylake-SP nicht, hat dafür aber Byte- und Word-Instruktionen (AVX512BW) und kann auch die alten AVX-und SSE-Einheiten auf 32 Register "aufblasen" (AVX512VL)

Neu ist auch, dass es je nach den verwendeten Instruktionen drei verschiedene Takte gibt. Dabei unterscheidet Intel zudem noch zwischen "heavy",– mit FP-oder Int-Multiplikationen – und "light" ohne diese. Bei AVX512 wird nur bei heavy auf einen noch niedrigeren Takt geschaltet. Bei AVX2 muss dafür bei Light-Nutzung der Takt nicht abgesenkt werden. Früher gab es ausführliche Tabellen über die AVX- und Non-AVX-Takte und Turbo-Bins aller SKUs. Aber für den Skylake-SP hüllt sich Intel diesbezüglich bislang noch in Schweigen.

Interessant ist auch, wie Intel den Desktop-Skylake-Kern für die Serverchips erweitert hat. Die beiden dort vorhandenen 256-bittigen AVX2-Einheiten werden zu einer 512-bittigen zusammengeschaltet. Eine zweite 512-Bittige wird außen angekoppelt. Unterschiedliche Latenzen sollen die beiden AVX512-Einheiten aber dennoch nicht haben.