Intel’in Xeon Max işlemcisi, AI ve HPC iş yükleri için çoklu hızlandırıcı motorlar ve 64 GB paket HBM2E bellek ile daha da geliştirilmiş 56 adede kadar yüksek performanslı Golden Cove çekirdeğine (Intel’in EMIB teknolojisi kullanılarak birbirine bağlı dört yongacığın üzerine yayılmış) sahiptir. Diğer Sapphire Rapids CPU’lar gibi, Xeon Max de üstte CXL 1.1 protokolü ile sekiz kanallı DDR5 bellek ve PCIe Gen 5 arayüzünü destekleyecek, böylece mantıklı olduğunda tüm bu CXL etkin hızlandırıcıları kullanabilecek.
Vektör AVX-512 ve Deep Learning Boost (AVX512_VNNI ve AVX512_BF16) hızlandırıcı desteğine ek olarak, yeni çekirdekler ayrıca, esasen BF16 ve INT8’i destekleyen birleştirilmiş çoklu-ekleme birimleri ızgarası olan Gelişmiş Matris Uzantıları (AMX) döşenmiş matris çarpma hızlandırıcısını da getiriyor. yalnızca 12 komut kullanılarak programlanabilen ve çekirdek başına döngü başına 1024 TMUL BF16 veya 2048’e kadar TMUL INT8 işlemi gerçekleştirebilen giriş türleri. Ayrıca yeni CPU, veri kopyalama ve dönüştürme iş yüklerini CPU’dan boşaltan Data Streaming Accelerator’ı (DSA) destekler.
64 GB paket HBM2E bellek (16 GB’lık dört yığın), yaklaşık 1 TB/sn’lik bir tepe bant genişliği sağlar; bu, çekirdek başına 18,28 GB/sn’de çekirdek başına ~ 1,14 GB HBM2E anlamına gelir. Rakamları bağlam içine koymak için, sekiz DDR5-4800 modülüyle donatılmış 56 çekirdekli Sapphire Rapids işlemci 307,2 GB/sn’ye kadar bant genişliği elde ediyor, bu da çekirdek başına 5,485 GB/sn anlamına geliyor. Bu arada Xeon Max, HBM2E belleğini farklı şekillerde kullanabilir: kod değişikliği gerektirmeyen sistem belleği olarak kullanın; değişiklik kodu gerektirmeyen DDR5 bellek alt sistemi için yüksek performanslı bir önbellek olarak kullanın; yazılım optimizasyonlarını içeren birleşik bellek havuzunun (HBM düz modu) bir parçası olarak kullanın.
İş yüküne bağlı olarak, Intel’in AMX özellikli Xeon Max işlemcisi, aynı iş yükleri için geleneksel FP32 işlemeyi kullanan, şu anda mevcut olan Xeon Ölçeklenebilir 8380 işlemciye göre 3X – 5,3X performans artışı sağlayabilir. Bu arada, moleküler dinamik için model geliştirme gibi uygulamalarda, yeni HBM2E donanımlı CPU’lar, AMD’nin 3D V-Cache özelliğine sahip EPYC 7773X’inden 2,8 kata kadar daha hızlıdır.
resim 1 nın-nin 13
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
Ancak, çeşitli HPC iş yükleri için gerekli olan CPU ve GPU arasındaki veri taşıma yükünü bir şekilde azalttığı için HBM2E’nin Intel için bir başka önemli anlamı daha vardır. Bu bizi bugünün duyurularının ikincisine getiriyor: Veri Merkezi GPU Max Serisi, GPU’ları hesaplıyor.
Veri Merkezi GPU Max: Intel’in Veri Merkezi Yeniliklerinin Zirvesi
Intel’in Veri Merkezi GPU Max bilgi işlem GPU serisi, şirketin ilk olarak 2019’da tanıtılan ve ardından 2020 ~ 2021’de detaylandırılan kod adlı Ponte Vecchio mimarisini kullanacak. Intel’in Ponte Vecchio’su, 100 milyardan fazla transistör (hariç) içerdiği için şimdiye kadar yaratılmış en karmaşık işlemcidir. bellek) 47’den fazla döşeme (8 HBM2E döşeme dahil). Buna ek olarak, ürün, diğer üreticiler tarafından farklı işlem teknolojileri kullanılarak farklı kutucuklar üretildiğinden, Intel’in gelişmiş paketleme teknolojilerini (örn. EMIB) yoğun bir şekilde kullanır.
resim 1 nın-nin 6
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
(Resim kredisi: Intel)
Intel’in Data Center GPU Max bilgi işlem GPU’ları, şirketin AI ve HPC iş yükleri için özel olarak tasarlanmış Xe-HPC mimarisine güvenecek ve bu nedenle uygun veri formatlarını ve talimatların yanı sıra 512 bit vektör ve 4096 bit matris (tensör) motorlarını da destekleyecek.
Yatay olarak kaydırmak için kaydırın
Veri Merkezi Maks 1100
Veri Merkezi Maks 1350
Veri Merkezi Maks 1550
AMD İçgüdü MI250X
Nvidia H100
Nvidia H100
Rialto Köprüsü
Form faktörü
PCIe
OAM
OAM
OAM
SXM
PCIe
OAM
Fayans + Bellek
?
?
39+8
2+8
1+6
1+6
birçok
transistörler
?
?
100 milyar
58 milyar
80 milyar
80 milyar
onlardan bir sürü
Xe HPC Çekirdekleri | Hesaplama Birimleri
56
112
128
220
132
114
160 Gelişmiş Xe HPC Çekirdeği
RT Çekirdekleri
56
112
128
–
–
–
?
512-bit Vektör Motorları
448
896
1024
?
?
?
?
4096-bit Matris Motorları
448
896
1024
?
?
?
?
L1 Önbellek
?
?
105 TB/s’de 64 MB
?
?
?
?
L2 Rambo Önbellek
?
?
13 TB/sn’de 408MB
?
50MB
50MB
?
HBM2E
48 GB
96 GB
3,2 TB/s’de 128 GB
3,2 TB/sn’de 128 GB/sn
3,35 TB/s’de 80 GB
2 TB/s’de 8 GB
?
Çoklu GPU GÇ
8
16
16
8
8
8
?
Güç
300W
450W
600W
560W
700W
350W
800W
Xe-HPG ile karşılaştırıldığında, Xe-HPC önemli ölçüde daha karmaşık bellek ve önbellekleme alt sistemlerine, farklı şekilde yapılandırılmış Xe çekirdeklerine sahiptir (her Xe-HPG çekirdeğinde 16 256-bit vektör ve 16 1024-bit matris motoru bulunurken, her Xe-HPC çekirdeğinde sekiz spor bulunur. 512 bit vektör ve sekiz 4096 bit vektör motoru). Ayrıca, Xe-HPC GPU’lar tekstüre birimleri veya işleme arka uçları içermez, bu nedenle geleneksel yöntemlerle grafik oluşturamazlar. Bu arada, Xe-HPG şaşırtıcı bir şekilde süper bilgisayar görselleştirmesi için ışın izlemeyi destekliyor.
Xe-HPC’nin en önemli bileşenlerinden biri, Intel’in Veri Merkezi GPU Max 1550’nin (aşağıdaki tabloya bakın) oldukça zorlu tensör/matris performansını sağlayan Intel’in Xe Matrix Uzantılarıdır (XMX) – 419’a kadar TF32 TFLOPS ve 1678’e kadar INT8 Intel’e göre TOPS. Elbette, hesaplama GPU geliştiricileri tarafından sağlanan en yüksek performans rakamları önemlidir ancak gerçek dünyadaki uygulamalarda gerçek dünyadaki süper bilgisayarlarda elde edilebilecek performansı yansıtmayabilir. Yine de, Intel’in menzilinin en iyisi Ponte Vecchio’nun çoğu durumda Nvidia’nın H100’ünün önemli ölçüde gerisinde olduğunu ve FP32 Tensor (TF32) hariç tüm durumlarda AMD’nin Instinct MI250X’ine göre somut avantajlar sağlayamadığını fark etmemize yardımcı olamayız.
Yatay olarak kaydırmak için kaydırın
Veri Merkezi Maks 1550
AMD İçgüdü MI250X
Nvidia H100
Nvidia H100
Form faktörü
OAM
OAM
SXM
PCIe
HBM2E
3,2 TB/s’de 128 GB
3,2 TB/sn’de 128 GB/sn
3,35 TB/s’de 80 GB
2 TB/s’de 80 GB
Güç
600W
560W
700W
350W
Tepe INT8 Vektör
?
383 ÜÇ
133.8 TFLOPS
102.4 TFLOP
Tepe FP16 Vektör
104 TFLOP
383 TFLOP
134 TFLOP
102.4 TFLOP
Tepe BF16 Vektör
?
383 TFLOP
133.8 TFLOPS
102.4 TFLOP
Tepe FP32 Vektör
52 TFLOP
47.9 TFLOP
67 TFLOP
51 TFLOP
Tepe FP64 Vektör
52 TFLOP
47.9 TFLOP
34 TFLOP
26 TFLOP
Tepe INT8 Tensörü
1678 ÜSTLER
?
1979 ÜSTLER | 3958 ÜÇ*
1513 ÜSTLER | 3026 ÜSTLER*
Tepe FP16 Tensörü
839 TFLOP
?
989 TFLOPS | 1979 TFLOP*
756 TFLOPS | 1513 TFLOP*
Tepe BF16 Tensörü
839 TFLOP
?
989 TFLOPS | 1979 TFLOP*
756 TFLOPS | 1513 TFLOP*
Tepe FP32 Tensörü
419 TL
95,7 TFLOP
989 TFLOP
756 TFLOP
Tepe FP64 Tensörü
–
95,7 TFLOP
67 TFLOP
51 TFLOP
Bu arada Intel, Veri Merkezi GPU Max 1550’nin Nvidia’nın A100 on Riskfuel kredi seçeneği fiyatlandırmasından 2,4 kat daha hızlı olduğunu ve NekRS sanal reaktör simülasyonları için A100’e göre 1,5 kat performans artışı sunduğunu söylüyor.
Intel, üç Ponte Vecchio ürünü sunmayı planlıyor: 128 Xe-HPC çekirdeği, 128 GB HBM2E belleğe ve 600W’a kadar termal tasarım gücüne sahip OAM form faktöründe sınıfının en iyisi Veri Merkezi GPU Max 1550; 112 Xe-HPC çekirdeği, 96 GB bellek ve 450 W TDP ile OAM form faktöründe kısaltılmış Veri Merkezi GPU Max 1350; ve çift geniş FLFH form faktörüyle gelen ve 56 Xe-HPC çekirdeğine sahip bir işlemci taşıyan, 56 GB HBM2E belleğe sahip ve 300 W TDP derecesine sahip giriş seviyesi Veri Merkezi GPU Max 1100.
Bu arada Intel, süper bilgisayar müşterilerine, 1.800 W ve 2.400 W TDP için derecelendirilmiş bir taşıyıcı kart üzerinde dört OAM modülüne sahip Max Serisi Alt Sistemler sunacak.