N­v­i­d­i­a­,­ ­y­a­p­a­y­ ­z­e­k­a­ ­i­ç­i­n­ ­­d­ü­n­y­a­n­ı­n­ ­e­n­ ­g­ü­ç­l­ü­ ­ç­i­p­i­­ ­o­l­a­n­ ­B­l­a­c­k­w­e­l­l­ ­B­2­0­0­ ­G­P­U­­y­u­ ­o­r­t­a­y­a­ ­k­o­y­u­y­o­r­

N­v­i­d­i­a­,­ ­y­a­p­a­y­ ­z­e­k­a­ ­i­ç­i­n­ ­­d­ü­n­y­a­n­ı­n­ ­e­n­ ­g­ü­ç­l­ü­ ­ç­i­p­i­­ ­o­l­a­n­ ­B­l­a­c­k­w­e­l­l­ ­B­2­0­0­ ­G­P­U­­y­u­ ­o­r­t­a­y­a­ ­k­o­y­u­y­o­r­

Nvidia'nın sahip olması gereken H100 AI çipi bunu başardı multitrilyon dolarlık bir şirketdeğebilecek bir şey Alfabe ve Amazon'dan daha fazlasıve rakipler oldu yetişmek için mücadele ediyorum. Ancak belki de Nvidia, yeni Blackwell B200 GPU ve GB200 “süper çip” ile liderliğini genişletmek üzeredir.

Nvidia CEO'su Jensen Huang, GTC canlı yayınında yeni GPU'sunu solda, sağda H100'ün yanında tutuyor.
Resim: Nvidia

Nvidia, yeni B200 GPU'nun 20'ye kadar teklif verdiğini söylüyor petafloplar 208 milyar transistörden gelen FP4 beygir gücü ve bu GPU'lardan ikisini tek bir Grace CPU ile birleştiren GB200, LLM çıkarım iş yükleri için 30 kat daha fazla performans sunabilirken aynı zamanda potansiyel olarak çok daha verimli olabilir. Nvidia, H100'e göre “maliyeti ve enerji tüketimini 25 kata kadar azalttığını” söylüyor.

175 milyar parametreli bir GPT-3 LLM kıyaslamasında Nvidia, GB200'ün H100'e göre yedi kat daha mütevazı bir performansa sahip olduğunu ve Nvidia'nın 4 kat daha fazla eğitim hızı sunduğunu söylüyor.

İşte bir GB200'ün neye benzediği. İki GPU, bir CPU, bir kart.
Resim: Nvidia

Nvidia gazetecilere en önemli farklardan birinin, her bir nöron için sekiz yerine dört bit kullanarak bilgi işlem, bant genişliği ve model boyutunu ikiye katlayan ikinci nesil transformatör motoru olduğunu söyledi (dolayısıyla daha önce bahsettiğim FP4'ün 20 petaflop'u). İkinci önemli fark, yalnızca bu GPU'ların büyük bir kısmını bir sunucuya bağladığınızda ortaya çıkar: saniyede 1,8 terabayt çift yönlü bant genişliğiyle 576 GPU'nun birbiriyle konuşmasını sağlayan yeni nesil bir NVLink anahtarı.

Nvidia'nın söylediğine göre bu, Nvidia'nın 50 milyar transistöre ve kendi yerleşik bilgi işlem birimine sahip tamamen yeni bir ağ anahtar çipi oluşturmasını gerektiriyordu: 3,6 teraflopluk FP8.

Nvidia, Blackwell ile hem FP4'ü hem de FP6'yı ekleyeceğini söylüyor.
Resim: Nvidia

Nvidia, daha önce yalnızca 16 GPU'dan oluşan bir kümenin zamanının yüzde 60'ını birbirleriyle iletişim kurarak ve yalnızca yüzde 40'ını gerçekten bilgi işlem yaparak harcadığını söylüyor.

Nvidia elbette bu GPU'lardan büyük miktarlarda satın alan şirketlere güveniyor ve bunları, 36 CPU ve 72 GPU'yu tek bir sıvı soğutmalı rafa toplam 720 adet olmak üzere takan GB200 NVL72 gibi süper bilgisayarlara hazır daha büyük tasarımlarda paketliyor. AI eğitim performansının petaflop'u veya 1.440 petaflop'u (diğer adıyla 1,4) exaflops) çıkarım.

GB200 NVL72.
Resim: Nvidia

Raftaki her tepsi, iki GB200 yongası veya iki NVLink anahtarı içerir; raf başına ilkinden 18, ikincisinden dokuzu bulunur. Toplamda Nvidia, bu raflardan birinin 27 trilyon parametreli bir modeli destekleyebileceğini söylüyor. GPT-4'ün yaklaşık 1,7 trilyon parametreli bir model olduğu söyleniyor.

Şirket, Amazon, Google, Microsoft ve Oracle'ın halihazırda bulut hizmeti tekliflerinde NVL72 raflarını sunmayı planladıklarını ancak kaç tane satın aldıklarının belli olmadığını söylüyor.

Ve tabii ki Nvidia, şirketlere çözümün geri kalanını da sunmaktan mutluluk duyuyor. İşte DGX GB200 için DGX Superpod, toplam 288 CPU, 576 GPU, 240 TB bellek ve 11,5 exaflop FP4 bilgi işlem için sekiz sistemi bir arada birleştiriyor.

Nvidia, sistemlerinin yeni Quantum-X800 InfiniBand (144 bağlantıya kadar) veya Spectrum-X800 ethernet (64 bağlantıya kadar) ile 800 Gbps ağ bağlantısıyla birbirine bağlanan on binlerce GB200 süper çipine ölçeklenebileceğini söylüyor.

Kaynak bağlantısı

Popular Articles

Latest Articles