Nvidia, İlk Grace Hopper CPU Süper Çip Testlerini MLPerf’e Sundu

Nvidia bugün, Grace Hopper CPU+GPU Superchip ve L4 GPU hızlandırıcıları için ilk kıyaslama sonuçlarını, AI performansını ölçmek için eşit bir oyun alanı sunmak üzere tasarlanmış endüstri standardı bir AI karşılaştırması olan MLPerf’in en yeni sürümüne sunduğunu duyurdu. farklı iş yükleri. Bugünkü kıyaslama sonuçları, MLPerf karşılaştırması için iki önemli yeni ilki işaret ediyor: Yeni bir Büyük Dil modeli (LLM) GPT-J çıkarım kıyaslaması ve yenilenen öneri modelinin eklenmesi. Nvidia, Grace Hopper Superchip’in GPT-J değerlendirmesinde pazar lideri H100 GPU’larından birinden %17’ye kadar daha fazla çıkarım performansı sunduğunu ve L4 GPU’larının Intel’in Xeon CPU’larına göre 6 kata kadar daha fazla performans sunduğunu iddia ediyor.

Sektör, daha yeni yapay zeka modellerine ve daha güçlü uygulamalara doğru hızla geliştikçe baş döndürücü bir hızla ilerliyor. Aynı doğrultuda, MLCommons kuruluşu tarafından yönetilen MLPerf kıyaslaması, yeni v3.1 revizyonuyla yapay zeka ortamının değişen doğasını daha iyi yansıtacak şekilde sürekli olarak gelişiyor.

2021’den bu yana gerçek dünyadaki iş yüklerinde kullanılan metinlere yönelik bir özetleme modeli olan GPT-J 6B, artık MLPerf paketinde çıkarım performansını ölçmek için bir referans noktası olarak kullanılıyor. GPT-J 6 milyar parametreli LLM, 175 milyar parametreli GPT-3 gibi bazı daha gelişmiş yapay zeka modelleriyle karşılaştırıldığında oldukça hafiftir ancak çıkarım kıyaslaması rolüne güzel bir şekilde uyar. Bu model, metin bloklarını özetler ve hem gecikmeye duyarlı olan çevrimiçi modda, hem de üretim açısından yoğun olan çevrimdışı modda çalışır. MLPerf paketi artık iki kat daha fazla parametre sayısına sahip daha büyük bir DLRM-DCNv2 öneri modelini, daha büyük bir çoklu sıcak veri kümesini ve gerçek dünya ortamlarını daha iyi temsil eden bir çapraz katman algoritmasını kullanıyor.

Resim 1 ile ilgili 10

Nvidia Grace Haznesi — (İmaj kredisi: Tom’un Donanımı)

Bu arka planla birlikte Nvidia’nın bazı performans iddialarını burada görebiliriz. Nvidia’nın bu kriterleri MLCommons’a kendisinin gönderdiğini unutmayın, dolayısıyla bunlar muhtemelen yüksek düzeyde ayarlanmış en iyi senaryoları temsil eder. Nvidia ayrıca MLPerf paketinde kullanılan her yapay zeka modeli için karşılaştırmalı değerlendirmeler sunan tek şirket olduğunu belirtmekten hoşlanıyor ki bu objektif olarak doğru bir ifadedir. AMD gibi bazı şirketler tamamen yok ya da Intel’in Habana ve Google’ın TPU’su gibi yalnızca seçilmiş birkaç kriteri sunuyor. Gönderim eksikliğinin nedenleri şirkete göre değişir, ancak daha fazla rakibin MLPerf ringine adım attığını görmek güzel olurdu.

Nvidia ilk GH200 Grace Hopper Superchip MLPerf sonucunu sunarak CPU+GPU kombinasyonunun tek bir H100 GPU’dan %17 daha fazla performans sunduğunu vurguladı. GH200’ün H100 CPU ile aynı silikonu kullandığı göz önüne alındığında, ilk bakışta bu şaşırtıcı, ancak nedenini aşağıda açıklayacağız. Doğal olarak, Nvidia’nın sekiz H100’le donanmış sistemleri Grace Hopper Superchip’ten daha iyi performans göstererek her çıkarım testinde liderliği ele geçirdi.

Hatırlatmak gerekirse, Grace Hopper Superchip, Hopper GPU’yu ve Grace CPU’yu aynı kart üzerinde birleştirerek iki ünite arasında 900 GB/sn’lik bir aktarım hızına sahip bir C2C bağlantısı (burada ayrıntılı inceleme) sağlar ve böylece tipik bir PCIe’nin 7 katı bant genişliği sağlar. CPU’dan GPU’ya veri aktarımı için bağlantı, GH200’ün erişilebilir bellek bant genişliğini artırır, 96 GB HBM3 bellek ve 4 TB/s GPU bellek bant genişliği içeren tutarlı bir bellek havuzuyla güçlendirilir. Buna karşılık, HGX’te test edilen H100 karşılaştırması yalnızca 80 GB HBM3’e sahiptir (yeni nesil Grace Hopper modelleri 2024’ün 2. çeyreğinde 144 GB 1,7 kat daha hızlı HBM3e’ye sahip olacak).

Nvidia ayrıca, CPU ve GPU arasındaki güç bütçesini dinamik olarak dengeleyen ve yayılma bütçesini en fazla yük altında olan birime yönlendiren Otomatik Hidrolik Direksiyon adı verilen dinamik bir güç değiştirme teknolojisinin de tanıtımını yapıyor. Bu teknoloji birçok rakip modern CPU+GPU kombinasyonunda kullanılıyor, dolayısıyla yeni değil ancak Grace Hopper Superchip üzerindeki GPU’nun, güç aktarımı nedeniyle HGX’te olduğundan daha yüksek bir güç dağıtım bütçesinden yararlanmasına olanak tanıyor. Grace CPU — standart bir sunucuda bu mümkün değildir. Tam CPU+GPU sistemi 1000W TDP’de çalışıyordu.

Çıkarımların çoğu, gelecekte daha büyük modeller yaygınlaştıkça değişebilecek olan CPU’lar üzerinde yürütülmeye devam ediyor; Bu iş yükleri için CPU’ları L4 gibi küçük, düşük güçlü GPU’larla değiştirmek Nvidia için çok önemli çünkü yüksek hacimli satışları artıracak. Bu MLPerf gönderim turu aynı zamanda Nvidia’nın L4 GPU’ları için ilk sonuçları da içeriyor; çıkarım için optimize edilmiş kart, ince form faktörlü bir kartta sadece 72W çekmesine rağmen GPT-J çıkarım karşılaştırmasında tek bir Xeon 9480’den 6 kat daha fazla performans sunuyor. yardımcı güç bağlantısı gerektirmez.

Nvidia ayrıca sekiz L4 GPU’nun performansını önceki iki nesil Xeon 8380s CPU’ya kıyasla ölçerek CPU’lara karşı video + AI kod çözme-çıkarım-kodlama iş yükünde 120 kata kadar performans iddia ediyor ki bu biraz dengesiz. Bunun muhtemelen tek bir kasaya sığdırılabilecek bilgi işlem gücünün doğrudan bir karşılaştırması olması amaçlanıyor. Yine de, iş için en uygun olmasa da dört soketli sunucuların mevcut olması dikkat çekicidir ve daha yeni Xeon yongaları bu testte muhtemelen biraz daha iyi performans gösterecektir. Test konfigürasyonu slaytın alt kısmındaki küçük harflerle yazılmıştır, dolayısıyla bu ayrıntılara dikkat ettiğinizden emin olun.

Son olarak Nvidia, Jetson Orin robotik çiplerinin kıyaslamalarını da sundu; bu, büyük ölçüde yazılımdaki iyileştirmelerden kaynaklanan çıkarım veriminde %84’lük bir artış olduğunu gösterdi.

Resim 1 ile ilgili 11

MLPerf — (İmaj kredisi: Tom’un Donanımı)

Gerçek dünyada her yapay zeka modelinin, belirli bir işi veya görevi gerçekleştirmek için yapay zeka hattında yürütülen daha uzun bir model serisinin parçası olarak çalıştığını unutmamak önemlidir. Nvidia’nın yukarıdaki çizimi bunu güzel bir şekilde kapsıyor; tamamlanmadan önce bir sorgu üzerinde sekiz farklı AI modeli gerçekleştirildi – ve bu tür AI ardışık düzenlerinin tek bir sorguyu karşılamak için 15 ağa kadar genişletilmesi duyulmamış bir şey değil. Yukarıdaki verim odaklı kıyaslamalar, belirli bir işlemi tamamlamak için seri olarak çalışan birden fazla yapay zeka modeliyle biraz daha fazla çok yönlülük gerektiren gerçek dünya hattının aksine, tek bir yapay zeka modelini yüksek kullanımda çalıştırmaya odaklanma eğiliminde olduğundan, bu önemli bir bağlamdır. görev.

Nvidia ayrıca geçen hafta, üretken yapay zeka iş yüklerine yönelik TensorRT-LLM yazılımının, çıkarım iş yüklerinde optimize edilmiş performans sağladığını ve genel olarak H100 GPU’larında kullanıldığında hiçbir ek maliyet olmaksızın iki kattan fazla performans sağladığını duyurdu. Nvidia yakın zamanda bu yazılımla ilgili ayrıntılı bilgi verdi, buradan okuyabilirsiniz ve bu sonuç turu için bu çıkarım artırıcı yazılımın hazır olmadığının altını çiziyor; MLCommons, MLPerf gönderimleri için 30 günlük bir teslim süresi gerektiriyor ve o sırada TensorRT-LLM mevcut değildi. Bu, Nvidia’nın MLPerf kıyaslamalarının açılış turunda, bir sonraki gönderim turunda muazzam bir iyileşme görülmesi gerektiği anlamına geliyor.

Popular Articles

Latest Articles

Other Articles

N­v­i­d­i­a­,­ ­İ­l­k­ ­G­r­a­c­e­ ­H­o­p­p­e­r­ ­C­P­U­ ­S­ü­p­e­r­ ­Ç­i­p­ ­T­e­s­t­l­e­r­i­n­i­ ­M­L­P­e­r­f­’­e­ ­S­u­n­d­u­

Popular Articles

Latest Articles

Other Articles

Nvidia, İlk Grace Hopper CPU Süper Çip Testlerini MLPerf’e Sundu