A­l­i­b­a­b­a­ ­C­l­o­u­d­,­ ­N­v­i­d­i­a­’­n­ı­n­ ­a­r­a­ ­b­a­ğ­l­a­n­t­ı­s­ı­n­ı­ ­E­t­h­e­r­n­e­t­ ­l­e­h­i­n­e­ ­t­e­r­k­ ­e­t­t­i­ ­–­ ­t­e­k­n­o­l­o­j­i­ ­d­e­v­i­,­ ­v­e­r­i­ ­m­e­r­k­e­z­i­ ­i­ç­i­n­d­e­k­i­ ­1­5­.­0­0­0­ ­G­P­U­’­y­u­ ­b­a­ğ­l­a­m­a­k­ ­i­ç­i­n­ ­k­e­n­d­i­ ­Y­ü­k­s­e­k­ ­P­e­r­f­o­r­m­a­n­s­ ­A­ğ­ı­n­ı­ ­k­u­l­l­a­n­ı­y­o­r­

A­l­i­b­a­b­a­ ­C­l­o­u­d­,­ ­N­v­i­d­i­a­’­n­ı­n­ ­a­r­a­ ­b­a­ğ­l­a­n­t­ı­s­ı­n­ı­ ­E­t­h­e­r­n­e­t­ ­l­e­h­i­n­e­ ­t­e­r­k­ ­e­t­t­i­ ­–­ ­t­e­k­n­o­l­o­j­i­ ­d­e­v­i­,­ ­v­e­r­i­ ­m­e­r­k­e­z­i­ ­i­ç­i­n­d­e­k­i­ ­1­5­.­0­0­0­ ­G­P­U­’­y­u­ ­b­a­ğ­l­a­m­a­k­ ­i­ç­i­n­ ­k­e­n­d­i­ ­Y­ü­k­s­e­k­ ­P­e­r­f­o­r­m­a­n­s­ ­A­ğ­ı­n­ı­ ­k­u­l­l­a­n­ı­y­o­r­



Alibaba Bulut mühendisi ve araştırmacısı Ennan Zhai, araştırma makalesini şu adresten paylaştı: GitHubBulut sağlayıcısının LLM eğitimi için kullanılan veri merkezlerine yönelik tasarımını ortaya koyuyor. “Alibaba HPN: Büyük Dil Modeli Eğitimi için Bir Veri Merkezi Ağı” başlıklı PDF belgesi, Alibaba’nın 15.000 GPU’sunun birbiriyle iletişim kurmasına izin vermek için Ethernet’i nasıl kullandığını özetliyor.

Genel bulut bilişim, 10 Gbps’den düşük hızlarda tutarlı ancak küçük veri akışları üretir. Öte yandan, LLM eğitimi 400 Gbps’ye kadar ulaşabilen periyodik veri patlamaları üretir. Makaleye göre, “LLM eğitiminin bu özelliği, geleneksel veri merkezlerinde yaygın olarak kullanılan yük dengeleme şeması olan Eşit Maliyetli Çoklu Yol’u (ECMP) karma kutuplaşmasına yatkın hale getirir ve bu da eşit olmayan trafik dağılımı gibi sorunlara neden olur.”



genel-21

Popular Articles

Latest Articles