به تازگی انویدیا جزئیات فنی از سرورهای بلک ول را فاش کرده است و در مورد رکهای GB200، GB300 و طراحی ماژولار MGX توضیح داده است. در این مطلب نگاهی میاندازیم به جزئیات منتشر شده تا ببینیم هیولاهای انویدیا چطور به قدرت 1.4 اگزافلاپس رسیدهاند.
جزئیات منتشر شده از پلتفرمهای قدرتمند انویدیا
با بزرگتر شدن و البته پیچیدهتر شدن مدلهای هوش مصنوعی، دیتاسنترها مجبور هستند خودشان را برای حجم پردازشی بیشتر آماده کنند. شرکتهایی مانند انویدیا که جزو اولینها برای توسعه سخت افزارهای هوش مصنوعی هستند حالا فقط به ساخت GPU اکتفا نمیکنند، بلکه میخواهند با ایجاد تغییراتی در ساختار دیتاسنترها، آنها را برای این پردازشهای سنگین آماده کنند.
در همین راستا هم انویدیا از پشت پرده طراحی پلتفرمهای جدید خود رونمایی کرده، سیستمهایی بسیار قدرتمند که قرار است قلب تپنده نسل بعدی ابر کامپیوترهای هوش مصنوعی باشند. اما یکی از کلیدیترین پایههای این سیستمها معماری خاصی به نام MGX است که انویدیا در مورد آن صحبت کرده است.
انویدیا در واقع سعی کرده با معماری MGX، ساخت سرورهای هوش مصنوعی را از یک فرایند پیچیده و دست و پا گیر، به یک فرایند ساده تبدیل کند. اما چطور؟ MGX یک معماری متن باز است که اجزای مختلف سیستم مانند پردازنده، کارت گرافیک و حافظه را به شکل ماژولهایی جداگانه و قابل تعویض طراحی میکند. یعنی اگر یک دیتاسنتر داشته باشید، نیازی نیست برای هر مشکلی که اتفاق میافتد کل سیستم را تغییر دهید، فقط کافی است یکی از ماژولها را تعویض کنید.
با این نوع و سبک طراحی، توسعهدهندگان و مشتریان دیتاسنترها میتوانند پلتفرم سفارشی خودشان را بسازند و در واقع خودشان قطعات سیستم را انتخاب کنند. انویدیا این معماری را به پلتفرم متن باز OCP هم اهدا کرده تا همه شرکتها بتوانند از آن استفاده کنند.
GB200 و GB300؛ قلب تپندهی MGX
اما با وجود همه تعریفهایی که از MGX کردیم، این معماری به تنهایی نمیتواند دیتاسنترها را قدرتمندتر کند. در واقع پلتفرم MGX تنها یک چارچوب یا اسکلت بندی ماژولار برای ساخت سرورهای هوش مصنوعی است، اما قدرت پردازشی توسط دو پردازنده GB200 و GB300 تامین میشود.
اینطور که انویدیا در مورد نحوه کارشان توضیح داده، در این سیستمها هر رک (قفسهی مخصوص برای نصب تجهیزات دیتاسنتری) از چندین بخش تشکیل میشود، سوییچها در بالا، منبع تغذیه رک زیر آن و تریهای پردازشی که میزبان GPUهای بلک ول و پردازندههای Grace هستند.
حالا هر تری (واحد پردازشی قابل نصب در رک) محاسباتی میتواند 80 پتافلاپس توان پردازشی در FP4 تولید کند که اگر کمی حساب و کتاب کنیم، فقط یک رک GB300 میتواند تا 1.4 اگزافلاپس قدرت داشته باشد، آن هم در ابعادی که به اندازه یک یخچال نمیشود!
این تریها به کمک فناوری NVLink Spine به یکدیگر متصل میشوند و سرعتی معادل 200 گیگابایت بر ثانیه برای هر خط ارتباطی ارائه میکنند. اگر نمیدانید NVLink Spine یک فناوری اختصاصی از انویدیا است که همه تریهای پردازشی را به یکدیگر متصل میکند. این اتصال به جای استفاده از PCIe یا شبکههای کندتر، اجزای رک را یکپارچه میکند.
در طراحی MGX، هر تری از دو ماژول HPM تشکیل شده، هر کدام ترکیبی از یک پردازنده Grace و دو بلک ول هستند. جالب است که تغذیه این سیستمها کاملا اختصاصی است چرا که انویدیا یک منبع تغذبه اختصاصی با توان عبور 1400 آمپر طراحی کرده که چندین برابر قدرتمندتر از رکهای استاندارد دیگر است.
در همین رابطه بخوانید:
– فناوری فوتونیک انویدیا تا 2026 وارد دیتاسنترها میشود؛ GPUهایی که با نور اطلاعات رد و بدل میکنند
زمان تولید انبوه فرارسیده است
انویدیا اعلام کرده که سرورهای مبتنی بر GB200 و GB300 رسما وارد فاز تولید انبوه شدهاند، یعنی طراحی آنها کاملا تمام شده و حالا در دیتاسنترهای بزرگ دنیا نصب میشوند. انویدیا گفته این سرورها همین حالا هم در دیتاسنترهای هایپراسکیل در حال کار هستند.
source