به تازگی انویدیا جزئیات فنی از سرورهای بلک ول را فاش کرده است و در مورد رک‌های GB200، GB300 و طراحی ماژولار MGX توضیح داده است. در این مطلب نگاهی می‌اندازیم به جزئیات منتشر شده تا ببینیم هیولاهای انویدیا چطور به قدرت 1.4 اگزافلاپس رسیده‌اند.

جزئیات منتشر شده از پلتفرم‌های قدرتمند انویدیا

با بزرگ‌تر شدن و البته پیچیده‌تر شدن مدل‌های هوش مصنوعی، دیتاسنترها مجبور هستند خودشان را برای حجم پردازشی بیشتر آماده کنند. شرکت‌هایی مانند انویدیا که جزو اولین‌ها برای توسعه سخت افزارهای هوش مصنوعی هستند حالا فقط به ساخت GPU اکتفا نمی‌کنند، بلکه می‌خواهند با ایجاد تغییراتی در ساختار دیتاسنترها، آن‌ها را برای این پردازش‌های سنگین آماده کنند.

در همین راستا هم انویدیا از پشت پرده طراحی پلتفرم‌های جدید خود رونمایی کرده، سیستم‌هایی بسیار قدرتمند که قرار است قلب تپنده نسل بعدی ابر کامپیوترهای هوش مصنوعی باشند. اما یکی از کلیدی‌ترین پایه‌های این سیستم‌ها معماری خاصی به نام MGX است که انویدیا در مورد آن صحبت کرده است.

 پلتفرم‌های قدرتمند انویدیا

انویدیا در واقع سعی کرده با معماری MGX، ساخت سرورهای هوش مصنوعی را از یک فرایند پیچیده و دست و پا گیر، به یک فرایند ساده تبدیل کند. اما چطور؟ MGX یک معماری متن باز است که اجزای مختلف سیستم مانند پردازنده، کارت گرافیک و حافظه را به شکل ماژول‌هایی جداگانه و قابل تعویض طراحی می‌کند. یعنی اگر یک دیتاسنتر داشته باشید، نیازی نیست برای هر مشکلی که اتفاق می‌افتد کل سیستم را تغییر دهید،  فقط کافی است یکی از ماژول‌ها را تعویض کنید.

با این نوع و سبک طراحی، توسعه‌دهندگان و مشتریان دیتاسنترها می‌توانند پلتفرم سفارشی خودشان را بسازند و در واقع خودشان قطعات سیستم را انتخاب کنند. انویدیا این معماری را به پلتفرم متن باز OCP هم اهدا کرده تا همه شرکت‌ها بتوانند از آن استفاده کنند.

gb200 انویدیا

GB200 و GB300؛ قلب تپنده‌ی MGX

اما با وجود همه تعریف‌هایی که از MGX کردیم، این معماری به تنهایی نمی‌تواند دیتاسنترها را قدرتمندتر کند. در واقع پلتفرم MGX تنها یک چارچوب یا اسکلت بندی ماژولار برای ساخت سرورهای هوش مصنوعی است، اما قدرت پردازشی توسط دو پردازنده GB200 و GB300 تامین می‌شود.

اینطور که انویدیا در مورد نحوه کارشان توضیح داده، در این سیستم‌ها هر رک (قفسه‌ی مخصوص برای نصب تجهیزات دیتاسنتری) از چندین بخش تشکیل می‌شود، سوییچ‌ها در بالا، منبع تغذیه رک زیر آن و تری‌های پردازشی که میزبان GPUهای بلک ول و پردازنده‌های Grace هستند.

خنک کننده مایع دیتاسنترها

حالا هر تری (واحد پردازشی قابل نصب در رک) محاسباتی می‌تواند 80 پتافلاپس توان پردازشی در FP4 تولید کند که اگر کمی حساب و کتاب کنیم، فقط یک رک GB300 می‌تواند تا 1.4 اگزافلاپس قدرت داشته باشد، آن هم در ابعادی که به اندازه یک یخچال نمی‌شود!

این تری‌ها به کمک فناوری NVLink Spine به یکدیگر متصل می‌شوند و سرعتی معادل 200 گیگابایت بر ثانیه برای هر خط ارتباطی ارائه می‌کنند. اگر نمی‌دانید NVLink Spine یک فناوری اختصاصی از انویدیا است که همه تری‌های پردازشی را به یکدیگر متصل می‌کند. این اتصال به جای استفاده از PCIe یا شبکه‌های کندتر، اجزای رک را یکپارچه می‌کند.

در طراحی MGX، هر تری از دو ماژول HPM تشکیل شده، هر کدام ترکیبی از یک پردازنده Grace و دو بلک ول هستند. جالب است که تغذیه این سیستم‌ها کاملا اختصاصی است چرا که انویدیا یک منبع تغذبه اختصاصی با توان عبور 1400 آمپر طراحی کرده که چندین برابر قدرتمندتر از  رک‌های استاندارد دیگر است.

در همین رابطه بخوانید:

– فناوری فوتونیک انویدیا تا 2026 وارد دیتاسنترها می‌شود؛ GPUهایی که با نور اطلاعات رد و بدل می‌کنند

زمان تولید انبوه فرارسیده است

انویدیا اعلام کرده که سرورهای مبتنی بر GB200 و GB300 رسما وارد فاز تولید انبوه شده‌اند، یعنی طراحی آن‌ها کاملا تمام شده و حالا در دیتاسنترهای بزرگ دنیا نصب می‌شوند. انویدیا گفته این سرورها همین حالا هم در دیتاسنترهای هایپراسکیل در حال کار هستند.

source

توسط siahnet.ir