پس از سه سال تلاش برای ساخت یکی از خاص‌ترین ابررایانه‌های آموزش هوش مصنوعی در جهان، تسلا تصمیم گرفته پروژه Dojo و پردازنده‌های مقیاس‌ویفر اختصاصی خود را به‌طور کامل متوقف کند. این تغییر مسیر به معنای افزایش وابستگی به تراشه‌های انویدیا و AMD و سپردن تولید نسل‌های بعدی پردازنده‌های اختصاصی به غول‌های فاندری نظیر TSMC و سامسونگ است.

شرکت تسلا با تصمیمی غیرمنتظره، یکی از بلندپروازانه‌ترین پروژه‌های سخت‌افزاری خود یعنی ابررایانه Dojo را کنار گذاشت. این ابررایانه مبتنی بر پردازنده‌های مقیاس‌ویفر قرار بود قلب آموزش هوش مصنوعی خودروهای خودران و ربات‌های اپتیموس باشد، اما محدودیت‌های فنی و چالش‌های تولید، شرکت را به سمت تکیه بیشتر بر انویدیا و AMD سوق داده است. در این گزارش، جزئیات فنی، پیامدهای تجاری و مسیر جدید سخت‌افزاری تسلا را بررسی می‌کنیم.

تصمیم ناگهانی با پیامدهای گسترده

به گزارش بلومبرگ، ایلان ماسک، مدیرعامل تسلا، دستور انحلال تیم دوجو را صادر کرده است. پیتر بانون، مسئول این پروژه، به‌زودی شرکت را ترک خواهد کرد و حدود ۲۰ نفر از اعضای تیم نیز به استارتاپ تازه‌تأسیس DensityAI (متشکل از مدیران پیشین تسلا) پیوسته‌اند. نیروهای باقی‌مانده به مراکز داده و پروژه‌های دیگر در داخل تسلا منتقل خواهند شد. ماسک در توضیح این تصمیم گفته:

برای تسلا منطقی نیست که منابع خود را تقسیم کرده و هم‌زمان دو طراحی تراشه کاملاً متفاوت را به مقیاس برساند.

دوجو؛ از جاه‌طلبی تا محدودیت‌های عملی

پروژه دوجو در سال ۲۰۲۱ با هدف توسعه تراشه «D1» بر پایه معماری مقیاس‌ویفر (Wafer-Scale) آغاز شد. در این رویکرد، به‌جای برش ویفر سیلیکونی به چیپ‌های کوچک، بخش بزرگی از ویفر به‌عنوان یک پردازنده یکپارچه استفاده می‌شود تا تأخیر ارتباطی کاهش و پهنای‌باند داخلی افزایش یابد.

dojo-01.jpg

تراشه D1 با بیش از ۵۰ میلیارد ترانزیستور و هزاران هسته پردازشی در قالب تایل (Tile) طراحی شده بود و چینش ماژولار آن در خوشه‌های موسوم به «اکساپاد (ExaPOD)» مکان دستیابی به توان محاسباتی در مقیاس ابررایانه را فراهم می‌کرد.

با وجود این نوآوری‌ها، چالش‌های مهمی پیش‌روی پروژه قرار گرفت:

  • محدودیت پهنای‌باند و ظرفیت حافظه نزدیک به تراشه (HBM و SRAM روی-چیپ) که در آموزش مدل‌های بزرگ گلوگاه ایجاد می‌کرد.
  • نرخ بازده پایین (Yield) در تولید تراشه‌های بزرگ و هزینه بالای بسته‌بندی اختصاصی.
  • مدیریت خطاپذیری هسته‌ها که نیاز به سامانه‌های پایش و ایزوله‌سازی پیچیده داشت.
  • سرعت پایین استقرار نسل دوم (Dojo 2) که برنامه رسیدن به توان معادل ۱۰۰ هزار GPU انویدیا H100 تا سال ۲۰۲۶ را به تأخیر انداخت.

تغییر استراتژی تسلا در طراحی و ساخت محصولات

ماسک اخیراً ایده «معماری همگرا» را مطرح کرده است؛ رویکردی که در آن یک طراحی تراشه بتواند هم در خودروها و ربات انسان‌نمای اپتیموس و هم در بردهای سرور مراکز داده استفاده شود. بنابر گزارش Investing او در تماسی به سرمایه‌گذاران تسلا گفته است:

می‌توان از دو تراشه مشابه در یک خودرو یا اپتیموس و تعداد بیشتری (۵ تا ۱۲ عدد) روی یک برد سرور استفاده کرد. این به‌شکل شهودی منطقی است.

در این مسیر، تسلا بر توسعه تراشه‌های AI5 و AI6 تمرکز خواهد کرد. طبق برنامه، AI5 با همکاری TSMC و از سال ۲۰۲۵ برای خودروهای نسل بعدی تولید می‌شود. جانشین آن، AI6، اواخر دهه جاری در کارخانه سامسونگ در تگزاس تولید خواهد شد. این تراشه‌ها بیشتر برای استنتاج (Inference) بهینه خواهند شد و توانایی محدودی در آموزش خواهند داشت.

dojo-02.jpg

آینده همکاری با تأمین‌کنندگان خارجی

انویدیا همچنان تأمین‌کننده اصلی GPUهای تسلا برای آموزش مدل‌های هوش مصنوعی در مراکز داده خواهد بود. AMD نیز نقش پررنگ‌تری در این زنجیره تأمین پیدا می‌کند. این تغییر مسیر به تسلا اجازه می‌دهد ظرفیت آموزش موردنیاز برای توسعه رانندگی خودکار (FSD) و پروژه‌های هوش مصنوعی دیگر را سریع‌تر و با ریسک کمتر نسبت به مسیر انحصاری دوجو تأمین کند.

جمع‌بندی

پایان دوجو شاید برای علاقه‌مندان به نوآوری سخت‌افزاری خبر ناامیدکننده‌ای باشد، اما از دید کسب‌وکار و زمان‌بندی توسعه، این تغییر استراتژی تسلا را در مسیر واقع‌گرایانه‌تری قرار می‌دهد. تسلا همچنان در طراحی تراشه برای محصولات خود فعال خواهد بود، اما آموزش در مقیاس عظیم را به پردازنده‌های انویدیا، AMD و فاندری‌های بزرگ خواهد سپرد؛ ترکیبی که می‌تواند توازن بهتری بین نوآوری و کارایی ایجاد کند.

source

توسط siahnet.ir