رقابت شرکتهای چینی و آمریکایی در زمینه هوش مصنوعی وارد فاز جدیدی شده است. پس از معرفی Deep Seek که جنجالی در دنیای هوش مصنوعی به وجود آورد؛ اکنون ByteDance، سازنده تیک تاک، از مدل هوش مصنوعی Goku رونمایی کرده که میتواند دستورهای متنی و تصاویر را به ویدیوهایی واقعی تبدیل کند. در ادامه به معرفی قابلیتهای این مدل هوش مصنوعی متن باز خواهیم پرداخت.
بایتدنس هفته جاری از چندین محصول هوش مصنوعی خود رونمایی کرده است. یکی از این محصولات سرویسی به نام OmniHuman-1 برای تولید ویدیوهای چندوجهی و دیپفیک است. یکی از جالبترین قالبهای این هوش مصنوعی نیز امکان صداگذاری برای ویدیوهای تولید شده است.
Goku یک مدل هوش مصنوعی متنباز است که با استفاده از دستورات متنی، ویدیوهای با کیفیتی را تولید میکند. این مدل با بهبود دادهای دریافتی، ویدیو و تصاویری روانتر و دقیقتر در اختیار کاربر میگذارد. در واقع مدل متن باز Goku از بایتدنس نسبت به نسل قبلی مدلهای این شرکت با نام Jimeng از لحاظ کیفیت بهبود یافته است.
در ویدیویی که بایتدنس منتشر کرده، میتوان قدرت هوش مصنوعی Goku در تولید ویدیوهای کوتاه مشاهده کرد. در این ویدیو، مدل Goku میتواند تصاویر ثابت را متحرک کرده، توالیهای حرکتی بسازد و تصاویر را با صدا همگامسازی کند.
ظاهراً در این مدل از تکنیکی به نام Rectified Flow استفاده شده که میتواند حرکات بعدی را با دقت پیشبینی کند تا بتوان ویدیوهایی بی نقص را ساخت. این مدل با قابلیت ادغام و همگامسازی صدا با ویدیو میتوانند برای سازندگان انیمیشن بسیار کاربردی باشد.
مدل هوش مصنوعی Goku هنوز به صورت عمومی عرضه نشده، اما میتوان انتظار داشت که بایتدنس تا چند ماه آینده این مدل را در دسترس عموم قرار دهد. در انتها میتوانید ویدیویی از عملکرد فوق العاده این مدل هوش مصنوعی را مشاهده کنید:
source