رقابت شرکت‌های چینی و آمریکایی در زمینه هوش مصنوعی وارد فاز جدیدی شده است. پس از معرفی Deep Seek که جنجالی در دنیای هوش مصنوعی به وجود آورد؛ اکنون ByteDance، سازنده تیک تاک، از مدل هوش مصنوعی Goku رونمایی کرده که می‌تواند دستورهای متنی و تصاویر را به ویدیوهایی واقعی تبدیل کند. در ادامه به معرفی قابلیت‌های این مدل هوش مصنوعی متن باز خواهیم پرداخت.

بایت‌دنس هفته جاری از چندین محصول هوش مصنوعی خود رونمایی کرده است. یکی از این محصولات سرویسی به نام OmniHuman-1 برای تولید ویدیوهای چندوجهی و دیپ‌فیک است. یکی از جالب‌ترین قالب‌های این هوش مصنوعی نیز امکان صداگذاری برای ویدیوهای تولید شده است.

Goku یک مدل هوش مصنوعی متن‌باز است که با استفاده از دستورات متنی، ویدیوهای با کیفیتی را تولید می‌کند. این مدل با بهبود دادهای دریافتی، ویدیو و تصاویری روان‌تر و دقیق‌تر در اختیار کاربر می‌گذارد. در واقع مدل متن باز Goku از بایت‌دنس نسبت به نسل قبلی مدل‌های این شرکت با نام Jimeng از لحاظ کیفیت بهبود یافته است.

goku-2.jpg

در ویدیویی که بایت‌دنس منتشر کرده، می‌توان قدرت هوش مصنوعی Goku در تولید ویدیوهای کوتاه مشاهده کرد. در این ویدیو، مدل Goku می‌تواند تصاویر ثابت را متحرک کرده، توالی‌های حرکتی بسازد و تصاویر را با صدا همگام‌سازی کند.

ظاهراً در این مدل از تکنیکی به نام Rectified Flow استفاده شده که می‌تواند حرکات بعدی را با دقت پیش‌بینی کند تا بتوان ویدیوهایی بی نقص را ساخت. این مدل با قابلیت ادغام و همگام‌سازی صدا با ویدیو می‌توانند برای سازندگان انیمیشن بسیار کاربردی باشد.

مدل هوش مصنوعی Goku هنوز به صورت عمومی عرضه نشده، اما می‌توان انتظار داشت که بایت‌دنس تا چند ماه آینده این مدل را در دسترس عموم قرار دهد. در انتها می‌توانید ویدیویی از عملکرد فوق العاده این مدل هوش مصنوعی را مشاهده کنید:

source

توسط siahnet.ir