به دنبال انقلاب هوش مصنوعی و رونق مدل‌های زبانی در سراسر جهان، توسعه LLMهای فارسی نیز طی ماه‌های اخیر با استقبال خوبی از جانب شرکت‌ها و مؤسسات تحقیقاتی داخلی رو‌به‌رو بوده و همین باعث شده تا شاهد عرضه‌شدن برخی از باکیفیت‌ترین LLMهای متمرکز بر زبان فارسی باشیم.

در کنار این مدل‌های استاندارد، LLMهای ضعیف‌تر و کم‌توان‌تری هم عرضه می‌شوند که برای استفاده‌های حرفه‌ای مناسب نیستند و می‌توانند فرایند انتخاب یک مدل کارآمد را برای کاربران دشوار کنند. راه سنجش کیفیت این مدل‌ها، استفاده از سنجه‌های معتبری است که مدل‌های زبانی را از جنبه‌های مختلفی مورد ارزیابی قرار می‌دهد و با اعطای امتیاز، کیفیت آنها را مشخص می‌کنند.

تا به امروز، سیستم‌های ارزیابی متعددی برای سنجش کیفیت LLMها توسعه پیدا کرده‌اند؛ اما به دلیل عدم پشتیبانی مناسب این سیستم‌های ارزیابی خارجی از مدل‌های زبانی فارسی، توسعه‌دهندگان داخلی قادر نبودند پتانسیل واقعی محصول خود را به نمایش بگذارند. این مسئله در کنار جامع‌نبودن سنجه‌های داخلی که تاکنون عرضه شده‌اند، باعث شده تا مسیر توسعه‌دهندگان LLM فارسی برای حضور در بازارهای بین‌المللی و داخلی با موانع جدی روبه‌رو شود.

از همین رو، مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر به سرپرستی خانم دکتر سعیده ممتازی، استاد برجسته هوش مصنوعی کشور، موفق شدند که جامع‌ترین سیستم ارزیابی مدل‌های زبانی فارسی (Open Persian LLM Leaderboard) را عرضه کنند. این سنجه به همراه یک جدول رتبه‌بندی منتشر شده که جایگاه هر مدل زبانی با توجه به عملکردش در این جدول طبقه‌بندی می‌شود.

از طریق این رتبه‌بندی، برترین LLMهای فارسی معرفی می‌شوند و کاربران می‌توانند با توجه به امتیازات و نیاز خود، مدل مدنظرشان را انتخاب کنند. در کنار این، محققان و توسعه‌دهندگانی که قصد ورود به عرصه مدل‌های زبانی را دارند نیز فرصتی استثنایی برای معرفی LLM خود به هزاران کاربر بالقوه به دست می‌آورند.

سیستم ارزیابی مدل‌های زبانی فارسی تعدادی از برترین بنچمارک‌های مطرح دنیا را در خود جای داده که به همت تیم توسعه‌دهنده، به طور کامل به زبان فارسی بازگردانی شده و بومی‌سازی‌های لازم بر روی آن صورت گرفته است. این سیستم ارزیابی شامل بیش از 40 هزار نمونه است که جهشی چشمگیر در عرصه سنجه‌های مدل زبانی فارسی به‌حساب می‌آید.

از همه مهم‌تر، حجم زیادی از کلان‌داده‌های فارسی از پایه (From scratch) برای توسعه این مدل جمع‌آوری و برچسب‌گذاری شده که تأثیر بسزایی در عملکرد دقیق سنجه دارد. تعداد نمونه‌های این سیستم ارزیابی به طور مستمر افزایش پیدا می‌کند و از طریق به‌روزرسانی‌های مداوم، با نیازهای روز اکوسیستم هوش مصنوعی کشور همگام می‌شود. 

سنجه جامع LLMهای فارسی، قادر است تا مدل‌ها را در حوزه‌های پزشکی، اقتصاد، صنعت، حقوق، منطق، مهندسی،‌ علوم‌انسانی و… با دانشی هم‌سطح کارشناسی‌ارشد ارزیابی کند. این در حالی است که سیستم‌های ارزیابی پیشین تنها توانایی سنجش مدل‌ها تا سقف دانش دبیرستان را داشتند و عملکرد مناسبی در سنجش کیفیت مدل‌های حرفه‌ای از خود به نمایش نمی‌‌گذاشتند. این چارچوب ارزیابی، علاوه بر داده‌های متنی، از اعداد و فرمول‌های ریاضی نیز برای آزمایش مدل‌های زبانی استفاده می‌کند تا هر مدل از ابعاد و جهات مختلفی مورد ارزیابی قرار بگیرد.

همکاری مجموعه پارت و دانشگاه صنعتی امیرکبیر، اولین همکاری صنعت و دانشگاه در زمینه توسعه سیستم ارزیابی مدل‌های زبانی فارسی است. این هم‌افزایی ارزشمند، راه را برای توسعه محصولات مورد نیاز زیست‌بوم نوآوری کشور هموار می‌کند و باعث می‌شود تا دانش خلق شده در دانشگاه به‌صورت مؤثر و عملی در خدمت پیشرفت صنایع گوناگون قرار بگیرد.

مجموعه پارت نیز با تأمین زیرساخت‌های ضروری و پایپ‌لاین ارزیابی منطبق با استانداردهای Open LLM Leaderboard، زمینه خلق این سیستم ارزیابی را فراهم کرد تا علاوه بر این پروژه، چشم‌انداز روشنی برای توسعه برنامه‌های مشابه میان این مجموعه و دانشگاه وجود داشته باشد.

این سنجه با تلاش‌های دکتر ممتازی توانسته مجوزهای لازم را از جانب «Open LLM Leaderboard» دریافت کند تا نتیجه ارزیابی LLMهای فارسی در این مرجع بین‌المللی نیز معتبر شناخته شود. در حال حاضر، بخش محدودی از این سیستم به‌صورت متن‌باز در وب‌سایت «هاگینگ فیس» عرضه شده و شما می‌توانید با مراجعه به درگاه سیستم ارزیابی مدل‌های فارسی، LLMهای گوناگون را با یکدیگر مقایسه کنید و ارزیابی مدل زبانی خود را به این بنچمارک بسپارید. 

سلب مسئولیت: مطالب منتشرشده در دسته رپورتاژ آگهی توسط شرکت‌های ثالث تهیه شده و جنبه تبلیغاتی یا بیانیه خبری دارند. این مطالب صرفاً بازنشر شده و شهرسخت‌افزار مسئولیتی در قبال صحت محتوای آن ندارد.

source

توسط siahnet.ir