به دنبال انقلاب هوش مصنوعی و رونق مدلهای زبانی در سراسر جهان، توسعه LLMهای فارسی نیز طی ماههای اخیر با استقبال خوبی از جانب شرکتها و مؤسسات تحقیقاتی داخلی روبهرو بوده و همین باعث شده تا شاهد عرضهشدن برخی از باکیفیتترین LLMهای متمرکز بر زبان فارسی باشیم.
در کنار این مدلهای استاندارد، LLMهای ضعیفتر و کمتوانتری هم عرضه میشوند که برای استفادههای حرفهای مناسب نیستند و میتوانند فرایند انتخاب یک مدل کارآمد را برای کاربران دشوار کنند. راه سنجش کیفیت این مدلها، استفاده از سنجههای معتبری است که مدلهای زبانی را از جنبههای مختلفی مورد ارزیابی قرار میدهد و با اعطای امتیاز، کیفیت آنها را مشخص میکنند.
تا به امروز، سیستمهای ارزیابی متعددی برای سنجش کیفیت LLMها توسعه پیدا کردهاند؛ اما به دلیل عدم پشتیبانی مناسب این سیستمهای ارزیابی خارجی از مدلهای زبانی فارسی، توسعهدهندگان داخلی قادر نبودند پتانسیل واقعی محصول خود را به نمایش بگذارند. این مسئله در کنار جامعنبودن سنجههای داخلی که تاکنون عرضه شدهاند، باعث شده تا مسیر توسعهدهندگان LLM فارسی برای حضور در بازارهای بینالمللی و داخلی با موانع جدی روبهرو شود.
از همین رو، مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر به سرپرستی خانم دکتر سعیده ممتازی، استاد برجسته هوش مصنوعی کشور، موفق شدند که جامعترین سیستم ارزیابی مدلهای زبانی فارسی (Open Persian LLM Leaderboard) را عرضه کنند. این سنجه به همراه یک جدول رتبهبندی منتشر شده که جایگاه هر مدل زبانی با توجه به عملکردش در این جدول طبقهبندی میشود.
از طریق این رتبهبندی، برترین LLMهای فارسی معرفی میشوند و کاربران میتوانند با توجه به امتیازات و نیاز خود، مدل مدنظرشان را انتخاب کنند. در کنار این، محققان و توسعهدهندگانی که قصد ورود به عرصه مدلهای زبانی را دارند نیز فرصتی استثنایی برای معرفی LLM خود به هزاران کاربر بالقوه به دست میآورند.
سیستم ارزیابی مدلهای زبانی فارسی تعدادی از برترین بنچمارکهای مطرح دنیا را در خود جای داده که به همت تیم توسعهدهنده، به طور کامل به زبان فارسی بازگردانی شده و بومیسازیهای لازم بر روی آن صورت گرفته است. این سیستم ارزیابی شامل بیش از 40 هزار نمونه است که جهشی چشمگیر در عرصه سنجههای مدل زبانی فارسی بهحساب میآید.
از همه مهمتر، حجم زیادی از کلاندادههای فارسی از پایه (From scratch) برای توسعه این مدل جمعآوری و برچسبگذاری شده که تأثیر بسزایی در عملکرد دقیق سنجه دارد. تعداد نمونههای این سیستم ارزیابی به طور مستمر افزایش پیدا میکند و از طریق بهروزرسانیهای مداوم، با نیازهای روز اکوسیستم هوش مصنوعی کشور همگام میشود.
سنجه جامع LLMهای فارسی، قادر است تا مدلها را در حوزههای پزشکی، اقتصاد، صنعت، حقوق، منطق، مهندسی، علومانسانی و… با دانشی همسطح کارشناسیارشد ارزیابی کند. این در حالی است که سیستمهای ارزیابی پیشین تنها توانایی سنجش مدلها تا سقف دانش دبیرستان را داشتند و عملکرد مناسبی در سنجش کیفیت مدلهای حرفهای از خود به نمایش نمیگذاشتند. این چارچوب ارزیابی، علاوه بر دادههای متنی، از اعداد و فرمولهای ریاضی نیز برای آزمایش مدلهای زبانی استفاده میکند تا هر مدل از ابعاد و جهات مختلفی مورد ارزیابی قرار بگیرد.
همکاری مجموعه پارت و دانشگاه صنعتی امیرکبیر، اولین همکاری صنعت و دانشگاه در زمینه توسعه سیستم ارزیابی مدلهای زبانی فارسی است. این همافزایی ارزشمند، راه را برای توسعه محصولات مورد نیاز زیستبوم نوآوری کشور هموار میکند و باعث میشود تا دانش خلق شده در دانشگاه بهصورت مؤثر و عملی در خدمت پیشرفت صنایع گوناگون قرار بگیرد.
مجموعه پارت نیز با تأمین زیرساختهای ضروری و پایپلاین ارزیابی منطبق با استانداردهای Open LLM Leaderboard، زمینه خلق این سیستم ارزیابی را فراهم کرد تا علاوه بر این پروژه، چشمانداز روشنی برای توسعه برنامههای مشابه میان این مجموعه و دانشگاه وجود داشته باشد.
این سنجه با تلاشهای دکتر ممتازی توانسته مجوزهای لازم را از جانب «Open LLM Leaderboard» دریافت کند تا نتیجه ارزیابی LLMهای فارسی در این مرجع بینالمللی نیز معتبر شناخته شود. در حال حاضر، بخش محدودی از این سیستم بهصورت متنباز در وبسایت «هاگینگ فیس» عرضه شده و شما میتوانید با مراجعه به درگاه سیستم ارزیابی مدلهای فارسی، LLMهای گوناگون را با یکدیگر مقایسه کنید و ارزیابی مدل زبانی خود را به این بنچمارک بسپارید.
سلب مسئولیت: مطالب منتشرشده در دسته رپورتاژ آگهی توسط شرکتهای ثالث تهیه شده و جنبه تبلیغاتی یا بیانیه خبری دارند. این مطالب صرفاً بازنشر شده و شهرسختافزار مسئولیتی در قبال صحت محتوای آن ندارد.
source