شرکت OpenAI در جدیدترین گزارش خود تایید کرده است که مدلهای پیشرفتهتر ChatGPT مانند نسخه GPT-4o و o4-mini، با وجود اینکه در تحلیل کردن قدرت بیشتری دارند، بیشتر از مدلهای دیگر دچار توهم یا تولید اطلاعات نادرست میشوند. طبق نتایج آزمایشها، نرخ خطا در این مدلها تا دو برابر از نسل قبلی بیشتر است. جزئیات بیشتر را در شهر سخت افزار دنبال کنید.
مدلهای جدید، تواناتر اما ناپایدارتر
به گزارش techradar، شرکت OpenAI وعده داده بود که مدلهای GPT-4o و o4-mini قرار است بسیار سریعتر و قویتر از نسخههای عادی چت جی پی تی عمل کنند. قرار بود این مدلها بتوانند مفاهیم پیچیده و تحلیل منطقی را به راحتی انجام بدهند، اما برخلاف این وعدهها، بررسی داخلی خود این شرکت نشان داده که نرخ توهم این مدلها به طرز قابل توجهی افزایش یافته است.
در یکی از آزمایشها، مدل GPT-4o در یک سوم موارد اطلاعات نادرست تولید کرد و نسبت به مدل عادی دو برابر خطای بیشتری داشت. مدل mini هم بهتر عمل نکرد و در حدود 48 درصد موارد پاسخهای ساختگی ارائه داد.
اما اوضاع وقتی نگران کنندهتر میشود که این مدلها با مجموعه سوالات عمومی و سادهتر آزمایش شدند، احتمالا فکر میکنید که اینجا عملکرد بهتری داشتند اما باید بگوییم که GPT-4o به 51 درصد و o4-mini به 79 درصد خطا رسید. یعنی این مدلها در بیشتر موارد نه تنها اشتباه میکردند، بلکه اشتباهشان را با اطمینان کامل مطرح میکردند. موضوعی که کارشناسان به آن اعتماد به نفس کاذب الگوریتم میگویند.
وقتی مدل قویتر، بیشتر اشتباه میکند
یکی از فرضیات رایج در میان پژوهشگران هوش مصنوعی این است که هرچه مدلها پیچیدهتر و منطقیتر شوند، احتمال بروز خطا هم بسیار بیشتر میشود. دلیلش هم ساده است، مدلهایی مانند GPT-4o برخلاغ نسخههای سادهتر، دیگر فقط جملات را کامل نمیکنند بلکه تلاش میکنند تحلیل کنند، فرضیه بسازند و مسیرهای مختلف را بررسی کنند. همین فرایندها هم باعث میشود که این مدلها توهم بزنند و واقعیت را جعل کنند.
OpenAI هم اعتراف کرده که مدلهای جدید چون دامنه پاسخگویی گستردهتری دارند و میتوانند تفسیر کنند، مرز بین واقعیت و خیال برایشان محوتر شده است. یعنی به جای تکرار اطلاعات اصلی گاهی به بداهه گویی علمی روی میآورند و همین موضوع هم باعث میشود که اطلاعات تولید شده ساختگی باشند.
به گفته کارشناسان، این مدلها در عین حال که در کدنویسی، حل معادلات و تحلیلهای فنی بسیار عالی هستند، ممکن است در پاسخ به سوالات بسیار سادهای مانند دمای جوش آب یا تاریخ برخی از اتفاقات تاریخی دچار خطاهای فاحش شوند.
در همین رابطه بخوانید:
– به این دلیل هوش مصنوعی نمی تواند جای موتور جستجو گوگل را بگیرد
وقتی اشتباهات هوش مصنوعی دردسرساز میشوند
افزایش توهم در مدلهای جدید تنها یک مسئله فنی نیست بلکه به تازگی به یک چالش جدی تبدیل شده است. سال گذشته چندین وکیل در آمریکا به دلیل استفاده از نسخههای قبلی ChatGPT، ارجاعات حقوقی جعلی به دادگاه ارائه دادند. حالا تصور کنید همین اتفاقات برای پروندههای پزشکی یا قراردادهای مالی رخ بدهد.
حتی در استفادههای روزمره، مانند نوشتن رزومه، تحلیل گزارش مالی یا تنظیم یک ایمیل رسمی، اگر کاربر نتواند به صحت پاسخها اطمینان کند، عملا کاربرد اصلی هوش مصنوعی از بین میرود.
source