مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند
44

طبق تست‌های OpenAI، ۲ مدل استدلا‌ل‌گر جدید این شرکت، o۳ و o۴-mini، بیشتر از مدل‌های قبلی دچار توهم می‌شوند.

: چند روز قبل OpenAI از مدل‌های استدلالگر جدیدش o3 و o4-mini، رونمایی کرد که از بسیاری جهات از مدل‌های قبلی این شرکت پیشرفت کرده‌اند. البته طبق گزارش‌های جدید این مدل‌ها هنوز دچار توهم می‌شوند؛ یعنی چیزهایی می‌گویند که واقعیت ندارد.



براساس گزارش تک‌کرانچ، 2 مدل استدلا‌لگر o3 و o4-mini شرکت OpenAI توهم زیادی دارند. طبق تست‌های OpenAI، این 2 مدل استدلالگر بیشتر از مدل‌های استدلالگر قبلی شرکت، o1 ،o1-mini و o3-mini، همچنین مدل‌های معمولی OpenAI مانند GPT-4o توهم ایجاد می‌کنند.



درکل توهمات یکی از بزرگ‌ترین مسائل هوش مصنوعی است که برطرف‌کردن آنها بسیار دشوار است. بااین‌حال مدل‌های جدید کمی در بخش توهم بهبود می‌یابند و کمتر از مدل قبلی خود دچار توهم می‌شوند اما این امر درباره o3 و o4-mini صادق نیست.



توهم در مدل‌های هوش مصنوعی جدید OpenAI

نکته نگران‌کننده‌تر این است که OpenAI واقعاً نمی‌داند چرا این اتفاق می‌افتد. سازنده ChatGPT در گزارش فنی خود برای o3 و o4-mini می‌نویسد: «به تحقیقات بیشتری نیاز است تا بفهمیم چرا توهمات با پیشرفت مدل‌های استدلالی افزایش یافته است.»



O3 و o4-mini در برخی زمینه‌ها ازجمله کارهای مربوط به کدنویسی و ریاضی عملکرد بهتری دارند اما ازآنجایی‌که آنها «درکل ادعاهای بیشتری دارند»، طبق گزارش OpenAI، اغلب همان‌قدر که ادعاهای دقیق‌تری می‌کنند، ادعاهای نادرست و متوهم‌تری نیز ارائه می‌دهند.



OpenAI می‌گوید o3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت برای سنجش دقت دانش مدل درباره اشخاص) توهم ایجاد می‌کند. این تقریباً دو برابر میزان توهم مدل‌های استدلال‌گر قبلی o1 و o3-mini است که به‌ترتیب امتیاز بنچمارک‌ آنها 16 درصد و 14.8 درصد بود. مدل O4-mini نیز عملکرد بدتری در PersonQA دارد: 48 درصد.



توهمات ممکن است به مدل‌ها کمک کند به ایده‌های جالبی برسند و خلاق باشند اما این امر برای کسب‌وکارها و کاربرانی که نیاز به دقت بالایی در خروجی هوش مصنوعی دارند، مشکل‌ساز است. یکی از روش‌های امیدوارکننده برای افزایش دقت مدل‌ها، داشتن قابلیت جستجوی وب مدل‌هاست؛ برای مثال مدل GPT-4o با قابلیت جستجوی وب، امتیاز 90 درصدی در SimpleQA (یکی دیگر از بنچمارک‌های سنجش دقت) به دست آورد.


هوش مصنوعی

نظر خود را ارسال کنید ...

آخرین اخبار

ذخایر استراتژیک گندم به ۶ ماه رسید

راه اندازی مسیر مستقیم کشتیرانی بین بندر «کراچی» و «جیبوتی»

چین بمب هیدروژنی غیرهسته‌ای آزمایش کرد

قالیباف قانون اجازه افزایش سهام سرمایه دولت در بانک بین المللی ترمیم را ابلاغ کرد

جنگ تجاری چین و آمریکا به کدام سو می رود؟ / آیا مذاکرات تجاری با چالش‌ مواجه شده؟

اصلی‌ترین انتظار ایران رفع تحریم‌های هسته‌ای است

هدف‌گذاری ترانزیت ۸ میلیون تن بار در سال‌جاری

انتقاد عضو شورا از تقسیم پست در شهرداری تهران/ ایراد به تمدید دوره مدیریت شهرداری

واکنش سی‌ان‌ان به سفر وزیر دفاع عربستان به ایران

فرستاده ویژه آمریکا به اوکراین: آتش‌بس قریب‌الوقوع است

پربازدیدترین ها

ترامپ چگونه بازار انرژی جهان را متحول می‌کند؟

موضع‌گیری‌های مهم و دقیق ترامپ درباره ایران

حادثه هواپیمای فوکر ۱۰۰ کارون در فرودگاه مهرآباد

ورزشگاه آزادی در شرایط تحویل موقت است

دقیقی: به جز یک صحنه هیچ موقعیت خاصی به تیم هوادار ندادیم

رضایت موسیمانه از اردوی کیش

دیدار رهبر انقلاب با مسئولان نظام و سفرای کشورهای اسلامی آغاز شد

تلاش برای بازگشت به زندگی عادی

بانک صادرات ایران دومین شرکت برتر ایران شد

بقائی: ایران درباره توان دفاعی خود مذاکره نمی‌کند

پر بحث ترین ها

نماینده سابق مجلس: اجازه دهیم بررسی لوایح FATF در مجمع تشخیص مصلحت نظام به مسیر خود ادامه دهد

دولت غزه: وضعیت انسانی غزه وارد مرحله فروپاشی کامل شده است

باشگاه استقلال: منتظر پاسخ نهایی ماتزاری هستیم

عجله کارتال برای آماده شدن اورونوف

سازنده و محترمانه

حداقل حقوق کارمندان در سال ۱۴۰۴ مشخص شد

الازهر: غزه، سرزمینی فلسطینی باقی می‌ماند

ایران با شکست بحرین راهی نیمه نهایی شد

رنه هیگوییتا، آدم‌ربا یا همدست پابلو اسکوبار؟

علیپور مهاجم یک کارتال می‌شود؟

برچسب ها