OpenAI دست هوش مصنوعی ایلان ماسک را رو کرد
52

هفته گذشته یکی از کارمندان اوپن ای آی شرکت هوش مصنوعی xAI متعلق به ایلان ماسک را به انتشار نتایج گمراه کننده از سنجش گورک ۳ با یکی از معیارهای بررسی قدرت مدل متهم کرد.

به گزارش گروه بازار ایگور بابوشکین یکی از بنیانگذاران xAI تاکید دارد ادعاهای این شرکت درباره قدرت گورک۳ صحت دارند.



این شرکت فناوری در یک پست وبلاگی نموداری را منتشر کرد که عملکرد گورک ۳ را در AIME ۲۰۲۵ (مجموعه ای از سوالات چالش برانگیز ریاضی از یک آزمون ریاضی) نشان می داد. البته برخی از کارشناسان اعتبار AIME را به عنوان یک معیار هوش مصنوعی زیر سوال برده اند. با این وجود AIME ۲۰۲۵ و نسخه های قدیمی تر این تست به طور معمول برای بررسی قابلیت های ریاضی مدل های هوش مصنوعی به کار می روند.



نمودار استارت آپ هوش مصنوعی ایلان ماسک نشان می داد عملکرد نسخه های «گورک ۳ »، «گورک ۳ استدلالی بتا» و «گورک ۳ استدلالی مینی» در معیار AIME ۲۰۲۵ بهتر از مدل «o۳مینی» شرکت اوپن ای آی است.



اما کارمندان اوپن ای آی در پلتفرم ایکس به این نکته اشاره کردند که در نمودارxAI امتیاز «o۳مینی» در شاخص cons@۶۴ مربوط به معیار AIME ۲۰۲۵ شامل نشده است. cons@۶۴ به مدل‌های هوش مصنوعی اجازه می‌دهد تا ۶۴ بار به سوالات پاسخ دهند و نتایج پرتکرار را به عنوان پاسخ نهایی در نظر می‌گیرد که حذف آن می‌تواند نتایج را گمراه‌کننده جلوه دهد.



بابوشکین در پلتفرم ایکس مدعی شد اوپن ای آی قبلا جدول های معیار گمراه کننده مشابه را منتشر کرده است، هرچند این جدول ها مقایسه بین عملکرد مدل های هوش مصنوعی خود بوده است.



در این میان ناتان لمبرت محقق هوش مصنوعی در پستی این نکته را ذکر کرد که نتیجه مهمترین معیار مدل های هوش مصنوعی، یعنی هزینه رایانشی و مالی هر مدل برای دستیابی به بهترین امتیاز همچنان نامشخص است. این امر نشان می دهد بیشتر معیارهای هوش مصنوعی فقط اندکی از قدرت ها و محدودیت های مدل ها را نمایش می دهند.


OpenAIهوش مصنوعیایلان ماسک

نظر خود را ارسال کنید ...

آخرین اخبار

اخباری: شجاع بعد از دریبل دوطرفه به هم ریخت

گزینه اصلی داوری پرسپولیس – سپاهان لو رفت؟

ورود ۲٫۴ میلیارد دلار گوشی موبایل در سال ۱۴۰۳؛ سامسونگ پیشتاز بازار موبایل ایران

انویدیا با عبور از سامسونگ، به بزرگ‌ترین شرکت صنعت تراشه از لحاظ درآمد تبدیل شد

شادی گلم تشکر از کارتال بود

جلسه درمانی برای کنترل حاشیه‌ها

پیام‌رسان پیش‌فرض آیفون در iOS ۱۸.۴ تغییری کوچک اما کاربردی دریافت می‌کند

پاشازاده: مربیگری مجیدی در استقلال گمانه‌زنی است

هوش مصنوعی آزمایشی وانیلا ماوریک متا از رقبایش عقب ماند

آناتومی یک سقوط

پربازدیدترین ها

ترامپ چگونه بازار انرژی جهان را متحول می‌کند؟

موضع‌گیری‌های مهم و دقیق ترامپ درباره ایران

حادثه هواپیمای فوکر ۱۰۰ کارون در فرودگاه مهرآباد

رضایت موسیمانه از اردوی کیش

بانک صادرات ایران دومین شرکت برتر ایران شد

ورزشگاه آزادی در شرایط تحویل موقت است

تلاش برای بازگشت به زندگی عادی

بقائی: ایران درباره توان دفاعی خود مذاکره نمی‌کند

دقیقی: به جز یک صحنه هیچ موقعیت خاصی به تیم هوادار ندادیم

دیدار رهبر انقلاب با مسئولان نظام و سفرای کشورهای اسلامی آغاز شد

پر بحث ترین ها

نماینده سابق مجلس: اجازه دهیم بررسی لوایح FATF در مجمع تشخیص مصلحت نظام به مسیر خود ادامه دهد

حمله هوایی آمریکا به صنعا، صعده و البیضاء یمن

زمان و محل بازی تیم ملی جوانان با عربستان

پیش‌درآمدی برای دربی

اعلام آمادگی بیمه ایران برای پوشش ریسک و سرمایه‌گذاری در پروژه‌های نفت ستاره خلیج فارس

چگونه با حفظ شماره تلفن همراه اپراتور خود را تغییر دهیم؟

برگزاری نشست سران قوا به میزبانی رئیس جمهور

پتروشیمی‌ها امسال ۳۰ درصد ارز صادراتی را برنگرداندند

آغاز رزمایش مشترک ذوالفقار ارتش از فردا

سقوط ادامه‌دار بورس

برچسب ها