مرکز غیرانتفاعی ایمنی هوش مصنوعی (CAIS) و شرکت Scale AI که در زمینه خدمات برچسب گذاری داده و توسعه هوش مصنوعی فعالیت می کند، یک معیار چالش برانگیز جدید برای ارزیابی سیستم های هوش مصنوعی منتشر کرده اند.

به گزارش ایتنا و به نقل از تک کرانچ، این معیار که "آخرین آزمون بشریت" نام دارد، شامل هزاران سوال جمع آوری شده در حوزه های مختلفی چون ریاضیات، علوم انسانی و علوم طبیعی است. برای پیچیده تر کردن ارزیابی، سوال ها به صورت چندگانه طراحی شده اند و برخی از آن ها شامل نمودارها و تصاویر نیز می باشند.

 

در یک مطالعه اولیه، هیچ یک از سیستم های پیشرفته هوش مصنوعی که در دسترس عموم قرار دارند نتوانستند نمره ای بالاتر از 10 درصد در "آخرین آزمون بشریت" کسب کنند.

CAIS و Scale AI اعلام کرده اند که قصد دارند این معیار را برای جامعه تحقیقاتی باز کنند تا محققان بتوانند تغییرات مورد نظر را اعمال کرده و مدل های هوش مصنوعی جدید را بهتر ارزیابی کنند.


منبع

همرسانی کنید:

طراحی و پیاده سازی توسط: بیدسان