تطلق شركة Epoch AI معيار FrontierMath AI لاختبار قدرات نماذج الذكاء الاصطناعي

أطلق معهد أبحاث Epoch AI، ومقره كاليفورنيا، معيارًا جديدًا للذكاء الاصطناعي (AI) الأسبوع الماضي. يختبر معيار الذكاء الاصطناعي الجديد، الذي يطلق عليه اسم FrontierMath، نماذج اللغات الكبيرة (LLMs) من حيث قدرتها على إعادة التحليل وحل المشكلات الرياضية. تدعي شركة الذكاء الاصطناعي أن معايير الرياضيات الحالية ليست مفيدة جدًا بسبب عوامل مثل تلوث البيانات ونماذج الذكاء الاصطناعي التي تسجل درجات عالية جدًا عليها. تدعي شركة Epoch AI أنه حتى حاملي شهادات الماجستير في القانون الرائدين قد سجلوا أقل من اثنين بالمائة في المعيار الجديد.

تطلق Epoch AI معيار FrontierMath

في أ بريد على موقع X (المعروف سابقًا باسم Twitter)، أوضحت شركة الذكاء الاصطناعي أنها تعاونت مع أكثر من 60 عالم رياضيات لإنشاء مئات الأصول والمسائل الرياضية غير المنشورة. يدعي Epoch AI أن هذه الأسئلة قد تستغرق حتى علماء الرياضيات ساعات لحلها. تم ذكر السبب وراء تطوير المعيار الجديد على أنه القيود المفروضة على المعايير الحالية مثل GSM8K وMATH، حيث تسجل نماذج الذكاء الاصطناعي عمومًا نقطة عالية.

ادعت الشركة أن الدرجات العالية التي حققتها LLMs ترجع إلى حد كبير إلى تلوث البيانات. وهذا يعني أن الأسئلة قد تم إدخالها بالفعل بطريقة أو بأخرى في نماذج الذكاء الاصطناعي، مما أدى إلى حل الأسئلة بسهولة.

تعمل FrontierMath على حل المشكلة من خلال تضمين مشكلات جديدة فريدة من نوعها ولم يتم نشرها في أي مكان، مما يخفف من المخاطر المرتبطة بتلوث البيانات. علاوة على ذلك، يتضمن المعيار مجموعة واسعة من الأسئلة بما في ذلك المشكلات الحسابية المكثفة في نظرية الأعداد، والتحليل الحقيقي، والهندسة الجبرية، بالإضافة إلى موضوعات مثل نظرية مجموعات زيرميلو-فرانكل. وتقول شركة الذكاء الاصطناعي إن جميع الأسئلة عبارة عن “إثبات تخمين”، مما يعني أنه لا يمكن حلها عن طريق الخطأ دون تفكير قوي.

أبرزت Epoch AI أنه لقياس كفاءة الذكاء الاصطناعي، يجب إنشاء معايير لحل المشكلات بشكل إبداعي حيث يتعين على الذكاء الاصطناعي الحفاظ على التفكير في خطوات متعددة. والجدير بالذكر أن العديد من خبراء الصناعة يعتقدون أن المعايير الحالية ليست كافية لقياس مدى تقدم نموذج الذكاء الاصطناعي بشكل صحيح.

الرد على المعيار الجديد في أ بريد، رحب نوام براون، الباحث في OpenAI الذي كان وراء نموذج o1 الخاص بالشركة، بالمعيار الجديد وقال: “أحب رؤية تقييم جديد بمعدلات نجاح منخفضة للنماذج الحدودية.”

للحصول على أحدث الأخبار والمراجعات التقنية، تابع Gadgets 360 على X, فيسبوك, واتساب, المواضيع و أخبار جوجل. للحصول على أحدث مقاطع الفيديو حول الأدوات والتكنولوجيا، اشترك في قناتنا قناة يوتيوب. إذا كنت تريد معرفة كل شيء عن كبار الشخصيات المؤثرة، فتابع موقعنا Who’sThat360 على انستغرام و يوتيوب.

يمكن أن يكون Poco X7 Pro أول هاتف ذكي يتم شحنه مع HyperOS 2 من Xiaomi في الهند


تم الكشف عن خيارات الألوان iQOO 13 قبل إطلاقها في الهند في 3 ديسمبر



مصدر

LEAVE A REPLY

Please enter your comment!
Please enter your name here