يعرض عصر AI Frontiermath: New Beatstick for AI Matters
يعرض عصر AI Frontiermath: New Beatstick for AI Matters
في تطور مثير في عالم الذكاء الاصطناعي ، قدمت منظمة الأبحاث غير الهادفة للربح Ecpoch AI أداة معيارية جديدة تسمى FrontierMath. تهدف هذه الأداة إلى نماذج صوتية كبيرة (LLMS) وتهدف إلى اختبار مهاراتها في مجالات التفكير المنطقي وحل المشكلات الرياضية.
الشيء الخاص عن Frontiermath هو مئات الأسئلة المتخصصة من الرياضيات التي لم يتم نشرها مطلقًا. يجب أن توفر هذه الأسئلة طريقة مستمرة لمراقبة تقدم الذكاء الاصطناعي في عمليات التفكير الرياضية المعقدة. يتراوح الطيف من المشكلات الحسابية في نظرية الأرقام إلى التحليلات الحقيقية للأسئلة المجردة في الهندسة الجبرية ونظرية الفئة.
التطوير بالتعاون مع الخبراء
أكدEpoch AI على أنهم عملوا مع أكثر من 60 من علماء الرياضيات من المؤسسات الرائدة في تطوير هذا المعيار ، بما في ذلك الأساتذة ومؤلفي قضايا IMO وميداليات الحقول. الفريق مقتنع أنه حتى LLMs الأكثر تقدماً في هذا المعيار الجديد يمكن أن يحقق أقل من 2 في المائة فقط.
تؤكد المؤسسة على أن المعايير الحالية مثل GSM8K و Math غير كافية لأنها عرضة لتلوث البيانات وتميل نماذج الذكاء الاصطناعى إلى تحقيق درجات عالية بشكل مفرط. يجب على FrontierMath حل هذه المشكلات من خلال إدخال عدد من المهام الفريدة غير المنشورة التي تقلل من خطر تلوث البيانات. تم تصميم المشكلات المقدمة بطريقة تجعلها "نصيحة - خالية من النصيحة" - لا يمكن حلها إلا من خلال التفكير المنطقي الحاسم ، مما يجعل الإجابات العشوائية غير مرجحة للغاية.
تتميز المهام التي تم تطويرها كجزء من أعمال البحث بالإجابات العددية الكبيرة أو الأشياء الرياضية المعقدة كحلول. بدون التفكير المنطقي اللازم ، يكون احتمال تقديم المشورة بشكل صحيح أقل من واحد في المائة. يأخذ Epoch AI الرأي القائل بأن المعايير يجب أن تركز على حل المشكلات الإبداعية للتقييم الحقيقي لمهارات الذكاء الاصطناعي ، والتي تتطلب تفكيرًا مستدامًا على العديد من الخطوات. هذا يتوافق مع إجماع العديد من الخبراء الذين يعتبرون المعايير الحالية غير كافية لإجراء تقييم دقيق لمهارات نماذج الذكاء الاصطناعى.
لضمان أن تظل FrontierMath ذات صلة وصعبة ، تخطط Ai Epoch AI لمواصلة العمل مع مجتمع أبحاث الرياضيات ومجتمع الذكاء الاصطناعي. تعتزم المنظمة إجراء مراجعات منتظمة من أجل توفير مقياس موحد للتقدم وكيف تتحسن مهارات التفكير مع مرور الوقت والتوسيع.
يمكن العثور على تفاصيل حول هذا الموضوع المثير في المقالة on www.iTnews.