Η εποχή AI παρουσιάζει το Frontiermath: νέο κριτήριο για τα θέματα AI

13. November 2024

WOM

Artikel als PDF

Kommentare

Diesen Artikel teilen:

Σε μια συναρπαστική εξέλιξη στον κόσμο της τεχνητής νοημοσύνης, η μη κερδοσκοπική ερευνητική οργάνωση Εποχή AI εισήγαγε ένα νέο εργαλείο αναφοράς που ονομάζεται Frontiermath. Αυτό το εργαλείο απευθύνεται σε μεγάλα φωνητικά μοντέλα (LLMS) και αποσκοπεί στη δοκιμή των δεξιοτήτων τους στους τομείς της λογικής σκέψης και της μαθηματικής επίλυσης προβλημάτων.

Το ειδικό πράγμα για το Frontiermath είναι οι εκατοντάδες ειδικών ερωτήσεων από τα μαθηματικά που δεν έχουν δημοσιευθεί ποτέ. Αυτές οι ερωτήσεις θα πρέπει να προσφέρουν έναν συνεχή τρόπο για την παρακολούθηση της προόδου του AI σε πολύπλοκες μαθηματικές διαδικασίες σκέψης. Το φάσμα κυμαίνεται από αριθμητικά προβλήματα στη θεωρία των αριθμών έως τις πραγματικές αναλύσεις έως τις αφηρημένες ερωτήσεις στην αλγεβρική γεωμετρία και τη θεωρία των κατηγοριών.

Ανάπτυξη σε συνεργασία με εμπειρογνώμονες

Η εποχή AI υπογράμμισε ότι συνεργάστηκαν με περισσότερους από 60 μαθηματικούς από τα κορυφαία ιδρύματα για την ανάπτυξη αυτού του σημείου αναφοράς, συμπεριλαμβανομένων των καθηγητών, των συγγραφέων των θεμάτων IMO και των πεδίων μετάλλων. Η ομάδα είναι πεπεισμένη ότι ακόμη και τα πιο προηγμένα LLMs σε αυτό το νέο σημείο αναφοράς θα μπορούσαν να επιτύχουν μόνο λιγότερο από δύο τοις εκατό βαθμολογία.

Ο οργανισμός υπογραμμίζει ότι τα υπάρχοντα σημεία αναφοράς όπως το GSM8K και τα μαθηματικά είναι ανεπαρκή επειδή είναι ευαίσθητα στη ρύπανση των δεδομένων και τα μοντέλα AI τείνουν να επιτυγχάνουν υπερβολικά υψηλές βαθμολογίες. Το Frontiermath θα πρέπει να λύσει αυτά τα προβλήματα εισάγοντας μια σειρά από μοναδικά, μη δημοσιευμένα καθήκοντα που ελαχιστοποιούν τον κίνδυνο ρύπανσης των δεδομένων. Τα προβλήματα που παρέχονται σχεδιάζονται με τέτοιο τρόπο ώστε να είναι "συμβουλές - χωρίς" - μπορούν να λυθούν μόνο μέσω της οριστικής, λογικής σκέψης, γεγονός που καθιστά τις τυχαίες απαντήσεις πολύ απίθανο.

Οι εργασίες που αναπτύσσονται ως μέρος των ερευνητικών εργασιών χαρακτηρίζονται από μεγάλες αριθμητικές απαντήσεις ή σύνθετα μαθηματικά αντικείμενα ως λύσεις. Χωρίς την απαραίτητη λογική σκέψη, η πιθανότητα να συμβουλεύουμε σωστά είναι μικρότερη από το ένα τοις εκατό. Η εποχή AI θεωρεί ότι τα σημεία αναφοράς θα πρέπει να επικεντρωθούν στην δημιουργική επίλυση προβλημάτων στην πραγματική αξιολόγηση των δεξιοτήτων AI, η οποία απαιτεί βιώσιμη σκέψη σε πολλά βήματα. Αυτό αντιστοιχεί στη συναίνεση πολλών εμπειρογνωμόνων που θεωρούν ότι τα τρέχοντα σημεία αναφοράς είναι ανεπαρκή για μια ακριβή αξιολόγηση των δεξιοτήτων των μοντέλων AI.

Για να διασφαλιστεί ότι το Frontiermath παραμένει σχετικό και προκλητικό, η εποχή AI σχεδιάζει να συνεχίσει να συνεργάζεται με την ερευνητική κοινότητα των μαθηματικών και του AI. Ο οργανισμός σκοπεύει να πραγματοποιήσει τακτικές κριτικές προκειμένου να παρέχει μια τυποποιημένη κλίμακα για την πρόοδο και τον τρόπο με τον οποίο βελτιώνονται οι δεξιότητες σκέψης με την πάροδο του χρόνου και την κλιμάκωση.

Λεπτομέρειες σχετικά με αυτό το συναρπαστικό θέμα μπορούν να βρεθούν στο άρθρο on www.itnews.asia .