Επιστήμονες από το Ινστιτούτο Τεχνολογίας της Μασαχουσέτης έλυσαν το μυστήριο της μηχανικής μάθησης

Μετά το 2010 ξεκίνησε μια σοβαρή βελτίωση των αλγορίθμων λογισμικού και αυτό μαζί με τους ισχυρούς υπολογιστές έδωσε ώθηση στην ταχεία ανάπτυξη των νευρωνικών δικτύων. Τα μοντέλα λογισμικού εκπαιδεύονται και εκπαιδεύονται σε χιλιάδες παραδείγματα για να σχηματίσουν τις δικές τους ενέργειες αργότερα. Σήμερα, το πιο διάσημο νευρωνικό δίκτυο είναι αυτό OpenAi GPT-3. Αυτό είναι ένα μοντέλο μηχανικής μάθησης που μαθαίνει με τη βοήθεια πολλών δεδομένων Διαδικτύου, μπορεί να πάρει ένα μικρό κομμάτι κειμένου και να προσθέσει ένα ανεπαρκές τμήμα σε αρκετά υψηλό επίπεδο. Και αυτό δεν ισχύει μόνο για το αφηγηματικό κείμενο, αλλά και για ποιήματα, καθώς και για γραμμές κώδικα λογισμικού.

Αλλά αυτό δεν είναι το μόνο που μπορούν να κάνουν τα μοντέλα αυτού του σχεδίου. Οι ερευνητές μελετούν ένα ενδιαφέρον φαινόμενο γνωστό ως «μάθηση στο πλαίσιο», στο οποίο ένα μεγάλο γλωσσικό μοντέλο μαθαίνει να εκτελεί μια εργασία αφού δει μόνο μερικά παραδείγματα, παρόλο που δεν έχει εκπαιδευτεί στην εργασία.

Επιστήμονες από το Ινστιτούτο Τεχνολογίας της Μασαχουσέτης, το Google Research και το Πανεπιστήμιο του Στάνφορντ προσπαθούν να λύσουν αυτό το μυστήριο. Με τη μάθηση με βάση τα συμφραζόμενα, οι παράμετροι του μοντέλου δεν ενημερώνονται, επομένως φαίνεται ότι το μοντέλο μαθαίνει μια νέα εργασία χωρίς να μαθαίνει τίποτα απολύτως.

Τα θεωρητικά αποτελέσματα των ερευνητών δείχνουν ότι αυτά τα ογκώδη μοντέλα νευρωνικών δικτύων είναι σε θέση να περιέχουν μικρότερα και απλούστερα γραμμικά μοντέλα κρυμμένα μέσα τους. Το μεγάλο μοντέλο μπορεί στη συνέχεια να εφαρμόσει έναν απλό αλγόριθμο για να εκπαιδεύσει αυτό το μικρότερο γραμμικό μοντέλο για να εκτελέσει μια νέα εργασία, χρησιμοποιώντας μόνο τις πληροφορίες που περιέχονται ήδη στο μεγαλύτερο μοντέλο.

Χάρη στη βαθύτερη κατανόηση της μάθησης με βάση τα συμφραζόμενα, οι επιστήμονες θα μπορούν να υλοποιούν νέες εργασίες με μοντέλα χωρίς δαπανηρή επανεκπαίδευση. Δηλαδή, πρώτα, για οποιαδήποτε συγκεκριμένη εργασία, είναι απαραίτητο να συλλεχθεί μια μεγάλη σειρά δεδομένων βάσει των οποίων θα πραγματοποιηθεί η εκπαίδευση. Και έτσι θα είναι δυνατή η παροχή στο νευρωνικό δίκτυο με λίγα μόνο παραδείγματα, χάρη στα οποία θα πραγματοποιηθεί εκπαίδευση.

"Η μάθηση με βάση τα συμφραζόμενα είναι ένα αδικαιολόγητα αποτελεσματικό φαινόμενο μάθησης που πρέπει να κατανοηθεί".

Έχει υποτεθεί ότι υπάρχουν μικρότερα μοντέλα μηχανικής μάθησης σε μοντέλα νευρωνικών δικτύων που μπορούν να διδάξουν ένα παλαιότερο μοντέλο να εκτελεί μια νέα εργασία. Για να δοκιμάσουν τη θεωρία τους, οι επιστήμονες πήραν ένα μοντέλο νευρωνικού δικτύου που μοιάζει πολύ στην αρχιτεκτονική με το GPT-3, αλλά κατασκευάστηκε ειδικά για μάθηση στο πλαίσιο. Δηλαδή, μέσα στα προηγούμενα επίπεδα, εφαρμόστηκε ένα μοντέλο, το οποίο ασχολούνταν με την εκμάθηση ενός γραμμικού μοντέλου, εφαρμόζοντας απλούς αλγόριθμους μάθησης.

«Αυτά τα αποτελέσματα είναι ένα σκαλοπάτι για την κατανόηση του τρόπου με τον οποίο τα μοντέλα μπορούν να μάθουν πιο σύνθετες εργασίες και θα βοηθήσουν τους ερευνητές να αναπτύξουν πιο αποτελεσματικές μεθόδους για την εκπαίδευση μοντέλων γλώσσας για να βελτιώσουν περαιτέρω την απόδοσή τους»..

Διαβάστε επίσης:

Κοινοποίηση
Kyrylo Zvyagintsev

Αφήστε μια απάντηση

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται*