Η Meta παρουσίασε ένα νέο ισχυρό μοντέλο AI Llama 2 Long

Meta Platforms στην ετήσια εκδήλωση Meta Connect στην Καλιφόρνια παρουσιάζονται πολλές νέες δυνατότητες AI για τις δημοφιλείς εφαρμογές της Facebook, Instagram και WhatsApp, αλλά η πιο εντυπωσιακή καινοτομία από τον τεχνολογικό γίγαντα μπορεί να πέρασε απαρατήρητη από πολλούς. Μιλάμε για το μοντέλο Llama 2 Long AI.

Μια ομάδα ερευνητών από την εταιρεία Meta δημοσίευσε με κάποιο τρόπο αθόρυβα ένα άρθρο στο οποίο παρουσίασαν ένα νέο μοντέλο τεχνητής νοημοσύνης, το Llama 2 Long, ικανό να παράγει συνεκτικές και σχετικές απαντήσεις σε μεγάλα ερωτήματα των χρηστών. Το πολύ, λένε, ξεπερνά μερικούς από τους καλύτερους ανταγωνιστές του κλάδου.

Το Llama 2 Long είναι μια επέκταση Λάμα 2, ένα μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα Meta που κυκλοφόρησε το καλοκαίρι που μπορεί να μάθει από μια ποικιλία πηγών δεδομένων και να εκτελέσει μια ποικιλία εργασιών όπως κωδικοποίηση, μαθηματικά, κατανόηση γλώσσας και πολλά άλλα. Ωστόσο, το Llama 2 Long εκπαιδεύτηκε σε περισσότερα δεδομένα που περιείχαν μεγαλύτερα κείμενα και αυτός ο αλγόριθμος τροποποιήθηκε για να χειρίζεται μεγαλύτερες αλληλουχίες πληροφοριών. Αυτό του επιτρέπει να ξεπερνά τα GPT-3.5 Turbo και Claude 2 του OpenAI, τα οποία έχουν όρια στον όγκο του περιβάλλοντος που μπορούν να χρησιμοποιήσουν για να δημιουργήσουν απαντήσεις.

Ερευνητές Meta χρησιμοποίησε διαφορετικές εκδόσεις του Llama 2 - από 7 δισεκατομμύρια έως 70 δισεκατομμύρια παραμέτρους, δηλαδή τιμές που το μοντέλο AI μπορεί να αλλάξει μαθαίνοντας από τα δεδομένα. Πρόσθεσαν άλλα 400 δισεκατομμύρια διακριτικά (μονάδες κειμένου) δεδομένων που περιείχαν μεγαλύτερα κείμενα από το αρχικό σύνολο δεδομένων μοντέλου. Επίσης, τροποποίησαν ελαφρώς την αρχιτεκτονική του μοντέλου AI χρησιμοποιώντας την τεχνική Rotary Position Embedding (RoPE), έτσι ώστε το μοντέλο να μπορεί να παράγει ακριβείς και χρήσιμες απαντήσεις χρησιμοποιώντας λιγότερες πληροφορίες και μνήμη από άλλες μεθόδους.

Λάμα 2

Η ομάδα χρησιμοποίησε ενισχυτική μάθηση από την ανθρώπινη ανάδραση (RLHF), μια μέθοδο όπου το μοντέλο AI ανταμείβεται για σωστές απαντήσεις και διορθώνεται από τους ανθρώπους που βαθμολογούν και τα συνθετικά δεδομένα δημιουργούνται από την ίδια τη συνομιλία Llama 2. για τη βελτίωση της απόδοσής του σε διάφορες εργασίες .

Η δημοσίευση ισχυρίζεται ότι το μοντέλο μπορεί να δημιουργήσει απαντήσεις υψηλής ποιότητας σε προτροπές χρήστη μήκους έως και 200 χαρακτήρων, που ισοδυναμούν με περίπου 40 σελίδες κειμένου. Οι ερευνητές λένε ότι το Llama 2 Long είναι ένα βήμα προς τη δημιουργία πιο γενικών και ευέλικτων μοντέλων τεχνητής νοημοσύνης που μπορούν να καλύψουν τις περίπλοκες και διαφορετικές ανάγκες των χρηστών. Αναγνωρίζουν επίσης τις πιθανές ηθικές και κοινωνικές επιπτώσεις τέτοιων μοντέλων και ζητούν περαιτέρω έρευνα και διάλογο σχετικά με τον τρόπο χρήσης τους με υπευθυνότητα και ωφέλεια.

Διαβάστε επίσης:

Πηγήενδιαφέρουσα μηχανική

Εγγραφείτε

0 Σχόλια

Ενσωματωμένες κριτικές

Δείτε όλα τα σχόλια

Άλλα άρθρα

Η Meta παρουσίασε το μοντέλο Llama 2 Long AI, το οποίο λειτουργεί καλύτερα με μεγάλα ερωτήματα

Πρόσφατα σχόλια