Microsoft Το Kosmos-1 ανοίγει το δρόμο για την τεχνητή νοημοσύνη σε ανθρώπινο επίπεδο

Στις αρχές αυτής της εβδομάδας, ερευνητές από Microsoft παρουσίασε το Kosmos-1, ένα πολυτροπικό μοντέλο τεχνητής νοημοσύνης που μπορεί να αναλύσει εικόνες για περιεχόμενο, να λύσει οπτικούς γρίφους, να εκτελέσει οπτική αναγνώριση κειμένου, να κάνει τεστ οπτικού IQ και να κατανοήσει οδηγίες φυσικής γλώσσας. Σύμφωνα με τους ερευνητές, τέτοια μοντέλα τεχνητής νοημοσύνης είναι το πρώτο βήμα προς τη δημιουργία μιας τεχνητής γενικής νοημοσύνης (AI) που μπορεί να εκτελέσει κοινές εργασίες σε ανθρώπινο επίπεδο. Δηλαδή, αυτή η τεχνολογία θα είναι σε θέση να αντικαταστήσει ένα άτομο σε οποιαδήποτε πνευματική εργασία. Και αυτός είναι ο δεδηλωμένος στόχος του OpenAI, ενός βασικού επιχειρηματικού εταίρου Microsoft στον τομέα της τεχνητής νοημοσύνης.

Σε αυτή την περίπτωση, το Kosmos-1 είναι μια καθαρά προσωπική εξέλιξη της εταιρείας Microsoft. Οι ερευνητές αποκαλούν τη δημιουργία τους "πολυτροπικό μοντέλο ευρείας γλώσσας" (MLLM) επειδή οι ρίζες του βρίσκονται στην επεξεργασία φυσικής γλώσσας μόνο κειμένου, όπως το LLM, όπως το ChatGPT. Προκειμένου το μοντέλο να δέχεται εικόνες εισόδου, οι ερευνητές πρέπει πρώτα να μετατρέψουν τις εικόνες σε μια ειδική σειρά από διακριτικά (κυρίως κείμενο) που μπορεί να κατανοήσει το LLM.

Το Kosmos-1 εκπαιδεύτηκε σε μια βάση δεδομένων από το Διαδίκτυο, συμπεριλαμβανομένων αποσπασμάτων από το The Pile (ένας πόρος αγγλικού κειμένου 800 GB) και το Common Crawl. Στη συνέχεια, το μοντέλο δοκιμάστηκε με διάφορα τεστ για την κατανόηση ομιλίας, τη δημιουργία ομιλίας, την ταξινόμηση κειμένου χωρίς οπτική αναγνώριση χαρακτήρων, τη δημιουργία λεζάντας εικόνων, την οπτική απάντηση ερωτήσεων, την απάντηση σε ερωτήσεις ιστοσελίδας και την ταξινόμηση εικόνας με εντοπισμό. Σύμφωνα με Microsoft, το Kosmos-1 ξεπέρασε τα τρέχοντα μοντέλα σε πολλές από αυτές τις δοκιμές.

Ιδιαίτερα ενδιαφέρον ήταν το τεστ Progressive Reasoning του Raven, το οποίο μετρά το οπτικό IQ παρουσιάζοντας μια ακολουθία σχημάτων και ζητώντας από το άτομο να ολοκληρώσει την ακολουθία. Το Kosmos-1 μπόρεσε να δώσει τη σωστή απάντηση στο 22% των περιπτώσεων.

Αυτά τα πρώτα βήματα, τα οποία με μελλοντική βελτιστοποίηση, θα μπορούσαν να αποφέρουν ακόμη πιο σημαντικά αποτελέσματα, επιτρέποντας στα μοντέλα AI να αντιλαμβάνονται και να επηρεάζουν οποιαδήποτε μορφή μέσων, επεκτείνοντας σημαντικά τις δυνατότητες των τεχνητών βοηθών.

Διαβάστε επίσης:

Πηγήαρστεχνικα

Εγγραφείτε

0 Σχόλια

Ενσωματωμένες κριτικές

Δείτε όλα τα σχόλια

Άλλα άρθρα

Microsoft παρουσίασε μια πολυτροπική προσέγγιση ανοίγοντας το δρόμο για την τεχνητή νοημοσύνη σε ανθρώπινο επίπεδο

Πρόσφατα σχόλια