Το ImageBind AI της Meta μπορεί να μιμηθεί την ανθρώπινη αντίληψη

Η Meta δημοσιεύει τον κώδικα στην τεχνητή νοημοσύνη ανοιχτής πρόσβασης με το όνομα imagebind, το οποίο προβλέπει σχέσεις μεταξύ δεδομένων παρόμοιες με το πώς οι άνθρωποι αντιλαμβάνονται ή φαντάζονται το περιβάλλον τους. Ενώ οι γεννήτριες εικόνων όπως το Midjourney, το Stable Diffusion και το DALL-E 2 συνδέουν λέξεις σε εικόνες, επιτρέποντάς σας να δημιουργείτε οπτικές σκηνές με βάση απλώς μια περιγραφή κειμένου, το ImageBind υπερβαίνει αυτό. Μπορεί να συνδέσει κείμενο, εικόνες ή βίντεο, ήχο, μετρήσεις 3D, δεδομένα θερμοκρασίας και δεδομένα κίνησης – και το κάνει χωρίς την ανάγκη προπόνησης σε κάθε ευκαιρία. Αυτό είναι ένα πρώιμο στάδιο ενός πλαισίου που τελικά θα είναι σε θέση να δημιουργήσει πολύπλοκα περιβάλλοντα από απλές εισόδους, όπως μια προτροπή κειμένου, εικόνα ή ήχος (ή συνδυασμό αυτών).

Metaverse Project

Μπορείτε να σκεφτείτε το ImageBind ως μια προσέγγιση της μηχανικής μάθησης με την ανθρώπινη μάθηση. Για παράδειγμα, εάν στέκεστε σε ένα δυναμικό περιβάλλον, όπως ένας πολυσύχναστος δρόμος της πόλης, ο εγκέφαλός σας (κυρίως ασυνείδητα) απορροφά εικόνες, ήχους και άλλες αισθητηριακές αισθήσεις για να πάρει πληροφορίες σχετικά με διερχόμενα αυτοκίνητα, ψηλά κτίρια, τον καιρό και άλλα. . Οι άνθρωποι και άλλα ζώα έχουν εξελιχθεί για να επεξεργάζονται αυτά τα δεδομένα για τα γενετικά μας πλεονεκτήματα: επιβίωση και μετάδοση του DNA μας. (Όσο περισσότερα γνωρίζετε για το περιβάλλον σας, τόσο περισσότερο μπορείτε να αποφύγετε τον κίνδυνο και να προσαρμοστείτε στο περιβάλλον σας για να επιβιώσετε και να ευδοκιμήσετε καλύτερα). Καθώς οι υπολογιστές πλησιάζουν να μιμούνται τις πολυαισθητηριακές συνδέσεις των ζώων, μπορούν να χρησιμοποιήσουν αυτές τις συνδέσεις για να δημιουργήσουν πλήρως πραγματοποιημένες σκηνές που βασίζονται μόνο σε περιορισμένα κομμάτια δεδομένων.

Έτσι, ενώ μπορείτε να χρησιμοποιήσετε το Midjourney για να δημιουργήσετε «ένα κυνηγόσκυλο με κοστούμι Gandalf που ισορροπεί σε μια μπάλα παραλίας» και να πάρετε μια σχετικά ρεαλιστική φωτογραφία αυτής της παράξενης σκηνής, ένα πολυτροπικό εργαλείο AI όπως το ImageBind μπορεί να καταλήξει να δημιουργήσει ένα βίντεο με το σκυλί με ήχους, συμπεριλαμβανομένου ενός λεπτομερούς καθιστικού, της θερμοκρασίας δωματίου και της ακριβούς τοποθεσίας του σκύλου και όλων των άλλων στη σκηνή. «Αυτό δημιουργεί μια εξαιρετική ευκαιρία για τη δημιουργία κινούμενων εικόνων από στατικές εικόνες συνδυάζοντάς τες με ηχητικές προτροπές», σημειώνουν οι ερευνητές της Meta στο ιστολόγιό τους που είναι προσανατολισμένο στους προγραμματιστές. "Για παράδειγμα, ένας δημιουργός μπορεί να συνδυάσει μια εικόνα με ένα ξυπνητήρι και έναν κόκορα που λαλάει και να χρησιμοποιήσει ένα ηχητικό σήμα για να τμηματοποιήσει τον κόκορα ή τον ήχο του ξυπνητηριού για να τμηματοποιήσει το ρολόι και να κάνει κίνηση και τα δύο σε μια ακολουθία βίντεο."

Meta

Όσο για το τι άλλο μπορεί να γίνει με αυτό το νέο παιχνίδι, δείχνει ξεκάθαρα μια από τις βασικές φιλοδοξίες της Meta: VR, μικτή πραγματικότητα και metaspace. Για παράδειγμα, φανταστείτε ένα μελλοντικό σετ μικροφώνου-ακουστικού που μπορεί να δημιουργήσει πλήρως υλοποιημένες τρισδιάστατες σκηνές (με ήχο, κίνηση κ.λπ.) εν κινήσει. Ή οι προγραμματιστές εικονικών παιχνιδιών θα μπορούσαν τελικά να το χρησιμοποιήσουν για να εξοικονομήσουν σημαντικό μέρος της επίπονης δουλειάς στη διαδικασία σχεδιασμού. Ομοίως, οι δημιουργοί περιεχομένου θα μπορούσαν να δημιουργήσουν καθηλωτικά βίντεο με ρεαλιστικά soundtracks και κίνηση που βασίζονται μόνο σε κείμενο, εικόνες ή ήχο. Είναι επίσης εύκολο να φανταστεί κανείς πώς ένα εργαλείο όπως το ImageBind ανοίγει νέες πόρτες στην προσβασιμότητα δημιουργώντας περιγραφές πολυμέσων σε πραγματικό χρόνο για να βοηθήσει τα άτομα με προβλήματα όρασης ή ακοής να κατανοήσουν καλύτερα το περιβάλλον τους.

Επίσης ενδιαφέρον: Τα καλύτερα εργαλεία βασισμένα στην τεχνητή νοημοσύνη

«Στα τυπικά συστήματα τεχνητής νοημοσύνης, υπάρχει μια συγκεκριμένη ενσωμάτωση (δηλαδή, διανύσματα αριθμών που μπορούν να αντιπροσωπεύουν δεδομένα και τις σχέσεις τους στη μηχανική μάθηση) για κάθε σχετική μέθοδο», λέει ο Meta. «Το ImageBind δείχνει ότι είναι δυνατό να δημιουργηθεί ένας κοινός χώρος ενσωμάτωσης για πολλαπλούς τρόπους χωρίς να χρειάζεται να εκπαιδεύεστε σε δεδομένα με κάθε ξεχωριστό συνδυασμό τρόπων. Αυτό είναι σημαντικό επειδή οι ερευνητές δεν μπορούν να δημιουργήσουν σύνολα δεδομένων με δείγματα που περιέχουν, για παράδειγμα, δεδομένα ήχου και θερμικά δεδομένα από έναν πολυσύχναστο δρόμο της πόλης ή δεδομένα βάθους και μια περιγραφή κειμένου ενός παραθαλάσσιου βράχου».

Ο Meta πιστεύει ότι αυτή η τεχνολογία τελικά θα ξεπεράσει τις τρέχουσες έξι «αισθήσεις», ας πούμε. «Αν και ερευνήσαμε έξι τρόπους στην τρέχουσα μελέτη μας, πιστεύουμε ότι η εισαγωγή νέων τρόπων που συνδέουν όσο το δυνατόν περισσότερες αισθήσεις –όπως η αφή, η ομιλία, η όσφρηση και τα σήματα του εγκεφάλου fMRI– θα επιτρέψει πλουσιότερα μοντέλα τεχνητής νοημοσύνης με επίκεντρο τον άνθρωπο». Οι προγραμματιστές που ενδιαφέρονται να εξερευνήσουν αυτό το νέο sandbox μπορούν να ξεκινήσουν βουτώντας στον ανοιχτό κώδικα της Meta.

Διαβάστε επίσης:

ΠηγήEngadget

Εγγραφείτε

0 Σχόλια

Ενσωματωμένες κριτικές

Δείτε όλα τα σχόλια

Άλλα άρθρα

Το ImageBind AI της Meta μπορεί να μιμηθεί την ανθρώπινη αντίληψη

Πρόσφατα σχόλια