Η Google κάνει το ζουμ και τη βελτίωση φωτογραφιών πραγματικότητα

Πιθανότατα έχετε δει ταινίες φαντασίας ή τηλεοπτικές εκπομπές όπου ο κύριος χαρακτήρας ζητά να μεγεθύνει την εικόνα και να βελτιώσει το αποτέλεσμα - να δείξει ένα πρόσωπο, μια πινακίδα κυκλοφορίας ή οποιαδήποτε άλλη βασική λεπτομέρεια. Τα τελευταία συστήματα τεχνητής νοημοσύνης (AI) της Google, που βασίζονται στο λεγόμενο μοντέλα διάχυσης, είναι σε θέση να εκτελέσουν αυτό το κόλπο.

Είναι μια δύσκολη διαδικασία για να την κατακτήσετε, επειδή ουσιαστικά προσθέτετε λεπτομέρειες σε μια εικόνα που η κάμερα δεν κατέγραψε αρχικά, χρησιμοποιώντας εξαιρετικά έξυπνες εικασίες που βασίζονται σε άλλες, παρόμοιες εικόνες.

Google

Στη Google, αυτή η τεχνική ονομάζεται σύνθεση φυσικής εικόνας και σε αυτό το συγκεκριμένο σενάριο, εξαιρετικά υψηλή ανάλυση εικόνας. Ξεκινάς με μια μικρή φωτογραφία με pixel και καταλήγεις σε κάτι ευκρινές, καθαρό και φυσικό. Μπορεί να μην είναι ακριβώς το πρωτότυπο, αλλά είναι αρκετά κοντά για να φαίνεται αληθινό στο ανθρώπινο μάτι.

Η Google παρουσίασε δύο νέα εργαλεία τεχνητής νοημοσύνης για αυτή τη δουλειά. Το πρώτο ονομάζεται SR3 ή Super-Resolution via Repeated Refinement και λειτουργεί προσθέτοντας θόρυβο σε μια εικόνα και στη συνέχεια αφαιρώντας την. Μέσω μιας σειράς πιθανολογικών υπολογισμών που βασίζονται σε μια μεγάλη βάση δεδομένων εικόνων και κάποια μαγεία μηχανικής μάθησης, το SR3 μπορεί να φανταστεί πώς μοιάζει μια έκδοση εξαιρετικά υψηλής ανάλυσης μιας εικόνας pixel χαμηλής ανάλυσης.

Το δεύτερο εργαλείο είναι το CDM ή Cascaded Diffusion Models. Η Google τα περιγράφει ως «σωλήνες» κατά μήκος των οποίων τα μοντέλα διάχυσης – συμπεριλαμβανομένου του SR3 – μπορούν να κατευθυνθούν για αναβάθμιση εικόνας υψηλής ποιότητας. Παίρνει μοντέλα βελτίωσης και τα μετατρέπει σε μεγαλύτερες εικόνες.

Google

Χρησιμοποιώντας διαφορετικά μοντέλα βελτίωσης σε διαφορετικές αναλύσεις, η προσέγγιση CDM είναι σε θέση να ξεπεράσει τις εναλλακτικές μεθόδους αναβάθμισης εικόνας, σύμφωνα με την Google. Η νέα μηχανή τεχνητής νοημοσύνης δοκιμάστηκε στο ImageNet, μια τεράστια βάση δεδομένων προπονητικών εικόνων που χρησιμοποιείται συνήθως για έρευνα στην οπτική αναγνώριση αντικειμένων.

Τα τελικά αποτελέσματα του SR3 και του CDM είναι εντυπωσιακά. Σε μια τυπική δοκιμή με 50 ανθρώπους εθελοντές, οι εικόνες ανθρώπινων προσώπων που δημιουργήθηκαν από το SR3 παρερμηνεύτηκαν με πραγματικές φωτογραφίες περίπου στο 50% του χρόνου – και λαμβάνοντας υπόψη ότι ένας ιδανικός αλγόριθμος θα πρέπει να επιτύχει το 50%, αυτό είναι εντυπωσιακό. Αξίζει να επαναλάβουμε ότι αυτές οι βελτιωμένες εικόνες δεν είναι ακριβείς αντιστοιχίες των πρωτοτύπων, είναι προσομοιώσεις που υπολογίζονται προσεκτικά με βάση τα μαθηματικά των πιθανοτήτων.

Google

Η Google υπόσχεται πολύ περισσότερα από τους νέους κινητήρες τεχνητής νοημοσύνης και τις σχετικές τεχνολογίες της – όχι μόνο όσον αφορά την αύξηση των εικόνων προσώπων και άλλων φυσικών αντικειμένων, αλλά και σε άλλους τομείς της πιθανολογικής μοντελοποίησης.

Διαβάστε επίσης:

Πηγήεπιστημονικός τίτλος

Εγγραφείτε

0 Σχόλια

Ενσωματωμένες κριτικές

Δείτε όλα τα σχόλια

Άλλα άρθρα

Όπως στις ταινίες: Το νέο AI επεξεργασίας φωτογραφιών της Google κάνει πραγματικότητα την κλιμάκωση και τη βελτίωσή τους

Πρόσφατα σχόλια