Μία μόνο φωτογραφία αρκεί για 3D αντικείμενα με ρεαλιστικό φωτισμό

Software

Νέα τεχνολογία επιτρέπει τη δημιουργία 3D αντικειμένων από μία μόνο εικόνα, με φωτισμό και αντανακλάσεις που παραμένουν ρεαλιστικές σε κάθε γωνία.

Apple LiTo

Σύνοψη

  • Το Apple LiTo φέρνει 3D ανακατασκευή από μία εικόνα με ρεαλιστικό φωτισμό και αντανακλάσεις.

  • Η νέα προσέγγιση της Apple συνδυάζει γεωμετρία και εμφάνιση σε ενιαία τρισδιάστατη αναπαράσταση.

  • Το επόμενο βήμα είναι αν αυτή η τεχνολογία περάσει από την έρευνα σε πραγματικές εφαρμογές για τους χρήστες.

Η Apple παρουσίασε ένα νέο ερευνητικό AI μοντέλο που μπορεί να ανακατασκευάζει τρισδιάστατα αντικείμενα από μία μόνο εικόνα, διατηρώντας ρεαλιστικά εφέ φωτισμού όπως αντανακλάσεις, γυαλάδες και highlights όταν αλλάζει η γωνία θέασης. Το σύστημα ονομάζεται LiTo και στοχεύει να αποδώσει μαζί τόσο τη γεωμετρία ενός αντικειμένου όσο και τον τρόπο με τον οποίο συμπεριφέρεται το φως πάνω στην επιφάνειά του.

Τι είναι το LiTo

Το νέο μοντέλο της Apple έχει την ονομασία LiTo: Surface Light Field Tokenization και βασίζεται σε μια τρισδιάστατη λανθάνουσα αναπαράσταση, ώστε να μοντελοποιεί ταυτόχρονα το σχήμα του αντικειμένου και την εμφάνισή του που εξαρτάται από τη γωνία θέασης. Στην πράξη, αυτό σημαίνει ότι δεν ανασυνθέτει μόνο το 3D περίγραμμα, αλλά υπολογίζει και πώς πρέπει να φαίνονται εφέ όπως οι κατοπτρικές αντανακλάσεις και τα φαινόμενα Fresnel υπό πιο σύνθετες συνθήκες φωτισμού.

Πώς λειτουργεί το μοντέλο

Η βασική ιδέα του LiTo είναι ότι ένα encoder συμπιέζει την πληροφορία του αντικειμένου σε μια συμπαγή μαθηματική αναπαράσταση. Στη συνέχεια, ένας decoder αναλαμβάνει να ανακατασκευάσει το πλήρες 3D αντικείμενο, αποδίδοντας όχι μόνο τη γεωμετρία του αλλά και το πώς αλλάζουν οι φωτιστικές του ιδιότητες όταν ο χρήστης το βλέπει από διαφορετικές γωνίες. Αυτή η προσέγγιση διαφοροποιείται από αρκετές προηγούμενες μεθόδους, οι οποίες εστίαζαν κυρίως είτε στη γεωμετρία είτε σε μια πιο στατική, μη εξαρτώμενη από τη γωνία, απόδοση της επιφάνειας.

Ανακατασκευή 3D από μία μόνο εικόνα

Ένα από τα πιο σημαντικά στοιχεία της έρευνας είναι ότι το μοντέλο έχει εκπαιδευτεί ώστε να φτάνει σε αυτή την ανακατασκευή από μία και μόνο εικόνα. Αυτό είναι ιδιαίτερα σημαντικό, επειδή οι πιο συνηθισμένες τεχνικές 3D reconstruction χρειάζονται πολλές λήψεις του ίδιου αντικειμένου από διαφορετικές γωνίες για να δημιουργήσουν ένα πλήρες αποτέλεσμα. Με το LiTo, η Apple επιχειρεί να μειώσει αυτή την απαίτηση χωρίς να θυσιάζει την οπτική συνέπεια του φωτισμού.

Πώς έγινε η εκπαίδευση

Για την εκπαίδευση του LiTo, οι ερευνητές χρησιμοποίησαν χιλιάδες αντικείμενα που είχαν αποδοθεί από 150 διαφορετικές γωνίες θέασης και κάτω από τρεις διαφορετικές συνθήκες φωτισμού. Αντί να περάσουν όλο αυτό το υλικό απευθείας στο μοντέλο, το σύστημα επέλεγε τυχαία μικρά υποσύνολα των δειγμάτων και τα συμπίεζε σε latent representation. Έπειτα, ο decoder εκπαιδευόταν ώστε να ανακατασκευάζει ολόκληρο το αντικείμενο και την εμφάνισή του σε διαφορετικές γωνίες και φωτισμούς με βάση μόνο αυτό το περιορισμένο σύνολο δεδομένων.

Μετά από αυτό το στάδιο, η Apple εκπαίδευσε και δεύτερο μοντέλο, το οποίο παίρνει ως είσοδο μία μόνο εικόνα ενός αντικειμένου και προβλέπει τη λανθάνουσα αναπαράσταση που αντιστοιχεί σε αυτό. Από εκεί και πέρα, ο decoder παράγει το τελικό 3D αποτέλεσμα μαζί με τη μεταβολή της εμφάνισης ανάλογα με τη γωνία παρατήρησης.

Η άποψή μας στο Techblog

Η συγκεκριμένη έρευνα δείχνει ότι η Apple συνεχίζει να επενδύει σε πιο σύνθετα AI μοντέλα που δεν περιορίζονται στη δημιουργία κειμένου ή εικόνας, αλλά επεκτείνονται στην τρισδιάστατη κατανόηση και αναπαράσταση αντικειμένων. Αν τέτοιες τεχνολογίες περάσουν αργότερα σε εμπορικά προϊόντα, θα μπορούσαν να ανοίξουν τον δρόμο για πιο ρεαλιστικές εφαρμογές σε AR, spatial computing και ψηφιακή δημιουργία περιεχομένου.

Παρακολουθήστε τα σχόλια
Να ειδοποιηθώ όταν
guest

0 Σχόλια
παλαιότερο
νεώτερο
Inline Feedbacks
View all comments

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

Opinion + deals κάθε Παρασκευή

Το καλύτερο newsletter τεχνολογίας

Γίνε μέλος