Περίληψη άρθρου:
Ερευνητές του MIT και της Adobe Research ανέπτυξαν μια μέθοδο μηχανικής μάθησης που μπορεί να αναγνωρίσει όλα τα pixels μιας εικόνας που αντιπροσωπεύουν ένα συγκεκριμένο υλικό. Η προσέγγιση μπορεί να αναγνωρίσει αντικείμενα κατασκευασμένα από το ίδιο υλικό, ακόμη και όταν αυτά έχουν διαφορετικά σχήματα και μεγέθη, και δεν ξεγελιέται από σκιές ή συνθήκες φωτισμού που μπορούν να κάνουν το ίδιο υλικό να φαίνεται διαφορετικό. Οι ερευνητές εκπαίδευσαν το μοντέλο τους χρησιμοποιώντας "συνθετικά" δεδομένα που δημιουργήθηκαν από υπολογιστές για την παραγωγή πολλών διαφορετικών εικόνων και διαπίστωσαν ότι το σύστημα λειτούργησε αποτελεσματικά και σε πραγματικές σκηνές εσωτερικού και εξωτερικού χώρου που δεν είχε δει ποτέ πριν. Η προσέγγιση μπορεί επίσης να χρησιμοποιηθεί για βίντεο, με το μοντέλο να είναι σε θέση να αναγνωρίζει αντικείμενα κατασκευασμένα από το ίδιο υλικό σε όλη την υπόλοιπη ακολουθία, από τη στιγμή που ο χρήστης αναγνωρίζει ένα pixel στο πρώτο καρέ. Πιθανές εφαρμογές περιλαμβάνουν την επεξεργασία εικόνων, την κατανόηση σκηνών για τη ρομποτική, υπολογιστικά συστήματα που εξάγουν παραμέτρους υλικών σε εικόνες ή συστήματα συστάσεων στο διαδίκτυο με βάση τα υλικά.


Κύρια σημεία του άρθρου:

  • Επιστήμονες του MIT και της Adobe Research ανέπτυξαν μια μέθοδο μηχανικής μάθησης για τον εντοπισμό παρόμοιων υλικών σε εικόνες.
  • Η μέθοδος αυτή είναι ακριβής ακόμη και όταν τα αντικείμενα έχουν διαφορετικά σχήματα και μεγέθη και δεν ξεγελιέται από σκιές ή συνθήκες φωτισμού.
  • Η μέθοδος μπορεί να χρησιμοποιηθεί για τη ρομποτική κατανόηση σκηνών, την επεξεργασία εικόνων και τα συστήματα διαδικτυακών συστάσεων που βασίζονται σε υλικά.
  • Η μέθοδος μπορεί επίσης να χρησιμοποιηθεί για βίντεο και μπορεί να εντοπίσει με ακρίβεια περιοχές μιας εικόνας που αποτελούνται από το ίδιο υλικό.


Αναλυτικά το άρθρο:
Ένα ρομπότ σε μια κουζίνα, για παράδειγμα, μπορεί να αποδώσει καλύτερα αν καταλάβει ποια αντικείμενα έχουν τα ίδια υλικά. Αυτή η γνώση μπορεί να επιτρέψει στο ρομπότ να ασκήσει παρόμοια ποσά δύναμης όταν μαζεύει ένα μικρό κομμάτι βούτυρο από μια σκιερή γωνία ή ένα ολόκληρο στικ από το εσωτερικό ενός φωτισμένου ψυγείου. Ωστόσο, ο εντοπισμός αντικειμένων με το ίδιο υλικό ("material selection") σε μια σκηνή αποτελεί πρόκληση για τις μηχανές, επειδή η εμφάνιση ενός αντικειμένου μπορεί να διαφέρει σημαντικά με βάση το σχήμα του ή τις συνθήκες φωτισμού.

Ερευνητές του MIT και της Adobe ανέπτυξαν ένα μοντέλο μηχανικής μάθησης που μπορεί να αναγνωρίσει κάθε pixel σε μια εικόνα που αντιπροσωπεύει ένα συγκεκριμένο υλικό. Το σύστημα λειτουργεί ακόμη και όταν τα αντικείμενα έχουν διαφορετικά σχήματα και μεγέθη, και προσαρμόζεται σε παραλλαγές που προκαλούνται από σκιές ή συνθήκες φωτισμού που μπορούν να κάνουν τα ίδια υλικά να φαίνονται διαφορετικά.

Χρησιμοποιώντας συνθετικά δεδομένα που δημιουργούνται από έναν υπολογιστή που μεταβάλλει τρισδιάστατες σκηνές για τη δημιουργία νέων εικόνων, το μοντέλο δοκιμάστηκε σε πραγματικές σκηνές εσωτερικών και εξωτερικών χώρων που δεν είχε συναντήσει ποτέ πριν και λειτούργησε αποτελεσματικά. Η προσέγγιση μπορεί επίσης να χρησιμοποιηθεί για βίντεο, με το μοντέλο να είναι σε θέση να αναγνωρίζει αντικείμενα κατασκευασμένα από το ίδιο υλικό από το ένα καρέ στο άλλο.

Η ομάδα εκπαίδευσε έναν αλγόριθμο σε εικόνες υφασμάτων με ανάγλυφη υφή, ξύλου, μετάλλου και άλλων υλικών και στη συνέχεια εξέτασε την ικανότητά του να αναγνωρίζει κάθε στοιχείο μέσα σε μια εικόνα. Σε πολλές περιπτώσεις τα αποτελέσματα ήταν ακριβή με ακρίβεια ενός ή δύο pixel από το πραγματικό όριο του υλικού.

Η ομάδα πιστεύει ότι η μέθοδος θα μπορούσε να χρησιμοποιηθεί στη ρομποτική και για την ανάπτυξη υπολογιστικών συστημάτων που συμπεραίνουν υλικά από εικόνες. Θα μπορούσε επίσης να χρησιμοποιηθεί σε συστήματα διαδικτυακών συστάσεων όπου ένας αγοραστής αναζητά ρούχα από συγκεκριμένα υφάσματα.

Μια νέα προσέγγιση:
Οι υπάρχοντες αλγόριθμοι για την επιλογή υλικών συχνά δυσκολεύονται να εντοπίσουν υλικά με λεπτομέρειες, όπως μπράτσα καρέκλας με διαφορετικά υλικά και διάφορους τύπους ξύλου.

Για να ξεπεραστεί το πρόβλημα, η ομάδα δημιούργησε ένα συνθετικό σύνολο δεδομένων από σκηνές εσωτερικών χώρων με 50.000 εικόνες και πάνω από 16.000 υλικά που εφαρμόστηκαν τυχαία σε κάθε αντικείμενο. Ωστόσο, συνειδητοποίησαν ότι το μοντέλο μηχανικής μάθησης απέτυχε λόγω της μετατόπισης της κατανομής - της διαφοράς μεταξύ συνθετικών δεδομένων και δεδομένων του πραγματικού κόσμου.

Για να λύσουν αυτό το πρόβλημα, έχτισαν το μοντέλο τους πάνω σε ένα προ-εκπαιδευμένο μοντέλο υπολογιστικής όρασης που έχει δει εκατομμύρια πραγματικές εικόνες και αξιοποίησε την προηγούμενη γνώση του, αξιοποιώντας οπτικά χαρακτηριστικά που είχε ήδη μάθει.

Οι ερευνητές πιστεύουν ότι η προσέγγισή τους θα μπορούσε να εφαρμοστεί σε πολλές εργασίες όπου υπάρχει ανάγκη για λεπτομερή αναγνώριση υλικών, από τη βελτίωση των εμπειριών επαυξημένης πραγματικότητας έως τη βοήθεια εφαρμογών βελτίωσης σπιτιού για καλύτερες συστάσεις.

Λύση για την ομοιότητα:
Το μοντέλο των ερευνητών μετασχηματίζει τα γενικά, προεκπαιδευμένα οπτικά χαρακτηριστικά σε ειδικά για τα υλικά χαρακτηριστικά και το κάνει αυτό με τρόπο που είναι ανθεκτικό στα σχήματα των αντικειμένων ή στις ποικίλες συνθήκες φωτισμού.

Το μοντέλο μπορεί στη συνέχεια να υπολογίσει μια βαθμολογία ομοιότητας υλικού για κάθε pixel της εικόνας. Όταν ο χρήστης κάνει κλικ σε ένα pixel, το μοντέλο υπολογίζει πόσο κοντά στην εμφάνιση είναι κάθε άλλο pixel στο ερώτημα. Παράγει έναν χάρτη όπου κάθε pixel κατατάσσεται σε μια κλίμακα από 0 έως 1 για την ομοιότητα.

Η έξοδος του εργαλείου είναι μια βαθμολογία ομοιότητας για κάθε pixel, η οποία επιτρέπει στους χρήστες να τελειοποιήσουν τα αποτελέσματα θέτοντας ένα κατώφλι, όπως 90% ομοιότητα ή υψηλότερη, και να λάβουν έναν χάρτη της εικόνας με τις περιοχές αυτές επισημασμένες.

Η μέθοδος λειτουργεί επίσης για την επιλογή διασταυρούμενων εικόνων - ο χρήστης μπορεί να επιλέξει ένα pixel σε μια εικόνα και να βρει το ίδιο υλικό σε μια ξεχωριστή εικόνα.

Κατά τη διάρκεια δοκιμών, οι ερευνητές διαπίστωσαν ότι το μοντέλο τους μπορούσε να προβλέψει περιοχές μιας εικόνας που περιέχουν το ίδιο υλικό με μεγαλύτερη ακρίβεια από άλλες μεθόδους που είναι διαθέσιμες σήμερα, με ακρίβεια περίπου 92%.

Στο μέλλον, θέλουν να βελτιώσουν το μοντέλο ώστε να μπορεί να καταγράφει καλύτερα τις λεπτές λεπτομέρειες των αντικειμένων σε μια εικόνα, γεγονός που θα ενίσχυε την ακρίβεια της προσέγγισής τους.

Πηγή: Researchers use AI to identify similar materials in images