Χωρίς λογοκρισία και "τρέλα": Μυστική γεννήτρια εικόνων του OpenAI

21/08/2023 | |

Περίληψη άρθρου:
Το OpenAI έχει δοκιμάσει ιδιωτικά ένα νέο μοντέλο απεικόνισης τεχνητής νοημοσύνης που ξεπερνά τις προηγούμενες εκδόσεις, όπως φαίνεται σε δείγματα που διέρρευσαν. Το μοντέλο, πιθανότατα μια αναβάθμιση του DALL-E 2, δοκιμάζεται μέσω μιας προσκεκλημένης προεπισκόπησης με περιορισμένη πρόσβαση. Τα δείγματα καταδεικνύουν τις προηγμένες ικανότητες του μοντέλου στη δημιουργία ρεαλιστικών εικόνων με φωτισμό, αντανακλάσεις και περίπλοκες λεπτομέρειες. Ωστόσο, ορισμένοι ειδικοί επικρίνουν την OpenAI για πιθανή αποδυνάμωση των μοντέλων της και την εκπαίδευσή τους με προκαταλήψεις. Το OpenAI συνεχίζει να εργάζεται για τη βελτίωση των δυνατοτήτων της γεννητικής τεχνητής νοημοσύνης και ενδέχεται να παρουσιάσει περισσότερη πρόοδο αργότερα φέτος. Η υπεύθυνη ανάπτυξη αυτής της τεχνολογίας παραμένει ζωτικής σημασίας εν μέσω ανησυχιών για κατάχρηση.

Κύρια σημεία του άρθρου:

Η OpenAI δοκιμάζει ιδιωτικά μια νέα έκδοση του γεννητικού μοντέλου απεικόνισης της τεχνητής νοημοσύνης της
Τα πρώτα δείγματα που διέρρευσαν από τον YouTuber MattVidPro δείχνουν ότι το νέο μοντέλο ξεπερνά τις προηγούμενες γεννήτριες εικόνων
Το μοντέλο παράγει ευκρινείς εικόνες με ρεαλιστικό φωτισμό και αντανακλάσεις, αναπαριστά λεπτομερείς πίνακες ζωγραφικής και αποδίδει με ακρίβεια κείμενο και εμπορικά σήματα
Το OpenAI είναι πιθανό να κάνει αλλαγές και να κυκλοφορήσει μια πιο ελεγχόμενη έκδοση στο μέλλον

Αναλυτικά το άρθρο:
Η OpenAI δοκιμάζει ιδιωτικά μια νέα έκδοση του γεννητικού μοντέλου απεικόνισης τεχνητής νοημοσύνης (AI) τους τελευταίους μήνες και τα πρώτα δείγματα που διέρρευσαν από τον YouTuber MattVidPro δείχνουν ότι ξεπερνά τις προηγούμενες γεννήτριες εικόνων.

"Εξαιρετικά συναρπαστικό - αυτό ξεπερνάει κάθε τι που έχουμε δει στο παρελθόν, είναι τρελό", δήλωσε ο Matt σε μια προεπισκόπηση που δημοσίευσε στο YouTube. "Το Midjourney δεν μπορεί να ανταγωνιστεί σε αυτό το επίπεδο-δεν νομίζω καν ότι η έκδοση έξι του Midjourney θα μπορούσε να ανταγωνιστεί σε αυτό το επίπεδο".

Ωστόσο, μην περιμένετε να το δοκιμάσετε σύντομα. Η πρόσβαση είναι εξαιρετικά περιορισμένη.

Το αδημοσίευτο μοντέλο είναι πιθανότατα μια αναβάθμιση του DALL-E 2 και δοκιμάζεται μέσω μιας προσκεκλημένης προεπισκόπησης μέσα στο ChatGPT-4. Ο Matt δήλωσε ότι υπάρχουν μόνο περίπου 400 άτομα παγκοσμίως που έχουν πρόσβαση σε αυτή τη νέα γεννήτρια εικόνων του OpenAI.

Αν και περιορισμένα, τα δείγματα εικόνων καταδεικνύουν τις προηγμένες δεξιότητες της ΤΝ. Παρήγαγε ευκρινείς εικόνες με φωτισμό και αντανακλάσεις που μιμούνται τις πραγματικές φωτογραφίες. Το μοντέλο αναδημιούργησε λεπτομερείς πίνακες ζωγραφικής μέχρι και τις ορατές πινελιές. Επίσης, αναδημιούργησε άψογα επώνυμα ονόματα όπως το "Snickers" και λογότυπα γνωστών εμπορικών σημάτων όπως η Subway σε παραγόμενα προϊόντα και πέτυχε αρκετά καλή ορθογραφία σε αποδιδόμενο κείμενο.

Ενώ οι τρέχουσες γεννήτριες εικόνων δυσκολεύονται με συνεκτικά χέρια, τα παραδείγματα έδειχναν ρεαλιστικά, σωστά αναλογικά χέρια. Τα φόντα εμφανίστηκαν επίσης πιο πειστικά από τα ανταγωνιστικά συστήματα τεχνητής νοημοσύνης.

Η OpenAI προφανώς αφαίρεσε τα φίλτρα ασφαλείας της για να δοκιμάσει τις πλήρεις δυνατότητες του μοντέλου. Οι χρήστες δήλωσαν ότι μπορεί να δημιουργήσει βίαιο περιεχόμενο και γυμνό χωρίς δισταγμό. Ωστόσο, γνωρίζοντας τη στάση του OpenAI απέναντι στο NSFW περιεχόμενο, είναι εξαιρετικά απίθανο να κυκλοφορήσει μια επίσημη δημόσια έκδοση με τέτοια πρότυπα.

"Πρόκειται για το OpenAI, οπότε μπορείτε να στοιχηματίσετε ότι θα το προσέξουν αυτό το πράγμα, όπως κάνουν για τα πάντα πριν το κυκλοφορήσουν", παρατήρησε ο Matt.

Ορισμένοι εμπειρογνώμονες έχουν επικρίνει την OpenAI ότι " υποβαθμίζει" τα μοντέλα της για να αποφύγει πιθανές διαμάχες. Ορισμένες μελέτες υποδηλώνουν ακόμη και ότι το OpenAI εκπαίδευσε το ChatGPT ώστε να έχει έντονη πολιτική προκατάληψη στα αποτελέσματά του.

Παρ' όλα αυτά, η σταθερή ποιότητα που παρουσιάζεται στα δείγματα είναι ένα άλμα προς τα εμπρός. Επισημαίνει τις συνεχείς προσπάθειες του OpenAI να βελτιώσει τις δυνατότητες δημιουργικής τεχνητής νοημοσύνης. Η εταιρεία μπορεί να αποκαλύψει περισσότερα σχετικά με την πρόοδό της αργότερα φέτος, ειδικά αν ο τομέας της αναγνώρισης και της δημιουργίας εικόνων βοηθήσει στη βελτίωση της ευρωστίας του πρωταγωνιστικού της προϊόντος: ενός πολυτροπικού GPT-4 που είναι ικανό να κατανοεί κείμενο, εικόνες και προσχέδια με μία προτροπή.

Προς το παρόν, η τεχνολογία παραμένει περιορισμένη σε κλειστές δοκιμές με έναν ελάχιστο αριθμό χρηστών.

Καθώς τα μοντέλα συνεχίζουν να βελτιώνονται, η γραμμή μεταξύ τεχνητού και πραγματικού θολώνει ακόμη περισσότερο. Ενώ αυτό ενθουσιάζει πολλούς, οι ανησυχίες γύρω από την κακή χρήση θα συνεχίσουν να υφίστανται. Η οικοδόμηση αυτής της τεχνολογίας με υπευθυνότητα παραμένει μια επείγουσα πρόκληση.

Πηγή: Uncensored and ‘Insane’: A Look at OpenAI’s Secret Image Generator