Η Stability AI κυκλοφορεί το πιο πρόσφατο μοντέλο δημιουργίας εικόνων, το Stable Diffusion XL 1.0

25/08/2023 | | |

Περίληψη άρθρου:
Η Stability AI κυκλοφόρησε το Stable Diffusion XL 1.0, ένα προηγμένο μοντέλο μετατροπής κειμένου σε εικόνα που προσφέρει βελτιωμένα χρώματα, αντίθεση και φωτισμό σε σύγκριση με τον προκάτοχό του. Το μοντέλο περιέχει 3,5 δισεκατομμύρια παραμέτρους και μπορεί να δημιουργήσει εικόνες πλήρους ανάλυσης 1 megapixel σε δευτερόλεπτα. Ωστόσο, το μοντέλο ανοιχτού κώδικα εγείρει ηθικές ανησυχίες, καθώς μπορεί να χρησιμοποιηθεί για τη δημιουργία επιβλαβούς περιεχομένου, όπως τα deepfakes. Η Stability AI έχει λάβει μέτρα για τον μετριασμό αυτού του φαινομένου φιλτράροντας τα δεδομένα εκπαίδευσης και ενσωματώνοντας τα αιτήματα των καλλιτεχνών, αλλά έχουν κατατεθεί αγωγές εναντίον της εταιρείας. Παρά την αντιμετώπιση του ανταγωνισμού και των οικονομικών προκλήσεων, η Stability AI συνεχίζει να καινοτομεί και να επεκτείνει τις προσφορές της.

Κύρια σημεία του άρθρου:

Η Stability AI κυκλοφόρησε το Stable Diffusion XL 1.0, ένα μοντέλο μετατροπής κειμένου σε εικόνα που προσφέρει βελτιωμένα χρώματα, αντίθεση, σκιές και φωτισμό σε σύγκριση με τον προκάτοχό του.
Το Stable Diffusion XL 1.0 είναι προσαρμόσιμο και ικανό για σύνθετα σχέδια με βασική προτροπή επεξεργασίας φυσικής γλώσσας.
Το μοντέλο υποστηρίζει προηγμένη παραγωγή κειμένου και αναγνωσιμότητα
Προσφέρει χαρακτηριστικά όπως η βαφή, η ξεβαφή και οι προτροπές από εικόνα σε εικόνα.
Η Stability AI έχει λάβει μέτρα για να φιλτράρει τα δεδομένα εκπαίδευσης για μη ασφαλείς εικόνες και να μετριάσει τη δημιουργία επιβλαβούς περιεχομένου.

Αναλυτικά το άρθρο:
Η νεοσύστατη εταιρεία AI Stability AI συνεχίζει να βελτιώνει τα μοντέλα της δημιουργικής τεχνητής νοημοσύνης μπροστά στον αυξανόμενο ανταγωνισμό - και τις ηθικές προκλήσεις.

Σήμερα, η Stability AI ανακοίνωσε την κυκλοφορία του Stable Diffusion XL 1.0, ενός μοντέλου μετατροπής κειμένου σε εικόνα, το οποίο η εταιρεία περιγράφει ως την πιο "προηγμένη" έκδοσή της μέχρι σήμερα. Διαθέσιμο σε ανοιχτό κώδικα στο GitHub εκτός από το API της Stability και τις εφαρμογές για καταναλωτές, ClipDrop και DreamStudio, το Stable Diffusion XL 1.0 παρέχει "πιο ζωντανά" και "ακριβή" χρώματα και καλύτερη αντίθεση, σκιές και φωτισμό σε σύγκριση με τον προκάτοχό του, υποστηρίζει η Stability.

Σε συνέντευξή του στο TechCrunch, ο Joe Penna, επικεφαλής εφαρμοσμένης μηχανικής μάθησης της Stability AI, σημείωσε ότι το Stable Diffusion XL 1.0, το οποίο περιέχει 3,5 δισεκατομμύρια παραμέτρους, μπορεί να αποδώσει εικόνες πλήρους ανάλυσης 1 megapixel "σε δευτερόλεπτα" σε πολλαπλές αναλογίες διαστάσεων. Οι "παράμετροι" είναι τα μέρη ενός μοντέλου που μαθαίνονται από τα δεδομένα εκπαίδευσης και ουσιαστικά καθορίζουν την ικανότητα του μοντέλου σε ένα πρόβλημα, στην προκειμένη περίπτωση τη δημιουργία εικόνων.

Το μοντέλο Stable Diffusion προηγούμενης γενιάς, Stable Diffusion XL 0.9, μπορούσε επίσης να παράγει εικόνες υψηλότερης ανάλυσης, αλλά απαιτούσε μεγαλύτερη υπολογιστική ισχύ.

"Το Stable Diffusion XL 1.0 είναι προσαρμόσιμο, έτοιμο για λεπτομερή ρύθμιση για έννοιες και στυλ", δήλωσε ο Penna. "Είναι επίσης ευκολότερο στη χρήση, ικανό για σύνθετα σχέδια με βασικές προτροπές επεξεργασίας φυσικής γλώσσας".

Το Stable Diffusion XL 1.0 είναι βελτιωμένο στον τομέα της παραγωγής κειμένου, εκτός αυτού. Ενώ πολλά από τα καλύτερα μοντέλα μετατροπής κειμένου σε εικόνα δυσκολεύονται να δημιουργήσουν εικόνες με ευανάγνωστα λογότυπα, πόσο μάλλον καλλιγραφίες ή γραμματοσειρές, το Stable Diffusion XL 1.0 είναι ικανό για "προηγμένη" παραγωγή κειμένου και αναγνωσιμότητα, λέει ο Penna.

Και, όπως αναφέρθηκε από τις SiliconAngle και VentureBeat, το Stable Diffusion XL 1.0 υποστηρίζει inpainting (ανακατασκευή των τμημάτων που λείπουν από μια εικόνα), outpainting (επέκταση των υφιστάμενων εικόνων) και προτροπές "image-to-image" - που σημαίνει ότι οι χρήστες μπορούν να εισάγουν μια εικόνα και να προσθέσουν κάποιες προτροπές κειμένου για να δημιουργήσουν πιο λεπτομερείς παραλλαγές αυτής της εικόνας. Επιπλέον, το μοντέλο καταλαβαίνει πολύπλοκες, πολυμερείς οδηγίες που δίνονται με σύντομες προτροπές, ενώ τα προηγούμενα μοντέλα σταθερής διάχυσης χρειάζονταν μεγαλύτερες προτροπές κειμένου.

"Ελπίζουμε ότι με την κυκλοφορία αυτού του πολύ πιο ισχυρού μοντέλου ανοιχτού κώδικα, η ανάλυση των εικόνων δεν θα είναι το μόνο πράγμα που θα τετραπλασιαστεί, αλλά και οι εξελίξεις που θα ωφελήσουν σημαντικά όλους τους χρήστες", πρόσθεσε.

Αλλά όπως και με τις προηγούμενες εκδόσεις του Stable Diffusion, το μοντέλο εγείρει δύσκολα ηθικά ζητήματα.

Η έκδοση ανοιχτού κώδικα του Stable Diffusion XL 1.0 μπορεί, θεωρητικά, να χρησιμοποιηθεί από κακούς παράγοντες για τη δημιουργία τοξικού ή επιβλαβούς περιεχομένου, όπως μη συναινετικά deepfakes. Αυτό οφείλεται εν μέρει στα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευσή του: εκατομμύρια εικόνες από όλο τον παγκόσμιο ιστό.

Αμέτρητα σεμινάρια δείχνουν πώς να χρησιμοποιείτε τα ίδια τα εργαλεία της Stability AI, συμπεριλαμβανομένου του DreamStudio, ενός front end ανοιχτού κώδικα για τη Stable Diffusion, για τη δημιουργία deepfakes. Αμέτρητα άλλα δείχνουν πώς να ρυθμίζετε λεπτομερώς τα βασικά μοντέλα Stable Diffusion για τη δημιουργία πορνό.

Ο Penna δεν αρνείται ότι η κακοποίηση είναι δυνατή - και αναγνωρίζει ότι το μοντέλο περιέχει επίσης ορισμένες προκαταλήψεις. Αλλά πρόσθεσε ότι η Stability AI έχει λάβει "επιπλέον μέτρα" για να μετριάσει τη δημιουργία επιβλαβούς περιεχομένου φιλτράροντας τα δεδομένα εκπαίδευσης του μοντέλου για "μη ασφαλείς" εικόνες, δημοσιεύοντας νέες προειδοποιήσεις που σχετίζονται με προβληματικές προτροπές και μπλοκάροντας όσο το δυνατόν περισσότερους μεμονωμένους προβληματικούς όρους στο εργαλείο.

Το σύνολο εκπαίδευσης του Stable Diffusion XL 1.0 περιλαμβάνει επίσης έργα τέχνης από καλλιτέχνες που έχουν διαμαρτυρηθεί κατά των εταιρειών, συμπεριλαμβανομένης της Stability AI, οι οποίες χρησιμοποιούν το έργο τους ως δεδομένα εκπαίδευσης για μοντέλα γεννητικής τεχνητής νοημοσύνης. Η Stability AI ισχυρίζεται ότι προστατεύεται από τη νομική ευθύνη από το δόγμα της δίκαιης χρήσης, τουλάχιστον στις Η.Π.Α. Αλλά αυτό δεν εμπόδισε αρκετούς καλλιτέχνες και την εταιρεία αποθεμάτων φωτογραφιών Getty Images να καταθέσουν αγωγές για να σταματήσουν την πρακτική αυτή.

Η Stability AI, η οποία έχει συνάψει συνεργασία με την startup Spawning για να σέβεται τα αιτήματα "opt-out" από αυτούς τους καλλιτέχνες, λέει ότι δεν έχει αφαιρέσει όλα τα έργα τέχνης που έχουν επισημανθεί από τα σύνολα δεδομένων εκπαίδευσης, αλλά ότι "συνεχίζει να ενσωματώνει τα αιτήματα των καλλιτεχνών".

"Βελτιώνουμε διαρκώς τη λειτουργικότητα ασφαλείας της Stable Diffusion και είμαστε σοβαροί στο να συνεχίσουμε να επαναλαμβάνουμε αυτά τα μέτρα", δήλωσε ο Penna. "Επιπλέον, δεσμευόμαστε να σεβόμαστε τα αιτήματα των καλλιτεχνών να αφαιρεθούν από τα σύνολα δεδομένων εκπαίδευσης".

Παράλληλα με την κυκλοφορία του Stable Diffusion XL 1.0, η Stability AI κυκλοφορεί σε beta έκδοση μια λειτουργία τελειοποίησης για το API της, η οποία θα επιτρέπει στους χρήστες να χρησιμοποιούν μόλις πέντε εικόνες για να "εξειδικεύσουν" τη δημιουργία σε συγκεκριμένα άτομα, προϊόντα και άλλα. Η εταιρεία φέρνει επίσης το Stable Diffusion XL 1.0 στο Bedrock, την πλατφόρμα cloud της Amazon για τη φιλοξενία γεννητικών μοντέλων AI - επεκτείνοντας τη συνεργασία της με την AWS που είχε ανακοινώσει προηγουμένως.

Η ώθηση για συνεργασίες και νέες δυνατότητες έρχεται καθώς η Σταθερότητα υποφέρει από μια ύφεση στις εμπορικές της προσπάθειες - αντιμετωπίζοντας σκληρό ανταγωνισμό από το OpenAI, το Midjourney και άλλους. Τον Απρίλιο, η Semafor ανέφερε ότι η Stability AI, η οποία έχει συγκεντρώσει πάνω από 100 εκατομμύρια δολάρια σε επιχειρηματικά κεφάλαια μέχρι σήμερα, καίει μετρητά - ωθώντας το κλείσιμο μιας μετατρέψιμης ομολογίας ύψους 25 εκατομμυρίων δολαρίων τον Ιούνιο και ένα κυνήγι στελεχών για να βοηθήσει στην αύξηση των πωλήσεων.

"Το τελευταίο μοντέλο SDXL αντιπροσωπεύει το επόμενο βήμα στην κληρονομιά καινοτομίας της Stability AI και την ικανότητά της να φέρνει στην αγορά τα πιο πρωτοποριακά μοντέλα ανοικτής πρόσβασης για την κοινότητα της Τεχνητής Νοημοσύνης", δήλωσε ο διευθύνων σύμβουλος της Stability AI Emad Mostaque σε δελτίο τύπου. "Η αποκάλυψη της έκδοσης 1.0 στο Amazon Bedrock αποδεικνύει την ισχυρή δέσμευσή μας να συνεργαστούμε μαζί με την AWS για να παρέχουμε τις καλύτερες λύσεις για τους προγραμματιστές και τους πελάτες μας".

Πηγή: Stability AI releases its latest image-generating model, Stable Diffusion XL 1.0

Η Stability AI κυκλοφορεί το πιο πρόσφατο μοντέλο δημιουργίας εικόνων, το Stable Diffusion XL 1.0

Newsletter