Ένα σύστημα υπολογιστικής όρασης, για να παράγει εικόνες από πληκτρολογημένες προτροπές κειμένου χρησιμοποιεί το μοντέλο GPT-3 του CLIP (Contrastive Language-Image Pre-Training) του DALL-E 2.
Το εν λόγω εργαλείο εκπαιδεύτηκε χρησιμοποιώντας 650 εκατομμύρια ζεύγη εικόνων και λεζάντες από το διαδίκτυο.
Για τη λειτουργία του, μετά τη συλλογή ζευγών εικόνας-κειμένου, οι ερευνητές εκπαίδευσαν το μοντέλο CLIP να παράγει κείμενο για την ακριβή περιγραφή μιας εικόνας, δημιουργώντας ένα μοντέλο που βασίζεται στα μαθηματικά.
Ακολούθως, το DALL-E αντέστρεψε αυτή τη διαδικασία, δημιουργώντας εικόνες που περιγράφονται καλά από κείμενα που εισάγονται με βάση τα δεδομένα του CLIP.
Οι χρήστες μπορούν επίσης να χρησιμοποιήσουν το DALL-E 2 για να επεξεργαστούν μια προϋπάρχουσα εικόνα χρησιμοποιώντας εντολές κειμένου.
Δοκιμάζοντας φράσεις για την δημιουργία εικόνων, τα αποτελέσματα είναι εντυπωσιακά.
Ακολουθούν μερικά παραδείγματα:
Κάνε like στη σελίδα μας στο Facebook
Ακολούθησε μας στο Twitter
Κάνε εγγραφή στο κανάλι μας στο Youtube
Γίνε μέλος στο κανάλι μας στο Viber
– Αναφέρεται ως πηγή το ertnews.gr στο σημείο όπου γίνεται η αναφορά.
– Στο τέλος του άρθρου ως Πηγή
– Σε ένα από τα δύο σημεία να υπάρχει ενεργός σύνδεσμος